2023年初,ChatGPT 的出现,引发了国内外各类AIGC技术应用的爆发,让人们看到了新世界的曙光,也感受到了迫在眉睫的剧变。无论是前沿科技产业还是整个经济社会格局,都将因此产生巨大的变化,众多企业将迎来价值重估,无数行业将面临重做。
作为15年来陪伴数以十万计创业者共同成长的产业加速平台,创业黑马发起了AIGC主题系列直播活动,邀请多位业内知名企业家、投资人、专家学者和创业实践者,从软硬件平台视角、投资人视角、行业应用视角等维度看AIGC,共话大模型时代新机会,展现产业新力量。
【资料图】
本期的分享嘉宾是达观数据首席战略官CSO刘江贤。达观数据积极研发国产版GPT“曹植”大语言模型LLM系统,作为垂直、专用、自主可控的国产版ChatGPT模型,该系统结合先进的自然语言处理(NLP)、智能文档处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供文档智能审阅、文档智能写作、知识搜索与问答、办公流程自动化等智能文本机器人产品。荣膺中国人工智能领域最高奖“吴文俊人工智能奖”、工信部第三批国家级专精特新“小巨人”企业、中国人工智能科技创新Top50等众多资质。
在5月18日的《黑马说》直播中,嘉宾围绕《ChatGPT大语言模型的创新与应用》主题进行了深度论述,就ChatGPT的特点、技术升级及AI国产自动化等问题进行探讨。
以下为本次直播实录整理:
我在五四青年节刚刚加盟达观数据,担任达观数据首席战略官,也曾在中央电视台做过主持人是金话筒的获得者。2011年在上海交通大学EMBA就读之后,现在担任上海交通大学安泰EMBA校友会的副会长兼执行秘书长。
达观数据是智能文本处理的科创企业,它在这方面发展势头很猛,在智能文本处理服务商当中国内排名第一,获得了中国信通院智能文档处理的产品权威认证。2021年,达观数据获得国家级专精特新“小巨人”称号,在软件成熟度的最高等级的认证当中,达观数据也是榜上有名。
这和ChatGPT有什么关系?前两天碰到我的一个同学,是做hr的,他刚回绝了一家要做语言大模型的企业,其曾在全球500强企业就职,他认为ChatGPT创业不是拍脑门召集几个有类似经历的人就能干得了的,关键在于场景和业务。
它需要大规模的算力投入,这个是有一定难度的。而达观在这个领域已经创业8年,做到行业首位,市占率在文本智能处理领域占到第一,实现了全行业自动化文本处理应用场景,服务网络遍布全国,在全国已经建了4个子公司,达观已经积累了非常多的成熟应用场景。
ChatGPT所以在此基础上创办自己的“曹植”大模型。达观产品的技术目前已应用于众多行业,也有很多服务合作伙伴。
回到智能文本与ChatGPT的关系,以及GDP探索大模型的应用和创新。
人类文明的记载是从有文字开始的,最早出现在国内的汉字是在甲骨文上,甲骨文上的字是谁造的?是黄帝时期造字的左史官仓颉。
我们原来的字刻在哪?刻在石头上,有岩画,有石片,逐渐演变成今天的文字。甲骨文一开始是做占卜的,世界上文字的起源据考古记载,从楔形文字、圣书文、玛雅文,而留存在世上的文字,唯一一脉相传至今的就是甲骨文。
文字出现之后,人类文明演进的速度突然涌现出来。文字的出现是人类文明的起点,有了文字,才有本草纲目、天工开物、九章算术等等科学知识。
达观数据的“达观”两个字,可以在甲骨文中找到。甲骨文“达”字很像一个人站在山上,“观”是两个眼睛向外看,“达观”意在站得高看得远。公司的文化也是务实求真、通达乐观,站在高处回望历史,穿透未来。
如今我们所有工作都围绕文字展开,比如说写材料、翻译内容、撰写方案,如果用自动化来处理文字,不就省时省力了吗?
讲到自然语言处理NLP,为什么文字的自动化处理这么难?我们日常用的汉字大概有3500个,但中文解析非常复杂。因为汉字包含基础常识,阅读起来很多不是明面意思所能表达的。需要更多技术的积累,才能突破文字处理的技术。有一些专业的知识,比如狗眼看人低、狐朋狗友,仅仅之时诠释“狗”这个字,要让计算机识别的话,都要经过长期的训练。因此大模型需要大量的语料、知识,要想计算机了解冰山背后的知识,需要跨越认知屏障。
达观总结出ChatGPT的特点是一独三巨。是指“全球独树一帜的技术路线”、“巨大的参数规模”、“巨大的算力消耗”、“巨大的训练数据量”。所以 OpenAI在2016年,历经7年,耗资了近20亿美元,经过若干次失败才推出划时代意义的人工智能系统。
如何理解ChatGPT,先从GPT三个字母来理解。“G”是Generative,就是出发点和核心能力,即自己生成、自己创造;“P”是Pretrained,通过大量文档预先学习的能力,现在有预训练工程师,比AI训练师提高了一个等级;“T”是Transformer,是对文字、知识有效的提炼算法。
大模型LLM与ChatGPT的关系是怎样的?GDP是众多LLM大语言模型当中的一种,是目前被证明处理文字最成功的一种模型;ChatGPT是面向对话场景定向优化后的GPT子版本,未来针对其他应用场景还会出现更多的X-GPT系统,甚至更多其他的LLM语言模型。
目前绝大多数大规模语言模型都使用了Transformer的基础组件结构,但是在实现方式和结构组件上有所区别,总体可以划分为三条技术发展路径。技术路线一的优点是训练代价小,效果不错,曾经一度领先;技术路线二的缺点是算力数据等成本极高,需要大量的数据,也只有open AI坚持下来,做了一件难而正确的事;技术路线三是混合模式,理论上融合了前两者,实际效果还待未来发展。
跑出来以后可以用它写情书、写科研报告、写年终总结报告。它有先后的逻辑,能把一篇文章中的标题提炼出来。这就是“涌现”能力,像人类有了文字之后,文明突飞猛进一样。“涌现”能力,是在参数规模超过某个阈值后,可观测到系统处理结果会出现一个巨大的飞跃,也叫机器的顿悟。目前导致该现象的原因尚不明确,有人猜测是很多复杂任务需要多个连接思维的这种贯通才能够达到准确效果。
来看一下智能系统的三要素,即算力、数据、算法。首先算力方面有很大挑战,GPT出现后,国内算力市场供不应求,现有的算力资源不够分配了,大家都在做自己的大语言模型;另外整个市场需要人才,未来几年之内这三方面的人才紧缺是显而易见的。
我们在AIGC的国产自主化道路是非常强的,但同时道阻且长。目前达观研发的大模型叫做曹植大语言模型,强调、垂直、专用国产GPT模型。为什么取名曹植?因为这个人才高八斗,七步成诗。
达观的曹植大模型的技术路线图强调“垂直”、“专用”、“国产”。“垂直”是针对金融、工业、财税、政务、能源等垂直行业的应用场景;“专用”是系统可以为每个用户量身定制、私有化部署,确保数据安全私密;“国产”是坚持原创自主,训练数据和算法模型自主可控。
曹植大模型更强调垂直领域专业知识的这种积淀,要用大模型不断填充专业领域的知识,要把人类的常识输入进去,要把逻辑推理能力把它训练出来,要让它熟练运用知识。目前达观专注于运用AI技术实现文本自动化的处理,包括图像、文本、语音。
例如起标题,根据文章里多个字词,寻找最佳的概率匹配;还有申报材料的自动生成,还可以帮助完成总结报告。我们有一个产品达观助手,已经镶嵌在WPS office成为自动插件,进行写作、纠错、润色、排版等功能,是免费使用的。
大语言模型开通了人工智能之路,从传统的专用AI系统到通用人工智能AGI系统。加入进来的大企业越来越多,让AI系统像人类一样灵活应对各种应用场景和多样化的工作环境,实现各行各业的通用智能化。这确实为我们打开了一扇大门。印刷术的出现改变了文字,推动社会经济、推动人类文明方面的巨大改变。未来达观数据也将通过智能文本实现技术的突飞猛进,要进行一场办公室革命。
ChatGPT给我们最大的启示是要学会提问题,必须率先跟上时代的步伐,才能强健,才能抢占商机。
我们判断计算机的文字处理将超过大部分人类,这不是危言耸听。我们希望人类在机器高度智能化发展的时候,找到人类存在的价值。当然了,机器替代人类,这是危言耸听。人类总是机器和技术的主导者和掌握者。我们也会脚踏实地、仰望星空,探索更高的科技来为人类服务。
创业黑马:能否分享一下对“东数西算”的感想?
刘江贤:西算是国家战略布局,有一个最明确的一个想法,就是算力部署。把算力资源引到西部来,能不能把优质的算法企业也落到西部,服务于当地的数字化转型。比如说智能化工厂建设、智能智慧办公、智慧城市,让西部老百姓享受到数字化福利。
我们这次从兰州到天水,是国家算力信息化的一个重要枢纽地带,国家做了大量的投入和部署,包括三大运营商也在这儿做了算力资源的部署和分配,但是西部想把算法留下来,把更多数字化转型的福利留在西部,也是需要很大做很多工作的。这是最大的感受。
创业黑马:伴随算力算法的进步,大模型会不会对新闻传播行业带来很大冲击?
刘江贤:对行业的冲击显而易见,行业必须要转型。所处的职业会受到冲击,但是个人的技能短时间不会被取代,要找到新的出口释放自己的能量。大模型技术对出版界带来革命不是不可能,前提是我们怎样以数字化方式,拆解结构化的知识,运用结构化的思维,运用大模型技术来给我们变革效益。要积极拥抱新时代、拥抱新技术。
创业黑马:最近有一些AIGC诈骗的新闻,您怎么看待未来监管和安全问题?
刘江贤:我们在技术实际应用过程中,AI要发展、在推进的过程中,立法就一定要同步进行,这个不是阻碍技术发展,而是让技术规范发展。智慧系统的发展要依赖三点:第一是算力;第二是算法,我们达观就在对算法不断进行探索;第三个是数据,目前高质量的数据特别少;最后是数据共享,在有限的范围之内实现数据共享,数据市场要与时俱进!
责任编辑:Rex_26