天天看点：中国电信何智翔：数字人技术处在初级阶段，下一代需解决真实感等问题

搜狐科技讯

5月17日，由搜狐主办的2023搜狐科技峰会在北京盛大开幕。今年，搜狐科技峰会走入第五个年头，峰会规格和内容再次迎来重磅升级。本届峰会齐聚多位院士、科学家、学者和头部企业嘉宾，共同探讨前沿科学与科技变革发展。

峰会下午，中国电信集团大数据和AI中心计算机视觉算法总监何智翔发表了题为《数字人在中国电信客服业务智能化转型中的实践》的演讲。

(相关资料图)

何智翔表示，站在中国人工智能技术发展高度上来看，数字人这个技术还处在一个非常初级的阶段，而并不是处在很成熟的阶段。

“当前的数字人在跟真人体感交互和情感交互上面还有很长很远的路要走，它距离我们所希望真正实现的那样的一个数字人还有很大的差异。”何智翔认为，下一代数字人要解决人物生成、人物重建以及真实感的问题。

对于数字人客服整体的未来，何智翔认为，要通过大模型结合行业数据，通过定制化形象，提供个性化的体验，加上多方言多语种的互动，以及分析用户数据，感受用户数据，思考用户数据，主动分析用户的痛点，真正实现自主化的客服。

何智翔在2023搜狐科技峰会上发表演讲

以下为何智翔演讲全文：

大家好，我第一次参加这样的峰会，首先感谢主办方提供这样的机会，让我跟这么多老师学习。也很荣幸作为一个技术人员代表中国电信跟大家分享一下在AI时代，电信对于我们自身的业务的一些思考和实践。

为什么选择这个演讲标题呢，我不知道大家有没有用过电信的手机卡，大家跟电信打交道，最多的时候就是跟客服人员打交道，所以在今年电信智能化转型的一年，数字人客服作为电信一号工程受到了整个集团大力重视，所以今天我也跟大家分享一下数字人在中国电信客服业务智能化转型中的实践。

我们把电信的客服业务划分成为三个阶段。

第一个阶段，是处于感知的阶段，就是信息系统，我们现在的客服业务就是处在这样的阶段，这个阶段它的服务是标准化，同时我们认为整个系统是实现了高度数字化或者自动化。但是，我不知道大家有没有发现这样的系统有什么问题，它最大的问题是，我们被动获取用户打来的各种电话或信息，按照确定的路径给他办理一些业务。其实在这个过程中，我们是没有任何思考。

到了下一个阶段，也就是智能化转型重点要建设的客服系统，希望它能够是智能系统，会思考的系统。

在这个系统中，我们希望它能够取代当前客服人员做大量的思考的工作，它能够主动地思考用户的核心关注焦点在哪里，因为有时候真正打电话过来，很多用户也不知道他们给客服的核心诉求是什么，反正觉得业务不好用，或者花钱有点贵了，他们并不清楚自己核心的诉求在哪里，所以希望能够结合很多信息真正去主动给客户提供更好的体验。

第三个，行为系统。相当于我们要主动跟这样的环境做互动，跟用户互动，让客服真正地触达到每个人的身边，能够真正地去解决客户当前最急迫的问题，而不是被动等待客户给我们投诉或者办理这样的一些业务。

整个电信客服业务有五个主要的办理模块，业务咨询和业务查询，其实流程都非常确定，但是依然会受到大量用户的投诉或者不满。

为什么，就是因为我们还是处在一个信息感知的阶段，只是一个信息的搬运工，并没有真正解决用户的问题。

为什么自动化搞了这么多年还是有大量的人工在客服系统中存在，为什么搞了这么多年，用户还是不满意，我们也在思考这个问题。

在我们看来真正的核心解答就是我们并没有真正地做到智能化系统解决用户体验的问题。

当然反过来讲，站在客服的角度，我可能也必须要说一两句公道话。

跟大家分享一个故事，我们的数字人上线以后，有一天客服部的人跟我讲，你们这个数字人挺好的。我说为什么挺好，我们也同样也被大量用户投诉，打了低分的评价。他说很多用户打电话过来就是为了发泄不满，而在数字人身上发泄完了以后，给人工客服打电话的时候能平静对待这件事情，这个事也挺好。讲这个故事就是告诉大家这也是数字人客服能解决的另一方面的问题。

为什么我们电信可以干这样的事情。

在多年的自动和于用户打交道的过程中，电信沉淀了大量的运营经验，因为我们有平台的优势。同时，在AI的发展浪潮当中也建设了很多自主的，不管是视觉、语义、语音也好等等，对很多核心算法进行了自研，同时打好了很好的PaaS或SaaS底座，能够用好这些数据，当然现阶段用的并不足够好。

为什么我们决定用数字人这个东西？我来到电信以后主要工作就是建设元宇宙，刚我们讲到第三个阶段，我们希望能够有一个行动的东西，未来不管是机器人还是元宇宙，可能大家跟客服打交道的过程中，比如在虚拟世界中打交道，不会有很多线下营业厅。

在这种理论化的场景下，数字人是非常好的入口，所以我们开始建设这样一个数字人的产品矩阵。到现在已经形成了两大数字人产品，一类是服务型数字人，一类是身份型数字人。

身份型数字人是我们打算建设集团级的IP，今年早些时候财报会，我们本来打算让数字人串场，当时在香港发生了一些事故，播放器没有播放，数字人没有成功展示。

对于电信的数字人系统架构来说，主要要点是要解决两个问题，第一个问题，能够快速地做部署。因为我们服务的对象不仅仅是平常接触最多的热线的客服，电信还有很多应用比如爱音乐等，希望对这些电信体系内的应用客服都能够做一个快速的支撑，所以这样的数字人解决第一个问题，很方便部署一套统一的标准架构，业务这块理解还需要做定制化。

第二个要解决的核心问题就是数字人快速制作和编辑，希望能够通过这样的平台，实现整个客服系统数字人化改造在一周内完成。

从去年10月份开始建设数字人客服到现在，经过这么长时间的建设，目前已经初步实现了预期的目标，当然也是限定在客服第一代感知基础上，我们先把数字人化，实现了第一阶段的目标。

其实很多厂商都在做客服类的数字人产品，电信的数字人客服优势在哪里？

我们最大的优势就是在挑战一个千万并发架构，因为每天呼入电信用户数量非常大。同时通过我们的建设，已经能够初步地在微信公众号或者各种应用，给大家展现数字人的形象，目前还在做的一件事，探索热线，直接蹦出一个数字人形象跟大家交流，而不希望是通过传统的打电话也就是语音的途径。

同时着重建设的是怎么样解决客户的痛点问题，我们上线以后对于用户转人工投诉量基本上能够压降到40%以内，这是我们取得的成果。

回到前面一直想跟大家说而没有说的问题，我们为什么认为客服最终的形态或者说是数字人的形态，为什么一定要有形象。

因为对于智能客服来讲，哪怕是从感知到认知以后，我们也可以通过文本或者语音跟数字人交互，为什么还是要选择数字人的形象呢？

因为我们本质上，当客服形态进化到第三个阶段以后，我们人跟机器的交互，人与人的交互，甚至人跟AI智能体交互一定呈现拟人化的形象，以数字人作为入口，这是我们比较坚定的技术目标。

我们要做数字人客服，数字人客服核心还是多模态业务数据以及电信丰富的算力，包括正在建设的有效的大模型体系，希望能够将这些数据真正转化为知识、转化为对业务的思考，通过AI，特别是最近火热的Chat GPT或者GPT一系列大模型，真正为用户解决问题，提供差异化的体验。

目前我们的数字人客服建设已经达到了1.0创始者的阶段，接下来应该有三年期的规划，希望最终能够实现让数字人客服成为一个普世者，希望实现主动外呼，韧性化引答和个性化体验，这是整个建设的周期。

下面我谈一谈在数字人建设过程中的技术能力。

首先是视觉CV核心能力，构建完成了从模特采集到最终渲染全链条的数字人能力，同时还实现了微表情的驱动，对于客服类场景一些核心的像实名认证，语音或者文本的驱动等也都实现了算法能力的建设。

其次是语音核心能力的建设，现阶段大家觉得语音有一个核心的问题，我们希望做超自然的对话，超自然的语音合成。但是这个能力的建设不是我们在数字人客服建设当中的核心能力，我们的目标是在多方言和多语种的建设上面。

为什么选择多方言和多语种呢？因为我们希望数字人客服能够服务于全国的百姓，很多偏远地区人可能能听得懂普通话，但是可能讲不出来普通话，多方言的ASR语音能力，是我们语音识别能力的建设核心，目前基本实现了中英文以及北京、浙江、广东、安徽四个省部分方言的识别能力。

语义核心能力上，电信现在已经开始建设队伍，希望我们的大模型就像ChatGPT一样，即语义模型能够回答用户很多问题，能够像人一样思考。

站在中国人工智能技术发展高度上来看，我个人认为，数字人这个技术还处在一个非常初级的阶段，并不是处在很成熟的阶段。

为什么这么说？当前的数字人在跟真人体感交互和情感交互上面还有很长很远的路要走，它距离我们所希望真正实现的那样的一个数字人还有很大的差异。

对于数字人客服来讲，我们选择的技术路线刚大家也能够看到，我们是以3D数字人为主，在数字人技术路线选择上面有2D数字人和3D数字人两条技术路线，但是我们认为不管是2D数字人也好，3D数字人也好，可能都不是我们认为的数字人技术，我们现在以数字人客服项目为基础，正在做下一代数字人的研发。

首先什么是2D数字人和3D数字人呢，就是对于人物生成来讲，2D数字人可能相对比较简单，通常就是单张照片加固定模板的素材。对于3D数字人来讲，是需要额外去使用三维建模技术，同时信息维度会有增加，两者在合成显示上有明确不同，2D数字人是利用神经网络对视频做合成，而3D数字人需要用渲染引擎做渲染。

下一代数字人有两个要解决的核心问题。

第一个问题，就是人物生成、人物重建的问题。因为对于2D数字人和3D数字人来讲，它们各有优缺点，对于2D数字人来讲，它虽然效果存在上限，动作前沿技术上存在瓶颈，但是技术复杂度低，成本较低，但是有一个很重要的特点，具有很强的真实感。

3D数字人问题在哪里呢，3D数字人虽然3D效果好，很立体，可以旋转，但是在PDR算法出来之前存在一个效应，随着应点和独立算法突破以后，真实性也在大大提升，但是我们认为还不够。

我们也对市场做过一些调研，2022年数字人综合指数排名前十中，只有第五位是一个2D数字人，剩下全是3D数字人，所以刚刚我们也看到2D数字人它的核心问题是，它具备真实感，但是它没有3D的效果，对于3D数字人它的问题是虽然有3D的效果，灵活度非常高，但是缺乏真实感。

对于下一代数字人我们要解决真实感的问题，要做人物的生成，这块有两个方向，一个方向是基于多模态大模型做一些数字人体的重建，包括场景的编辑，最近我们也看到一些论文已经开始用类似模型做这样的事情，包括风格化。另外，希望利用可渲染技术，基于单张照片快速重建3D数字人的人体，对于合成显示，希望突破像渲染引擎，通过类似利用渲染技术在神经网络直接实现渲染，这是现在的技术探索结果。

对于数字人客服整体的未来，我们的二阶段的目标是认知。

我们希望实现自主化的客服，通过大模型结合行业数据，通过定制化形象，提供个性化的体验，加上多方言多语种的互动，以及分析用户数据，感受用户数据，思考用户数据，主动分析用户的痛点，真正实现自主化的客服，这就是我们数字人客服的未来。

最后，在数字人客服的产业链上，电信在基础层、平台层、甚至行业应用层都有触及，但是作为负责任的央企，我们的目标并不是所有的事情都去做，我们更希望能够建设整个生态链，我们也期待携手产业链上下游企业一起开展全方位合作，共同创造整体的智能客服的新模式。

见证过5G商用元年及其应用的爆发，探讨过AI技术发展与人文价值的平衡，搜狐科技峰会始终秉持媒体公共责任价值，宣扬求知探索的科学精神，聚焦前沿科学发展和技术创新应用。

本届峰会全新升级，重点聚焦更前沿的科学突破，展望人类更遥远的未来。从宇宙文明、天文卫星、人类永生，到核聚变、6G通信、脑机接口，再到通用人工智能时代启幕下的行业变革，以及青年科学家的价值守望和基础科学探索，都将是此次峰会关注的议题。

赓续探索精神，逐梦星辰大海。除本篇外，搜狐科技还将通过多种方式全方位呈现此次峰会嘉宾关于前沿科学与技术发展的洞见和思考。更多精彩内容请关注2023搜狐科技峰会专题报道。

【附专题链接】

PC端

WAP端

APP端

文章来源：顶端新闻

文章链接：https://static.dingxinwen.com/dd-sharepage/detail/index.html?id=4268847#/?categoryId=3

责任编辑：Rex_17