首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片报告|智慧城市|移动互联网|会展
首页 >> 4未来创新文章 >> 正文

简仁贤:AI时代的人机情感共鸣

2017年4月28日 13:00  CCTIME飞象网  

飞象网讯(李乐羽/文),4月28日消息,在今天的GMIC 2017北京大会未来创新峰会上,竹间智能科技创始人 & CEO简仁贤发表演讲,演讲题目为AI时代的人机情感共鸣。

以下为演讲内容:

大家好!很高兴可以来参加GMIC,GMIC的口号,我个人是非常喜欢的,“愿全世界每个人都来一次GMIC”,我觉得这是非常远大的愿景。

今天跟大家分享一下Bot如何改变人和世界,如何用新的方法连接人和世界。我先定义一下什么是Bot,广义来讲,它就是一个对话机器人。一般人会把它联想成实体机器人。Bot如何改变人和世界的连接呢?在一百多年前,人类就已经开始有这些科学幻想,幻想人以后会演变成什么样子的人。从那个时候的幻想才导致了人类对以后的恐惧,因为人类开始在设想以后会有什么样的变化。一直进步到90年代有更多的科幻想象出现,开始演变成未来的科学、未来的人工智能是可以作为人的助手。一直演变到2000年以后的人类开始幻想Bot以后的人工智能机器人能不能成为人的伙伴。在竹间来讲是非常可能的,也是希望把机器人创造成人的伙伴,能跟人共存。

对我们来讲,机器人、人工智能不是取代,我个人不觉得人工智能会取代人类,人类有他存在的必要性、有他存在的价值,人工智能应该是帮助人类过更好的生活,帮助人类生活得更有价值,能够创造更多的价值。

在未来全新的互联网时代,Bot会成为新的交互界面。整个虚拟世界和实体世界之间需要一座桥梁,未来的桥梁是由Bot达成的。从这一段演变的历史,大家可以看得出来,在1960年代,出来之前一切都是人类的,那个时候还有计算机、打字机,就是火箭上天空也是由人计算出来火箭的升空路线,那个时候都是用自然语言的。慢慢演进成Moinframe,一直到PC、搜索引擎、智能手机。随着科技的发达,大家的智能手机越来越多了,一台笔记本,到公司又有很多仪器设备,这些东西终将让我们处在数字时代,就会产生碎片化,人最终还是会回到自然语言交互的界面。

到2030年,人类和世界的绝大多数沟通都会有Bot存在,它不是取代,而是机器人AI跟人协作的景象。有可能Bot只是帮助到20-30%,有的行业是能帮助到80%。

大家每天离不开的是手机,APP的使用在过去9年来已经产生巨大变化。从大家疯狂的下载APP,到现在每个人每一天会用的APP数量越来越少,每个月会下载的APP已经骤减,APP的使用从碎片化到集中化。三天前,微信发布了消息,要开始做搜索。如果大家每天用手机,其实70%的时间都是在微信,或者是在Facebook,或者是在Line,是不是就没有搜索了呢?搜索是不是被另外一种方式而取代了?信息化会从非结构的信息化,搜索去解决非结构信息化的过程,到一个APP,能够快速帮你进入社交场合。APP会越来越示弱,取而代之的是Bot帮你完成一件事情,人们不再用两只手点不一样的页面,可能一句话、一个声音,或者是一个表情,Bot就能够帮你达成。

我们讲了这么多Bot,其实Bot已经流行了几十年。在美国,我个人知道做Bot的公司有200多家,垂直的也好,通用的也好,聊天的也好。在国内却比较少。为什么呢?中文比英文难多了,难很多,可能是10倍、几十倍上的难。讲最简单的,英文没有分词的问题,每一个字每一个字都是space limitd(音),而中文几乎是没有标点符号的,比如“我喜欢听《十年》,十年过去了”。如果只用关键词,你无法理解这两句话是什么意思。

大家讲了那么多,是不是Bot是一个泡沫?Bot的技术已经到了吗?我总结了一下目前市面上的Bot有三种。第一种是只会瞎聊的聊天机器人。如果它的单一目的只是聊天,是达不到用户黏性的,用户只会想到瞎聊,无聊的时候才会用。这个时候产生不了黏性。瞎聊的机器人有一个坏处,就是无法理解上下文,无法记忆,你每天跟它聊的时候,它都忘记你是谁,你要重新来一次,这跟玩儿小游戏没有差别。第二种就是模板式的、常用问题式的,尝试着理解问答系统,很简单的模板式的一问一答。答不出来的时候,就会给你回答一些通用性的问题,这也满足不了需求。第三种是基于关键词的搜索,大家用过很多中文的语音助手,它听不懂,就给你搜索结果。以前我在微软做移动搜索的时候,就是做这个的,这个跟搜索没有两样,只是语音式的搜索,满足不了人的需求。

目前Bot的问题有这三类,第一类是只会闲聊的聊天机器人,不懂上下文,无法记忆用户。第二种是只会模板式的解决问题、回答问题。第三种是只能用关键词、搜索结果,都达不到目的。这三种问题就是Bot没有普及、没有办法落地、没有办法商业化、没有办法验证的最重要的问题。

这些问题怎么解决呢?2015年,我们创立了竹间智能,用了18个月的时间,集结了150位人工智能的爱好者,我们解决了这个问题。我们创建了一个新形态的对话系统,新形态的Bot system,它是基于内脑的方式,模拟人的思考方式和行为模式,以情感为出发点,以理解人,以人为本为出发点。它不是以NLP自然语言处理为中心的对话系统,它是以理解人的立场去做的。因为用NLP理解会造成刚刚提到的那三个问题。内脑的对话机器人有很多的对话机制。

我们开发的第二个核心技术是多模态的情感识别,强调于情感。未来几年之内,谁能够实验情感智能加语义理解,谁就能够实现强人工智能的第一步。AI有很多,人机交互是一个。

我们也在将这些技术进行商业的AI落地,在过去6个月,我们跟数十家企业在验证、打磨、落地这个技术。

要做到好的人机交互,必须要语言、语音和图像一起做。如果单一的只做语言,你是没有办法理解人机交互的真正的重点,我们把语音的情感、脸部的情感、语义的理解交互一起做,这样才能构成全套的人机交互系统。

很多人问我竹间智能跟其他竞争者有什么不一样。我们可以说是国内唯一一家能够把语音情感、语言理解、基于人脸的图像情感一起做的一家公司,做到全方位的人机交互,用情感理解、意图理解真的能够做到极致的对话系统。

竹间关注的是认知世界,语音识别、图像识别开始都是从感知层面开始做起,竹间做的是认知层面,最重要的是把文字转换成意思、把文字转换成意图和情感,才是最重要的,这样才有办法让Bot为人做服务、制造商业价值。

我们认为合格的对话应该是这样的,它可以记忆情感状态,可以记忆用户的习惯,可以理解用户的意图和上下文,做一个比较满意的交互。

(演示)

从意图的理解到复杂语义。这里展示的是在聊天的过程中,识别意图,可以帮助人达成一些任务。这个是基于一套的对话交互系统,不是经由关键词或者是模板的匹配,它是把几个技术连接在一起。它是beyond NPL,我们独资开发了NLU的综合解决方案,我们也发明了NLQ(自然语言查询),通过自然语言的查询可以问各式各样的问题,不需要用关键词来解决。NLG(自然语言的生成)。我们认为语言模型是无法嵌入到单一的深度学习和机器学习上的,一篇论文和一个理论是无法达成对话需求的,必须要在懂人的立场去上做的。我们做的各个模块解决的是开放域的人机交互的问题,怎么解决呢?就是意图理解、情感理解和各个领域的知识。

开发这样一个对话系统不是只有深度学习、机器学习,很重要的是必须加上认知科学的元素。更重要的就是一般在做深度学习和机器学习的时候忽略了语言学,没有办法把语言学很重要的元素加到机器学习和深度学习里面去,这就是竹间在过去一年多以来一直在尝试摸索和建构的过程。

最后是心理学。人的思考方式、行为模式、交互方式还是要加上心理学模式的。

这是我们做的交互过程,必须具备上下文的理解、记忆、情感,才有办法到底是要识别语音,还是完成任务。

我们做出了20多种情绪、情感的识别,情绪情感的认知有三个方面。第一个方面是文字上代表的情绪情感。第二个是我说话时的心情、情绪、情感,有的时候不是字义上表示的。第三个是机器人在交互的时候应该用什么样的情绪情感来回复。我们做intent做的比较深,目前做到200种不同的intend,会继续增加上去,有可能会做到上千个。在不同的领域、不同的场景和情境里都有不同的intend出现。每个人讲话时代表的实体都是intend,我们用机器学习、深度学习的方法做出一套intend,它也是可以被高度定制化的。

从了解intend,再了解意思和情绪,就有办法把一推转换成Skill机器人可以有各式各样的技能,帮你打车、帮你订电影票、查找知识、陪你读书。

综合机器、语言学、内脑的架构构成了比较独特的对话系统。

以这样比较完整的人机交互系统为基础,我们开发出了各式各样的商业解决方案和个人应用。比如,在金融领域,我们建构了一套主动式的客服系统。同样一个界面,也可以作为理财机器人。这是我们在金融方面的落地的解决方案。在商务和互联网的解决方案上也是一样,同样一个对话界面,可以达到售后服务和售前的导购,以个性化对用户的理解,主动式跟客户沟通,做到售前、售中、售后的一整套对话系统,全部都是由一个界面来完成。能够做到这样的地步,必须拥有比较强的交互对话系统。在IOT的部分,机器人具有视觉、speaker,用多模态的交互系统,可以达到上机器人听得懂、看得懂、读得懂。还有智能冰箱,一直有几个厂商在试。同样一个交互系统,如何在商业上落地,如何为商业带来价值,如何在C端落地,必须经过一个完整的对话系统,人机交互技术来达成。

情绪情感的技术,我们可以分析人的表情、人的视线、人的注意力,语音情感也可以用到呼叫中心语音自检,带来商业价值。这一整套应用可以把语言、语音、图像结合到商业解决方案中。商业需要的不是单一的技术,而是圈套的解决方案。唯一具有语言、语音、图像的交互技术才能带来更多的商业价值。在短短的6个多月,我们得到数十家大型企业的认同,把这些技术验证落地,这就是我们一直在做的工作。

(演示)

去年9月开发出来的多模态的辨识技术,用傅园慧的语音做了一个demo。

不同的表情可以应用的方向是非常多的,有不同的解决方案。

这是另外一个多模态的交互,可以应用到有摄像头的家电设备和智能机器人上。左边是用户看到的机器人的表情,右边是机器人看到的人。它可以从你的表情、文字和语音上识别出你的情感,它跟你的交互就可以是各式各样不同的情感。有的人喜欢我在伤心的时候你跟我共鸣,有的人喜欢在伤心的时候你给我一些鼓舞,只有多模态才有办法让人机交互做得更贴切。

现在已经落地的是金融、电商、IoT,已经得到验证。人工智能还只是起步,大家都认为人工智能是一个泡沫,我个人认为泡沫还没来。

我们最后想要达到的是AI技术的共享化,我们的梦想是每个人都有一个Bot,每一个商家都有一个Bot。

Bot无处不在。

谢谢大家!

编 辑:李乐羽
声明:刊载本文目的在于传播更多行业信息,本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容。本站联系电话为86-010-87765777,邮件后缀为#cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
工信部张云明:大部分国家新划分了中频段6G频谱资源
精彩专题
专题丨“汛”速出动 共筑信息保障堤坝
2023MWC上海世界移动通信大会
中国5G商用四周年
2023年中国国际信息通信展览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像