简仁贤：AI时代的人机情感共鸣 -- 飞象网

飞象网讯（李乐羽/文），4月28日消息，在今天的GMIC 2017北京大会未来创新峰会上，竹间智能科技创始人 & CEO简仁贤发表演讲，演讲题目为AI时代的人机情感共鸣。

以下为演讲内容：

大家好！很高兴可以来参加GMIC，GMIC的口号，我个人是非常喜欢的，“愿全世界每个人都来一次GMIC”，我觉得这是非常远大的愿景。

今天跟大家分享一下Bot如何改变人和世界，如何用新的方法连接人和世界。我先定义一下什么是Bot，广义来讲，它就是一个对话机器人。一般人会把它联想成实体机器人。Bot如何改变人和世界的连接呢？在一百多年前，人类就已经开始有这些科学幻想，幻想人以后会演变成什么样子的人。从那个时候的幻想才导致了人类对以后的恐惧，因为人类开始在设想以后会有什么样的变化。一直进步到90年代有更多的科幻想象出现，开始演变成未来的科学、未来的人工智能是可以作为人的助手。一直演变到2000年以后的人类开始幻想Bot以后的人工智能机器人能不能成为人的伙伴。在竹间来讲是非常可能的，也是希望把机器人创造成人的伙伴，能跟人共存。

对我们来讲，机器人、人工智能不是取代，我个人不觉得人工智能会取代人类，人类有他存在的必要性、有他存在的价值，人工智能应该是帮助人类过更好的生活，帮助人类生活得更有价值，能够创造更多的价值。

在未来全新的互联网时代，Bot会成为新的交互界面。整个虚拟世界和实体世界之间需要一座桥梁，未来的桥梁是由Bot达成的。从这一段演变的历史，大家可以看得出来，在1960年代，出来之前一切都是人类的，那个时候还有计算机、打字机，就是火箭上天空也是由人计算出来火箭的升空路线，那个时候都是用自然语言的。慢慢演进成Moinframe，一直到PC、搜索引擎、智能手机。随着科技的发达，大家的智能手机越来越多了，一台笔记本，到公司又有很多仪器设备，这些东西终将让我们处在数字时代，就会产生碎片化，人最终还是会回到自然语言交互的界面。

到2030年，人类和世界的绝大多数沟通都会有Bot存在，它不是取代，而是机器人AI跟人协作的景象。有可能Bot只是帮助到20-30%，有的行业是能帮助到80%。

大家每天离不开的是手机，APP的使用在过去9年来已经产生巨大变化。从大家疯狂的下载APP，到现在每个人每一天会用的APP数量越来越少，每个月会下载的APP已经骤减，APP的使用从碎片化到集中化。三天前，微信发布了消息，要开始做搜索。如果大家每天用手机，其实70%的时间都是在微信，或者是在Facebook，或者是在Line，是不是就没有搜索了呢？搜索是不是被另外一种方式而取代了？信息化会从非结构的信息化，搜索去解决非结构信息化的过程，到一个APP，能够快速帮你进入社交场合。APP会越来越示弱，取而代之的是Bot帮你完成一件事情，人们不再用两只手点不一样的页面，可能一句话、一个声音，或者是一个表情，Bot就能够帮你达成。

我们讲了这么多Bot，其实Bot已经流行了几十年。在美国，我个人知道做Bot的公司有200多家，垂直的也好，通用的也好，聊天的也好。在国内却比较少。为什么呢？中文比英文难多了，难很多，可能是10倍、几十倍上的难。讲最简单的，英文没有分词的问题，每一个字每一个字都是space limitd（音），而中文几乎是没有标点符号的，比如“我喜欢听《十年》，十年过去了”。如果只用关键词，你无法理解这两句话是什么意思。

大家讲了那么多，是不是Bot是一个泡沫？Bot的技术已经到了吗？我总结了一下目前市面上的Bot有三种。第一种是只会瞎聊的聊天机器人。如果它的单一目的只是聊天，是达不到用户黏性的，用户只会想到瞎聊，无聊的时候才会用。这个时候产生不了黏性。瞎聊的机器人有一个坏处，就是无法理解上下文，无法记忆，你每天跟它聊的时候，它都忘记你是谁，你要重新来一次，这跟玩儿小游戏没有差别。第二种就是模板式的、常用问题式的，尝试着理解问答系统，很简单的模板式的一问一答。答不出来的时候，就会给你回答一些通用性的问题，这也满足不了需求。第三种是基于关键词的搜索，大家用过很多中文的语音助手，它听不懂，就给你搜索结果。以前我在微软做移动搜索的时候，就是做这个的，这个跟搜索没有两样，只是语音式的搜索，满足不了人的需求。

目前Bot的问题有这三类，第一类是只会闲聊的聊天机器人，不懂上下文，无法记忆用户。第二种是只会模板式的解决问题、回答问题。第三种是只能用关键词、搜索结果，都达不到目的。这三种问题就是Bot没有普及、没有办法落地、没有办法商业化、没有办法验证的最重要的问题。

这些问题怎么解决呢？2015年，我们创立了竹间智能，用了18个月的时间，集结了150位人工智能的爱好者，我们解决了这个问题。我们创建了一个新形态的对话系统，新形态的Bot system，它是基于内脑的方式，模拟人的思考方式和行为模式，以情感为出发点，以理解人，以人为本为出发点。它不是以NLP自然语言处理为中心的对话系统，它是以理解人的立场去做的。因为用NLP理解会造成刚刚提到的那三个问题。内脑的对话机器人有很多的对话机制。

我们开发的第二个核心技术是多模态的情感识别，强调于情感。未来几年之内，谁能够实验情感智能加语义理解，谁就能够实现强人工智能的第一步。AI有很多，人机交互是一个。

我们也在将这些技术进行商业的AI落地，在过去6个月，我们跟数十家企业在验证、打磨、落地这个技术。

要做到好的人机交互，必须要语言、语音和图像一起做。如果单一的只做语言，你是没有办法理解人机交互的真正的重点，我们把语音的情感、脸部的情感、语义的理解交互一起做，这样才能构成全套的人机交互系统。

很多人问我竹间智能跟其他竞争者有什么不一样。我们可以说是国内唯一一家能够把语音情感、语言理解、基于人脸的图像情感一起做的一家公司，做到全方位的人机交互，用情感理解、意图理解真的能够做到极致的对话系统。

竹间关注的是认知世界，语音识别、图像识别开始都是从感知层面开始做起，竹间做的是认知层面，最重要的是把文字转换成意思、把文字转换成意图和情感，才是最重要的，这样才有办法让Bot为人做服务、制造商业价值。

我们认为合格的对话应该是这样的，它可以记忆情感状态，可以记忆用户的习惯，可以理解用户的意图和上下文，做一个比较满意的交互。

（演示）

从意图的理解到复杂语义。这里展示的是在聊天的过程中，识别意图，可以帮助人达成一些任务。这个是基于一套的对话交互系统，不是经由关键词或者是模板的匹配，它是把几个技术连接在一起。它是beyond NPL，我们独资开发了NLU的综合解决方案，我们也发明了NLQ（自然语言查询），通过自然语言的查询可以问各式各样的问题，不需要用关键词来解决。NLG（自然语言的生成）。我们认为语言模型是无法嵌入到单一的深度学习和机器学习上的，一篇论文和一个理论是无法达成对话需求的，必须要在懂人的立场去上做的。我们做的各个模块解决的是开放域的人机交互的问题，怎么解决呢？就是意图理解、情感理解和各个领域的知识。

开发这样一个对话系统不是只有深度学习、机器学习，很重要的是必须加上认知科学的元素。更重要的就是一般在做深度学习和机器学习的时候忽略了语言学，没有办法把语言学很重要的元素加到机器学习和深度学习里面去，这就是竹间在过去一年多以来一直在尝试摸索和建构的过程。

最后是心理学。人的思考方式、行为模式、交互方式还是要加上心理学模式的。

这是我们做的交互过程，必须具备上下文的理解、记忆、情感，才有办法到底是要识别语音，还是完成任务。

我们做出了20多种情绪、情感的识别，情绪情感的认知有三个方面。第一个方面是文字上代表的情绪情感。第二个是我说话时的心情、情绪、情感，有的时候不是字义上表示的。第三个是机器人在交互的时候应该用什么样的情绪情感来回复。我们做intent做的比较深，目前做到200种不同的intend，会继续增加上去，有可能会做到上千个。在不同的领域、不同的场景和情境里都有不同的intend出现。每个人讲话时代表的实体都是intend，我们用机器学习、深度学习的方法做出一套intend，它也是可以被高度定制化的。

从了解intend，再了解意思和情绪，就有办法把一推转换成Skill机器人可以有各式各样的技能，帮你打车、帮你订电影票、查找知识、陪你读书。

综合机器、语言学、内脑的架构构成了比较独特的对话系统。

以这样比较完整的人机交互系统为基础，我们开发出了各式各样的商业解决方案和个人应用。比如，在金融领域，我们建构了一套主动式的客服系统。同样一个界面，也可以作为理财机器人。这是我们在金融方面的落地的解决方案。在商务和互联网的解决方案上也是一样，同样一个对话界面，可以达到售后服务和售前的导购，以个性化对用户的理解，主动式跟客户沟通，做到售前、售中、售后的一整套对话系统，全部都是由一个界面来完成。能够做到这样的地步，必须拥有比较强的交互对话系统。在IOT的部分，机器人具有视觉、speaker，用多模态的交互系统，可以达到上机器人听得懂、看得懂、读得懂。还有智能冰箱，一直有几个厂商在试。同样一个交互系统，如何在商业上落地，如何为商业带来价值，如何在C端落地，必须经过一个完整的对话系统，人机交互技术来达成。

情绪情感的技术，我们可以分析人的表情、人的视线、人的注意力，语音情感也可以用到呼叫中心语音自检，带来商业价值。这一整套应用可以把语言、语音、图像结合到商业解决方案中。商业需要的不是单一的技术，而是圈套的解决方案。唯一具有语言、语音、图像的交互技术才能带来更多的商业价值。在短短的6个多月，我们得到数十家大型企业的认同，把这些技术验证落地，这就是我们一直在做的工作。

（演示）

去年9月开发出来的多模态的辨识技术，用傅园慧的语音做了一个demo。

不同的表情可以应用的方向是非常多的，有不同的解决方案。

这是另外一个多模态的交互，可以应用到有摄像头的家电设备和智能机器人上。左边是用户看到的机器人的表情，右边是机器人看到的人。它可以从你的表情、文字和语音上识别出你的情感，它跟你的交互就可以是各式各样不同的情感。有的人喜欢我在伤心的时候你跟我共鸣，有的人喜欢在伤心的时候你给我一些鼓舞，只有多模态才有办法让人机交互做得更贴切。

现在已经落地的是金融、电商、IoT，已经得到验证。人工智能还只是起步，大家都认为人工智能是一个泡沫，我个人认为泡沫还没来。

我们最后想要达到的是AI技术的共享化，我们的梦想是每个人都有一个Bot，每一个商家都有一个Bot。

Bot无处不在。

谢谢大家！