微软亚洲研究院芮勇：人工智能发展中的5个AI是关键 -- 飞象网

飞象网讯（李陶陶/文）4月29日消息，2016 GMIC全球移动互联网大会正在进行，飞象网作为直播媒体，全程为您直播。现在演讲的是常务副院长，微软亚洲研究院芮勇，他演讲的题目是《那5个AI》。

以下是演讲内容：

各位人工智能的朋友们大家下午好！

非常高兴今天有机会来到GMIC未来峰会，跟大家聊一个很有意思的话题，就是那5个AI，哪5个AI呢？第一个AI大家一下就能想到，叫人工智能。今年是2016年，在以前没有词叫人工智能，在1956年的时候有一个研讨会才造成了人工智能。

在屏幕上看的这几位都是人工智能的先驱。这是第一个AI，但是我今天要讲5个AI。

第二个AI是什么？第二个AI要考大家英文学的水平怎么样，就是说聚合的，聚众的一种智能，什么意思呢？就是把我们人类的很多行为的大数据加以整理，加以挖掘，然后用它来训练我们的计算机，我们的电脑，使得这些计算机变得智能，叫做聚合的智能。

第三个AI叫自适应的AI，自适应的智能。我们希望这个智能不要我作为一个用户总想着它应该在什么情况下去做，它应该根据当前的环境自身的去调整怎么来服务用户，这是第三个AI，叫自适应的智能。

第四个AI是什么呢？叫做隐形的智能。

我来自微软，所以我就用微软的几个例子跟大家分享。

第一个聚合的智能。我们都知道我们人类是有智能的，我们人类有视觉、听觉、触觉等等，我们也希望让计算机能够感知我们的环境，能像我们人类一样可以去看到，可以去听到，可以去理解。

在去年微软发布了一个项目叫做微软认知服务，就是在云上的一个智能的API。它想达到什么目的呢？就是希望如果我们第三方的开发人员调用这些API的话可以使得你们的应用，你们的APP可以像人一样理解这个事情，不用花20年、30年的时间开发视觉的感知，很方便的能拿到这样的效果。

智能包括计算机视觉、语音、语言、知识和搜索。我讲了半天认知服务，大家还不太清楚认知服务是什么，我给大家看这张幻灯片的时间就想起来了，去年有一款红遍中国大江南北的应用叫做How-Old.net，我想很多人上传过照片看过你自己是什么岁数。这款应用是很有意思，我们下面的，有人把奥巴马一家相片上传进去，奥巴马家庭里最高兴的是他的太太，36岁，比先生要年轻很多。靠右边的图片是微软公司在刚成立的时候拍的一张，今天微软公司有11万员工分布在全球各个国家，但是当时刚成立的时候只有11名员工，这款应用不叫做年龄的估计，而是颜龄的估计，你看上像是多大了。除了对人脸的分析以外，知道他在那里，长什么样，什么性别，什么年龄，我们还想知道一个人的喜怒哀乐是什么样的，我们上传一幅图片知道这个人是高兴还是生气，还是愤怒，还是无奈，这种表情也做进了我们智能的API。

比人脸更有意思的一件事情就是图片。其实我们一直有这么一个愿景，我们希望计算机通过它的视频摄象头可以看到外面的世界，也可以去理解方面的世界，我们做的第一步就是要把这些图片进行分类。在座的如果有在计算机视觉领域做过研发的朋友可能知道计算机视觉有一个全球的比赛，叫做ImageNet，是什么呢？是有1000类不同的物体，总共有120万张图片可以用它进行训练你的不同算法，在测试的时候还有10万张图片是计算机从来没看倒过的，你把10万张图片让计算机看，它需要告诉你这张没有见到过的图片是1000类物体中的哪一类，这是全球的比赛。全球很多的顶尖的学府、高等院校和大公司的实验室都在参加这个比赛，这个比赛在深度学习，没有被引入计算机之前，2012年之前错误率是20%左右，我给计算机一张没有见过的图片，它分成1000累的某一类，2012年深度被引入之后错误率是10%左右，之后错误率一直下降，准确率一直上升，到2014年的时候斯坦福一个在读的博士生就说是计算机不同的算法在PK，我们人在这里能识别多少？看似简单，其实并不简单的问题。我如果告诉你，在这1000类物体中间，有67种不同的狗，我相信我们就知道这个问题有多难了，我对狗大概只能认出四五种，1000类中有67种不同的狗，在座的能认出几类？所以斯坦福的博士把自己关在小屋里学了之后参加比赛，错误率是5.1%，比任何一位都要好，60多种不同的狗和不同的植物。我们微软去年开发了深度学习的看法，把错误率降到了3.57，超过的人类的水平。

深度学习说白了是很深的人工神经元网络，在20年以前，还记得那时候的隐含层只有一层，因为没有足够的计算能力，当时只是一台386，没有足够多的训练样本，没有好的算法，今天的深度学习在2012年的时候已经到达了8层，看似很深还有比它更深的。

2014年的时候我们研究人员做出了19层的，在去年的时候微软亚洲研究院同时把它做到了152层，达到了人类历史上迄今没有达到过的这么深的一个层次，它其实是模拟我们人类神经元的连接，发现一些原来没有办法发现的东西，不是给你一台更大的计算机做得更深，算法上一定要有很重要的突破。比如说残差式的学习方式，是新的算法突破，使得我们做出了152层，达到了比人类分类更准确的准确率，在比赛中间取得了第一名。

比图片分类更难的事情是物体的检测。图片分类是什么意思呢？我给计算机看一张它没有见过的图片，它需要告诉我这张图片里面是什么物体，比如说是一只狗，物体检测就更难了，不仅要告诉我图片里面有一只狗，还要告诉这只狗在什么地方，还要用框把它框出来，我在这里显示的有很多物品，人、茶杯、桌子，还有边上露了一个腿仍然能检测出来这是一个人。

从图片的分类到物体的检测，更难的任务是什么呢？是在每一个像素级别都能告诉这是人还是狗。

（视频播放）精确到像素级，几乎和我们人看到外面的世界一样的准确。

大家看到这个没有什么难的，图像的分类，物体的检测，这根本不难，但是计算机只能看到两个事，一个0，一个1，这是非常难的事情，这是第二个AI，聚众的智能，把人类的大数据挖掘，使得它能够识别很多东西

第三个AI是自适应的AI。

我想举两个例子，在座的肯定有很多人用手机自拍，特别是一些美女，我相信你们每天都会自拍，你非常想要一款很好的自拍应用，为什么要用一款很好的自拍应用呢？希望你不要太去操心，希望这款应用能够自己适应你，你如果在很黑暗的房间他知道把光线调亮，如果后面有很亮的窗户他想办法让窗户变暗，脸变量，如果女士拍照最好美颜的程度高一点，不要有皱纹，如果是男士希望不要有这个用户，但如果你是用户你不用去操心，这款应用自己操心，他知道你在什么环境下做拍摄，他知道你是男士还是女士，知道你的肤色是白的还是黑的，是深的还是浅的，如果是这样的能达到自适应的。

这是一段简短的视频演示，这款用户不用操心，因为这款应用很智能的帮你操心过了。这是一个应用来演示自适应的智能。

第二个例子我想跟大家聊一下自适应的智能。

在六十年代的时候美国有一部电影很有意思，叫《星际迷航》，这些星际的探索者们座着飞船不停的穿梭，大家想在同一个地球上有不同的语言，不同的星球上更有不同的语言，我们有没有办法和说不同语言的人能够实时的交流，当时有一个他们在想象中的东西，叫宇宙翻译器，你拿了这个东西和别人聊，不管这个人说什么都可以和它实时的交互。我们做研发的人就是想把梦想变成现实的人，过去二十年当中微软的同事花了很多精力开发这么一种软件，在2012年的时候我们在内部的技术节进行了演示，2012年我们进行了发布，2015年这款宇宙翻译器就做成了。

它能做什么样呢？我想给大家分享一段视频，这个视频是美国的背包客在中国拍了很多照片，走了3.5万英里的路，但是他不会说中文，希望能和中国人进行沟通。（播放视频）一个不会说中文的人可以实时的和会说中文的人进行交流，其实如果要达到这样的效果至少有四个很重要的技术需要做到。第一点，汤姆他说的英文的音频信号要被实时的识别成英文的文字，这是第一步语音识别；第二点，我们都是在日常的口语说话，不是读报纸，里面有口语的词，要把它删除掉；第三点，实时翻译，把英文的文字翻译成了中文的文字；第四点，中文的文字还要变成中文的文字发出来。所以这四步，每一步都要非常准确，如果每一步只做到了95%的正确率是串联的，95%的四次方正确率就降到70%左右了，非常差，所以每一步要做的非常好。

具体的算法我没有时间讲太多，基本上也是基于深度神经网络和语言识别相结合，是的语音识别大幅度上升，语音合成TTS也变得更加自然和精准。

我想给大家听一段简短的音频，既选了有中文又有英文的一段话，这是美国的女士不是说中文，但是现在让她说出的中文，像我一会儿说英文，一会儿说中文，你还知道是我一个人在说。（语音播放）这是我想说的第三个AI，叫做自适应的AI。

第四个AI叫做隐形的智能。

今天我们都谈了很多的智能家居也好，智能场地也好等等，这些智能家居、智能场地、智能穿戴要有设备，我不用操心站在什么地方，这些智能设备都帮我们做了，如果有一天我们让智能设备变得很智能，它要结合计算机的语音，变成我们人类能够听懂的文字说出来，这不是一件非常美好的事情吗？我们可以想一下，这样可以帮助我们那些看不见外面世界的朋友可以看得到外面的世界，比如这么一个场景，如果让计算机可以看到的话它就知道这是一个男子腾空而起，表演一个科技。

我下面给发展放一段很简短的视频，是说微软的工程师7岁失明了，看不见外面的世界，但是有了人工智能使得他能听见外面的世界是什么样的。（视频播放）他可以通过一个眼镜看到外面的世界，听到外面的世界。很有用，非常有用的技术，它把计算机视觉和自然语言处理相结合，使得通过一个眼镜能看到外面的世界，名且以自然语言的方式把它给说出来。

还有很多这种隐形的智能，比如说像穿戴设备。我下面想给大家放一个简短的视频，我们可以看一看今后的可穿戴设备，它如果智能的话，它将来可以应用在室内设计、城市规划、医疗，对生物个体的研究，对大脑的研究，我们可以看一看。（视频播放）

这张说得是人工智能经过过去六十的发展变得越来越智能，也是受到了学术界、工业界和我们一般大众的很多关注，特别是在今年人工这个词被造出来60周年之际，我觉得有很多新的事情也会在2016年发生，人工智能也会往前接着有几步大的台阶走。

我已经说了四个AI，第五个AI是什么呢？前一阵大家一直讨论一个问题，因为人工智能越来越强大，就说人和人工智能我们今后怎么共存？是不是有一天人工智能要毁灭我们人类等等，我觉得人工智能和人其实都是有各自的强项和弱项，人工智能强的地方就在于它有很强的记忆能力和运算能力，在座的谁能把π的小数点背到100位？估计没有，对计算机确实很简单。但是别忘的人有两个大脑，外边大脑是逻辑推理、记忆、简单的预算，右边的大脑充满了想象力，发散思维，有很多艺术细胞。人和机器是不一样的，我想我们今后谈的话题是人类+机器，人类利用人工智能很强的东西，使得我们人类变得更强，这是第五个AI。

谢谢大家！