首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片报告|智慧城市|移动互联网|会展
首页 >> 技术 >> 正文

毫无胜算还是新的答案?微软暗度陈仓推出全双工语音

2018年4月4日 12:30  CCTIME飞象网  

三年前,人们猜想人工智能将以怎样的姿态进入大众家庭?在这期间,人们发现语音交互可能是最关键的一步。不过在行业发展的过程中,电视没有成为人工智能的主战场,反而是小小的智能音箱成为了当下的新战场。从创业公司到科技巨头,大家都在抢占消费者的客厅,一场“百箱大战”正在上演。而关于如何提升人机交互体验,从而提升产品的核心竞争力也成为了各大厂商面临问题的重中之重。而和其他音箱着手硬件领域不同,传统巨头微软似乎走了一条“技术流”的道路。

出川的栈道:什么是提升人机交互体验的“正确”道路?

进入2018年,“百箱大战”也进入了白热化阶段,短短几个月时间,智能音箱行业不仅聚集了BATJ等互联网巨头,还吸引了诸多AI“独角兽”发布新品,竞争激烈程度堪比“血海”。而各家对于提升人机交互体验也作出了自己的试探。

对于提升人机交互体验的方法,有些厂家着手于提升硬件功能,猎豹推出的小豹AI音箱就主打在音质方面的吸引力,官方甚至将其称为“智能音箱界的音质担当”。但是从智能音箱字面上的含义也不难看出,“智能”和“音箱”的两个概念无疑是前者占据主导地位的,智能音箱产品区别于普通音箱的关键在于内含的人工智能技术。技术的质量高低以及人工智能“聪明”与否似乎才是提升人机交互体验的关键。在做好音质等硬件方面,智能设备的厂家很难敌过该领域的传统巨头。如果为了追求更好的音质体验,不如转而选择购买单纯的高音质音箱。

进入2018年,“百箱大战”另一个潮流趋势就是视觉化、屏幕化,非常多的行业巨头都选择让自家的AI音箱“长眼睛”。 去年,亚马逊推出了带屏幕的音箱Echo Show,让音箱视觉化、屏幕化成为一种趋势。在此之后,京东智能音箱叮咚Play亮相,这款产品配备了8英寸的液晶显示屏,能够实现视频通话、人脸识别等功能。百度也宣布其将推出“小度在家”智能视频音箱,阿里巴巴同样不甘示弱的推出新增“视觉功能”的智能音箱“天猫精灵-曲奇版”。

巨头厂商们选择“开屏”不难理解,在具备了视觉能力后,智能设备就可以实现更多的功能。与单纯的语音音箱而言,加入了视觉功能的音箱能够实现更多场景。但是在这背后也面临着另一个问题。一方面,堆叠技能的思路在实际使用时可能并没有产品宣传的那样“便利”,恰恰相反,虽然产品拥有极多的功能,但是却并没有实质性的提升人工智能的使用价值,100个功能里可能只有不到10个功能是用户实际用得上的。另一方面,通过赋予设备视觉能力并不意味着提升了其背后人工智能的技术水平,就像一个7岁孩子即便学会了弹钢琴,画油画,在你和他交流的时候他的交流逻辑依然是7岁孩子的心智。因此“开屏”虽然在功能和硬件上提升了人机交互的体验,但是这种方式的天花板也隐约可以初见端倪了。

另一条道路:试图暗度陈仓的微软

与其他产品纷纷“开屏”不同,微软却走在一条与众不同的道路上。最近,微软宣布率先推出新一代全双工语音交互技术,并已实现全球产品线落地。该技术与既有的单或多轮连续语音识别不同,可实时预测人类即将说出的内容,实时生成回应并控制对话节奏,从而使长程语音交互成为可能。

对比其他的产品,搭载该技术的智能硬件设备仅需一次唤醒即可轻松实现连续对话,而无需用户每轮交互都说出唤醒词,毫无疑问把语音交互的自然度推进到一个新层次。在微软看来,目前人工智能整体的发展更像是在堆积木。而语音交互是对话式人工智能及智能硬件设备的基础之一,全双工语音交互技术的应用,有望实现用户体验的下一次飞跃,并成为人工智能语音交互的新“标准配置”。

根据微软在3月28日召开的媒体交流会中的内容,这次的全双工语音交互技术背后拥有着全新的底层架构,不同于面向单个任务的Turn-oriented,微软小冰使用了全新的Session-oriented框架,这种面向更大范围对话的新框架能够“让对话像河流一样”,力求不再使用户感觉在与机器互动,更像是人与人之间的聊天。

微软很久之前就注意到用户在通过语音完成任务之外,人机对话的情感需求也很重要,传统的人机交互类似“对讲机”的体验无疑是很差的,因此微软将提升人机交互体验的尝试定在了改变半双工传输的交流模式。这对现在的人工智能研究者来说,是全新的挑战,甚至可能需要颠覆和重组整个底层架构。但是微软认为,产业现存的人工智能对话都将遇到难以继续成长的天花板,而以对话全程为基础的思路,能够提供更自然的对话体验,将是未来的方向。

人工智能对话实现从对讲机半双工到电话的全双工,技术上需要克服的挑战很多。据了解,微软在解决机器如何边听边想,保持对话节奏,理解对话场景,甚至自创应答语音方面都进行了技术革新。而从技术落地的效果来说,微软和小米合作推出的米家Yeelight语音助手在交互体验上是比较出色的。立足于全双工语音技术,微软将在未来一年覆盖更多的产品线,这就是微软对于如何提升人机交互体验所给出的答案。

自古以来,如何出奇制胜引诱着人们不断尝试,但是这种尝试有成功也有失败。对于微软来说,在全双工语音上的尝试究竟是成为韩信那样暗度陈仓的成功案例,还是魏延子午谷奇谋那般的错误尝试?周虽旧邦,其命维新。微软在33年前推出Windows系统成为了时代宠儿,如今在人工智能的大潮下,是成为弄潮儿还是溺死水中,时间和市场都将给我们答案。

编 辑:初夏
声明:刊载本文目的在于传播更多行业信息,本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容。本站联系电话为86-010-87765777,邮件后缀为#cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
工信部张云明:大部分国家新划分了中频段6G频谱资源
精彩专题
专题丨“汛”速出动 共筑信息保障堤坝
2023MWC上海世界移动通信大会
中国5G商用四周年
2023年中国国际信息通信展览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像