首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片报告|智慧城市|移动互联网|会展
首页 >> 现场直播 >> 正文

安徽科大讯飞江涛:智能语音交互将打造能听会说的世界

2013年5月24日 15:14  CCTIME飞象网  

    “2013智慧城市论坛”分论坛“移动互联网业务创新与信息安全分论坛”5月24日在北京举办。飞象网作为直播媒体将对会议做全程报道。直播内容:

    安徽科大讯飞副总裁江涛

    非常感谢组委会,也特别感谢项老师,项老师作为行业内的资深专家,对我们这个产业的发展,这么多年来一直在关注,也提出了很多建议。讯飞作为国内一个相对来说属于行业内一个行业品牌,后来能得到中国移动的帮助,并且确实是很大。从6月份开始谈,到8月份就对外宣布,现在中国移动是我们的单一最大股。我今天介绍的内容就是我们先从人机交互的变革开始讲起,随着移动互联网时代的到来,人机交互正在成为智能手机、平板电脑这些主流的交互方式。过去几十年的历史已经证明,人机交互的变革引领了整个产业的变革,从过去的十年,大型机到小型机,到PC机,到移动互联网终端,为整个产业发展带来了深刻的变化。我们觉得未来十年,终端会发生更加深刻的变化,现在主流的手机、Pad,它会让位给更加随心所欲的各种载体,变得可穿戴,个性化,有趣味性,今年2月份发布的GoogleGlass已经引起了社会的广泛关注,语音也是它重要的一个交互界面。

    这些信息终端的深刻变化,我们觉得它一定会颠覆现有的门户的概念,现有的搜索、浏览,这些服务将会让位给更加智能化,更准确预测用户需求和行为的新一代的交互入口,这些入口中间,语音交互是其中重要的一个环节。这一点从2013年起,2013年整个智能语音市场争夺更加激烈了,大家都知道,今年2月份微信在它的中间已经增加了智能语音交互的一些功能,比如说语音提醒,摇一摇搜歌等等这些功能,下一步大家觉得这一块会扩展更多语音交互的功能。当然,刚才提到的谷歌发布的Google Glass。我们五一前听到的消息,一个创业公司得到了谷歌、英特尔、三星等距投各方面智能语音的支持,成为产业的热点。

    科大讯飞关注在以下三个方面,就是解决能听会说,第一个语音合成,将任意的文字转换成自然流畅的语音。语音识别技术,把语音中的内容识别出来,还有云评测的技术,对你说的中文、英文,甚至唱的歌进行评价,相当于把机器变成一个评测老师。我们现在看一下语音合成,国际上对语音合成的评测是播音员的水平相当于5分,3分是勉强可以接受,不反感,我们普通人信息流畅的发音是4分。2011年科大讯飞的语音合成已经达到4.5分,这比很多普通人的翻译水平要好,不同的风格,不同的语种。科大讯飞现在在英文也是全球第一,大家知道在英文的语音合成领域,全球最定级的比赛叫“暴风选竞赛(音译)”,包括微软,IBM这样的企业巨头,我们讯飞是06年第一次参加这个竞赛,当时就拿了第一,我们第二年再参加这个比赛的时候,当时中科院的院长跟我们说,你们再次拿前三名,就是巨大的胜利。之后我们连续七年拿到了英文合成大赛的冠军。这个是2012年的比赛成绩,有讯飞的系统,在读小说的自然度,读新闻的自然度都是超过4.1。应该说这个发音效果比很多西部农村中小学的英语老师要好的多,科大讯飞的中文合成,英文合成都已经是业界唯一超过真人翻译水平的,所以现在教育部在全国的教育系统的分析中也是把科大讯飞的软件作为课堂的一个标准软件,解决老师发音不准确的问题。另外,基于发音模拟,声纹识别,语音文本撰写及韵律自动标注技术,实现全自动构建的个性化语音合成系统。在下一步的语音开发中也能作出很多有特色的东西,当然这中间也要解决好安全的问题。另外,语音合成还有一个分支叫做唱歌合成,你只要选定一个谱,你自己来填歌词,我们系统就能把它唱出来,这个也能在下一步移动互联网的创新中有很多花样。

    刚才讲了语音合成的分支,说到语音识别,全球为定级的语音识别大赛是NIST举办的,美国的一些研究机构也都是使出浑身解数,我们讯飞08年参加比赛,就拿到全球第一的成绩,当时是说话的识别,2010年也是总分第一。参加单位也是包括CMU、MIT。2009年/2011年国际NIST比赛是对语种的识别,这个是非常难的,讯飞在这个比赛中,9个比赛,我们7个拿到了第一,我们在这方面是很有优势的。语音评测方面,对于语音是一个相对来说比较主观的东西,如何准确的评价,讯飞的语音技术是全世界范围内唯一通过国家语委鉴定并大规模使用的,2008年国家语委安排在上海和安徽进行应用实效对比鉴定,鉴定结果表明系统评分性能达到与国家级评测远高度一致。过去大学生毕业以后要有一个普通话考试,过去一个学生是三个老师考,一个人考下来要7、8周,整个考试过程拉的非常长,现在全部已经改成机考了,考完就能拿到分数。另外,大家更关注是英语考试,因为中国人学英语,不会说。去年广东高考,第一次突破性的采用我们的计算机软件。2011年广东高考是请了几乎所有的大学英语老师去打分,折腾了一个月才全部打完了。后来广东省教委在全球范围内选择技术,包括从牛津,最后选择了科大讯飞的技术。另外,江苏中考也应用了。

    这个是去年11月广东省科技厅和教育厅组织的技术鉴定,这两个柱状,左边的柱状就是你打分的准确性,或者说一致性。比如我给10个学生打分,不同人的分数高低肯定不一样,但是10个人的排名不应该有变化,就是准确度,准确度方面,计算机已经超过了所有的大学老师。右边的柱状图是你打分的分差分布,人由于疲劳,精神状态等等,相对来说我们的软件已经没有哪个大学老师比我们机器打的分更准。智能语音,评测语音合成这些技术,现在在全国已经有5000万的师生在课堂教学中使用了。现在新加坡的中小学教育中已经全面使用了,下一步将会扩展到台湾,也是我们汉语走向国际的一个很重要的技术支撑。另外,语义理解也是一个重要的环节。

    这是我们的讯飞语音云,这是2011年11月28号,我们在业界率先发布了讯飞语音云,为手机、汽车、家电等终端提供高质量语音合成、语音搜索、语音听写等智能语音交互服务能力。整个语音云的发布之后,也确实提升了移动互联网的增长速度。我们当时发布的时候,头100万用户增长的非常慢,6个月,才增长到100万用户,结果下半年,就从100万到1000万了,2012年就从1000万到一个亿了,3月份已经超过1.5亿了。我相信不光是我们,包括病国、谷歌,大家都在培养用户的习惯,这种习惯终究会形成的。这几个语音应用,手机大家特别容易理解,另外主要的应用产品,汽车和智能家电。

    看看讯飞语音技术在汽车方面的应用,2011年11月,基于讯飞语音云的IVOKA系统在广州车站精彩亮相,引发汽车行业高度关注。另外,其他的厂商也在进一步的跟进,但是汽车和手机不一样,它的产品要做,到真正推到用户手里,可能有两年左右的时间。有一个M键,只要按住M键就可以跟汽车对话了。这个是汽车。去年12月份我们在云南丽江开了首届的汽车语音应用峰会,奔驰、宝马、奥迪等高端汽车,包括国内最大的汽车全部都参加,是我们现场把我们车载的解决方案跟其他国外智能厂商的车载系统进行PK,在车速60迈识别率差不多,但是在80迈,要是开着空调,开着车窗,其他系统都没法用,当时也引起了国内这些汽车厂商的高度关注,陆续一些高端车型,像项老师,肯定开高档车型,也能使用到这种车载的驾驶系统。我们完全是自然语音的方式,比如我想看韩剧,都可以准确的定位到具体的内容。另外,刚才讲的智能教学在云中的应用,这种电子排版正在国家的每个班都部署,这个电子排版上了以后,我们语音识别,语音合成都可以在现场用起来,比我们当时读书的时候信息更多了。

    我们相信未来每一部手机都能听会说,每一台家电都能听会说,每一辆轿车都能听会说,未来的世界一定是能听会说的世界。谢谢大家!

编 辑:刘妍
声明:刊载本文目的在于传播更多行业信息,本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容。本站联系电话为86-010-87765777,邮件后缀为#cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
工信部张云明:大部分国家新划分了中频段6G频谱资源
精彩专题
专题丨“汛”速出动 共筑信息保障堤坝
2023MWC上海世界移动通信大会
中国5G商用四周年
2023年中国国际信息通信展览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像