首页|必读|视频|专访|运营|制造|监管|大数据|物联网|量子|元宇宙|博客|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|芯片报告|智慧城市|移动互联网|会展
首页 >> 移动互联网旧 >> 正文

中国AI领域的“文心雕龙”:百度语义理解技术与平台文心ERNIE

2020年9月21日 18:04  CCTIME飞象网  

  语言与知识技术,被归类为认知智能,一直是人工智能最热门的研究与应用领域。9月15日,百度世界2020召开,作为“AI新型基础设施”百度大脑6.0的重要组成部分,百度语义理解技术与平台文心(ERNIE)在大会上的发布吸引了大量NLP开发者的目光,尤其基于多流机制的预训练语言生成技术ERNIE-GEN、知识增强跨模态语义理解技术ERNIE-ViL等,均达到了世界领先水平。

  

  文心(ERNIE)是百度在语言与知识领域深耕多年的技术大成,同时登顶国际权威榜单GLUE也代表着中国语义理解技术在世界舞台的地位。

  随着企业智能化转型的深入,智能文本处理得需求广泛存在,通用API/SDK已无法充分满足需求,而传统的NLP 定制方法在实际的产业应用中面临着不少问题,包括:需要较多高质量的人工标注数据、缺少NLP技术选型与模型调优经验、迭代调优耗时长等,再加上往往需要高昂的算力花费,让不少企业望而生畏。对此,在今年8月25日的百度大脑语言与知识技术峰会上,百度集团副总裁吴甜重磅发布语义理解技术与平台文心(ERNIE),为企业提供了一种革新性的应用范式,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让企业用户更简单、高效地定制企业级文本模型。

  百度通过将世界领先的NLP技术成果开放给业界,降低了NLP技术的准入门槛,让各大产业都能快速拥有构建和应用文本智能的能力,为产业智能化提供了全新的加速度。在今年7月的世界人工智能大会(WAIC)上,文心(ERNIE)更是摘得了大会最高荣誉SAIL奖(Super AI Leader,卓越人工智能引领者),在人工智能领域技术创新和应用探索等方面获得权威肯定。

  

  目前,文心(ERNIE)累计支持2万余名开发者,覆盖金融、通信、教育、电商等行业,并在多个公开权威语义评测中获得了近十项世界冠军。

  破局NLP建模难题,为企业NLP应用按下加速键

  从数据到应用,文心提供一整套文本建模能力

  

  文心(ERNIE)基于领先的语义理解核心技术,内置百度自研业界效果领先的预训练模型集ERNIE和全面领先的算法集,将文本数据处理、基于深度学习的模型训练、模型评估和上线部署等NLP开发流程进行易用性封装,为NLP开发者提供一整套效果领先、简单易用、高效灵活的NLP模型开发服务。

  丰富的文本数据处理能力,摆脱繁琐数据处理流程

  不论是互联网领域还是传统行业,大量的企业核心信息都分布在非结构化的文本数据中。在IDC的报告中也提及:“最近几年全球新增的数据中,有80%来自非结构化数据。”一方面,这些文本数据蕴含着的高价值信息,对企业的良性发展至关重要;另一方面,对这些信息的处理往往要耗费大量的人力,也是一笔不小的成本。

  数据是模型训练的起点。而在实际业务应用中,文本数据在数据处理的环节就要面临数据标注成本高、数据样本不均衡、数据质量不高、格式处理繁琐等一系列问题。

  数据标注成本高?交给文心“智能标注”能力

  一般来说,高质量的标注数据越多,模型的效果就会越好。但数据标注本身就是件耗时耗力又耗钱的事情,如何能够低成本获取大量高质量标注数据对企业来说至关重要。文心(ERNIE)提供了全新的“智能标注”能力,开发者只需要标注少量数据,文心就可以基于这部分数据学习、优化,结合人工校正,快速完成大量无标注数据的高质量标注。

  (体验文心智能标注功能,可登录EasyDL)

  

  数据样本分布不均?“数据增强”功能试一试

  在实际的应用场景中,往往会面临文本数据的样本分布不均的情况。比如NLP领域常见的文本审核任务,需精准分类出正常文本和敏感文本,是一个典型的文本分类问题。但在实际的数据收集中,正常样本与敏感样本的数量很容易失衡,经常会遇到9:1(90%的正常样本),甚至差异更大的情况,但又要求训练出的模型能够更全召回敏感文本。这种情况就需要文本“数据增强”的功能,来丰富和扩展敏感样本的数量,让数据更丰富、比例更适合。

  此外,还有数据噪声多、格式处理繁琐等问题,文心也一一提供了解决方案:文本“数据降噪”帮助开发者快速定位高噪声数据,支持丰富数据格式和配套的预处理能力。

  超强实力的预训练模型和算法集,快速get高质量模型

  文心(ERNIE)内置百度自研业界效果领先的中文预训练模型和NLP优质算法集。其中ERNIE预训练模型开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。这些硬核实力也让它在去年12月,斩获自然语言理解权威榜单GLUE榜首。

  

  文心(ERNIE)模型集包括通用模型、任务模型、领域模型、轻量级模型等预训练模型,为业界提供最完备的预训练模型能力。

  

  全面的评估工具和部署能力,模型落地无忧

  为了满足各行业模型应用的需求,文心(ERNIE)还配套了完整的模型评估与部署能力。文心提供了10余套常用NLP评估工具,包括多标签分类评估、准召率、宏/微平均、正逆序比、BLEU值、ROUGE值、马修斯相关系数等,同时也支持用户灵活自定义评估指标。

  在部署方面,文心(ERNIE)也很好地支持了模型的公有云部署和本地化部署两种方式,方便用户根据不同的业务需求来选择合适的部署方式。

  从世界级技术突破到产业级NLP应用能力

  聚焦企业业务价值,面向不同业务需求提供丰富产品形态

  为了让文心(ERNIE)的世界级技术突破转化为企业发展的动能,在产业应用中发挥更大价值,文心还提供了多种使用方式,让不同需求、不同开发层次的企业开发者都能快速掌握。

  零门槛、无代码的云端开发体验:EasyDL-NLP

  百度EasyDL是一个零门槛的AI开发平台,支持开发者一站式定制高精度AI模型。文心通过EasyDL提供了一整套简单高效的NLP开发能力,提供零代码、少代码的模型训练方式,同时也支持高阶用户进行灵活组网调参。开发者无须了解算法细节,最快5分钟即可上手,快速定制NLP模型。目前EasyDL已支持了单标签和多标签的文本分类、短文本匹配、情感倾向分析等NLP常用任务类型。

  

  可深度定制的企业级全功能开发能力:BML-智能文本

  百度BML平台是全功能的百度机器学习平台,为企业用户提供一站式人工智能模型建设功能服务。文心(ERNIE)通过百度BML平台建设BML-智能文本产品能力,基于各类文本处理场景提供丰富的自动化产线,实现一站式文本建模开发与应用。

  

  真实业务实践淬炼,丰富场景化落地经验

  文心已在金融、媒体、电商等业务场景中崭露头角

  目前,文心(ERNIE)已广泛应用于搜索引擎、信息流、智能音箱等互联网产品中,同时也在金融、电商、媒体、教育等行业中落地,成为推动产业智能化转型的利器。

  

  某互联网金融企业,携手文心,基于用户数据快速建模,实现高效评估借贷用户风险的能力。结合文心的预训练模型,对用户行为信息进行语义层面深度建模,用户风控少量训练数据进行精细Fine-tuning,在较短时间内完成模型收敛取得准确率显著提升。金融风控领域模型准确率背后关乎着企业的收入,模型的效果提升,带来的是真实的价值收益!

  某综合性电商平台使用EasyDL中的文心(ERNIE)搭建起了完整的智能评分系统平台架构。AI赋能后的服务考核监督机制得以升级,用户的差评反馈都会被自动分析处理,大大提升了服务效率与服务质量。该系统将负面问题处理率由先前的60%提升到100%,客服运营人力由5人/日降至3人/日。

  文心与企业开发者共同成长

  全流程技术服务支持,真正做到“授之以渔”

  

  除了基于预训练技术提供完善的开发工具外,文心(ERNIE)还面向企业用户提供全流程技术服务配套。包括业务问题分析、技术选型指导、模型优化指导、开发者使用培训等服务,真正做到"授之以渔"。

  百度大脑推出文心(ERNIE),正是为了帮助企业在NLP赛道上跨过技术、工具、算力、人才等门槛,开发者和企业进行开放赋能,让语义理解等技术在产业内“遍地开花”,真正帮助企业降本增效,并发展出智能化的新业态。百度大脑正在通过语义理解研究新思路,在推动人工智能技术的发展的同时,进一步推动产业智能化发展,让文心(ERNIE)成为AI时代的文本智能化利器。


编 辑:T01
声明:刊载本文目的在于传播更多行业信息,本站只提供参考并不构成任何投资及应用建议。如网站内容涉及作品版权和其它问题,请在30日内与本网联系,我们将在第一时间删除内容。本站联系电话为86-010-87765777,邮件后缀为#cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
相关新闻              
 
人物
工信部张云明:大部分国家新划分了中频段6G频谱资源
精彩专题
专题丨“汛”速出动 共筑信息保障堤坝
2023MWC上海世界移动通信大会
中国5G商用四周年
2023年中国国际信息通信展览会
CCTIME推荐
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像