巨头抢滩“大模型” AI界掀起“新基座战争” -- 飞象网

近年来，大模型已经成为整个 AI （人工智能）产学界追逐的技术“宠儿”，“炼大模型”如火如荼，包括OpenAI、Google、微软、英伟达、百度、华为、阿里巴巴等企业巨头纷纷参与其中，各式各样参数不一、任务导向不同的“大模型”也陆续面市。一时间，“炼大模型”成为了当下AI产业发展的一个主旋律。

方融科技高级工程师、科技部国家科技专家周迪在接受《中国经营报》记者采访时表示，Al大模型历经了前几年的探索期、突破期，部分技术已经逐渐成熟，现在在一定程度上达到推广期了。各大企业纷纷发布AI大模型，就是抢抓这个时间节点，在这方面先取得入场门票。大模型具有效果好、泛化性强、研发流程标准化程度高等特点，正在成为人工智能技术及应用的新基座。

据中国信息通信研究院测算，2021年，算力核心产业规模超过1.5万亿元，关联产业规模超过8万亿元。其中，云计算市场规模超过3000亿元，IDC（互联网数据中心）服务市场规模超过1500亿元，人工智能核心产业规模超过4000亿元。

AI新基座

在过去，绝大部分人工智能企业和研究机构遵循算法、算力和数据三位一体的研究范式，即以一定的算力和数据为基础，使用开源算法框架训练智能模型。而这也导致了当前大部分人工智能处于“手工作坊式”阶段，面对各类行业的下游应用，AI 逐渐展现出碎片化、多样化的特点，也出现了模型通用性不高的缺陷。这不仅是AI技术面临的挑战，也限制了AI的产业化进程。

“从各类电商平台的智能推荐到日常生活中的刷脸支付，现在我们生活的方方面面都离不开AI。为了满足这些需求，我们需要为每种特定场景收集大量的数据，再从中设计出专用于特定任务的模型，”周迪对记者说道，“AI大模型希望做到的就是能够基于这个模型整合各类需求，从而适应多种差异化的业务场景，解决AI在赋能千行百业中面临的碎片化、多样化问题。”

AI大模型提供了一种通用化的解决方案，通过“预训练大模型+下游任务微调”的方式，可以有效地从大量标记和未标记的数据中捕获知识，极大地扩展了模型的泛化能力。

华为昇腾计算业务总裁张迪煊对记者表示，过去在一个单一的AI应用场景里面，其实是由很多模型组成的，通过多模型支撑一个场景来完成多个任务。而大模型是AI发展的趋势，也就是通过大模型能解决人工智能很多的问题，因为大模型具备很好的泛化性，可以通过大模型实现多个任务，原来场景需要多个小模型，现在大模型可以服务多个场景，这是生产效率的提升。现在国家相关部门也在牵头制定大模型的沙盘，避免科研机构、企业重复研发，通过各个领域的大模型与行业场景结合，可以更好地加速人工智能技术产业落地。

阿里巴巴资深副总裁、达摩院副院长周靖人则认为：“大模型模仿了人类构建认知的过程，这是当下我们面临的重要机遇。通过融合AI在语言、语音、视觉等不同模态和领域的知识体系，我们期望多模态大模型能成为下一代人工智能算法的基石，让AI从只能使用‘单一感官’到‘五官全开’，且能调用储备丰富知识的大脑来理解世界和进行思考，最终实现接近人类水平的认知智能。”

巨头角力

事实上，从2020年开始，全球各大公司和研究机构就已经开始了大模型的军备竞赛。2020年夏天，OpenAI推出GPT-3，在自然语言处理方面，GPT-3展示出惊人的能力，它能写文章，做翻译，还能生成代码，甚至可以学习一个人的语言模式，并遵循这个模式与人进行谈话。

GPT-3的面市也使得全球范围内AI大模型迎来大爆发，参与企业越来越多，参数级别越来越大，成为新一轮AI竞赛的赛场。2021年谷歌发布了万亿级模型Switch Transformer，微软和英伟达也推出了包含5300亿个参数的自然语言生成模型。

国内的企业也不甘落后，华为、百度、阿里巴巴、浪潮等企业都相继推出了自己的大模型。

今年9月2日，阿里巴巴达摩院发布了最新“通义”大模型系列。周靖人介绍说，为了让大模型更加“融会贯通”，达摩院在国内率先构建了AI统一底座，在业界首次实现模态表示、任务表示、模型结构的统一。

同日，华为也发布了基于昇腾AI的全球首个三模态大模型“紫东太初”。据悉，“紫东太初”是具备跨模态理解与跨模态生成能力的千亿参数创新模型。除此之外，其首次使“以图生音”和“以音生图”成为现实，是从限定领域的弱人工智能迈向通用人工智能路径的一次重要探索。

据华为方面介绍，自2021年以来，国内产业界仅基于昇腾AI就先后推出了鹏程·盘古、鹏程·神农、紫东·太初、武汉·LuoJia、华为云盘古系列等有影响力的大模型，并陆续在互联网、智慧城市、生物医药、金融、农业等行业孵化出多个解决方案，加速推动AI在各行各业的应用落地。

对此，周迪分析认为，Al大模型历经了前几年的探索和突破，一些技术已经逐渐成熟，现在在一定程度上达到推广期了。各大巨头纷纷发布AI大模型，就是抢抓这个时间节点，先取得入场门票。

挑战仍存

当然，AI大模型的发展也并非一蹴而就。大模型在实现全模态和全任务的通用性上仍存在许多技术难点，同时受算力资源限制，其训练与落地应用颇具挑战性。

清华大学计算机系教授唐杰认为，大模型训练面临着诸多的挑战，训练成本高昂，训练1750亿个参数的GPT-3，用到了上万块英伟达V100 GPU（图形处理器），总成本据悉高达1200万美元。人力投入巨大，谷歌PaLM 530B团队，前期准备29人，训练过程11人，整个作者列表68人。训练过程不稳定，易出现训练不收敛现象（训练过程中的损失值无明显下降趋势甚至上升），且调试困难。

周迪则认为，Al大模型的发展主要面临体量、评价、应用三大瓶颈。一是体量庞大，研发部署困难。Al大模型的参数量和计算量要求给开发、调优、部署等工程化环节带来极大压力，需要加强AI大模型轻量化技术研发。二是评价单一，运用效能难以显现。当前AI大模型的评价以学术榜单为主，在行业场景下的应用效果难以客观有效评价，建议完善AI大模型评估指标体系。三是应用受限，产品形态仍在探索。建议鼓励AI大模型应用服务创新。比如有的企业采用分行业分层体系，逐步进行AI大模型的落地。

本报记者秦枭北京报道