首页|必读|视频|专访|运营|制造|监管|芯片|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|大数据|报告|智慧城市|移动互联网|会展
首页 >> 移动互联网 >> 正文

AI PC新突破 端侧首次支持128K上下文窗口 实现2.2倍推理优化

2025年6月10日 11:16  CCTIME飞象网  

今天,面壁智能正式发布并开源了「面壁小钢炮」端侧系列最新力作——MiniCPM 4.0 模型,实现了端侧可落地的系统级软硬件稀疏化的高效创新。英特尔与面壁智能从模型开发阶段就紧密合作,实现了长短文本多重推理效率的提升,端侧AI PC 在Day 0全面适配,128K长上下文窗口等多方面突破。

双方开展了深度技术协同,基于英特尔硬件架构定制投机解码配置。通过硬件感知的草稿模型优化策略,结合英特尔加速套件与KV Cache内存增强技术,实现端到端推理效率的2.2倍提升 ①,携手为业界带来了全新的模型创新和端侧性能体验。

此次,面壁推出的MiniCPM 4.0系列LLM模型拥有 8B、0.5B 两种参数规模,针对单一架构难以兼顾长、短文本不同场景的技术难题,MiniCPM 4.0-8B 采用「高效双频换挡」机制,能够根据任务特征自动切换注意力模式:在处理高难度的长文本、深度思考任务时,启用稀疏注意力以降低计算复杂度,在短文本场景下切换至稠密注意力以确保精度,实现了长、短文本切换的高效响应。

目前,具有CPU、GPU、NPU三个AI运算引擎的英特尔酷睿Ultra处理器已迅速对此适配,并借助OpenVINO™ 工具套件为MiniCPM 4.0系列模型提供优化的卓越性能表现。英特尔再次在NPU上对模型发布提供第零日(Day 0)支持,为不同参数量模型和应用场景提供更多样化的、更有针对性的平台支持。

•上述测试评估了在int4混合精度和fp16精度设置下1K输入的首词元延迟和平均吞吐量。每项测试在预热阶段后执行三次,选取平均值作为报告数据。性能结果基于以下SKU1或SKU2配置②在长上下文窗口的技术创新方面,英特尔也有了新的突破。依托分块稀疏注意力机制,结合深度算子融合与硬件驱动的算法优化,实现了长文本缓存的大幅锐减,和推理效率的进一步提升。 在保证输出质量的前提下,我们首次在基于英特尔锐炫™ Pro B60上将长上下文窗口扩展至128K。相较于稠密模型,首Token延迟降低了38%③,Token速率提升多达3.8倍③。经过这样的提升,一整部300多页的哈利波特小说,可以在90秒内完成阅读、分析和总结。这不仅极大地提升了AI PC的用户体验,也为解锁更多端侧AI新应用建立了强大的基础。未来,英特尔将持续保持与面壁的深度合作和协同研发,进一步提升长上下文窗口应用的性能。对128K的文本输入进行处理的效果请参考视频演示。

 

在当今数字化时代,人工智能技术正以前所未有的速度发展,英特尔作为全球领先的科技企业和AI PC的发起和倡导者,始终致力于推动端侧AI模型的创新发展。

此次合作不仅彰显了英特尔在AI领域的强大技术实力,也体现了其对创新生态系统的坚定承诺。通过整合双方的技术优势和资源,英特尔平台和MiniCPM 4.0系列模型联合解决方案的广泛应用和落地部署已经奠定了坚实的基础,有望在智能生活、生产力提升等多个场景中发挥关键作用。

展望未来,英特尔将继续与面壁智能保持紧密合作,同时积极拓展合作关系,不断探索AI技术的新边界。英特尔致力于通过持续创新,推动人工智能技术的普及与发展,构建更加智能、高效的未来社会。

快速上手指南 (Get Started)

参考代码:

https://blog.csdn.net/inteldevzone/article/details/148473561

llm-chatbot notebook:

https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/llm-chatbot

GenAI API:

https://github.com/openvinotoolkit/openvino.genai

魔搭社区OpenVINO™专区:

https://www.modelscope.cn/organization/OpenVINO

OpenVINO™ Model Hub:

https://www.intel.com/content/www/us/en/developer/tools/openvino-toolkit/model-hub.html

①基于SD Eagle2 优化前与优化后,2nd token 推理速度的提升

②SKU 1 (Intel® Core™ Ultra 7 258V) Brand: Intel, OEM: Lenovo, Model: Yoga Air 15s ILL9, CPU: Core Ultra 7-258V, Memory: 32GB LPDDR5-8533MHz, Storage: WD PC SN740 1TB, OS: Windows 11, OS Version: 24H2 (26100.4061), Graphics: Intel Arc 140V GPU, Graphics Driver Version: 32.0.101.6790, Resolution: 2880 x 1800 200% DPI, NPU Driver:32.0.100.4023, Software Version: Openvino 2025.2.0-dev20250520, Openvino-genai 2025.2.0.0-dev20250520

SKU2 (Intel® Core™ Ultra 9 285H) Brand: Intel, OEM: Lenovo, Model: Ideapad Pro 5 16IAH10, CPU: Core Ultra 9-285H, Memory: 32GB LPDDR5-8533MHz, Storage: Kioxia KBG60ZNT1T02 1TB, OS: Windows 11, OS Version: 24H2 (26100.4061), Graphics: Intel Arc 140T GPU, Graphics Driver Version: 32.0.101.6790, Resolution: 2880 x 1800 200% DPI, NPU Driver:32.0.100.4023, Software Version: Openvino 2025.2.0-dev20250520, Openvino-genai 2025.2.0.0-dev20250520

③基于Sparse Attention优化前与优化后,输入128K长文本,1st token加载时间缩短 与 2nd token 推理速度的提升

编 辑:T01
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐新闻              
 
人物
韦乐平:大模型时代将开启新一波“光进铜退”
精彩视频
飞象趣谈第二十八期!织网六载,智联万物,中国5G牌照发放六周年
英雄湾的“智”变,探访AI应用标杆示范村
卡奥斯冯兴智:AI赋能工业互联网,重塑全球智造新生态
蓝卓数字科技陈玉龙:以“1+2+N”架构引领工业智能新未来
精彩专题
2025工业互联网大会
2025世界电信和信息社会日大会
第八届数字中国建设峰会
通信产业2024年业绩盘点
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2024 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像