昇腾生态硬核赋能!上交大攻克超长上下文推理难题,性能大幅跃升
随着大语言模型在文本分析、智能问答等场景的广泛应用,处理1M超长文本推理时,常常面临显存不足、运算速度卡顿的行业痛点,严重限制了超长文本场景的应用。近日,上海交通大学李健教授团队依托上海交通大学 鲲鹏昇腾科教创新卓越中心的算力支持,基于vLLM-Ascend 推理框架研发出一套针对超长上下文推理的稀疏注意力 KV Cache 分层缓存管理系统。在昇腾 AI 软硬件平台的全方位赋能下,该项目成功破解单卡支持超长上下文推理的显存与性能双重难题,同时大幅提升吞吐量。

项目核心创新在于设计了 KV Cache 分级缓存集成机制。该机制先对推理任务进行实时分析,智能识别Top-K 重要块并集中算力处理,从源头提升计算效率;同时采用数据冷热分层存储策略,根据数据访问频率,将生成数据动态划分为高频热数据与低频冷数据,再针对性优化存储位置,减少资源浪费。这一机制的落地依托昇腾CANN异构计算架构灵活的动态调度能力,能精准控制冷热数据在显存与主存间的流转,大幅降低数据迁移开销。最终,该方案实现单卡流畅处理超过1M的超长文本推理任务,系统推理吞吐量超过39%,彻底突破传统系统在长序列处理上的显存与性能瓶颈。
同时项目进行了元数据结构优化与缓存机制设计,其中数据索引与掩码是关键支撑 —— 通过精简索引结构、合并掩码维护步骤,有效减少重复运算,使昇腾NPU算力更集中于注意力计算与文本生成等核心任务,提升硬件利用效率。相关优化已通过vLLM-Ascend推理框架灵活集成,保障了技术方案的顺利落地。
目前,该项目源代码已在 Gitee 社区中开源,后续将进一步推送到昇腾开源生态,合入GitHub社区 vLLM-Ascend 项目专区。此次技术突破,不仅为超长文本推理提供了高效解决方案,更印证了昇腾生态在AI创新中的赋能价值。未来,随着该系统在更多行业场景的落地,昇腾将持续为AI技术研发提供算力与技术保障,推动大语言模型在长文本分析、智能办公、数字孪生等千行百业的深度应用,加速人工智能产业化进程。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
中国6G路线图曝光:下一个十年,赢在智联
你有没有想过,未来的手机,可能根本不需要你动手操作?工厂里的机器人会自己开会商量怎么干活;你的日程安排,由一个“数字分身”替你搞定;甚至农田里的每一株作物,都能“主动”告诉系统..[详细]
从“技术验证”迈向“价值认同” 《2025中国5G发展传播力分析》发布
当前,我国5G发展进入与千行百业深度融合、赋能社会数字化转型的关键时期,不仅在网络建设、用户规模和技术应用上取得令人瞩目的成就,更在信息传播的广阔天地中,塑造了前所未有的影响力格..[详细]
一个“变与不变”的英特尔,围绕“芯、新、心”的坚韧与雄起
面对更多“不确定性”未来的世界,当英特尔选择在重庆举办这样一场年度大型活动的时候,或许也与这座城市中的种种“坚韧”答案遥相呼应,从面对人口问题的清朝移民入川,再到第一艘实现川江..[详细]
无线技术持续突破创新,成为推动未来产业发展的关键力量
在全球科技浪潮席卷而来的当下,创新驱动已成为推动经济稳健增长、重塑产业竞争格局的关键。信通院发布的《无线经济发展研究报告(2025 年)》(以下简称《报告》)指出,无线经济作为新经济形..[详细]
简化流程、提升体验,将成为全球eSIM服务目标
当不少人抱怨国内运营商的eSIM激活方式过于死板的时候,已经在全球市场发展了8年的eSIM业务目前正在简化办理流程、提升灵活性上不断发展。eSIM激活方式的体验好坏正在成为全球电信运营商或虚..[详细]













