首页|必读|视频|专访|运营|制造|监管|芯片|物联网|量子|低空经济|智能汽车|特约记者
手机|互联网|IT|5G|光通信|人工智能|云计算|大数据|报告|智慧城市|移动互联网|会展
首页 >> 移动互联网 >> 正文

快手发布多模态大模型Keye-VL-1.5 8B性能领先、视频理解能力更强

2025年9月11日 15:53  CCTIME飞象网  

近日,快手正式发布多模态大语言模型Keye-VL-1.5-8B。与之前的版本相比,Keye-VL-1.5的综合性能实现显著提升,尤其在基础视觉理解能力方面,包括视觉元素识别、推理能力以及对时序信息的理—表现尤为突出。Keye-VL-1.5在同等规模的模型中表现出色,甚至超越了一些闭源模型如GPT-4o。

创新性提出慢快编码策略 兼顾性能与成本

为了在短视频理解任务中同时实现高准确性与高效率。Keye-VL-1.5 创新性地提出了慢快编码策略 (slow-fast),该策略设置慢通路处理快速变化帧(低帧数-高分辨率),快通路处理静态帧(高帧数-低分辨率),从而在节省计算资源的同时保留关键信息。

渐进式四阶段预训练方法 大幅增强视频理解能力

Keye-VL-1.5采用四阶段渐进式训练流水线,以系统化方式提升模型性能。首先,在视觉编码器预训练阶段,使用SigLIP-400M权重初始化ViT,并通过SigLIP对比损失持续预训练以适应内部数据分布。第一阶段重点优化投影MLP层,实现跨模态特征的稳固对齐;第二阶段解冻全部参数进行端到端多任务预训练,显著增强基础视觉理解能力;第三阶段进行退火训练,利用高质量数据微调模型,弥补上一阶段中高质量样本接触不足的问题,同时将序列长度扩展至128K、调整RoPE逆频率配置,并引入长视频、长文本和大尺度图像等长上下文数据。

最终,通过同质-异质融合技术对不同数据混合比例下的模型权重进行平均,减少固定数据比例带来的内在偏差,在保持多样化能力的同时提升模型的鲁棒性。

构建一套完整的后训练流程 全面提升推理能力与人类偏好对齐

Keye-VL-1.5构建了一套系统化的后训练流程,包含四个核心阶段:监督微调与多偏好优化、长链思维冷启动、迭代通用强化学习以及对齐强化学习。该流程进一步融合了由快手Keye团队提出的五步自动化数据构建流水线,并依托GSPO算法对通用强化学习与对齐阶段进行迭代优化,显著增强了模型的推理能力,同时更好地与人类偏好实现对齐。

在多项权威评测中,Keye-VL-1.5-8B表现突出,在MMMUval、OpenCompass等大型多模态评测中达到同类规模最佳成绩,在Video-MMMU视频理解评测中取得66分,展现出领先的视频语义理解与技术落地潜力。

此外,Keye-VL-1.5-8B目前已在Hugging Face、GitHub等平台开源,相关技术报告同步发布,推动多模态大模型技术共享与生态共建。

快手Keye团队表示,该模型依托快手在短视频领域的深厚积累,在视频时序理解、场景推理与指令跟随等关键能力方面优势显著。未来,Keye-VL将持续推进多模态大模型在视频语义理解与生成领域的探索与应用。

项目主页与技术报告:https://arxiv.org/pdf/2509.01563

Githubhttps://github.com/Kwai-Keye/Keye

Model:https://huggingface.co/Kwai-Keye/Keye-VL-1.5-8B

编 辑:T01
飞象网版权及免责声明:
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
推荐新闻              
 
人物
中国移动董事长杨杰:激发数据要素潜能,共谱“AI+”时代华章
精彩视频
聚光成炬,赋能创新!带你看看第26届CIOE中国光博会,今年有什么不一样?
中国科学院微电子研究所原所长叶甜春:光电技术和半导体是数字经济时代的核心驱动力
中国光学学会顾瑛:这是全球光电人共同的家园
智见未来!2025智博会开启智能世界新篇章
精彩专题
第26届中国国际光电博览会
2025中国算力大会
ICT产业2025年中业绩盘点
2025世界人工智能大会暨人工智能全球治理高级别会议
关于我们 | 广告报价 | 联系我们 | 隐私声明 | 本站地图
CCTIME飞象网 CopyRight © 2007-2025 By CCTIME.COM
京ICP备08004280号-1  电信与信息服务业务经营许可证080234号 京公网安备110105000771号
公司名称: 北京飞象互动文化传媒有限公司
未经书面许可,禁止转载、摘编、复制、镜像