快手全新「检索数据引擎」CroPS 入选AAAI 2026 Oral
短视频搜索业务是向量检索在工业界最核心的应用场景之一。然而,当前业界普遍采用的“自强化”训练范式过度依赖历史点击数据,导致系统陷入信息茧房,难以召回潜在相关的新鲜内容。针对当前挑战,快手搜索团队提出了CroPS框架,从根源上打破数据闭环。目前,CroPS已在快手搜索业务中实现全量部署,服务亿级用户。
本工作相关成果《CroPS: Improving Dense Retrieval with Cross-Perspective Positive Samples in Short-Video Search》已被人工智能顶级会议AAAI 2026 Oral接收。

为了打破数据边界,CroPS 框架构建了一个包含三个维度的正样本增强引擎,分别利用用户换Query行为、推荐系统反馈以及大语言模型(LLM)的世界知识,来全方位地丰富语义空间。围绕这一目标,CroPS 分别从查询行为、系统反馈和外部知识三个层面展开。

在真实的搜索场景中,用户往往难以一次性精准表达意图。当用户输入查询词A 却未能找到满意结果时,通常会进行查询重构,输入语义相关但表述不同的查询词B。CroPS 通过分析用户在短时间窗口内的改写序列,将改写后获得的成功点击回流给原始查询,利用用户的修正行为来纠正模型的语义偏差。
推荐系统拥有海量用户消费数据,其算法机制天然倾向于发散和探索。CroPS 建立了一套跨系统的信号桥接机制:对于同一个用户,如果他在推荐信息流中深度消费了某个视频,且该视频在语义上与用户近期的搜索词高度相关,该视频就会被引入作为搜索模型的正样本。
当平台现有的内容库或日志无法覆盖某些长尾、复杂查询时,CroPS 引入大语言模型(LLM)作为虚拟检索器和内容生成器,利用 One-shot Prompting 策略生成高质量合成样本,将外部世界的常识与逻辑蒸馏进检索模型中。
在多源正样本被引入之后,如何让模型有效利用这些信号,同样成为训练阶段的关键。HLA 的核心是解决 CroPS 多源正样本的可靠性差异问题,通过为样本分配分层标签,让模型能够学习更细粒度的相关性。H-InfoNCE 在训练时,将当前样本与标签严格低于它的所有样本进行对比,使学习目标与 HLA 的层级逻辑完全对齐。
这一系列设计共同构成了 CroPS 在工业检索场景中的完整解决方案。CroPS 证明了在工业检索系统中,正样本增强是缓解信息茧房问题的有效钥匙。未来,快手搜索团队将进一步探索 CroPS 与生成式检索(Generative Retrieval)方法的融合,持续挖掘大规模语言模型在搜索全链路中的潜力。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
盘点2025|光纤光缆:周期性放缓之下,确定性开始凸显
在2025年,光纤光缆厂商们习惯于用“周期性”一词来描述当前的困难,相比于宽带普及、4G升级换代带来的流量需求猛增这一巨大业务增长。可如今在刷着短视频、看着带货的新日常生活常态下,尽..[详细]
盘点2025|人工智能:破局前行、以智启新,同赴人机共生新未来
2025年,人工智能行业迎来技术迭代与价值落地的双重关口。这一年里既延续着近年来的高速增长态势,也迎来从野蛮生长向规范提质的深刻转型。 [详细]
盘点2025|算力行业:量质齐升的进阶之路
在数字经济加速渗透全球经济社会各领域的今天,算力已成为继电力、水资源之后的关键生产要素,是支撑数字中国建设、推动高质量发展的核心基础设施。算力的规模与质量直接决定了数字经济的发..[详细]
盘点2025|芯片:AI依旧是挖潜点,应用进一步多样化
时至2025年年底,人们已经开始渐渐习惯,有事听听AI给出的参考意见。其背后的算力支撑也在逐步加强,像是更先进的制程,以及向更多端侧设备的拓展。另一方面,AI又一石激起千层浪,机遇与需..[详细]
盘点2025 | 从5G到6G:深耕与突破并行,开启智能连接新纪元
2025年,全球通信产业站在了一个关键的历史交汇点。这一年既是“十四五”规划的收官年,5G建设成果全面转化的验收年,也是“十五五”规划启幕,6G布局从技术探索迈向工程落地的奠基之年,更..[详细]
盘点2025|量子信息:三大领域技术持续演进,产业发展未来可期
以量子计算、量子通信和量子精密测量为代表的量子信息技术是挑战人类调控微观世界能力极限的世纪系统工程,是对传统技术体系产生冲击、进行重构的重大颠覆性创新,将引领新一轮科技革命和产..[详细]
盘点2025|2025年智能终端趋势洞察:AI重构体验,超级终端时代加速到来
2025年,全球智能终端行业站在了技术革新与生态重构的十字路口。AI技术的规模化渗透、折叠屏形态的成熟落地、跨设备协同的深度演进,正在重塑终端产品的价值逻辑与市场格局。[详细]
联发科“双芯”齐发:天玑9500s、8500以旗舰级性能搅动市场
近日,联发科正式发布了最新款天玑9500s、天玑8500芯片,这两款芯片采用了全大核设计、顶级GPU和NPU,在性能、能效、AI、影像、游戏和无线连接等方面都有更为优异的表现,预计将成为2026年旗..[详细]
AI时代网络威胁激增,政策技术双轮驱动进一步筑牢安全屏障
2025年以来,人工智能技术迎来跨越式发展,大模型训练成本持续降低,智能体化应用快速普及,“AI+”浪潮深度渗透政务、金融、医疗等关键领域,成为驱动经济社会发展的核心引擎。然而,技术的..[详细]
未来信息之路消失的摩擦力,中国空芯光纤开启Pbps通信新时代
继我国首条空芯光纤商用线路开通后,在2025年底,亨通光电中标中国移动宁夏空芯光缆项目;2026年初,我国三大运营商也同步部署了空芯光纤线路。空芯光纤的突破不仅使光信号传输逼近真空光速..[详细]













