AI拍照解题技术新突破,传音相关研究成果入选计算机视觉顶会CVPR 2026
传音持续深化AI领域的产学研协同,积极推动与国内外知名高校的深度合作,围绕AI视觉、语音、语言与大模型等方向推进协同创新。日前,传音TEX AI中心与中山大学、穆罕默德·本·扎耶德人工智能大学(Mohamed bin Zayed University of Artificial Intelligence,简称MBZUAI)联合开展的“拍照解题”项目研究取得重要进展,相关成果论文已被计算机视觉领域的国际顶级学术会议CVPR 2026正式录用。

CVPR是IEEE主办的计算机视觉与模式识别领域的顶级会议,是中国计算机学会(CCF)推荐的A类会议,它与ICCV、ECCV并称为计算机视觉领域“三大顶会”。据最新数据,CVPR 2026共有逾三万人投稿,在进入评审流程的16,092篇有效文章中,最终接收率仅25.42%,每篇论文都必须通过3-5位全球顶尖专家的双盲评审。

近年来,AI大模型在逻辑推理与复杂问题求解方面的能力持续提升,但在实际应用中,其在复杂数学题上的处理表现仍存在不足。例如,解题结果正确但推理过程存在逻辑漏洞,或步骤看似完整但实际推导错误。这类问题在学习场景中尤为关键,相较于答案本身,推理过程的准确性更直接影响学生对知识的理解与掌握。
针对这一问题,传音TEX AI中心与中山大学、MBZUAI团队合作,开发了CARE(Contrastive Anchored REflection)技术,从训练机制上对传统路径进行了优化。不同于仅以“结果对错”作为反馈信号的方式,CARE技术将关注点前移到推理过程本身,重点引入“高质量错误样本”——即那些接近正确但存在关键步骤偏差的解题路径。通过将这类样本与标准解法进行对比分析,并结合反思式重推理机制,模型能够识别具体错误环节,并完成自我修正,从而形成更稳定、连贯的推理能力。在引入反思机制后,模型对复杂问题的二次推理成功率由约10%–19%提升至76.6%,有效增强了面对复杂题目时的稳定性。
此外,CARE技术还引入“救援机制”:即使多次尝试均未得到正确结果,系统仍会从已有错误路径中筛选出“相对最优解”,作为进一步学习的起点,使模型在复杂问题下仍能持续优化推理能力。

在实际效果上,该方法显著提升了模型的解题质量。在MathVista(图像数学推理)测试中,CARE准确率比传统方法的68.9%高13.2个百分点,提升至82.1%;在MMMU-Pro(多学科综合推理)测试中,CARE将准确率从36.4%提升至46.7%。整体来看,CARE 比传统方法平均提升 4.6 个百分点。
目前,该技术已进入产品化阶段,并逐步应用于传音手机智能助手中。基于CARE优化后的能力,传音手机智能助手拍照解题功能在输出结果时不仅能够提供答案,还能呈现更清晰、结构更完整的解题步骤,在面对多步骤推导问题时也更不容易出现逻辑中断或错误累积。这种“过程可解释”的能力,使AI从单纯的解题工具,进一步向“可辅助理解”的学习工具演进。
拍照解题是传音在 AI 教育应用上的重要方向。在非洲、南亚等地区,教育资源相对稀缺,部分家庭在课后辅导方面仍面临一定困难。传音推出的拍照解题功能为学生提供即时的解题思路与步骤解析,在一定程度上弥补学习支持资源的不足,帮助用户更高效地理解知识点,提升学习效率,让前沿科技真正服务于每个人的生活。
随着AI技术持续向真实场景渗透,AI已经成为理解用户需求、创造新体验的重要工具。传音积极将 AI 能力深度融入社交、出行、健康、教育等高频场景,让技术从“可用” 变为“真实可感”,实现用户的体验升级。此次联合研究成果的落地,也为AI在教育场景中的进一步应用提供了新的技术路径与实践基础。通过持续推进以用户需求为导向的技术创新,并深化与高校的协同研发,传音正不断将前沿AI能力转化为可落地的产品体验,让更多用户能够享受到AI带来的便利。
1.本网刊载内容,凡注明来源为“飞象网”和“飞象原创”皆属飞象网版权所有,未经允许禁止转载、摘编及镜像,违者必究。对于经过授权可以转载,请必须保持转载文章、图像、音视频的完整性,并完整标注作者信息和飞象网来源。
2.凡注明“来源:XXXX”的作品,均转载自其它媒体,在于传播更多行业信息,并不代表本网赞同其观点和对其真实性负责。
3.如因作品内容、版权和其它问题,请在相关作品刊发之日起30日内与本网联系,我们将第一时间予以处理。
本站联系电话为86-010-87765777,邮件后缀为cctime.com,冒充本站员工以任何其他联系方式,进行的“内容核实”、“商务联系”等行为,均不能代表本站。本站拥有对此声明的最终解释权。
2026十大科技趋势
2026 十大科技趋势,定义新一年的每一次突破。祝大家马年大吉,马到成功!初八启新程,万事皆顺遂!
[详细]
直击数智化创新一线:探访河南向新之力
数智浪潮奔涌向前,创新动能生生不息。近日,飞象网记者跟随“数智河南 多彩中原”河南新质生产力主题媒体探访活动赶到郑州、开封等地,直击数智化创新一线。从农业生产到乡村管理,从文旅产..[详细]
敲开苹果护城河,安卓厂商聚焦兼容苹果生态
要说苹果iPhone的优势在哪?很多用户最舍不得抛弃的一点莫过于与Mac、iPad设备的优秀生态兼容性,无论是一点即传的AirDrop,还是随时自动同步iCloud,这一生态能力某种程度上也成为苹果维持..[详细]
6G要爆发?原型机密集发布,6G三大技术集体亮相
2026年以来,全球6G发展加速驶入快车道,6G的标准制定、原型研发、技术突破、产业规划等均取得标志性进展。3GPP已启动6G标准起草工作,进入规范制定关键窗口;ITU也发布相关报告,明确6G关键..[详细]
三大运营商2025年报:营收稳中有进 算力等新兴产业成效显现
近日,中国移动、中国电信、中国联通三大电信运营商2025年年度报告已全部对外披露。作为我国数字经济发展的“国家队”与主力军,三大运营商在2025年顶住行业竞争加剧、传统业务增长趋缓等多..[详细]
告别“大黑屏” 智能手机如何走出增长困局?
从首款智能手机问世至今十余年间,这块握在掌心的 “大黑屏” 曾凭借不断刷新的硬件参数掀起一轮轮换机潮,成为移动互联网时代的核心载体。但如今,全球手机市场早已告别高速增长,换机周期..[详细]
中国电信2025年财报透视:双轮融合发力 “AI+”重构增长逻辑
2025 年,中国电信紧扣数字经济与人工智能发展浪潮,完成云改数转向云改数转智惠的战略升级,全年经营业绩稳健收官,核心业务稳固、创新业务高增、数字基建持续加码,在算力、AI、量子、低空..[详细]
当速率不再是核心主题,5G网络好坏如何重新考量?
回首5G网络部署之初,宣传口径往往聚焦于“速率”,但历经时间的反复押韵,很多受众都发现,原来“看电视”这项用例,可以从3G一直宣传到5G。而当如今人们在谈论6G的时候,终于不用再看到满..[详细]
刘烈宏:以高质量数据赋能AI创新,加快培育智能经济新形态
当前,人工智能发展正经历着一场前所未有的加速演进,一个又一个热点事件接连涌现。在技术创新与商业应用的双轮驱动下,人工智能产业规模持续增长,从去年春节DeepSeek开源模型出圈,到机器..[详细]
AI赋能中小企业仍处于初期探索阶段
新一代人工智能正在全球范围蓬勃兴起,成为新一轮科技革命和产业变革的战略性技术和重要驱动力量。开展人工智能赋能中小企业高质量发展研究,既是人工智能技术推进规模化商业化应用、加速向..[详细]













