近日,北航国新院人工智能科研团队的研究论文ContextPRM: Leveraging Contextual Coherence for Multi-Domain Test-Time Scaling,在全球人工智能国际顶级学术会议ICLR上正式发布,标志着团队在大模型复杂推理与泛化能力研究上迈出了重要一步。
论文第一作者为北航人工智能学院2024级硕士生张浩天,通讯作者为北航人工智能学院/国新院人工智能科创中心刘柳教授。研究由北航人工智能学院、国新院、计算机学院联合开展,并联合快手科技、新加坡南洋理工大学、英国莱斯特大学等国内外科研机构与企业合作完成。该项成果彰显了北航青年科研力量在人工智能基础研究领域的原创突破与实力,体现了北航在全球人工智能领域的开放合作姿态与深厚国际影响力。

原文链接:https://openreview.net/forum?id=9H0gBsNjCv
ICLR(International Conference on Learning Representations,国际表征学习大会)是深度学习领域公认的国际顶级学术会议,该会议由图灵奖得主Yoshua Bengio(约书亚·本吉奥)与Yann LeCun(杨立昆)于2013年联合创立,与NeurIPS、ICML并称为机器学习领域三大顶级会议,在谷歌学术会议期刊排名中位列全球前十。会议涵盖了人工智能、统计学和数据科学等多个交叉领域,吸引了全球最顶尖的研究人员参与。本次ICLR2026共接收19000篇投稿,录用率为28%。ICLR2026会议将于2026年4月在巴西里约热内卢举行。
过程奖励模型(Process Reward Models, PRMs)作为大模型推理的“判卷人”,通过测试时扩展(Test-Time Scaling)技术显著增强了模型的数学推理能力。然而,现有PRM多聚焦于数学领域,依赖领域特定的训练数据和知识型学习模式,导致其在法律、历史、哲学等非数学领域的泛化能力受限。针对这一难题,ContextPRM框架创新性地将学习目标从验证单一领域知识的正确性,转变为建模跨领域的“逻辑流(Logical Flow)”。该方法不再仅仅关注推理步骤的独立正确性,而是聚焦于推理步骤之间的“上下文连贯性(Contextual Coherence)”,从而使模型能够像人类一样,通过评估逻辑推演的连贯程度来适配不同学科的推理风格。

△ContextPRM流程图
ContextPRM通过引入一种全新的上下文感知训练方法(Context-Aware Training Method)和配套的数据标注标准,实现了对推理逻辑的深度建模。与传统方法仅关注事实错误不同,该框架引导模型识别逻辑谬误、曲解和无关信息,从而在缺乏特定领域训练数据的情况下,依然能保持强大的评判能力。实验结果显示,ContextPRM在MMLU-Pro的九大非数学领域(包括法律、历史、哲学等)中表现卓越,通过加权多数投票(Weighted Majority Voting)取得了6.5%的平均准确率提升,显著超越了现有的多领域最先进模型 VersaPRM(2.2%)以及其他专注于数学的奖励模型。这一成果证明了通过学习通用的逻辑结构,可以有效打破大模型推理的领域壁垒。


△ContextPRM主要实验结果
ContextPRM的提出是北航人工智能科研团队在基础理论和工程创新结合上的又一次成功探索,也展示了学校在培养具有国际竞争力青年科研人才方面的持续投入与成果转化能力。未来,团队将继续深入探索大模型在开放域任务中的逻辑推理机制与自适应学习能力,推动人工智能技术适配更复杂、更广阔的应用场景,从“专用解题”迈向“通用思考”。
人工智能科创中心
人工智能科创中心聚焦精准智能、可信智能与具身智能三大方向,服务国家战略与区域经济,致力于突破AI“卡脖子”问题,构建“基础研究-技术攻关-产业应用”全链条创新体系,建设国际一流团队,培养高端AI人才。精准智能部以跨尺度感知与自适应智能为核心,围绕跨尺度智能和类脑智能,构建脑启发多模态平台,解析人脑数理逻辑与神经机制,发展融合先验知识的智能方法,形成高精度、高稳定、可信赖的理论体系。可信智能部致力于构建安全可信、可解释的AI系统,聚焦神经网络可解释性、大模型训练推理机制与隐私保护,融合内生机理与外部评估,建立可靠智能架构。具身智能部主攻具身智能与群体协同,研发高保真仿真与分布式训练系统,大小模型协同控制及机理嵌入的群智决策,实现智能体精准操作与多体高效协作,打造强鲁棒、高泛化、优决策的解决方案,推动智能家居、低空经济、灾害应急等应用,赋能可持续发展。

(审核:董卓宁 陈龙飞 吴文峻)