Meta最新论文Deep Think with Confidence

Meta AI与UCSD联合发布的论文《Deep Think with Confidence》(DeepConf)原文可通过以下链接获取:

论文原文:https://arxiv.org/pdf/2508.15260


核心内容翻译与解读

  1. 研究背景

传统自一致性方法(Self-Consistency)通过生成多条推理路径并投票提升准确率,但存在两大问题:

• 计算成本高:例如在AIME 2025数学竞赛中,Qwen3-8B模型需生成511条路径才能将准确率从68%提升至82%,消耗上亿token。

• 收益递减:路径数量增加时,准确率提升趋缓甚至下降,且全局置信度(如平均置信度)无法区分路径质量差异。

  1. DeepConf方法

核心思想:利用模型内部的置信度信号,动态过滤低质量推理路径,无需额外训练或调参。

• 置信度指标:

• Token级:Token熵(衡量模型对下一个词的不确定性)、Token置信度(负对数概率均值)。

• 轨迹级:组置信度(滑动窗口内平均置信度)、尾部置信度(关注结论部分)、最低组置信度(识别最薄弱环节)。

• 工作模式:

• 离线模式:生成所有路径后,通过置信度加权投票或过滤低置信路径。

• 在线模式:实时监控置信度,低于阈值时提前终止路径,显著减少计算量。

  1. 实验结果

• 准确率提升:

• 在AIME 2025上,GPT-OSS-120B模型使用DeepConf@512达到99.9%准确率(传统投票为97.0%)。

• DeepSeek-8B在HMMT 2025上准确率从70.3%提升至79.7%。

• 效率优化:

• 在线模式平均减少62.9%的token生成量,GPT-OSS-120B在AIME 2025仅需0.49亿token(传统方法3.23亿)。

• DeepConf-low(激进过滤)最高节省84.7%的token,准确率仅小幅下降。

  1. 技术优势

• 零训练开销:直接利用模型现有能力,无需修改架构或超参数。

• 多场景适配:在数学竞赛(AIME/HMMT)、专业问答(GPQA)等任务中均有效。


重要图表(来自论文)

  1. 置信度分布对比:正确路径的置信度显著高于错误路径,尤其在尾部与组置信度指标下差异明显。
  2. 效率-准确率权衡:DeepConf在减少84.7% token的同时保持高准确率,验证了其实用性。

如需进一步技术细节(如算法伪代码、置信度计算公式),可参考论文原文或开源代码库(项目页:jiaweizzhao.github.io/deepconf)。