ArXiv: 2511.23473 - ThetaEvolve: Test-time Learning

核心命题: 让小规模模型(如 8B)通过“推理时学习 (Test-time RL)”,在数学和算法发现上超越巨型闭源模型。

1. ThetaEvolve 核心机制

🔹 推理时强化学习 (Test-time RL)

模型在解决特定问题时,通过不断尝试、获取反馈并进行 即时强化学习,使其能够内化并演化出更优的解题策略。

🔹 程序数据库 (Program Database)

建立一个大型的程序库用于增强探索,通过批量采样和延迟惩罚(Lazy Penalties)来鼓励模型跳出陈规。

2. 对 Weco-Hybrid 的实战意义

3. 战绩摘要

Qwen3-8B 击败 AlphaEvolve | 数学优化问题新界限 | 全开源框架


返回论文列表 | 返回内核