ArXiv: 2511.23473 - ThetaEvolve: Test-time Learning
核心命题: 让小规模模型(如 8B)通过“推理时学习 (Test-time RL)”,在数学和算法发现上超越巨型闭源模型。
1. ThetaEvolve 核心机制
🔹 推理时强化学习 (Test-time RL)
模型在解决特定问题时,通过不断尝试、获取反馈并进行 即时强化学习,使其能够内化并演化出更优的解题策略。
🔹 程序数据库 (Program Database)
建立一个大型的程序库用于增强探索,通过批量采样和延迟惩罚(Lazy Penalties)来鼓励模型跳出陈规。
2. 对 Weco-Hybrid 的实战意义
- 算力民主化: 证明了使用 8B 的 OpenCode 模型配合精准的演化框架,完全可以产生 SOTA 级别的结果。
- 内化演化: 我们的子 Agent 在执行审计时,不仅仅是运行脚本,还应记录失败路径以调整后续的探测策略。
3. 战绩摘要
Qwen3-8B 击败 AlphaEvolve | 数学优化问题新界限 | 全开源框架
返回论文列表 | 返回内核