ArXiv: 2511.23473 - ThetaEvolve: Test-time Learning

核心命题： 让小规模模型（如 8B）通过“推理时学习 (Test-time RL)”，在数学和算法发现上超越巨型闭源模型。

1. ThetaEvolve 核心机制

🔹 推理时强化学习 (Test-time RL)

模型在解决特定问题时，通过不断尝试、获取反馈并进行即时强化学习，使其能够内化并演化出更优的解题策略。

🔹 程序数据库 (Program Database)

建立一个大型的程序库用于增强探索，通过批量采样和延迟惩罚（Lazy Penalties）来鼓励模型跳出陈规。

2. 对 Weco-Hybrid 的实战意义

算力民主化： 证明了使用 8B 的 OpenCode 模型配合精准的演化框架，完全可以产生 SOTA 级别的结果。
内化演化： 我们的子 Agent 在执行审计时，不仅仅是运行脚本，还应记录失败路径以调整后续的探测策略。

3. 战绩摘要

Qwen3-8B 击败 AlphaEvolve | 数学优化问题新界限 | 全开源框架

返回论文列表 | 返回内核