最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
Aryabhata 2用强化学习扩展高级STEM推理能力
时间:2026-06-04 19:10:01 编辑:袖梨 来源:一聚教程网
Aryabhata 2 发布:用强化学习把 STEM 推理能力拉到新高度
近日,一款名为 Aryabhata 2 的推理大模型正式亮相,专攻 JEE、NEET 这类高难度 STEM 考试。它靠强化学习训练,能处理物理、化学、数学中那种多步骤符号推理和精确数值计算——说白了,就是让 AI 学会像学霸一样一步步解题,而不是瞎猜答案。这模型真能做到吗?咱们往下看。

为什么普通大模型搞不定 STEM 难题?
常见的大语言模型在通用推理测试上分数挺高,可一遇到 JEE、NEET 这种竞争性考试就露怯了。原因很简单:这类题目需要连续几层逻辑推导,每一步都不能出错,还得对概念有深层理解。你可能会问,为什么不让模型直接背答案?因为考题千变万化,背题根本行不通。而 Aryabhata 2 走的路线正是强化学习——让模型在试错中自己总结解题策略,这招确实比单纯靠数据训练来得更有效。
强化学习到底怎么“教”AI 解题?
Aryabhata 2 的训练思路其实挺直观:给它一堆题目,让它尝试解答,然后根据答案对错和推理过程质量给奖励信号。模型慢慢就会学会:哪种推理路径容易得高分,哪些弯路该避开。整个过程可以拆成三步:
- 第一步:给模型一道物理题(比如力学综合),它先试着写出步骤。
- 第二步:对照标准答案和步骤合理性打分——对了加分,关键步骤漏了扣分。
- 第三步:模型根据分数调整内部参数,下一轮做得更好。
反复迭代几百万次后,Aryabhata 2 就练出了在数学、化学、物理之间灵活切换推理的能力。
这种能力扩展意味着什么?
对于备考学生来说,Aryabhata 2 相当于一个能 24 小时随时帮忙的“私人教练”。它不会只给个答案,而是把你的思考步骤拆开,指出哪一步逻辑有问题。想象一下,你正在解一道复杂的电磁感应题,写到一半卡住了——模型能直接在你当前步骤上给出提示,是不是比翻答案书爽多了?这种精细化辅导,以前的通用模型根本做不到。
不过别高兴太早,Aryabhata 2 现在还在 arXiv 上挂着论文
目前公开的信息来自预印本《Aryabhata 2: Scaling Reinforcement Learning for Advanced STEM Reasoning》。研究人员强调,模型在竞争性考试中的表现依赖于大规模部署——毕竟几百万学生的疑问量,推理速度和质量必须平衡。至于何时能真正落地使用,官方还没给时间表。但有一点可以确定:用强化学习扩展高级 STEM 推理能力这条路,已经被 Aryabhata 2 给跑通了。