2026年大模型战争进入第二幕。由 Claude Opus 4.6、OpenClaw 等技术变量触发,AI 范式发生根本性巨变。
从 Pre-train(预训练)主导的 Chat 时代,全面转向 Post-train(后训练)主导的 Agent 时代。
Agent 范式极度依赖后训练(Post-train),特别是 RL 的 Scaling。团队必须具备足够敏捷性,快速开发适配新时代的 RL Infra 系统。接下来两三个月是考验团队研究水平与技术拥抱能力的关键期。
1T 模型是当前阶段的基准入场券。MiMo-V2 系列即在此规模下实现能力跃升。
不会在 1T 水平停留太久。需立即决策:是 Scaling 参数量,还是 Scaling 其他维度?
在何种芯片架构上进行 Scaling?硬件选型直接决定大半年后的技术领先度。
Pre-train 代差已基本抹平。国内团队全面 All-in Agent Post-train。技术追赶从“补基础”转向“拼敏捷”。
“每天在否认昨天的自己。”AI 没有生存危机,但面临范式转折。一线经验与真实环境比过往理论更重要。