← 主题阅读
主题阅读

别再问模型够不够强了:先看你拿什么尺子筛世界

2026-04-01

这三篇表面分别在谈 agent 评测、AI 辅助科研和中国 AI 创投观察,底层其实都在追问同一件事:结果从来不是自然涌现的,而是被筛选机制塑形。你用什么指标、容忍什么噪音、奖励什么行为,最后就会得到什么样的智能体、研究成果和创业公司。

🤖 Agent 💰 投资 🏗 构建
1

Deep Agents 评测方法论:少而准,比多而杂更能塑造智能体

这篇文章最有价值的判断是:智能体评测不是中性量尺,而是行为塑形器,因此真正有效的评测必须少而准、贴近真实任务,并同时约束正确性与效率,而不是靠堆 benchmark 制造进步幻觉。

💡 先从 AI 系统内部看:eval 不是验收表,而是行为塑形器;一旦奖励函数写歪,agent 就会在“看起来对”的方向上越跑越远。

🤖 Agent 💰 投资 🎨 创作 12 min
2

两次登顶 Parameter Golf,证明的不是“全自动科研”,而是“人定方向、机做穷举”

这篇文章最有价值的判断是:当前智能体在研究型优化里还远没到“自主发现突破”的阶段,但在明确方向后的高吞吐实验执行上已经非常能打。

💡 再看科研工作流:突破不是机器自己凭空发现,而是人先定义了值得搜索的目标,再把穷举外包给机器;筛选器比算力更决定结果。

🤖 Agent 💰 投资 🏗 构建 15 min
3

中国 AI 两周观察:硬件优势真实,软件叙事过热,创投筛选机制在错杀异类

这篇文章最有价值的判断是“中国 AI 的硬件优势比外界想得更硬”,但它对“中国创始人”和“中国软件”的悲观看法明显样本不足、VC 口味过重,结论有启发却不能照单全收。

💡 最后把镜头拉到产业层:当资本和创投只奖励熟悉模板,整个生态就会系统性错过真正异类但可能更值钱的公司。

💰 投资 🏗 构建 🤖 Agent 8 min

🧵 串联问题

当我们说“想找更好的模型、项目或团队”时,真正该先改的,会不会不是对象本身,而是那套决定谁被看见、谁被奖励、谁被淘汰的筛选尺子?