在这 18 个失败案例中, 12 个是测试数据集自身的问题,只有 6 个是 Agent 本身的问题,比如调研不充分或过早放弃,但 Agent 没有做任何违反规则的事情。在很多场景下,特别是当输入是纯文本、规…