要真正回答这一课题,我们需要全新的动态评测框架与训练机制:不仅能测量模型在交互中的表现,还能驱动其学会在用户不确定与多目标的世界里,问之有道,断之有衡,答之有据。UserBench 提供了一面 “明镜”,让…