今天分享的是:大语言模型心理测量学系统综述:评估、验证、增强
报告共计:63页
该文档系统综述了大语言模型心理测量学(LLM Psychometrics)这一新兴交叉领域,旨在借助心理测量学的工具、理论和原则,对大语言模型(LLMs)进行评估、理解与增强。
传统AI评估方法难以应对LLMs带来的新挑战,如测量类人心理结构、突破静态特定任务基准等,而心理测量学在量化人类心理无形方面有百年积淀,二者的融合形成了这一新兴领域。其定义为通过应用和整合心理测量工具、理论与原则,量化、解释、操控和改进LLMs所展现的类人复杂属性与行为,涵盖人格结构和认知结构等。
文档构建了该领域的结构化框架,核心测量框架包括心理结构测量(如人格特质、价值观等)、评估方法(涉及测试格式、数据来源等)以及结果验证(可靠性和有效性等)。同时,还探讨了基于心理测量学的LLMs增强策略,如特质操控、安全与对齐、认知增强等。
研究发现,LLMs在人格、价值观等方面呈现出特定模式,且存在模型间差异和情境依赖性。但当前领域存在诸多挑战,如心理测量验证的不足、从人类构念到LLM构念的转变问题、拟人化挑战等。未来需在多维度扩展评估、应用项目反应理论、从评估转向增强等方向深入探索,以推动类人AI评估范式发展和以人为本的AI系统进步。
以下为报告节选内容