注:Minecraft一般中译为我的世界
作者 | 刘梓晴、牛天颖
为什么要用Minecraft测智力?
在讨论这个问题前,小编认为可以先了解一下用游戏评估个体的能力有什么好处。
基于游戏评估的优势
我们来想想,您以前接触过的智力测验,都长什么样儿的?
在手机上填问卷?还是说用纸笔作答?
在填写的时候你会想:啥时结束啊?怎么还有那么多道题啊?
如果有过类似想法的话,那就对了,用Minecraft测量个体的能力水平其实就是为了缓解大家的这种消极情绪。
换言之,基于游戏的评估(Game-based Assessment, GBA)可以解决传统智力评估的两大局限性。
第一,增加智力评估测验中材料的真实性。传统智力评估所使用的材料基本都为静态及二维材料,而GBA则可以使受测者在较为真实的、三维空间内对测试问题进行解决,提高评估准确性。
第二,增加受测者在测试过程中的乐趣,最大限度激励受测者努力完成测试任务。传统智力评估所使用的测试方式大多数为纸笔或问卷测验,受测者在作答过程中可能会感到无聊,而GBA可以一定程度降低这种负面影响。
另外,传统智力测验基本上只能采集到结果数据,而GBA可以采集受测者在游玩(测试)过程的数据,这样能够得到更丰富的信息,对于测量个体的能力也提供更多证据和准确性。
哇,既然GBA有那么多好处,怎么现在还不大力推行呢?
其实吧,想要开发或寻找一款适合对能力进行测评的游戏并不容易。
具体而言,开发一款GBA需要花费大量时间和需要具有丰富的专业知识。
比如说我们需要一个具有专业心理测量学知识和精通编程的团队来开发游戏。
也因为上述条件比较苛刻,所以说,目前还是有比较多的学者会采用现成的游戏去测量个体的认知和非认知能力。
例如Peters、Kyngdon及Stillwell的研究 “Construction and validation of a game-based intelligence assessment in minecraft ”正是运用这种方法:
即基于目前应用十分广泛的Cattell-Horn-Carroll(CHC)模型,利用现有的商业游戏Minecraft(我的世界)测量个体的流体智力和视觉空间推理能力。
接下来我们一起看看学者们都设计了什么游戏,以及了解一下他们是怎么测量这两条能力的吧~
Cattell-Horn-Carroll(CHC)智力理论
CHC理论是将卡特尔和霍恩的流体智力—晶体智力理论以及卡罗尔的认知能力三层模型理论融合在一起的智力理论。
由于CHC理论覆盖的能力范围十分广泛,因此,这个理论已被广泛应用于心理学和教育评估领域。
其中:
1.流体智力:指一种解决问题的能力,包括归纳、演绎和逻辑推理等思维过程。
2.空间推理能力:指个体通过感知和处理空间信息的能力,如对环境中物体、位置、方向和关系等空间特征进行感知和理解。
而刚才提到的流体智力和视觉空间推理能力分别为图中的Gf和Gv。
Buckley, Jeffrey. (2018). Investigating the role of spatial ability as a factor of human intelligence in technology education: Towards a causal theory of the relationship between spatial ability and STEM education.
游戏介绍
1. 图案补全任务(测量流体智力)
根据所给予的三个已知图形(如下图)去补全第四个图形,需在限时100秒内完成,如果在限定时间完成且按照正确模式填充图案,则答案视为正确,反之,而难度会按照需推理方块数量和类型的增加而增加。
图一:图案补全任务(测量流体智力)
2. 心理旋转任务(测量视觉空间推理能力)
在每个关卡中,参与者会看到四个立体结构,他们需要"找不同"。也就是说,其中有一个结构不能通过旋转其他三个结构来得到。难度会随着三维立体结构旋转幅度、方块量的增加而增加。同样地,参与者有100秒的时间来回答。
图二:心理旋转任务(测量视觉空间推理能力)
3. 空间构建任务(测量视觉空间推理能力)
根据左边已呈现的三维模型结构复制到指定区域内,难度会随着三维模型的复杂度增加而增加,同样也是100秒内限时作答。
图三:空间构建任务(测量视觉空间推理能力)
实验流程
在被试方面,以方便取样抽取130名学生,女生73名,男生57名。
其中有116人以前玩过Minecraft,年龄从10岁到12岁不等。
实验主要分为两个阶段:
1. Minecraft游戏测评。需完成三个游戏测评(即图案补全任务、心理旋转任务和空间构建任务),接着完成一份关于游玩Minecraft时的享受程度问卷调查。
2. 纸笔测验。需完成传统的心理旋转测验(Vandenberg & Kuse Mental Rotations Test)以及瑞文标准推理测验(Raven's Standard Progressive Matrices)。
无论是游戏测评或者是纸笔测验,均测量了被试的流体智力和视觉空间推理能力。
主要研究结果
1. 根据Rasch模型拟合结果来看,以Minecraft测量心理旋转的任务违反了单维性假设。也即是说,该任务可能不止测量个体的视觉空间推理能力。
2. 信度:Minecraft中的图案补全任务、心理旋转任务和空间构建任务的Cronbach's alpha系数分别为0.735、0.61和0.76。从心理测量学属于来说,信度尚可接受。
3. 验证性因素分析:撇除心理旋转任务,仅包括图案补全任务和空间构建任务的两因素模型的拟合效果更优(CFI = 0.97,RMSEA = 0.031)。
4. 传统与游戏智力分测验的相关性:Minecraft的图形补全任务与瑞文标准推理测验的相关为0.28,Minecraft与传统心理旋转任务的相关为0.39,Minecraft的空间构建任务与传统心理旋转任务的相关为0.39。
5. 传统与游戏智力总测验的相关性:由下图可见,Minecraft测验与传统智力测验的相关达0.72,属高相关。
图四:传统与游戏智力总测验的相关性
6. 在空间构建任务中,性别因素存在显著组间差异。具体而言,男性♂️比女性♀️在该任务中表现更好,但在传统智力测验中并未体现出这种优势。
7. 游玩Minecraft经验丰富程度的多少会影响个体完成空间构建任务的表现。
小编有话说
从整体结果上来讲,除了心理旋转的任务心理测量学属性不算良好以外,其余Minecraft智力游戏表现良好。至少从信度和效度上来说处于可接受和拟合良好的效果。
以及从两种不同的智力测评工具的相关程度来看,个人认为相关程度能够达到0.72已经算是很不错。
毕竟从形式上来看,Minecraft测量的是三维空间中的流体智力和空间推理能力,而传统智力测验通常是在二维平面上进行评估。
也即是说,第一,测量工具的不同可能会降低两者的相关程度。
第二,个体在进行游戏测评时受到其他无关因素的影响,可能都会导致两种方法无法达到更高程度的相关性。
第三,也是小编认为最关键的一点🕐️,Minecraft游戏可能更全面地测量了个体的流体智力和空间推理能力。
换言之,Minecraft一定程度弥补了传统智力测验的一些缺陷。
另外,本研究GBA和传统智力测验的相关程度与过往的研究结论基本一致。
所以,Peters、Kyngdon及Stillwell所制作的Minecraft游戏确实能够测量我们传统意义上所说的智力。
不过,Minecraft的心理旋转任务违反了单维性假设,即这个任务可能不止测量个体的视觉空间推理能力,还可能测量其他能力。
实际上,这也提醒研究者们在制作基于游戏的评估工具时需要多番验证游戏测量某一能力的可行性和稳健性。
最后,对某一构念或能力进行测评时,其中一个重要的原则是保证测验的公平性。
从本研究来看,Minecraft的某些评估可能会导致性别方面的不公平性。
因此,在对个体的某种能力进行评估时,应最大限度地减少测量误差的引入,即从多角度考虑设计的游戏是否会带来诸如因种族、性别、地域等方面的不同而导致分数的不公平。
作者 | 刘梓晴、牛天颖
美编 | N
来源 | 心理测验与评估