团队在这些可控环境中进行了大量实验,对比“会思考”和“不思考”的模型组合,主要针对Claude-3.7-Sonnet模型(带思考机制 vs不带思考机制)和DeepSeek模型(R1 vs V3),这些模型…