姚顺雨的这篇论文火了!(姚顺铨简介)

就在腾讯混元团队发布CL-bench论文,深入探讨AI如何准确理解复杂情境信息的同一时期,微信却对腾讯自家的AI产品"腾讯元宝"按下了暂停键,一场出人意料的内部冲突为这篇学术论文增添了戏剧性注脚。

今日霍州(www.jrhz.info)©️

临近春节期间,腾讯元宝在微信群里发起10亿红包🧧裂变活动,仅3天后就因"诱导分享、影响用户体验"被微信安全中心屏蔽,导致腾讯股价应声下跌超过3个点,4天内市值蒸发超过4000亿港元。这个封禁动作像一面镜子,恰好反向印证了论文所揭示的核心问题——即便是腾讯这样的科技巨头,在处理"上下文"时依然面临着严峻挑战,连内部不同产品之间的上下文都没有对齐。

这场风波的实质,是两种产品哲学的碰撞。微信团队长期信奉的"克制美学"——拒绝打扰式营销、保持界面简洁、尊重用户选择权,塑造了其独特的产品气质;而AI技术的演进方向,天然追求更深入的用户洞察、更主动的服务介入、更紧密的产品粘性。当"让用户自由离开"遇上"让AI主动留住",理念层面的张力便显现出来。

这场争议恰好提出了一个值得全行业思考的命题:当尖端技术遇到成熟产品理念,融合的边界应该在哪里?接下来,让我们深入CL-bench的研究发现,看看"情境学习"为何成为制约当前AI发展的关键短板。

当前语言模型的能力错配现象

现有的『大语言模型』在利用预训练知识解决提示词指定的问题方面表现卓越,在竞赛级数学问题、竞技编程挑战和专家级考试等任务上都取得了令人印象深刻的成绩。然而,现实世界的任务范围远远超出了当前评估中常见的问题类型。具体而言,许多真实任务高度依赖于情境,需要模型从复杂情境中学习,利用预训练中未曾见过的新知识来有效推理和解决任务。这种情境依赖性与当前模型的优化方向存在明显的错配。

当前的优化范式主要集中在提示工程和上下文学习上。提示工程通过精心设计的指令让模型执行任务,这种范式主要针对相对简单的任务,模型可以通过对提示词的推理和现有的内部预训练知识来解决。上下文学习则通过加入少量输入输出示例来增强提示工程,使模型能够推断任务格式和预期行为。然而,这两种范式都主要强调从简单提示和预训练知识进行推理,与真实场景相距甚远。在实践中,真实任务往往要求模型对预训练中缺失的新知识进行推理,而这些知识是通过复杂情境提供的。

这种差距催生了情境工程作为部署语言模型到真实应用中的主导范式。情境工程专注于从私有文档、数据库和知识库等多样化来源检索、组织、管理和优化任务相关情境。为支持有效的情境构建,已经提出了广泛的技术,包括检索增强生成、记忆系统和代理式检索增强生成管道。然而,情境工程主要强调提供什么情境以及如何组织它,却忽视了模型是否真正能够从提供的情境中学习。研究团队认为,情境学习才是使模型真正有效利用情境的基础能力。与传统的上下文学习主要关注从少量示例中学习任务格式或浅层启发式不同,情境学习强调从复杂情境中获取和应用新知识,这种能力使模型能够有效地超越预训练知识进行推理,解决复杂的真实任务。

jrhz.info

CL-bench的构建理念与特色

CL-bench的设计旨在评估语言模型从提供的情境中学习并应用所学内容解决任务的能力。模型需要解决基于真实场景的复杂任务,解决这些任务所需的知识无论是新创建的还是小众冷门的,都在很大程度上超出了现有模型在预训练期间获得的范围。CL-bench中的新知识采取多种形式,包括但不限于书籍、新闻报道、转录文本、研究论文、文档、报告、实验数据、代码仓库、产品和操作手册以及搜索结果。所有必要的知识都已被仔细组织到提供的情境中,因此模型无需从外部来源检索信息。

CL-bench中的每个情境涉及解决多个任务,其中51.1%的任务是顺序性的,它们在多个交互轮次中呈现,解决这些任务依赖于先前任务的解决方案。这种多轮设计进一步增加了任务难度,更好地反映了真实使用场景。基准的统计数据显示,500个情境包含1899个任务和31607条评估标准,每个情境平均包含3.8个任务,每个任务平均包含16.6条评估标准。情境的平均输入长度为10.4K tokens,最长可达65K tokens。

CL-bench的一个显著特点是其防污染设计。为确保CL-bench评估的是真正的情境学习能力,而非允许模型仅依靠预训练知识解决任务,研究团队采用了三种方法来构建包含新知识的情境:第一种是虚构创作,专家创建完全虚构的内容,例如为虚构国家发明完整的法律系统,包含新颖的案例先例和法律原则,或设计具有独特语法和语义的新编程语言。第二种是修改现有内容,专家修改真实世界的内容以创建变体,例如改变历史事件、更改科学和数学定义,或修改技术文档和规范。第三种是纳入小众和新兴内容,专家纳入在预训练语料库中基本上没有很好代表的小众或新近出现的内容,例如前沿研究发现、新发布的产品手册和技术文档,或来自狭窄专业领域的特定领域知识。这些方法确保模型几乎无法仅依靠预训练知识,而必须真正从提供的情境中学习才能解决任务。

为了验证这一设计,研究团队进行了无情境消融实验,结果显示在没有情境访问的情况下,最佳模型的任务解决率仅不到1%,进一步确认了CL-bench中任务的情境依赖性。这意味着即使是当前最先进的语言模型,在缺乏具体情境信息的情况下,也几乎无法依靠预训练知识独立完成这些任务。

四大情境类别覆盖真实世界应用

CL-bench根据人类在现实世界中遇到的情境以及他们通常如何学习和应用这些情境,将情境分为四大类别,进一步细分为18个子类别,以验证在多样化真实场景中的情境学习能力。

第一类是领域知识推理。这一类别中的情境提供专业领域知识,例如虚构的法律系统、新创建的金融工具或小众专业知识。模型必须从情境中学习特定领域知识,并将其应用于解决任务,例如裁决法律案件和解决纠纷、进行财务分析或提供专业建议。这一类别根据知识领域分为七个子类别,包括金融、医疗保健、人文学科、法律咨询、生活方式、管理和科学。例如,一个任务可能要求模型理解一个虚构国家的完整法律系统,包括案例先例和法律原则,并将其应用于审理案件;或者要求理解新创建的金融衍生品及其定价模型,然后进行投资分析。

第二类是规则系统应用。情境提供具有明确规则的新颖形式系统,例如新的游戏机制、数学形式主义、编程语言语法或技术标准。模型必须从情境中理解这些规则系统,并正确应用它们来解决任务,例如玩游戏和分析游戏状态、构建数学证明、解决代码相关任务或解释法规和法律条款。这一类别根据规则类型分为五个子类别:游戏机制、数学形式主义、编程语法、法律法规和技术标准。一个典型任务可能是学习一门全新的编程语言语法,然后用这门语言编写程序解决特定问题,或者学习一个新棋盘游戏的完整规则,然后在给定游戏状态下计算最优走法。

第三类是程序性任务执行。这一类别中的情境提供复杂的程序、工作流或操作说明,例如产品手册、软件文档或会议组织工作流。模型必须从情境中学习这些程序,并正确执行它们以完成任务,例如故障排除、提供操作指导或编排复杂的工作流。这一类别根据程序类型分为三个子类别:指导性程序、操作程序和工作流编排。例如,一个任务可能提供一份详细的无人机操作系统API文档,要求模型将自然语言指令转换为符合安全协议的伪代码,或者根据复杂的会议组织手册,生成完整的会议筹备时间表和责任分配方案。

第四类是实证发现与模拟。这一类别中的情境提供实验数据、观测记录或由复杂系统控制的模拟环境。例如,模型可能需要分析电子在磁场中沿螺旋轨迹运动的实验数据来解决特定问题,或者在虚拟沙盒环境中进行模拟和推理。模型必须分析提供的数据以发现模式或规律,或理解模拟环境以进行分析和问题解决。这一类别是最具挑战性的,因为它需要从经验证据中进行归纳推理来发现潜在模式,与前三类强调的演绎推理形成对比。它根据知识呈现方式分为三个子类别:实验数据、观测数据和模拟环境。一个典型任务可能提供大量粒子在不同条件下的运动轨迹数据,要求模型归纳出控制粒子运动的物理定律,然后用这个定律预测新条件下的运动行为。

严格的自动化评估体系

CL-bench中的复杂任务无法使用通用的基于规则的验证器进行可靠评估,因为许多任务的答案难以用预定义规则验证,或可能存在多个正确解决方案。研究团队采用任务级评估标准来实现可靠的自动化评估。具体而言,每条评估标准都被设计为只允许"是"或"否"答案的二元问题。"是"答案表示语言模型的解决方案满足这条评估标准。所有评估标准都由经验丰富的领域专家构建,并经过严格的质量控制,包括双重检查和随机抽样验证,以确保评估的有效性和精确性。

评估标准的设计从多个维度全面验证任务是否正确解决,包括事实正确性、计算准确性、判断正确性、程序正确性、内容完整性和格式合规性。CL-bench中的每个任务平均包含16.6条评估标准。研究团队使用语言模型作为验证器,根据任务级评估标准验证语言模型的解决方案。他们采用严格的评估标准:只有当语言模型的解决方案通过所有相关评估标准时,才认为该模型成功解决了任务。

在所有实验中,研究团队使用GPT-5.1作为验证器。为评估自动评估框架的可靠性,他们进行了两项额外的验证实验。第一项实验检查当GPT-5.1同时作为解决方案生成器和验证器时可能存在的偏见,研究团队额外使用Claude Opus 4.5和Qwen-3-Max作为验证器。结果显示,GPT-5.1与其他两个验证器之间的原始一致性超过90%,表明验证器之间具有很强的一致性,并且GPT-5.1没有表现出明显的自我评估偏见。第二项实验中,研究团队随机抽样100个由语言模型生成的解决方案以及GPT-5.1生成的理由和分数,由标注员评估GPT-5.1的判断是否与任务级评估标准一致。结果显示评估准确率超过90%,表明基于GPT-5.1的验证器和整体评估框架具有高可靠性。

前沿模型的表现与深度分析

研究团队通过官方API评估了十个最先进的语言模型,包括OpenAI的GPT-5.1和GPT-5.2(高推理努力级别)以及o3(高努力级别)、Anthropic的Claude-Opus-4.5 Thinking、Google的Gemini-3-Pro(高努力级别)、月之暗面的Kimi-K2 Thinking、阿里巴巴的Qwen-3-Max Thinking(预览版)、深度求索的『DeepSeek』-V3.2-Thinking、字节跳动的Doubao-1.6-Thinking,以及腾讯的HY-2.0-Thinking。考虑到CL-bench的挑战性(需要强大的推理和长情境能力),研究重点放在评估具有思考或高推理努力设置的前沿模型上。

评估结果令人震惊。所有被评估模型的整体任务解决率平均仅为17.2%,即使表现最好的模型GPT-5.1也只达到23.7%。其他大多数模型集中在13%到18%之间,其中Kimi K2和HY 2.0分别达到17.6%和17.2%,接近o3的性能水平。值得注意的是,HY 2.0在领域知识推理上与o3持平,解决率均为18.0%,并且在规则系统应用和程序性任务执行上都超过了Kimi K2,分别达到17.3%和19.4%。鉴于没有模型超过30%的解决率,这些结果揭示了尽管情境学习对真实部署至关重要,但在当前模型开发中仍然被严重忽视。

任务难度在不同情境类别之间存在显著差异。四个情境类别对所有模型呈现出不同的难度水平。领域知识推理被证明是最易处理的,即使最佳模型也只达到25.3%的解决率,其中管理子类别相对容易,而法律咨询则较难。模型在不同类别上表现出不同的偏好:一些模型在程序性任务执行上表现最好,而另一些在规则系统应用上表现更佳。特别值得注意的是,HY 2.0在规则系统应用类别中的法律法规子类别上表现出特别的优势,达到36.6%,超过了Claude Opus 4.5和GPT 5.2。然而,所有模型在实证发现和模拟类别上都经历了显著的性能下降,解决率降至约11%,比其他类别低约6%。这表明从实验数据中归纳和应用规律对当前模型来说仍然是一个基本挑战。

即使在单个情境类别内,子类别也表现出惊人的性能差异。在规则系统应用中,法律法规子类别的解决率对所有模型都超过29%,GPT-5.1达到40%以上,而数学形式主义则困难得多,大多数模型低于15%。程序性任务执行中也出现了类似的差异,工作流编排子类别的分数大大超过指导性程序。从实证数据中进行归纳推理比演绎应用表现出更大的难度。前三个类别要求模型通过演绎推理应用明确提供的知识、规则和程序,而实证发现和模拟需要归纳推理,即从大量数据中发现潜在规律或在虚拟沙盒环境中推理和行动。模型在归纳任务上的表现明显较差,平均解决率比演绎类别低约6%。

错误分析揭示关键瓶颈

研究团队对失败案例进行了深入的错误分析。情境忽略和情境误用构成了主要的失败模式。这两种错误类型合计占失败的大多数,情境误用率对所有模型都超过60%。值得注意的是,情境忽略率与整体任务解决性能相关:解决率较高的模型倾向于表现出较低的情境忽略率,而无论整体能力如何,情境误用率在所有模型中都保持较高水平。这表明虽然更强的模型更好地关注相关情境信息,但即使是最有能力的模型如Claude-Opus-4.5也难以正确解释和应用提供的情境。

格式错误仍然是一个重要的失败来源。除了情境错误,即使是顶级模型,格式错误率也保持在高水平。GPT-5.1的格式错误率超过35%,而Claude-Opus-4.5超过40%。这些失败表明模型经常违反情境中提供的明确格式指令,反映了指令遵循能力的局限性。此外,还有一小部分响应包含拒绝。分析显示,模型通常通过声称信息不足来回答问题而拒绝。由于CL-bench确保所有必要知识都存在于提供的情境中,这种拒绝源于理解失败而非信息稀缺。

更高的推理努力通常改善情境学习。研究显示,增加推理努力在大多数子类别上产生了一致的改进。例如,管理类别获得了5.9%的提升,实验数据也获得了5.9%的提升。情境学习需要对新知识的深入理解和灵活应用,延长的推理使模型能够更彻底地处理复杂的情境信息。然而,这种好处并不适用于所有模型。详细分析显示,GPT 5.2在几个子类别上从增加推理努力获得的收益微不足道甚至是负面的,与GPT 5.1形成鲜明对比。

任务难度与情境长度相关。无论推理努力级别如何,所有模型都表现出随着情境长度增加而一致的性能下降。这一趋势在GPT-5.1、Claude-Opus-4.5、Kimi-K2、HY-2.0和Gemini-3-Pro等模型中都成立。Claude-Opus-4.5经历了最陡峭的下降,在0-15K和120K+情境长度之间解决率下降了20%以上。这些结果证实,处理和学习冗长情境仍然是当前语言模型的瓶颈。

长情境推理和指令遵循是必要但不充分条件

与预期新模型版本会提高性能相反,GPT-5.2在整体准确率上比GPT-5.1低5.6%。详细分析揭示了GPT-5.2中两种反复出现的失败模式:当在扩展情境上推理时,模型难以维持连贯的因果链,并且经常违反提供材料中明确说明的约束。这种性能差距在几乎所有子类别中都表现出来,在实验数据类别中尤其明显,其中GPT-5.1达到31.1%,而GPT-5.2为22.2%,在管理类别中差距达到9.6%。同样,『DeepSeek』-V3.2和Doubao-1.6等较弱模型表现出三种系统性错误:未能遵守情境指令、未能正确学习和再现情境知识,以及随着情境长度增加而失去信息追踪。

这些观察证实,长情境处理和指令遵循是有效情境学习的必要条件。然而,在现有长情境和指令遵循基准上的强大性能并不保证在CL-bench上的成功,因为情境学习进一步要求模型内化新知识并灵活地应用它来解决复杂任务。这意味着即使模型在传统的长文本基准测试(主要评估检索或阅读理解)和指令遵循基准测试上表现优异,也不代表它们具备真正的情境学习能力。情境学习能力要求模型不仅能理解长文本和遵循指令,更要能从情境中提取新知识、建立新的认知框架,并将这些新知识灵活应用到未曾见过的问题中。

定性案例研究揭示深层问题

研究团队选择了跨越四个情境类别的16个案例进行深入分析,从GPT-5.1(高推理级别)、GPT-5.2(高推理级别)、Gemini-3-Pro(高推理级别)、Kimi-K2-Thinking和Doubao-1.6-Thinking等模型中提取。这些案例分析揭示了前沿语言模型在情境学习方面的细微失败模式。

在规则系统应用类别中,研究团队发现模型在涉及新编程语言或游戏规则时,虽然能够生成可运行的代码或合理的策略,但经常违反严格的格式要求或遗漏关键的机制细节。例如,Gemini-3-Pro在实现一个游戏规则系统时,能够理解核心规则但未能包含战斗系统、元素系统和怪物AI的特定机制细节。

这些定性分析与主要论文中提出的发现相呼应:前沿语言模型继续忽视或误用情境信息,导致错误的解决方案。此外,长情境推理和指令遵循的固有局限性进一步加剧了情境学习的失败。综合来看,这些结果表明语言模型需要开发更强的能力来有效地从新情境知识中学习并应用,以增强其实际适用性。

未来研究方向与模型改进路径

研究团队提出了几个有前景的方向来推进语言模型中的情境学习。第一个方向是使用情境感知数据进行训练。增强情境学习的直接方法是构建包含预训练期间未见过的知识的专门训练数据,迫使模型从提供的情境中学习。这种方法鼓励模型更忠实地关注提供的情境,减少它们产生幻觉或默认使用可能过时的预训练知识的倾向。这样的训练数据可以通过系统地将综合领域文档与需要真正提取和应用嵌入知识的任务配对来合成,从而加强对有效情境学习至关重要的神经通路。

第二个方向是用于渐进情境掌握的课程学习。分析揭示模型在复杂情境上遇到困难,部分原因是长情境处理和指令遵循能力的局限性。课程学习方法提供了一条可行的途径来解决这些挑战:训练可以被构建为从更简单的子任务逐步发展到越来越困难的任务,而不是同时向模型呈现完整情境和复杂任务。这种渐进策略使模型首先掌握基本的情境理解,然后再处理需要整合多个知识组件或执行冗长程序的任务。通过将复杂的情境学习分解为可管理的阶段,模型可以逐渐建立处理真实应用中全方位挑战的能力。

第三个方向是用于综合反馈的合成评估标准生成。细粒度的评估标准不仅在评估中起着关键作用,而且通过详细的反馈信号在指导模型改进方面也发挥作用。然而,正如CL-bench的构建过程所展示的,创建综合评估标准需要大量的专家努力,限制了可扩展性。开发自动合成高质量评估标准的方法,可能通过与人类验证的迭代细化或利用强大的语言模型作为评估标准生成器,可以使详细的评估标准更容易获得。当这些合成评估标准作为奖励信号或验证机制集成到训练管道中时,可能会通过为模型提供更丰富、多维度的性能反馈,显著加速情境学习的进展。

第四个方向是用于情境利用的架构创新。当前的transformer架构通过注意力机制处理情境,这可能不是最适合复杂情境所需的深度学习。未来的研究可以探索架构修改,为存储和检索情境知识创建显式记忆结构,通过多次处理通道实现情境理解的迭代细化,或为不同类型的情境信息提供专用通路。虽然这个基准专注于评估现有模型,但理解限制情境学习的架构瓶颈可以为下一代语言模型的设计提供信息。

至顶AI实验室洞见

CL-bench的推出不仅揭示了当前『大语言模型』的关键短板,更为整个AI社区指明了一个重要的研究方向。当前的模型虽然在利用预训练知识方面表现卓越,但在从新情境中快速学习并应用新知识方面还远远不够。这种能力对于模型在真实世界中发挥实际作用至关重要,因为现实任务往往充满了模型从未见过的新知识、新规则和新情境。克服当前的情境学习瓶颈不仅仅是工程优化问题,而是释放模型智能质的飞跃的关键。只有当模型能够像人类一样快速内化完全陌生的情境并精确应用该知识解决问题时,人工智能才能真正超越知识库的局限,演变为真正的推理代理。CL-bench为这一努力提供了关键的测试平台,推动构建下一代具有这一基础能力的语言模型,使它们变得更加智能,并推进其在真实场景中的部署。

论文地址:

https://arxiv.org/pdf/2602.03587

END

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。

Q&A

Q1:什么是情境学习,它与传统的上下文学习有什么区别?

A:情境学习是指模型从提供的复杂情境中获取全新知识并应用这些知识解决任务的能力。与传统的上下文学习主要通过少量示例学习任务格式或浅层启发式不同,情境学习强调真正理解和内化新知识,这些知识可能是全新的领域概念、规则系统、复杂流程,甚至是从实验数据中归纳出的规律。情境学习是人类天生具备但在当前AI系统中被严重忽视的能力,它使模型能够超越预训练知识进行推理,解决复杂的真实世界任务。

Q2:为什么当前最先进的语言模型在CL-bench上的表现如此糟糕?

A:研究发现即使是表现最好的GPT-5.1也只能解决23.7%的任务,平均解决率仅为17.2%。主要原因包括:模型频繁忽视或误用情境中提供的关键信息,违反明确的格式和约束指令,在长情境推理时难以维持连贯的因果链,以及在需要从数据中归纳规律时表现尤其困难。分析显示,情境误用率对所有模型都超过60%,格式错误率也保持在35-40%的高水平。这表明当前模型的优化方向主要集中在利用预训练知识进行推理,而非从新情境中学习,导致它们在真实世界的复杂任务上遇到严重瓶颈。

Q3:CL-bench与现有的长文本基准测试有什么本质区别?

A:虽然CL-bench的情境平均长度达到10.4K tokens,最长可达65K tokens,但它与传统长文本基准测试有本质区别。现有长文本基准主要评估检索或阅读理解能力,而CL-bench要求模型真正从情境中学习全新知识并灵活应用。研究团队通过三种方法确保知识的新颖性:虚构创作全新内容、修改现有知识、纳入小众新兴内容。无情境消融实验显示,最佳模型在没有情境的情况下解决率不到1%,证明这些任务高度依赖情境学习而非预训练知识。CL-bench涵盖四大类别18个子类别,从领域知识推理、规则系统应用、程序执行到从数据中归纳规律,全面评估模型的情境学习能力。

特别声明:[姚顺雨的这篇论文火了!(姚顺铨简介)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

别错过这些孕味信号 怀孕后的身体小变化(孕味十足的意思)

  当新生命悄然在体内孕育,女性♀️的身体会随之发生一系列微妙而复杂的变化。这些变化既是生命诞生的信号,也是身体为迎接新生命所做的准备。那么,怀孕究竟有_no_filter_些症状表现呢?接下来,我们就从多个维度深入了解。

别错过这些孕味信号 怀孕后的身体小变化(孕味十足的意思)

有商家回收废定影液炼银出售 白银涨价带动回收热(回收的订单是不是作废了)

近期,黄金和白银价格的上涨使含银废料回收成为关注焦点。除了含银医疗CT废胶片,废弃的定影液也能用于提炼白银。一位回收含银废料的商户表示,废定影液可以提炼出白银,但纯度较低

有商家回收废定影液炼银出售 白银涨价带动回收热(回收的订单是不是作废了)

呵护地带缩茵乳酸抑菌片一盒8颗,适合日常使用吗?

日常生活中是否适合使用8颗装的呵护地带缩茵乳酸抑菌片?本文从实际应用场景出发,深入分析产品功效、适用人群、注意事项等,助您轻松选对护理用品。呵护地带专研技术,乳酸配方有效抑制细菌生长,为女性♀️私密健康保驾护航。

呵护地带缩茵乳酸抑菌片一盒8颗,适合日常使用吗?

恭喜!TVB港姐冠军空降担任微电影女主,颜值高获封翻版『李嘉欣』(港姐接受颁奖典礼)

在这部微电影《你和她@黄大仙》中,倪乐琳饰演的阿宝角色并不会特别复杂,但对她来说,依然是一次不小的挑战。叶念琛导演选择这位新人无疑展现了他的大胆与眼光,也足见他对这部微电影的雄心与信心。这种与粉丝们亲切…

恭喜!TVB港姐冠军空降担任微电影女主,颜值高获封翻版『李嘉欣』(港姐接受颁奖典礼)

无力支付120万诉讼费,许家印拘留生活曝光(无力支付欠款)

事情发展到这一步,许家印几乎可以说是彻底完了,但问题是,他真的没钱了吗?2019年,许家印夫妇在美国设立了这样一个家族信托,并规定他们的两个儿子可以获得信托的收益,而信托的本金则归孙子所有。 最后,虽然信…

无力支付120万诉讼费,许家印拘留生活曝光(无力支付欠款)