开源垂域高质量数据合成框架!专业QA自动生成,来自上海AI Lab

开源垂域高质量数据合成框架!专业QA自动生成,来自上海AI Lab

在垂直领域大模型训练中,人工标注成本高昂,合成数据又常陷入质量与专业性难以兼得的困境。

为此,上海AI实验室等提出GraphGen。

通过“知识图谱引导+双模型协同”机制,显著增强模型对垂域的理解能力。

同时,研究团队已经在OpenXLab部署了Web应用,上传你的文本块(如海事、海洋知识)、填写SliconCloud API Key,即可在线生成LLaMA-Factory、XTuner所需的训练数据。

背景说明

垂域模型(如医疗、农业)训练中,获取QA(问答对)数据常常面临以下难题:

量大。只是学习回复风格只需数百条,尚且能人工标注;用SFT(Supervised Fine-Tuning)给模型注入新知识,需要数十万的样本量,此时数据合成手段是刚需。

专业背景。开源LLM在小众领域已经表现不错,但垂域应对的是真正的“硬骨头”。面对领域数据,普通人可能每个字都认识,但连在一起并不知道什么含义。比如,不借助工具,请试着读懂这句:

质量把控。“LLM-RAG-打分”通常也被拿来合成 SFT 数据,但这条pipeline存留一些问题:

正确性。在LLM不具备领域知识时,直接给领域问答数据打分,容易陷入“先有鸡先有蛋”的难题

简单的关联度得分也不足以衡量数据质量,不仅没有回复长度、信息丰度等指标,更缺少语义层面的保证

方案介绍

为了解决以上问题,上海AI Lab开源了GraphGen,一个在知识图谱引导下的合成数据生成框架,旨在知识密集型任务中生成问答

jrhz.info

这是基于GraphGen和SiliconCloud Qwen2.5-7B-Instruct API实跑的 QA 样例:

GraphGen会使用到两个LLM,一个是合成模型,负责构建知识图谱、合成数据等;另一个是学生模型,用来识别它自己的知识盲点,方便针对性的选择数据。

上图是GraphGen工作流:

首先输入一段原始文本,使用合成模型从源文本构建细粒度的知识图谱。

然后,利用预期校准误差(Expected Calibration Error, 简称 ECE)来识别学生模型的知识盲点,针对知识盲点优先生成针对高价值、长尾知识的问答对。

接着,GraphGen框架结合多跳邻域采样来捕捉复杂的关联信息,并采用风格控制生成技术来使生成的问答数据多样化。

最终得到一系列和原始文本相关的问答对。用户可以直接用这批数据在llama-factory或者xtuner这样的训练框架中进行SFT。

优秀的数据合成方法有很多,研究团队在论文中做了对比测试:

研究团队采用的是客观指标:

MTLD(Measure of Textual Lexical Diversity)通过计算文本中连续词串的平均长度来评估词汇的多样性

Uni(Unieval Score)是基于对话模型的自然度、一致度、可理解度评价指标

Rew(Reward Score)是BAAI和OpenAssistant开源的两个Reward Model计算的得分

由上图可见,GraphGen能给出相对较好的合成数据。

同时研究团队在开源数据集(SeedEval、PQArefEval、HotpotEval 分别对应农业、医学、通用)训练测试,结果表明GraphGen自动合成的数据能够降低Comprehension Loss(越低代表学生模型的知识盲点越少),增强模型对垂域的理解力。

特别声明:[开源垂域高质量数据合成框架!专业QA自动生成,来自上海AI Lab] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

网格化智慧城市解决方案规划:开启城市智慧管理新纪元(PPT)(城市网格化综合管理应用支撑平台与示范)

人工智能技术将在图像识别、语音识别、自然语言处理等领域取得更大突破,为城市管理事件的自动识别和智能处置提供更高效的技术手段;大数据分析技术将能够更深入地挖掘城市数据的价值,为城市管理决策提供更科学准确的依据;…

网格化智慧城市解决方案规划:开启城市智慧管理新纪元(PPT)(城市网格化综合管理应用支撑平台与示范)

离巢小花暴瘦引担忧,胸骨凸出健康亮红灯,曾被嘲没样貌没身材?(离巢什么意思)

你说这是“骨感美”吧,可这“骨”都快要戳破屏幕了,实在令人难以和“美”联系起来。一堆人跑到王海榛的IG底下骂她“死八婆”,说她“冇样冇身材”。就算身材没那么完美,又咋了?每个人都有自己的活法,没必要活成别人眼…

离巢小花暴瘦引担忧,胸骨凸出健康亮红灯,曾被嘲没样貌没身材?(离巢什么意思)

2025年18届日本试验测试仪器展览会 TEST 2025

这是一个展示最新技术和产品的良好机会,同时也为各界人士提供了面对面交流的机会,促进了行业内的合作与发展。 在科技迅速发展的今天,试验机和测试仪器的技术也在不断进步。期待在展会现场,各种新颖的技术和产品能够为业…

2025年18届日本试验测试仪器展览会 TEST 2025

四川录综艺杜海涛晒黑,柯淳脸上痘痘明显,和短剧形象差距大(在四川拍的综艺节目)

在风景如画的四川甘孜理塘,杜海涛和小伙伴们身处辽阔的草原上拍摄,画面中的美丽景色透过屏幕即可感受到一份宁静与舒适,让人既能工作又能享受旅行的乐趣,所有嘉宾的心情看起来都格外愉悦。杜海涛在圈内工作多年,也对柯淳…

四川录综艺杜海涛晒黑,柯淳脸上痘痘明显,和短剧形象差距大(在四川拍的综艺节目)

刘斌现状:三段婚姻皆告失败,如今独自养3娃,初婚史兰芽(刘斌 现状)

与许多人一样,他的成长背景并不显赫,父母都是普通工人,家里的生活也并不富裕,但刘斌凭借自己不懈的努力,逐渐闯出了一片属于自己的天地。尽管刘斌和她在各方面看似差距悬殊,但刘斌那份成熟男人的魅力却深深打动了史兰芽…

刘斌现状:三段婚姻皆告失败,如今独自养3娃,初婚史兰芽(刘斌 现状)