今天分享的是:“Be My Cheese”多语言大语言模型翻译中文化细微差别的评估
报告共计:15页
该研究是一项关于多语言大语言模型在翻译中处理文化细微差别的试点评估,旨在探索先进多语言AI模型将习语、双关语等比喻性语言从英语翻译成全球多种语言时的本地化能力,重点关注文化适宜性和整体本地化质量这一在市场营销、电子商务等场景中关键的因素。
研究评估了20种语言的24种地区方言中,由3个公开可用的领先大模型生成的87份电子商务营销邮件翻译样本,这些样本包含节庆、文化指代、幽默、双关语等内容。22名精通相关语言的参与者从内容忠实度、文化与受众适配性、语气忠实度、整体本地化质量四个维度,采用四级评分制进行评估。
结果显示,不同语言的本地化质量差异显著,即便同一模型处理相同内容,不同语言输出水平也相差很大。与英语亲缘关系较近的语言总体得分较高,但并非绝对;采用音节文字的日语、韩语表现出色,采用语标文字的普通话得分最低;黏着型语言在高分群体中占比更高,孤立语得分较低;资源可获得性对翻译质量的预测并非绝对可靠,部分小型地区性语言得分超过平均值。
研究发现,大语言模型翻译虽语法错误少,但整体本地化质量不稳定,所有翻译都需人工修正。习语和比喻性语言是主要挑战,常被直译导致生硬或令人困惑,而成功的翻译会创造性调整以契合目标文化。高质量训练数据的可获得性和书写系统与字词切分方法的兼容性,是影响翻译表现的重要因素,人工修订仍至关重要。
该研究存在反馈积极性倾向、语言与地区代表性有限、数据集规模小、评估人员专业背景差异、模型多样性分析受限等局限性,未来需进一步拓展研究。
以下为报告节选内容