DeepSeek官方推荐:R1要这样设置

<strong>DeepSeek</strong>官方推荐:R1要这样设置

Datawhale分享

官方推荐:DeepSeek、OpenAI,整理:Datawhale

信息来源|量子位、新智元

到底该如何部署 DeepSeek-R1,才能体验最佳?

对于这个问题,DeepSeek 官方发话了:

DeepSeek 推荐的设置非常简单,只有四项内容。

其中三项,其实在此前相关文档中有所涉及,我们在这里 再来回顾一下。

首先,是 别用系统提示词(No system prompt),所有的指令都应该包含在用户提示词中。

至于原因,网友认为是因为 R1 就是这么被训练而来的。

其次,是 把 Temperature 设置为 0.6

DeepSeek 在 GitHub 文档中的解释是:

将Temperature设置在0.5-0.7(建议0.6)的范围内,以防止无休止的重复或输出不一致。

第三点🕒️,则是一份 缓解模型绕过思维的指南,包含两个细分内容:

  • 对于数学问题,建议在你的提示中包含一个指令,如:“请一步一步地推理,并将你的最终答案放在 \boxed{} 内。”

  • 在评估模型性能时,建议进行多次测试并对结果进行平均。

新的设置推荐

除了上述已有的三点🕒️之外,这次 DeepSeek 官方在推文中引入了一个新的推荐——

官方提示搜索和文件📄上传。

DeepSeek 表示:

上传文件📄时,请按照模板创建提示,其中 {file_name}, {file_content} 和 {question} 是参数。

file_template = \"""[file name]: {file_name}[file content begin]{file_content}[file content end]{question}"""

对于 Web 搜索,{search_results}, {cur_data}和{question} 是参数。

对于中文查询,使用提示词:

对于英文查询,使用提示词:

相应内容在 DeepSeek 官方 GitHub 的 README 文档中也有更新,感兴趣的小伙伴可以进一步了解下~

DeepSeek 官方 GitHub:

https://github.com/deepseek-ai/DeepSeek-R1/blob/main/README.md

同一天,OpenAI 也公布了 推理模型的最佳实践

巧的是,就在同一天的早些时候,OpenAI 也发布了官方指南,汇总了使用 o 系列模型的最佳实践。

包括推理模型与非推理模型之间的区别、何时使用推理模型、以及如何有效地使用提示来引导推理模型。

推理模型与 GPT 模型

OpenAI 介绍道,与 GPT 模型相比,o 系列模型在不同任务上表现出色,且需要使用不同的提示。

这两类模型没有优劣之分——它们各有所长。

o 系列模型更像是一个「规划者」,能深入思考复杂任务;相比之下,GPT 模型则是一个「执行者」,能直接执行任务,延迟低、性价比更高。

在不同情况下,具体选择哪个模型,推荐如下。

  • 速度和成本:选择 GPT 模型,因为它们处理速度更快,成本更低

  • 行明确任务:选择 GPT 模型,它们在处理界定清晰的任务时表现出色

  • 准确性和可靠性:选择 o 系列模型,它们是可靠的决策专家

  • 复杂问题解决:选择 o 系列模型,它们善于处理模糊和复杂的问题

大多数AI工作流,可以使用二者的结合。

何时使用推理模型

OpenAI 列出了一些从客户和内部观察到的成功使用模式,是一些针对 o 系列模型的实用指导。

1. 处理模糊任务

推理模型特别擅长处理信息有限或零散的情况,只需通过简单的提示词就能理解用户意图并妥善处理指令中的信息缺口。

值得注意的是,推理模型通常会在做出未经验证的猜测或填补信息空缺之前,主动提出澄清性问题。

2. 大海捞针

当需要处理大量非结构化信息时,推理模型特别擅长理解内容并精准提取出回答问题所需的关键信息。

比如,AI 金融平台发现,为了分析一家公司的收购,o1 审查数十份文件📄(合同和租赁协议),找到了可能影响交易的复杂条款

3. 在大型数据集中发现关系和细微差别

税务研究平台发现,o1 在综合多个文档的推理上表现要好得多

推理模型还特别擅长理解细微的政策和规则,并将其准确应用于具体任务中以得出合理结论。

投资管理 AI 平台提问:融资如何影响现有股东,尤其是在行使反稀释权的情况下?o1和 o3-mini 完美完成任务,而顶级财务分析师需要花 20-30 分钟计算

4. 多步骤AI智能体规划

推理模型在AI智能体规划和策略制定中发挥着关键作用。

将推理模型作为「计划者」时效果显著:它能为问题制定详细的多步骤解决方案,并根据具体需求(高智能或低延迟)选择和分配合适的 GPT 模型(执行者)来完成各个步骤。

o1 很擅长选择数据类型,将大问题分解为小块

5. 视觉推理能力

截至目前,o1 是唯一一个具备视觉处理能力的推理模型。

与 GPT-4o 相比,o1 的独特优势在于它能够准确理解最具挑战性的视觉内容,包括结构不规则的图表和表格,以及质量欠佳的图片。

SafetyKit 会自动化审核数百万种产品的风险与合规性,包括奢侈品仿制品、濒危物种以及受管制物品。最困难的图像分类任务上,o1 达到了 88% 的准确性

最令人惊喜的发现是,o1 能够自动关联不同图纸之间的信息:它可以将建筑图纸某页的图例信息正确应用到其他页面,而无需特别指示。

6. 代码审查、调试和质量改进

推理模型在审查和改进大规模代码方面表现突出。考虑到这类模型的较高延迟特性,通常将代码审查任务安排在后台运行。

虽然 GPT-4o 和 GPT-4o mini 凭借较低的延迟可能更适合直接编写代码,但在那些对延迟要求相对不那么严格的代码生成场景中,o3-mini 表现同样出色。

Windsurf 发现,o3-mini 非常擅长计划和只需复杂的软件设计系统

7. 评估和基准测试其他模型的响应

OpenAI 还发现,推理模型在对其他模型的输出进行基准测试和评估方面表现优异。

数据验证对确保数据集的质量和可靠性至关重要,这一点🕐️在医疗保健等敏感领域尤其重要。

传统验证方法主要依赖预设规则和模式,而 o1 和 o3-mini 等先进模型则能够理解上下文并进行数据推理,从而提供更灵活、更智能的验证方案。

如何编写推理模型的 prompt

推理模型在处理简明直接的提示词时表现最佳。某些提示工程(如要求模型「一步一步思考」)可能并不会提升性能,有时反而会降低效果。

简单来说,你可以可以这样理解:

  • 推理模型就像一位经验丰富的高级同事——你只需告诉他们最终目标,就能相信他们自主完成所有细节工作。

  • GPT 模型则更像一位新手同事——你需要提供明确详细的指示,才能让他们准确完成特定的输出任务。

构建 prompt 的具体建议如下:

  • 用开发者消息取代系统消息:自 o1-2024-12-17 版本起,推理模型开始支持开发者消息(developer message)而非系统消息(system message)。

  • 保持提示词简洁明确:推理模型最擅长理解和响应简短、清晰的指令。

  • 避免使用 CoT 提示:由于模型内置推理能力,因此无需特别提示它们「一步一步思考」或「解释推理过程」。

  • 善用分隔符增强清晰度:使用 Markdown、XML 标签和章节标题等分隔符来明确区分输入的不同部分,这有助于模型准确理解各个章节的内容。

  • 优先尝试零样本学习:推理模型通常无需少样本示例即可产出优质结果,因此建议先尝试不含示例的提示词。如果对输出结果有更复杂的要求,再考虑在提示词中添加输入和期望输出的示例。请注意确保示例与提示词指令严格匹配,因为不一致可能导致性能下降。

  • 提供明确约束条件:如果需要对模型的响应施加具体限制(例如「提供预算控制在 500 美元💵以内的解决方案」),请在提示词中明确列出这些约束条件。

  • 明确定义目标:在指令中,请详细说明判定响应成功的具体参数,并引导模型持续优化推理过程,直到达成设定的成功标准。

  • Markdown 格式说明:从 o1-2024-12-17 版本开始,API中的推理模型默认不会生成带有Markdown格式的响应。如果确实需要在响应中包含Markdown格式,请在开发者消息的首行添加「Formatting re-enabled」字符串。

以下是代码重构、执行规划、STEM 研究的 prompt 示例:

左右

推理工作原理

推理模型在输入和输出token之外,还引入了推理token用于「思考」。

在生成推理token后,模型会生成可见的补全内容作为最终答案,同时从上下文中清除推理token。

下面是用户与AI助手之间多轮对话的示例。可以看到,每轮对话的输入和输出token都会被保留,而推理token则会被移除。

参考资料:

https://platform.openai.com/docs/guides/reasoning-best-practices

https://platform.openai.com/docs/guides/reasoning

一起“

特别声明:[DeepSeek官方推荐:R1要这样设置] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

1.01醋酸菌:酿造美味醋的秘诀,厂家直供20g包邮,开启家庭酿醋新体验!👩‍🍳✨(醋酸菌酿醋)

在家也能轻松酿醋?只需这瓶1.01醋酸菌,厂家直供,20g包邮,让你体验自制美味醋的乐趣!无论是后期转醋还是醋化产酸,这款醋酸菌都能满足你的需求。赶快加入家庭酿醋的新潮流吧!👩‍🍳✨

1.01醋酸菌:酿造美味醋的秘诀,厂家直供20g包邮,开启家庭酿醋新体验!👩‍🍳✨(醋酸菌酿醋)

德顺139窗口双向对讲机:大功率通信神器,银行医院必备!🛡️

你还在为嘈杂环境下的沟通难题烦恼吗?德顺139窗口双向对讲机凭借其强大的通信能力和专业设计,成为了银行、医院、证券公司等场所的沟通利器。本文将详细介绍这款对讲机的各项参数与使用体验,帮助你了解其卓越性能和广泛适用性,让你轻松应对各种工作场景

德顺139窗口双向对讲机:大功率通信神器,银行医院必备!🛡️

官宣入围 | 2025江苏省十佳服装设计️师大赛(入围名单+效果图)(官宣阵容是什么意思)

本次初评工作由五位业内专家组成:中国十佳时装设计师、南京之间服装设计️工作室品牌主理刘丽丽,中国十佳时装设计师、江苏省十佳服装设计️师、苏州梵蒂诗服饰设计有限公司董事长皋小春,中国著名服装设计️师、中国时尚女装👚“洁…

官宣入围 | 2025江苏省十佳<strong>服装设计</strong>️师大赛(入围名单+效果图)(官宣阵容是什么意思)

家里有摄像头的必看!这几个隐藏风险90%的人都忽略了(家里有摄像头的图片)

3. 有人为了看孩子在卧室装摄像头,结果被黑客盯上,全家隐私都暴露了。 比如黑客偷到193个家庭摄像头密码,远程看别人家里,这就犯罪了! 如果把偷拍到的卧室视频卖给别人赚钱,或者在网上传播,就可能犯两…

家里有摄像头的必看!这几个隐藏风险90%的人都忽略了(家里有摄像头的图片)

一文读懂牛市思维和熊市思维的区别 情绪与基本面的博弈(啥是牛市)

近期A股市场行情火热,股民热情高涨,关于牛市中基本面分析的重要性引发了争议。有人认为在牛市里普涨行情显著,基本面不再关键;但也有人坚持无论牛熊,基本面都是投资决策的基石

一文读懂牛市思维和熊市思维的区别 情绪与基本面的博弈(啥是牛市)