还在手搓Prompt?也太out了吧!这套Prompt手法包教包会(手搓是啥)

还在手搓Prompt?也太out了吧!这套Prompt手法包教包会(手搓是啥)

大家好,这里是沃垠AI,我们真不读沃根(gēn)AI,也不是夭艮AI。

沃垠,取自ALL IN AI的谐音,指AI的世界沃野千里、一望无垠。我们希望能够与你一起,探索AGI的无限可能,All blog for you.

最近,去了趟厦门,参加火山方舟开发者Meetup。才知道,真有不少朋友把我们读做wò gēn的

,我……

厦门一行,见了很多佬,交了很多友,也学了很多新知识。

其中,最让我感受深刻的是,火山方舟现场发布的「PromptPilot」。

简单说,这是一个Prompt开发神器。

“Prompt?谁不会写,谁不会调试,还要这个PromptPilot干什么?”我知道你可能有这样的疑惑。在没有接触这款产品前,说实话我也有这样的疑惑。

在深度体验了PromptPilot后,我觉得,我们真的把Prompt想简单了。

过去,我们写Prompt,主要靠手搓+AI优化,然后人工roll case来迭代,费时又费力。而这个PromptPilot,可以帮我们快速拉起从提示词生成到调试、优化、评估和管理的全流程,非常的高效且高质量。

特别适合AI Agent、AI应用的系统提示词设计。

保姆级实操教程

接下来,是实操指导。借用句藏师傅的标题,本教程包会,不会退网。

0)前置工作

首先打开网站:https://promptpilot.volcengine.com

点击左下角“登录/注册”,登录账户。

我们先来认识下PromptPilot的整体界面。

左侧边栏,分别是项目管理、Prompt生成、Prompt调试(单case和批量case)、API接入、知识库接入。

中间chat区,输入你的提示词需求。

比如,我们输入:“让LLM扮演《黑神话:悟空》里的天命人角色,和用户对话。”

它就会在右侧生成初版Prompt,你可以直接复制使用,也可以继续优化,以及验证Prompt。

做完了前置工作,接下来我们以一个实际工作中的例子,来给大家展示完整的PromptPilot使用流程。

1)生成Prompt

比如传统工业,车间质检巡检一直是一个非常重要且高频的工作场景,现在能不能让LLM帮我们做自检?

我的需求是:

为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具的情况,需要输出思考过程,判断,以及违规类别。

# 参考描述

为了安全生产,你需要根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全帽的情况,需要给出违规类别。

把这段需求发给PromptPilot,在右侧会得到一个初版提示词,有图片变量,也有输出要求(思考、判断和违规类比)。

2)优化Prompt

通常,车间图片是一个URL,我们需要调整这部分变量,于是选中这部分文字,点击“优化”。

输入优化意见“变量名字必须是image_url”,再点击确认。

就会得到一个新的Prompt。

你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具(这里主要指安全帽)的情况,并给出违规类别。

请仔细查看以下生产车间的图片:

<生产车间图片>

{{image_url}}

</生产车间图片>

在判断时,请仔细观察图片中的每一个细节,查看是否有工人违规操作设备(如未按操作流程使用设备、在设备运行时进行危险行为等),以及是否有工人未佩戴安全帽。

首先,在<思考>标签中详细分析你的判断依据,包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断,使用"存在违规"或"未发现违规"。最后,在<违规类别>标签中详细列出具体的违规类别,如果存在多项违规,应一一列举;若未发现违规,则填写"无"。

<思考>

[在此详细说明你对图片的分析过程]

</思考>

<判断>

[在此给出"存在违规"或"未发现违规"的判断]

</判断>

<违规类别>

[在此列出具体的违规类别]

</违规类别>

请确保你的判断客观公正,且基于图片中的实际情况。

3)调试Prompt

好,接下来我们就可以对Prompt进行调试了。

调试有分单case调试和批量case调试,分别有文本、视觉和多轮对话三种类型。

点击顶部的“+”号,新建调试任务,这时会出现2种模式让你选择:评分模式和GSB比较模式。

很好理解,一个是对回答进行打分来评判,一个是比较A、B两种回答来评判。

因为我们的任务是视觉理解,所以需要选择“视觉理解”类型。

回到Step2,我们把得到的提示词复制到“调试Prompt”栏里。同时,给本次任务取一个名字,方便后面查看和对比版本。

接下来,我们要验证这个Prompt,需要填写图片变量。按钮,选择“URL上传”。

比如,我们在网上随便找了一张图片,复制图片URL,填写进去。

右上角,选择一下模型,建议选择doubao-seed-1.6-thinking,有多模态和推理能力。也可以自己接外部模型,比如Step3、Intern-S1、o3等。

Prompt、变量、模型都确认完后,点击“保存并生成模型回答”。

会得到一个模型回答。可以看到,模型判断准确,施工人员未违规。

就是这思考过程复杂了点,我们可以点“基于模型回答改写”。

输入要求“简化思考过程”,优化后的思考过程,果然简洁了许多。

然后,将这次调试结果添加到评测集中。

点击“Prompt批量”-“视觉理解”,就可以看到刚才添加的评测数据了。

你可以对这条评测集进行评分,建议采用二分制,满意就是5分,不满意就是1分,不要填3-4的中间分,而且最好是正负样本都有评分,这样模型才能更好的判断。

4)多case调试

这只是一个单case调试。很多时候,我们需要大量的评测集对提示词进行批量评测,这样才能调试出最优的Prompt。

这时,你可以选择手动添加行数据,也可以选择批量上传数据集。

比如我上传已经准备好的数据集,点击“播放”按钮,就会生成模型回答,并评分。

这样就得到了批量的评测数据集,有理想回答,有模型回答,也有评分。

5)智能优化Prompt

有了评测数据集,接下来就可以对Prompt进行系统优化了。

点击右上角“智能优化”,一键优化更优的Prompt。

因为这回数据集增加了许多,所以Prompt优化要点时间,我们耐心等待一下。

大概10来分钟左右,一个深度优化后的Prompt就出来了。可以看到,优化后的版本比第一版要好了很多。

也可以看优化报告,看看PromptPilot到底在哪些地方进行了优化,

最终版的Prompt如下:

你的任务是根据生产车间的图片,判断生产车间是否存在违规操作设备和未佩戴安全防护用具(这里主要指安全帽)的情况,并给出违规类别。

请仔细查看以下生产车间的图片:

<生产车间图片>

{{image_url}}

</生产车间图片>

在判断时,请仔细观察图片中的每一个细节,查看是否有工人违规操作设备(如未按操作流程使用设备、在设备运行时进行危险行为、设备使用环境是否符合规范(如设备周围是否杂乱无章影响操作等)、是否正确使用设备的安全防护功能等,例如是否存在单手不稳操作、身体过度前倾等危险姿势,尤其注意设备是否处于危险状态运行),以及是否有工人未佩戴安全帽。

首先,在<思考>标签中详细分析你的判断依据,包括你在图片中观察到的具体情况以及如何得出相应结论的过程。然后在<判断>标签中给出你的最终判断,使用"存在违规"或"未发现违规"。最后,在<违规类别>标签中详细列出具体的违规类别,如果存在多项违规,应一一列举;若未发现违规,则填写"无"。

请确保你的判断客观公正,且基于图片中的实际情况。

理论上,你还可以重复2-5的步骤。数据集越多,优化后的Prompt越好。

有了PromptPilot,提示词从生成、调试、优化到管理,变得更加的容易和可控,再也不是那个“开局全靠roll”的时代了。

尤其是在搞AI Agent或AI应用开发的朋友,强烈推荐去试试这个神器。

另外,PromptPilot还支持知识库和外接模型。比如,它的自定义模型还支持“其他”,别提有多爽了,你懂的。

其他产品

当然,这次火山发布的神器,可不止PromptPilot这一款。

囿于篇幅,下面我给大家摘重点介绍一些。

1)豆包大模型1.6升级

特别给大家介绍一下Seed-1.6-embedding,这是一个全模态向量化模型,首次引入了视频向量化能力,在多个榜单中达到SOTA效果,特别擅长图文、视频的检索与理解。

2)豆包同声传译2.0模型

这个模型,我当天就发了朋友圈,很多人讨论。

主要亮点是低延迟+音色复刻。延迟大概在2s左右,甚至比人类同传译员还要快,而且是原作者的音色复刻,没有任何的机械感。

字节Seed团队,在Audio这块是真的强。

3)Responses API

我们知道,Agent能力的实质其实是Context,即上下文。火山方舟这个Responses API,具备原生的上下文管理,能自主完成工具选择、调用和请求模型的闭环,更快更省。

简单理解,Responses API就是来帮你省钱的。构建Agent,用这一个API就够了。

4)AI知识管理

AI知识管理是字节新发布的文件问答助手,你可以把它理解为类似NotebookLM这样的产品,支持各种多模态内容的理解和处理。

体验地址:

https://aisearch.volcengine.com

当天现场还有一个彩蛋,火山方舟把各个讲师的PDF、产品介绍和开发者Meetup资料都上传到了AI知识管理里,你可以点击“探索知识”,体验试试。

文件地址:

https://aisearch.volcengine.com/share/448b65a1

5)VIikingDB

一款由字节自研的向量数据库,抖音的推荐系统、Coze的知识库都是由VIikingDB支持的,RAG能力非常出色。

6)方舟协作计划

最后,是一个福利环节。

一直到11月底,在火山方舟里接入大模型,个人用户可以获得50万tokens的赠送,企业用户可以获得500万tokens的赠送,每个模型都可以享有。

如果你同意将调用数据给方舟团队优化模型,还有tokens返还。

感兴趣的朋友,可以前往火山后台体验。

火山后台:

https://console.volcengine.com/home

写在最后

火山引擎,一直是我用得最多的AI云服务平台。

不是说我去了趟厦门,我才这样说,而是他们真的很在意开发者。在开发者Meetup现场,50多名开发者提了超级多的建议,他们照单全收,列list进行改进。

比如PromptPilot,其实上线有一段时间了,刚开始并不支持自接模型,有开发者提了意见,他们迅速改进,现在不仅支持国内模型,还直接支持海外模型。

在服务、稳定性、速度和价格这块,火山引擎一直都很靠谱。

这次去厦门,还见到一位00后开发者,据说他通过AI Coding做的产品,在淘宝上每月稳定收入大几千,于是干脆辞职,All in AI。

这真是一个美好的时代。台子已经搭好,剩下就等你入场了。

勇敢去造吧,我的朋友。

特别声明:[还在手搓Prompt?也太out了吧!这套Prompt手法包教包会(手搓是啥)] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

绝了!穿这双高跟,加班约会都能打,让我从“路人甲”变氛围感美女

鞋面上的蝴蝶结+绊带设计绝绝子,甜妹和酷姐的DNA疯狂联动,既保留了高跟鞋的优雅,又多了份俏皮劲儿,穿去约会被crush夸“今天好有女人味”,职场里蹬上 它,干练中藏着小甜,同事都问我是不是偷偷去学了穿搭!不…

绝了!穿这双高跟,加班约会都能打,让我从“路人甲”变氛围感美女

还珠格格:萧剑真的是晴儿最好的归宿吗?(还珠格格萧剑和谁在一起了)

在逃亡期间,紫薇曾与萧剑谈起晴儿,称她聪慧过人、知书达理。 在那个时刻,萧剑的决定显示出了他的大度与宽容,真正展示了他愿意为他人着想,甚至放弃个人的追求与情感。这时的萧剑,已经具备了成为晴儿理想伴侣的条件,如…

还珠格格:萧剑真的是晴儿最好的归宿吗?(还珠格格萧剑和谁在一起了)

老外都看不下去!731电影又被针对,英国小伙写歌力挺,唱哭观众(外国人看不下去表情包)

731部队的暴行在国际社会中鲜为人知,博主希望通过这首歌唤起更多人的关注,以音乐为桥梁,让这段历史传递给全球更多人。 尽管如此,电影在定档48小时后,仍面临来自日本学者的指责,他们在东京召开记者会,称电影中的…

老外都看不下去!731电影又被针对,英国小伙写歌力挺,唱哭观众(外国人看不下去表情包)

EAMON伊明牌精密型WPTE160-32-40-60-64-80-100-35-114.3-200-M12行星式减速机在多轴联动数控机床上的应用具有哪些优点和缺点?(伊明是什么意思)

行星式减速机在多轴联动数控机床上的应用具有以下优点和缺点: 1.高精密低背隙:行星减速机具有高精密度和低背隙,能够确保数控机床在加工过程中的精度要求。 综上所述,行星式减速机在多轴联动数控机床上的应用具有高…

EAMON伊明牌精密型WPTE160-32-40-60-64-80-100-35-114.3-200-M12行星式减速机在多轴联动数控机床上的应用具有哪些优点和缺点?(伊明是什么意思)

吴彦祖全家亚马逊探险,名模妻子素颜出镜,着装被网友讨论(吴彦祖 jdm)

吴彦祖于昨日晚间在社交网站发布了一段旅程短片,并将此短片命名为“家庭旅行|探险亚马逊!”。他同时配发长文,向公众分享了此次亚马逊之行的经历与感受。他描述从巴西圣保罗飞往亚马逊的途中,从飞机舷窗向外望去,理解了…

吴彦祖全家亚马逊探险,名模妻子素颜出镜,着装被网友讨论(吴彦祖 jdm)