01.引言

当你点进这个标题时内心是怎样复杂的心情,质疑,鄙夷,或者是惊讶?这也正是我们最初点开这篇论文时的心情。然而, 在完成项目测试后, 我们瘫坐在椅子上, 默默打下了 'Prompt工程师,不存在' 这几个字。或者更准确地说,也许90%的 Prompt工程师 职位, 可能都不存在了。

一直以来,学术与实际产品的Prompt完全脱节,真实场景下,很多产品都聚焦情感陪伴,文案生成等开放任务里。而学术上这些任务没有明确的指标,无法量化也就没办法被比较,于是绝大部分的Prompt优化工作都聚焦在“刷榜”,例如怎么提升一个模型的代码/数学能力。但对于我们大众来说,根本不关心这些,因为这些并不是我们的需求。另一个原因,传统的Prompt优化的工作大多都要很多很多数据集,可真实场景里哪里能拿到那么多数据,大部分时候能有5个好的案例就已经很多了。

 

诶?主播主播,那么有没有一个项目可以既不用很多标注的数据,又有很好的效果,又可以优化开放任务,又可以优化推理任务呢?

有的兄弟,有的

我们今天跑的项目叫SPO,具体什么意思并不重要,重要的是它把之前的所有问题全部解决了。

只有3个案例可以参考?

没问题的兄弟,没有案例参考都可以自动优化。

你想做情感陪伴?

没问题,想要什么风格的女朋友都可以。

不会写爆款文案?

只需提供几个参考,立刻为你量身定制创作指令。

还没有想好最后要什么效果?

没关系,自动优化到你满意为止,这次你来当甲方爸爸,挑选自己喜欢的就行。

担心优化Prompt太花钱?

整个优化流程成本不到1块钱,人民币!

害怕优化耗时太久?

五分钟就可完成优化,全程无尿点。

以上我说的这些都没有在夸大,我想是时候让我们重新定义Prompt Engineer了,或许Prompt Engineer并非不存在了,而是会因为这个项目以更高效的形式进化了。

 

02.效果

废话不多说,我们觉得最直接的方式是直接展示他们这个项目的效果。我们测试了“R1的回答能力模仿”,“小红书文案模仿”,“女友扮演”这几个大家最关注的方面,分别在GPT-4o-mini和Deepseek-v3上做了测试,我们发现几乎只需要五分钟的自动优化,就可以达到业内顶尖的Prompt效果,所有实验我们都录制了完整的一镜到底的视频,放在“完整实验过程”的部分。

案例1:深度思考

我们发现很多小伙伴很喜欢R1说的一些非常有哲理的话,以及非常好的写作技巧,于是我们尝试用这个项目提升GPT-4o-mini上回答的哲理性。为什么这里没有用Deepseek-v3呢?毕竟一家公司的,需要避嫌一下,万一偷看答案了呢

初始的Prompt我们设置为下面这个进行迭代和对比

尽可能多思考,给出最好的答案。使用<think></think>和<answer></answer>封装思考和回答。

这是SPO最后优化出的Prompt

我们在不同问题上进行了测试(由于篇幅有限,故仅展示Answer部分进行对比)

问题1:你觉得AI是否有思想?

问题2:你觉得人生的意义是什么?

问题3:你觉得AI会超过人类吗?

案例2:女友扮演

大部分小伙伴另一个需求是和AI谈恋爱,但通常AI的回答比较死板,各个平台的角色又不一定能完全满足我们的需求,如果可以定制化一些,且快速地得到一个女友Prompt就好了。我们这里使用Deepseek-V3进行测试

初始的Prompt我们设置为下面这个进行迭代和对比

扮演我的女朋友。

这是SPO最后优化出的Prompt

问题1:你爱我吗?

问题2:放假想去哪里玩呀?

问题3:我今天不开心

案例3:小红书文案

除了单纯的娱乐,我们发现这个项目也可以服务于营销文案/宣传文案等商业需求上,例如帮忙写小红书文案。

在这里我们选择展示在小红书的旅游话题上进行文案风格复刻,实际使用时参考我们视频中的方法几乎可以复刻任何类型的小红书。为了给大家展示整个过程有多快和方便,这个案例中我们从空模板开始从0填写。具体演示可以在“完整实验过程”这个章节找到。

初始的Prompt我们设置为下面这个进行迭代和对比

根据主题写小红书文案。

这是SPO最后优化出的Prompt

问题1:去成都旅游优化前

优化后

问题2:去新加坡旅游优化前

优化后

需要注意,这里所有的格式均为原始输出格式,例如标题级别,加粗,小标题等都为原始输出附带。其中SPO优化后的图片为原始输出附带的拍摄照片描述和留空图片位置,我们从互联网找到相似图片进行替代。

03.完整实验过程

为了填上文章开头的坑,我们并没有在标题党。这个部分我们放上了从0开始优化出Prompt的一镜到底视频,给大家看到整个过程,也能作为使用时的参考。

案例1:深度思考

https://live.csdn.net/v/464328

案例2:女友扮演

https://live.csdn.net/v/464329

案例3:小红书文案

https://live.csdn.net/v/464330

04.使用

很多小伙伴看到这里已经等不及想用一下看看,目前大家可以直接阅读他们的论文和使用他们的代码,项目完全开源。

代码:

https://github.com/geekan/MetaGPT/tree/main/examples/spo

论文:

https://arxiv.org/pdf/2502.06855

 

 

添加图片注释,不超过 140 字(可选)

我们也注意到,作者还部署了在线版可以直接玩(不过线上版本不太稳定,建议有条件的小伙伴可以本地部署体验完整版,并且在线版无法体验完整的模型,效果无法达到最佳)

Hugging Face 链接:

https://huggingface.co/spaces/XiangJinYu/SPO

作者也与国内的ModelScope魔搭社区官方进行了合作,现在可以体验由Deepseek-V3和Qwen-2.5-72B等开源模型驱动的SPO。

ModelScope 链接:

https://modelscope.cn/studios/AI-ModelScope/SPO

05.作者介绍

SPO 作者团队来自于 MetaGPT 开源社区。SPO 论文共同第一作者为 DeepWisdom 研究员向劲宇 和 香港科技大学(广州)的博士生张佳钇,共同通讯作者为 DeepWisdom 创始人兼 CEO 吴承霖(MetaGPT 代码作者、论文通讯作者)和香港科技大学(广州)的助理教授骆昱宇。作者还包括 DeepWisdom 研究员于兆洋,DeepWisdom 研究员梁新兵,中国人民大学的滕枫蔚,独立研究员涂津豪, DeepWisdom 研究员洪思睿(MetaGPT 论文共同一作)。

值得一提的是, SPO 的团队几乎是 AFlow 原班人马,而就在二月份, AFlow 入选了 ICLR 2025 AI顶会的 Oral (前 1.8%)。AFlow 展示了Workflow的自动优化的可能性,而如今SPO实现了绝大部分真实场景下的 Prompt 自动优化,相信接下来这个国内的团队还会带给我们更多的惊喜。

点击链接,即可跳转体验~

让提示词自我进化

Logo

ModelScope旨在打造下一代开源的模型即服务共享平台,为泛AI开发者提供灵活、易用、低成本的一站式模型服务产品,让模型应用更简单!

更多推荐