无需参数拜谒！CMU用大模子自动优化视觉谈话领导词｜CVPR’24

林之秋投稿量子位 | 公众号 QbitAI

视觉谈话模子（如 GPT-4o、DALL-E 3）频频领罕有十亿参数，且模子权重不公开，使得传统的白盒优化次第（如反向传播）难以履行。

那么，有莫得更破坏的优化次第呢？

就在最近，卡内基梅隆大学（CMU）的商榷团队关于这个问题建议了一种更变的“黑盒优化”战略——

通过大谈话模子自动更变当然谈话领导词，使视觉谈话模子在文生图、视觉识别等多个卑鄙任务中得回更好的阐明。

这一次第不仅无需涉及模子里面参数，还大幅进步了优化的天真性与速率，让用户即使莫得手艺布景也能破坏进步模子性能。

该商榷已被 CVPR 2024罗致。

如何作念到的？

大多数视觉谈话模子（如 DALL-E 3、GPT-4o 等）并未公开模子权重或特征镶嵌，导致传统依赖反向传播的优化情势不再适用。

不外，这些模子频频向用户怒放了当然谈话接口，使得通过优化领导词来进步模子阐明成为可能。

关连词，传统的领导词工程严重依赖工程师的教化和先验常识。

举例，为进步 CLIP 模子的视觉识别效果，OpenAI 奢靡了一年时候网罗了几十种有用的领导词模板（如 “A good photo of a [class]”）。

不异，在使用DALL-E 3和Stable Diffusion等文生图模子时，用户时时也需掌捏多数领导词手段能力生成舒坦的驱逐。

那么，有莫得替代东说念主类领导词工程师的次第？

有的 CMU 团队建议了一种新战略：用 ChatGPT 等大谈话模子自动优化领导词。

像领导词工程师欺诈响应更正领导词一样，CMU 的次第将正负响应交给 ChatGPT，以更高效地更变领导词，具体历程如图所示：

这种优化历程雷同于机器学习中的“爬山法”（hill-climbing）战略，不同之处在于大谈话模子不错自动分析领导词阐明，从正负响应中找到最优更正标的。

商榷团队欺诈这一特质来更高效地优化领导词。这个历程不错用以下门径综合：

领导词驱动化：网罗一批未经优化的驱动领导词。领导词排序：对现时领导词进行阐明评分，保留高分领导词，替换低分领导词。生成新领导词：通过大谈话模子，字据领导词的阐明生成新的候选领导词。经过多轮迭代，最终复返得分最高的领导词动作优化驱逐。

实验驱逐

通过这一次第，CMU 团队在无需东说念主类领导工程师参与的情况下，在多个小样本视觉识别数据集上取得了最好准确性，甚而罕见了传统的白盒领导词优化次第（如 CoOp）。

此外，该次第在无需了解数据集本色的前提下，自动捕捉到了卑鄙任务的视觉特质并将其融入领导词中，取得了更好的效果。

举例，在食品识别任务中，ChatGPT 自动将领导词更变为识别“各样化的好意思食和原料”，从而进步了模子的阐明。

商榷团队还诠释了，通过 ChatGPT 黑盒优化得到的领导词不仅适用于单一模子架构，还能在不同模子架构（如 ResNet 和 ViT）之间泛化，何况在多种模子上阐明优于白盒优化得到的领导词。

这一系列实考诠释，大谈话模子大致从领导词的性能响应中提真金不怕火出隐含的“梯度”标的，从而罢了无需反向传播的模子优化。

在文生图任务中的应用

CMU 团队进一步探索了该次第在生成任务中的应用后劲。

在文本到图像生成（T2I）任务中，ChatGPT 大致自动优化领导词，从而生成更稳妥用户需求的高质地图像。

举例，关于输入描述“一个动物细心着一个东说念主”，系统不错通过自如优化领导词来进步生成图像的准确性。

此外，这一次第还适用于领导反演（Prompt Inversion）。

领导反演是一种字据现存图像反推生成模子输入领导词的手艺，肤浅来说，即是通过图像生成大致再现其特征的文本描述（领导词）。

商榷团队在复杂的文本到图像任务上进行了测试，驱逐标明这一次第仅需三轮领导词优化，就能显耀提高用户的舒坦度。

此外，商榷团队还指出，领导反演不错匡助用户快速定制特定的图像效果，举例“让这只狗酿成馈送姿势”或“让布景酿成夜景”，从而生成稳妥特定需求的图像。

CMU 团队示意，建议的黑盒优化范式破裂了传统模子调优的罢休，不仅在图像分类和生成任务中阐明出色，还展示了世俗的应用后劲。

这一次第无需拜谒模子权重，仅通过“文本梯度”罢了精确优化，具备纷乱的推广性。

改日，黑盒优化有望应用于及时监控、自动驾驶、智能医疗等复杂动态场景，为多模态模子的调优带来愈加天真高效的不停决策。

团队先容

团队的一作刘士弘（Shihong Liu）是卡内基梅隆大学的商榷生毕业生，曾任机器东说念主商榷所商榷员。

现在在北好意思Amazon 使命，精致大型漫衍式系统的策画和大谈话模子驱动的 AI Agent 的培植。

△刘士弘（Shihong Liu）

团队的共吞并作林之秋（Zhiqiu Lin）是卡内基梅隆大学的博士商榷生，专注于视觉-谈话大模子的自动评估与优化。

Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文，并曾荣获最好论文提名和最好短论文奖等。

△林之秋（Zhiqiu Lin）

Deva Ramanan素养是策画机视觉界限的国外驰名学者，现任卡内基梅隆大学素养。

△Deva Ramanan素养

他的商榷涵盖策画机视觉、机器学习和东说念主工智能界限，曾得回多项顶级学术荣誉，包括2009年的David Marr奖、2010年的PASCAL VOC毕生建立奖、2012年的IEEE PAMI后生商榷员奖、2012年《全球科学》评比的“十位隆起科学家”之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖，以及因其代表性使命（如COCO数据集）得回的Koenderink奖。

此外，他的论文在CVPR、ECCV和ICCV上屡次得回最好论文提名及荣誉奖。他的商榷遵循对视觉识别、自动驾驶、和东说念主机交互等应用产生了深切影响，是该界限极具影响力的科学家之一。

CVPR’24论文流畅:https://arxiv.org/abs/2309.05950

论文代码:https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

表情网站：https://llm-can-optimize-vlm.github.io

让建站和SEO变得简单

无需参数拜谒！CMU用大模子自动优化视觉谈话领导词｜CVPR’24