林之秋 投稿量子位 | 公众号 QbitAI
视觉谈话模子(如 GPT-4o、DALL-E 3)频频领罕有十亿参数,且模子权重不公开,使得传统的白盒优化次第(如反向传播)难以履行。
那么,有莫得更破坏的优化次第呢?
就在最近,卡内基梅隆大学(CMU)的商榷团队关于这个问题建议了一种更变的“黑盒优化”战略——
通过大谈话模子自动更变当然谈话领导词,使视觉谈话模子在文生图、视觉识别等多个卑鄙任务中得回更好的阐明。
这一次第不仅无需涉及模子里面参数,还大幅进步了优化的天真性与速率,让用户即使莫得手艺布景也能破坏进步模子性能。
该商榷已被 CVPR 2024罗致。
如何作念到的?
大多数视觉谈话模子(如 DALL-E 3、GPT-4o 等)并未公开模子权重或特征镶嵌,导致传统依赖反向传播的优化情势不再适用。
不外,这些模子频频向用户怒放了当然谈话接口,使得通过优化领导词来进步模子阐明成为可能。
关连词,传统的领导词工程严重依赖工程师的教化和先验常识。
举例,为进步 CLIP 模子的视觉识别效果,OpenAI 奢靡了一年时候网罗了几十种有用的领导词模板(如 “A good photo of a [class]”)。
不异,在使用DALL-E 3和Stable Diffusion等文生图模子时,用户时时也需掌捏多数领导词手段能力生成舒坦的驱逐。
那么,有莫得替代东说念主类领导词工程师的次第?
有的 CMU 团队建议了一种新战略:用 ChatGPT 等大谈话模子自动优化领导词。
像领导词工程师欺诈响应更正领导词一样,CMU 的次第将正负响应交给 ChatGPT,以更高效地更变领导词,具体历程如图所示:
这种优化历程雷同于机器学习中的“爬山法”(hill-climbing)战略,不同之处在于大谈话模子不错自动分析领导词阐明,从正负响应中找到最优更正标的。
商榷团队欺诈这一特质来更高效地优化领导词。这个历程不错用以下门径综合:
领导词驱动化:网罗一批未经优化的驱动领导词。领导词排序:对现时领导词进行阐明评分,保留高分领导词,替换低分领导词。生成新领导词:通过大谈话模子,字据领导词的阐明生成新的候选领导词。经过多轮迭代,最终复返得分最高的领导词动作优化驱逐。
实验驱逐
通过这一次第,CMU 团队在无需东说念主类领导工程师参与的情况下,在多个小样本视觉识别数据集上取得了最好准确性,甚而罕见了传统的白盒领导词优化次第(如 CoOp)。
此外,该次第在无需了解数据集本色的前提下,自动捕捉到了卑鄙任务的视觉特质并将其融入领导词中,取得了更好的效果。
举例,在食品识别任务中,ChatGPT 自动将领导词更变为识别“各样化的好意思食和原料”,从而进步了模子的阐明。
商榷团队还诠释了,通过 ChatGPT 黑盒优化得到的领导词不仅适用于单一模子架构,还能在不同模子架构(如 ResNet 和 ViT)之间泛化,何况在多种模子上阐明优于白盒优化得到的领导词。
这一系列实考诠释,大谈话模子大致从领导词的性能响应中提真金不怕火出隐含的“梯度”标的,从而罢了无需反向传播的模子优化。
在文生图任务中的应用
CMU 团队进一步探索了该次第在生成任务中的应用后劲。
在文本到图像生成(T2I)任务中,ChatGPT 大致自动优化领导词,从而生成更稳妥用户需求的高质地图像。
举例,关于输入描述“一个动物细心着一个东说念主”,系统不错通过自如优化领导词来进步生成图像的准确性。
此外,这一次第还适用于领导反演(Prompt Inversion)。
领导反演是一种字据现存图像反推生成模子输入领导词的手艺,肤浅来说,即是通过图像生成大致再现其特征的文本描述(领导词)。
商榷团队在复杂的文本到图像任务上进行了测试,驱逐标明这一次第仅需三轮领导词优化,就能显耀提高用户的舒坦度。
此外,商榷团队还指出,领导反演不错匡助用户快速定制特定的图像效果,举例“让这只狗酿成馈送姿势”或“让布景酿成夜景”,从而生成稳妥特定需求的图像。
CMU 团队示意,建议的黑盒优化范式破裂了传统模子调优的罢休,不仅在图像分类和生成任务中阐明出色,还展示了世俗的应用后劲。
这一次第无需拜谒模子权重,仅通过“文本梯度”罢了精确优化,具备纷乱的推广性。
改日,黑盒优化有望应用于及时监控、自动驾驶、智能医疗等复杂动态场景,为多模态模子的调优带来愈加天真高效的不停决策。
团队先容
团队的一作刘士弘(Shihong Liu)是卡内基梅隆大学的商榷生毕业生,曾任机器东说念主商榷所商榷员。
现在在 北好意思Amazon 使命,精致大型漫衍式系统的策画和大谈话模子驱动的 AI Agent 的培植。
△刘士弘(Shihong Liu)
团队的共吞并作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士商榷生,专注于视觉-谈话大模子的自动评估与优化。
Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。
△林之秋(Zhiqiu Lin)
Deva Ramanan素养是策画机视觉界限的国外驰名学者,现任卡内基梅隆大学素养。
△Deva Ramanan素养
他的商榷涵盖策画机视觉、机器学习和东说念主工智能界限,曾得回多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC毕生建立奖、2012年的IEEE PAMI后生商榷员奖、2012年《全球科学》评比的“十位隆起科学家”之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性使命(如COCO数据集)得回的Koenderink奖。
此外,他的论文在CVPR、ECCV和ICCV上屡次得回最好论文提名及荣誉奖。他的商榷遵循对视觉识别、自动驾驶、和东说念主机交互等应用产生了深切影响,是该界限极具影响力的科学家之一。
CVPR’24论文流畅:https://arxiv.org/abs/2309.05950
论文代码:https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer
表情网站:https://llm-can-optimize-vlm.github.io