無需參數訪問！CMU用大模型自動優化視覺語言提示詞

視覺語言模型（如 GPT-4o、DALL-E 3）通常擁有數十億參數，且模型權重不公開，使得傳統的白盒優化方法（如反向傳播）難以實施。

那麽，有沒有更輕松的優化方法呢？

就在最近，卡内基梅隆大學（CMU）的研究團隊對于這個問題提出了一種創新的" 黑盒優化 " 策略——

通過大語言模型自動調整自然語言提示詞，使視覺語言模型在文生圖、視覺識别等多個下遊任務中獲得更好的表現。

這一方法不僅無需觸及模型内部參數，還大幅提升了優化的靈活性與速度，讓用戶即使沒有技術背景也能輕松提升模型性能。

該研究已被 CVPR 2024 接收。

如何做到的？

大多數視覺語言模型（如 DALL-E 3、GPT-4o 等）并未公開模型權重或特征嵌入，導緻傳統依賴反向傳播的優化方式不再适用。

不過，這些模型通常向用戶開放了自然語言接口，使得通過優化提示詞來提升模型表現成爲可能。

然而，傳統的提示詞工程嚴重依賴工程師的經驗和先驗知識。

例如，爲提升 CLIP 模型的視覺識别效果，OpenAI 花費了一年時間收集了幾十種有效的提示詞模闆（如 "A good photo of a [ class ] "）。

同樣，在使用 DALL-E 3 和 Stable Diffusion 等文生圖模型時，用戶往往也需掌握大量提示詞技巧才能生成滿意的結果。

那麽，有沒有替代人類提示詞工程師的方法？

有的 CMU 團隊提出了一種新策略：用 ChatGPT 等大語言模型自動優化提示詞。

像提示詞工程師利用反饋改進提示詞一樣，CMU 的方法将正負反饋交給 ChatGPT，以更高效地調整提示詞，具體過程如圖所示：

這種優化過程類似于機器學習中的" 爬山法 "（hill-climbing）策略，不同之處在于大語言模型可以自動分析提示詞表現，從正負反饋中找到最優改進方向。

研究團隊利用這一特性來更高效地優化提示詞。這個過程可以用以下步驟概括：

提示詞初始化：收集一批未經優化的初始提示詞。

提示詞排序：對當前提示詞進行表現評分，保留高分提示詞，替換低分提示詞。

生成新提示詞：通過大語言模型，根據提示詞的表現生成新的候選提示詞。

經過多輪叠代，最終返回得分最高的提示詞作爲優化結果。

實驗結果

通過這一方法，CMU 團隊在無需人類提示工程師參與的情況下，在多個小樣本視覺識别數據集上取得了最佳準确性，甚至超越了傳統的白盒提示詞優化方法（如 CoOp）。

此外，該方法在無需了解數據集内容的前提下，自動捕捉到了下遊任務的視覺特性并将其融入提示詞中，取得了更好的效果。

例如，在食物識别任務中，ChatGPT 自動将提示詞調整爲識别 " 多樣化的美食和原料 "，從而提升了模型的表現。

研究團隊還證明了，通過 ChatGPT 黑盒優化得到的提示詞不僅适用于單一模型架構，還能在不同模型架構（如 ResNet 和 ViT）之間泛化，并且在多種模型上表現優于白盒優化得到的提示詞。

這一系列實驗證明，大語言模型能夠從提示詞的性能反饋中提取出隐含的 " 梯度 " 方向，從而實現無需反向傳播的模型優化。

在文生圖任務中的應用

CMU 團隊進一步探索了該方法在生成任務中的應用潛力。

在文本到圖像生成（T2I）任務中，ChatGPT 能夠自動優化提示詞，從而生成更符合用戶需求的高質量圖像。

例如，對于輸入描述 " 一個動物注視着一個人 "，系統可以通過逐步優化提示詞來提升生成圖像的準确性。

此外，這一方法還适用于提示反演（Prompt Inversion）。

提示反演是一種根據現有圖像反推生成模型輸入提示詞的技術，簡單來說，就是通過圖像生成能夠再現其特征的文本描述（提示詞）。

研究團隊在複雜的文本到圖像任務上進行了測試，結果表明這一方法僅需三輪提示詞優化，就能顯著提高用戶的滿意度。

此外，研究團隊還指出，提示反演可以幫助用戶快速定制特定的圖像效果，例如 " 讓這隻狗變成站立姿勢 " 或 " 讓背景變成夜景 "，從而生成符合特定需求的圖像。

CMU 團隊表示，提出的黑盒優化範式突破了傳統模型調優的限制，不僅在圖像分類和生成任務中表現出色，還展示了廣泛的應用潛力。

這一方法無需訪問模型權重，僅通過 " 文本梯度 " 實現精準優化，具備強大的擴展性。

未來，黑盒優化有望應用于實時監控、自動駕駛、智能醫療等複雜動态場景，爲多模态模型的調優帶來更加靈活高效的解決方案。

團隊介紹

團隊的一作劉士弘（Shihong Liu）是卡内基梅隆大學的研究生畢業生，曾任機器人研究所研究員。

目前在北美 Amazon 工作，負責大型分布式系統的計算和大語言模型驅動的 AI Agent 的開發。

△劉士弘（Shihong Liu）

團隊的共同一作林之秋（Zhiqiu Lin）是卡内基梅隆大學的博士研究生，專注于視覺 - 語言大模型的自動評估與優化。

Zhiqiu Lin 在 CVPR、NeurIPS、ICML、ECCV 等頂級會議上發表了十數篇論文，并曾榮獲最佳論文提名和最佳短論文獎等。

△林之秋（Zhiqiu Lin）

Deva Ramanan教授是計算機視覺領域的國際知名學者，現任卡内基梅隆大學教授。

△Deva Ramanan 教授

他的研究涵蓋計算機視覺、機器學習和人工智能領域，曾獲得多項頂級學術榮譽，包括 2009 年的 David Marr 獎、2010 年的 PASCAL VOC 終身成就獎、2012 年的 IEEE PAMI 青年研究員獎、2012 年《大衆科學》評選的 " 十位傑出科學家 " 之一、2013 年美國國家科學院 Kavli Fellow、2018 年和 2024 年的 Longuet-Higgins 獎，以及因其代表性工作（如 COCO 數據集）獲得的 Koenderink 獎。

此外，他的論文在 CVPR、ECCV 和 ICCV 上多次獲得最佳論文提名及榮譽獎。他的研究成果對視覺識别、自動駕駛、和人機交互等應用産生了深遠影響，是該領域極具影響力的科學家之一。

CVPR ’ 24 論文鏈接 :

https://arxiv.org/abs/2309.05950

論文代碼 :

https://github.com/shihongl1998/LLM-as-a-blackbox-optimizer

項目網站：

https://llm-can-optimize-vlm.github.io

— 完 —

投稿請發郵件到：

[email protected]

标題注明【投稿】，告訴我們：

你是誰，從哪來，投稿内容‍

附上論文 / 項目主頁鏈接，以及聯系方式哦

我們會（盡量）及時回複你

點這裏關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~