MixerBox Blog

吳恩達:AI  agent 自動化工作流程今年有望帶動大規模 AI 進展,重要性可能超過發展大模型

Facebook
LinkedIn
吳恩達:AI agent 自動化工作流程有望在今年帶動大規模 AI 進展,重要性可能超過發展大模型

著名 AI 大神、美國史丹佛大學教授吳恩達(Andrew Ng)最近連續發表數篇文章預測,AI agent workflow(人工智慧代理工作流程、人工智慧分身工作流程)可能將是今年帶動 AI 大規模進展的主要動力,重要性可能超過發展下一個大模型(LLM)。

這也是 MixerBox AI 正在努力的方向——如何透過更符合使用者需求的開發,讓現有的大語言模型變得更好用。 因此我們深入閱讀這些文章,並且將其中一篇翻譯成中文,希望更多人一起認識 AI agent 開發的趨勢!掌握 AI 時代的機會

【重點摘要】

  • AI agent 工作流程有望在今年帶動大規模人工智慧進展,重要性可能超過發展大模型。
  • 過去我們使用大型語言模型時是以一種一次搞定的零射擊模式( zero-shot mode)運作,期待只用單一指令就得到最終輸出成果。這與真實的人類工作流程有很大差距。
  • agent 工作流程允許大型語言模型反覆修改文件,如規劃大綱、線上研究、撰寫草稿和修訂等,能產生更好的結果。
  • 單就 OpenAI ChatGPT 而言,即使是 GPT-3.5,只要透過 agent 循環運作,正確率可遠勝 GPT-4 的零射擊模式。
  • 建構代理模式的設計模式:反思、工具使用、規劃和多代理協作。

【全文翻譯】

親愛的朋友們:

我認為今年「人工智慧代理工作流程」(AI agent workflow)將帶動人工智慧的大規模進展——或許甚至比發展下一代基礎模型更為重要。這是一個重要的趨勢,我呼籲所有從事人工智慧工作的人都要關注這件事。

目前,我們主要是用一種零射擊模式( zero-shot mode)來使用大型語言模型,給予一次性提示,然後要求模型一個 token、 一個 token 地直接生成最終答案,且不對其成果進行任何修訂。這就好比要求某人一次性撰寫整篇文章,從頭直接打字而不允許退格,並期望得到高品質的結果。儘管這難度很高,大型語言模型在這項任務上的表現仍然驚人!

不過,使用 agent 工作流程,我們可以要求大型語言模型反覆修改文檔多次。例如,它可能會執行如下一系列步驟:

  • 規劃大綱
  • 決定是否需要進行網路搜尋以收集更多資訊
  • 撰寫初稿
  • 審閱初稿,發現任何無根據的論點或多餘的資訊
  • 根據發現的弱點修訂草稿
  • 如此類推

這種反覆的過程對大多數撰稿人來說都是撰寫優質文本的關鍵。對人工智慧而言,採用這種反覆式工作流程所產生的結果,會比一次性寫作要好得多。

Devin 最近展示的實例在社群媒體上引起了熱烈迴響。我的團隊一直密切關注著 AI 寫程式的技術演進。我們分析了多個研究團隊的結果,主要以廣為人知的 HumanEval 程式碼基準測試來觀察算法的表現。您可以在下圖中看到我們的發現。

GPT-3.5 (零射擊)的正確率為 48.1%。GPT-4 (零射擊)表現更好,達到 67.0%。然而,從 GPT-3.5 升級到 GPT-4 所帶來的提升,遠不及採用反覆式 agent 工作流程。事實上,透過 agent  循環運作,GPT-3.5 的正確率可高達 95.1%。

開源 agent 工具和學術文獻中關於 agent  的內容正在快速增長,這使得當前時期非常令人興奮,同時也帶來一些混淆。為了幫助您正確理解這些工作,我想分享一個用於分類建構 agent  模式設計的框架。我所在的 AI Fund 團隊已成功地在許多應用中使用這些模式,希望您也能從中獲益。

  • 反思(Reflection):大型語言模型檢視自身的工作,提出改進方式。
  • 工具使用(Tool use):提供大型語言模型網路搜尋、程式執行或任何其他功能,以幫助它收集資訊、執行操作或處理數據。
  • 規劃(Planning):大型語言模型擬定並執行多步驟計劃以實現目標(例如為文章撰寫大綱、進行線上研究、撰寫草稿等)。
  • 多代理協作(Multi-agent collaboration):多個人工智慧代理相互協作,分擔任務、討論和辯論想法,以得出比單一代理更好的解決方案。

下周我將詳細闡釋這些設計模式,並為每一種提供建議閱讀資料。

保持學習!

Andrew


PS:如何建立一個從頭開始優化的大型語言模型推理系統,請參加我們新推出的短期課程「高效提供大型語言模型服務」,由 Predibase 技術長 Travis Addair 主講。

  • 學習諸如 KV caching、continuous batching 和 quantization 等技術,加速運算並優化記憶體使用。
  • 對大型語言模型的優化進行基準測試,探索延遲與同時為多個用戶提供服務之間的權衡。
  • 使用 low-rank adaptation (LoRA) ,有效地在單一裝置上為數百個自訂微調模型提供服務。

原文出處:https://www.deeplearning.ai/the-batch/issue-241/

👉👉〈科技觀察〉系列文章:

YC 創辦人 Paul Graham :從用戶身上學到致勝的關鍵

AI 時代的 5 大機會,你掌握到了嗎?

MixerBox AI 聊天機器人 2024 最新版免費下載、上手教學一次看懂!

探索更多來自 MixerBox Blog 的內容

立即訂閱即可持續閱讀,還能取得所有封存文章。

Continue reading