Harrison Chase：獨創(chuàng)AI智能體「認(rèn)知架構(gòu)」，定制+極簡加減法雙驅(qū)動

本文作者：劉潔

2024-10-14 10:18

導(dǎo)語：做定制化的認(rèn)知架構(gòu)，賣最好喝的“啤酒”。

七月初，OpenAI 一篇博文讓AI智能體的熱潮席卷全球，業(yè)界對 AI 智能體的興趣達(dá)到了一個新的高度。

智能體被視為大模型之后的又一熱點。如在雷峰網(wǎng)(公眾號：雷峰網(wǎng))公眾號 AI 科技評論之前“具身智能十人談”欄目對聯(lián)想 CTO 芮勇的專訪中，芮勇就認(rèn)為，AI 發(fā)展的三部曲是從小模型到大模型，再到智能體。這也是聯(lián)想很早就關(guān)注到了 OpenAI，并快速跟進(jìn)智能體研究的原因。

首先要搞明白一個問題：AI 智能體和我們熟悉的 AI 助手到底有什么不同？

表面上看，它們似乎都是幫助我們完成任務(wù)的工具?？?LangChain 的創(chuàng)始人 Harrison Chase 告訴我們，差別其實非常大。

AI 智能體指的是一個可以觀察周遭環(huán)境并作出行動以達(dá)致目標(biāo)的自主實體。通俗地說，就是一個具備 AI 能力的主體，可以是硬件也可以是軟件，但一般都是軟件程序，比如 LangChain。

LangChain 是一個開源框架，它的特別之處在于，你只需幾行代碼就可以快速搭建 AI 應(yīng)用。這讓創(chuàng)建復(fù)雜的智能體變得像搭積木一樣簡單。

Harrison Chase 創(chuàng)立了同名公司 LangChain 后，還陸續(xù)推出了 LangGraoh 和 LangSmith 用于解決更復(fù)雜的問題。

問題來了：這些智能體真的比 AI 助手更強(qiáng)大嗎？

對此，Harrison Chase 的觀點非常明確。他認(rèn)為，AI 助手的核心在于輔助人類做決策，而智能體的核心則是自主行動，獨立決策。

AI 助手就像副駕駛座上的幫手，幫你指路、拿東西；而 AI 智能體則是司機(jī)，它能夠自己決定路線和速度，獨立工作、處理一系列任務(wù)，完全不需要人類的每一步指引。

早期的 AI 智能體，比如 BabyAGI 和 AutoGPT，曾被質(zhì)疑為換湯不換藥的 AI 助手炒作版。因為它們的任務(wù)過于籠統(tǒng)、缺乏明確的規(guī)則，而實際上，企業(yè)真正需要的是能夠根據(jù)具體需求定制的智能體。

而當(dāng)今正火熱的另一個概念“具身智能”，其本身也是一種有身體并支持物理交互的智能體。LangChain 智能體是旨在增強(qiáng) LLM 能力的強(qiáng)大組件，使它們進(jìn)行決策和采取行動，從而實現(xiàn)更高級的智能形式。

Harrison Chase 把從用戶輸入到輸出，LLM 在調(diào)用中處理和流轉(zhuǎn)信息的整個過程稱為“認(rèn)知架構(gòu)”，并表示定制的認(rèn)知架構(gòu)能讓 AI 智能體根據(jù)需求反復(fù)執(zhí)行相同的任務(wù)，自動化大量繁瑣的事務(wù)，實現(xiàn)用戶操作的極致簡化。

當(dāng)然，AI 智能體能做的不止是流水線工作這么簡單，在幫助用戶給繁瑣的工作做減法的同時，Harrison Chase 還特別關(guān)注用戶體驗，通過定制做了新的加法。

一方面，AI 智能體能和用戶互動，給用戶更貼心的私人定制服務(wù)，另一方面它們還能根據(jù)用戶反饋不斷優(yōu)化，越用越智能，讓用戶可以完全放手丟給 AI 智能體去處理。

不過，對于那些目標(biāo)是做通用認(rèn)知架構(gòu)的企業(yè)來說，沒必要費(fèi)心去提升認(rèn)知架構(gòu)的水平。只有那些盯準(zhǔn)定制化需求的企業(yè)才需要像上個世紀(jì)的啤酒廠商一樣，必須花大力氣去搞自己的發(fā)電系統(tǒng)，才能讓自己的啤酒味道更好。

目前，AI 智能體的研究仍然處于起步階段，普林斯頓的研究表明，他們的智能體能解決 12.5%的 GitHub 問題，而依賴檢索增強(qiáng)生成（RAG）時只有3.8%。

但是 Harrison Chase 非?？春?AI 智能體在客戶支持和編碼方面的潛力，尤其是編碼。

在成熟的AI智能體的協(xié)助下，人人都能成為軟件開發(fā)工程師。

一個不會寫代碼的設(shè)計師，只要告訴 AI 智能體想要一款特定功能的應(yīng)用程序，智能體就能根據(jù)需求自動生成代碼，把創(chuàng)意變成現(xiàn)實。這將徹底改變我們工作和創(chuàng)造的方式。

Harrison Chase 認(rèn)為未來的工作，將不再被日?，嵤吕_，而是讓 AI 智能體承擔(dān)繁重的任務(wù)，人們只需要專注于創(chuàng)造和享受生活。

在紅杉資本的播客中，Harrison Chase 還綜合技術(shù)和產(chǎn)品，分享了更多他關(guān)于 AI 智能體的訓(xùn)練、演變和未來前景的見解。

完整播客內(nèi)容可以點擊以下鏈接一鍵收聽，雷峰網(wǎng)也對播客內(nèi)容做了不改原意的精編處理，整理出文字版提供給大家：

https://www.sequoiacap.com/podcast/training-data-harrison-chase/

AI 智能體的發(fā)展

Sonya Huang：智能體（Agent）是當(dāng)前大家都非常關(guān)注的話題。自從 LLM（大語言模型）興起以來，你一直在智能體構(gòu)建的前沿。能給我們介紹一下智能體的定義嗎？

Harrison Chase：要定義智能體其實有些棘手。人們可能對它有不同的理解，這很正常，因為我們還處在 LLM 和智能體相關(guān)發(fā)展的早期階段。

我個人的理解是，智能體是由LLM決定應(yīng)用程序的控制流程。

舉個例子，在傳統(tǒng)的 RAG（檢索增強(qiáng)生成）鏈中，流程是預(yù)設(shè)的：生成搜索查詢、檢索文檔、生成答案，最后反饋給用戶。

而智能體則將 LLM 放在中心，讓它自主決定下一步的行動。有時它會發(fā)起搜索，有時直接回復(fù)用戶，甚至可能多次查詢，直到得出答案。LLM 能動態(tài)決定整個流程。

工具的使用也是智能體的重要特征。當(dāng) LLM 決定行動時，它通常會調(diào)用不同的工具來實現(xiàn)。此外，記憶也是關(guān)鍵，當(dāng) LLM 確定下一步時，它需要記住之前的操作。

總的來說，智能體的核心就是讓 LLM 決定應(yīng)用程序的控制流程。

Pat Grady：你提到的很多都和“決策”有關(guān)，我想知道智能體是否就是一種行動方式？這兩者是否相輔相成？智能體的行為是否更偏向某一方面？

Harrison Chase：我認(rèn)為它們確實是相輔相成的。智能體的很多行為本質(zhì)上是在決定如何采取行動，而這個過程的難點在于找到正確的行動。因此，解決“決策”問題通常也能解決“行動”問題。一旦決策確定，LLM 系統(tǒng)就會執(zhí)行相應(yīng)的行動并反饋結(jié)果。

Sonya Huang：智能體與鏈的主要區(qū)別在于 LLM 自主決定下一步，而不是預(yù)先設(shè)定步驟。這種區(qū)分是否準(zhǔn)確？

Harrison Chase：是的，這是一個很好的描述。不過，實際上有不同的層次。比如，簡單的路由器可能做的是鏈中的路徑選擇，雖然 LLM 依然在決策，但這只是基礎(chǔ)應(yīng)用。而完全自主的智能體則是另一種極端。整體來看，確實存在一些細(xì)微的差別和灰色地帶。

Sonya Huang：明白了，智能體的范圍從部分控制到完全自主決策都有，這很有趣。你覺得 LangChain 在智能體生態(tài)系統(tǒng)中扮演了什么角色？

Harrison Chase：我們現(xiàn)在的重點是讓人們更容易創(chuàng)建介于這兩者之間的智能體。我們發(fā)現(xiàn)，最有效的智能體通常位于這個中間地帶。盡管完全自主的智能體吸引人，且已有原型，但它們常常偏離預(yù)期。因此，我們的工作集中在“編排層”，以便構(gòu)建靈活但仍有一定約束的智能體。如果你想深入了解，我們可以再討論。但總的來說，LangChain 的愿景是成為一個編排框架。

Sonya Huang：我記得在2023年3月左右，像 BabyAGI 和 AutoGPT 這樣的自主智能體引起了很多關(guān)注，但它們的首批迭代似乎沒有達(dá)到人們的期望。你認(rèn)為原因是什么？現(xiàn)在智能體的炒作周期處于什么階段？

Harrison Chase：確實，AutoGPT 的出現(xiàn)開啟了智能體的炒作周期，尤其是在 GitHub 上受歡迎。這個熱潮從 2023 年春季持續(xù)到夏季，之后稍微降溫。到了 2024 年，我們開始看到一些實用的應(yīng)用，比如 LangChain 與 Elastic 的合作，推出了 Elastic Assistant 和 Elastic Agent 等生產(chǎn)級智能體。這些應(yīng)用，如 Klarna 的客戶支持機(jī)器人，引發(fā)了更多討論。此外，Devon 和 Cira 等公司也在智能體領(lǐng)域進(jìn)行嘗試。

關(guān)于 AutoGPT 未能完全成功的原因，我認(rèn)為主要是它們過于籠統(tǒng)，缺乏明確的任務(wù)和規(guī)則。企業(yè)希望智能體能完成更具體的工作，而不僅僅是模糊的自主智能體。因此，我們看到的智能體更多像是定制的認(rèn)知架構(gòu)，盡管靈活，但需要更多的工程投入和開發(fā)時間，這也是這些系統(tǒng)一年前還未出現(xiàn)的原因。

定制認(rèn)知框架

Sonya Huang：你前面提到了“認(rèn)知架構(gòu)”，我很喜歡你對它的思考方式。能否解釋一下，什么是認(rèn)知架構(gòu)？我們應(yīng)該如何理解它？有沒有一個合適的思維框架？

Harrison Chase：是的，我理解的認(rèn)知架構(gòu)，基本上是指在使用大語言模型（LLM）時，你的系統(tǒng)架構(gòu)是什么樣的。

如果你正在構(gòu)建一個應(yīng)用，其中涉及多個算法步驟，你是如何利用這些算法的？你是否用它們生成最終答案？還是用它們在不同任務(wù)間進(jìn)行選擇？是否有非常復(fù)雜的分支，甚至包含多個循環(huán)？

這些都是認(rèn)知架構(gòu)的不同表現(xiàn)形式。認(rèn)知架構(gòu)其實就是指，從用戶輸入到輸出，LLM在調(diào)用過程中如何處理和流轉(zhuǎn)信息。

尤其是在把智能體投入生產(chǎn)時，我們發(fā)現(xiàn)流程通常是根據(jù)具體應(yīng)用需求而定制的。

例如，某個應(yīng)用可能需要先進(jìn)行一些特定的檢查，再執(zhí)行幾個步驟，每個步驟又可能包含循環(huán)或分支。這就像是你在畫一張流程圖，而這種定制化的流程越來越普遍，因為人們希望智能體在應(yīng)用中更可控。

我之所以稱它為“認(rèn)知架構(gòu)”，是因為LLM的核心優(yōu)勢在于它的推理能力，你可以通過編碼這種認(rèn)知心理模型，將其變成軟件系統(tǒng)中的某種架構(gòu)。

Pat Grady：你覺得這是未來的發(fā)展方向嗎？我聽到了兩點，一是非常定制化，二是它聽起來更像是硬編碼的。你認(rèn)為這是我們當(dāng)前的方向，還是暫時的解決方案？未來會出現(xiàn)更優(yōu)雅的架構(gòu)，或者一系列標(biāo)準(zhǔn)化的參考架構(gòu)嗎？

Harrison Chase：這是個很好的問題，我花了很多時間在思考這個。我認(rèn)為，在極端情況下，如果模型在規(guī)劃上非常強(qiáng)大且可靠，你可能只需要一個簡單的 for 循環(huán)，反復(fù)調(diào)用 LLM 來決定下一步該做什么，然后執(zhí)行操作并再次循環(huán)。

所有你希望模型遵循的約束都可以通過提示傳達(dá)，而模型也會按你預(yù)期的方式執(zhí)行。盡管我相信模型在推理和規(guī)劃方面會越來越好，但我不認(rèn)為它們會完全取代手動構(gòu)建的架構(gòu)。

首先是效率問題。如果你知道某個步驟總是需要在另一步驟之后執(zhí)行，那么你可以直接把它們按順序安排好。

其次是可靠性，尤其是在企業(yè)環(huán)境中，人們需要一定的保障，確保關(guān)鍵步驟按預(yù)期執(zhí)行。

因此，我認(rèn)為雖然構(gòu)建這些架構(gòu)可能會變得更容易，但它們?nèi)匀粫幸欢◤?fù)雜性。

從架構(gòu)的角度看，你可以認(rèn)為“在循環(huán)中運(yùn)行 LLM”是一種非常簡單但通用的認(rèn)知架構(gòu)。而我們在實際生產(chǎn)中看到的更多是定制化、復(fù)雜的架構(gòu)。

我覺得隨著時間推移，通用規(guī)劃和反思功能會被直接訓(xùn)練到模型中，但那些需要高度定制的規(guī)劃、反思和控制功能依然不會被取代。

Sonya Huang：可以這樣理解：LLM可以完成通用的智能體推理，但在具體領(lǐng)域中，你還需要定制化的推理能力。這些是無法完全內(nèi)置到通用模型中的。

Harrison Chase：完全正確。自定義認(rèn)知架構(gòu)的核心思想在于，你讓人類來承擔(dān)規(guī)劃責(zé)任，而不是完全依賴 LLM。

盡管某些規(guī)劃功能可能會越來越接近模型和提示，但很多任務(wù)的規(guī)劃過程依然復(fù)雜，無法完全自動化。我們還需要時間，才能發(fā)展出高度可靠、即插即用的解決方案。

用戶體驗設(shè)計

Sonya Huang：我相信智能體將成為人工智能的新潮流，我們正從 AI 助手轉(zhuǎn)向 AI 智能體。你同意嗎？為什么？

Harrison Chase：我基本同意。智能體的潛力在于，傳統(tǒng)的 AI 助手依賴人類輸入，任務(wù)能力有限。而智能體能更獨立地行動，偶爾與用戶互動，這使它們能自主處理更多任務(wù)。

但賦予它們更多自主性也帶來了風(fēng)險，例如可能出現(xiàn)偏差或錯誤。因此，找到自主性與可靠性之間的平衡將是一個重要的挑戰(zhàn)。

Pat Grady：你在 AI Ascent 上提到了用戶體驗。通常，我們認(rèn)為它與架構(gòu)位于光譜的兩端——架構(gòu)是幕后工作，而用戶體驗是前端展示。

但現(xiàn)在似乎情況有所不同，用戶體驗實際上可以影響架構(gòu)的有效性。比如，當(dāng)出現(xiàn)問題時，你可以像 Devin 一樣，回溯到規(guī)劃過程中出錯的地方。

你能談?wù)動脩趔w驗在智能體或 LLM 中的重要性嗎？另外，你覺得有哪些有趣的發(fā)展？

Harrison Chase：用戶體驗在當(dāng)前非常重要，因為 LLM 并不完美，時常出錯。聊天模式特別有效，它允許用戶實時查看模型的反應(yīng)，并及時糾正錯誤或追問細(xì)節(jié)。雖然這種模式已成為主流，但它的局限在于依然需要用戶的持續(xù)反饋，更多是一種“助手”的體驗。

如果能減少用戶的介入，讓 AI 自動完成更多任務(wù)，將帶來巨大的變革。

不過，如何在自動化和用戶參與之間找到平衡是個難題。一些有趣的想法正在嘗試解決這個問題。例如，創(chuàng)建一個智能體透明度列表，讓用戶清晰了解AI執(zhí)行的每一步。如果某個步驟出錯，用戶可以直接回溯并調(diào)整指令。

另一個創(chuàng)新的想法是引入“收件箱”體驗，讓智能體在后臺并行運(yùn)行，當(dāng)需要人類幫助時，它可以像發(fā)郵件一樣提醒用戶，這樣用戶就可以在合適的時機(jī)介入，而不必全程監(jiān)控。

在協(xié)作方面，智能體可以先起草文檔，用戶作為審閱者提供反饋。實時互動的體驗也很吸引人。

例如，用戶在評論時，智能體能夠立即修復(fù)問題，就像在 Google Docs 中一樣。這種互動方式能夠增強(qiáng)用戶體驗，使AI真正成為高效的工作伙伴。

Pat Grady：你提到的關(guān)于智能體如何從交互中學(xué)習(xí)，真的很有意思。如果我每次都要重復(fù)給同一個反饋，那體驗就會變得很糟糕，對吧？系統(tǒng)該如何提升這種反饋機(jī)制？

Harrison Chase：確實！如果我們不斷給智能體相同的反饋，而它卻不改進(jìn)，那無疑會讓人沮喪。因此，系統(tǒng)的架構(gòu)需要能夠從這些反饋中學(xué)習(xí)，不僅僅是修復(fù)當(dāng)前的問題，還能積累經(jīng)驗，避免將來再犯。

這方面的進(jìn)展雖然還處于早期階段，但我們已經(jīng)花了很多時間在思考這些問題上，并相信隨著技術(shù)的進(jìn)步，智能體會變得越來越“聰明”，從而帶來更流暢的用戶體驗。

讓啤酒變得更好

Sonya Huang：在過去六個月，智能體領(lǐng)域取得了顯著進(jìn)展。普林斯頓的研究表明，他們的智能體能解決 12.5% 的 GitHub 問題，而依賴檢索增強(qiáng)生成（RAG）時只有 3.8%。

盡管有所進(jìn)步，但 12.5% 仍不足以取代實習(xí)生。你認(rèn)為智能體的發(fā)展到了哪個階段？它們能否在面向客戶的環(huán)境中可靠部署？

Harrison Chase：是的，SWE 智能體相對通用，可以處理多種 GitHub 問題。定制智能體的可靠性雖然沒有達(dá)到“99.999%”，但已經(jīng)足夠在生產(chǎn)環(huán)境中使用。例如，Elastic 的智能體已在多個項目中應(yīng)用。雖然我沒有具體的可靠性數(shù)據(jù)，但它們足夠可靠，可以上線。通用智能體面臨更大挑戰(zhàn)，需要更長的上下文窗口和更好的推理能力才能廣泛應(yīng)用。

Sonya Huang：你提到過思路鏈（Chain of Thought）等技術(shù)，能分享認(rèn)知架構(gòu)對智能體性能的影響嗎？你認(rèn)為最有前途的認(rèn)知架構(gòu)是什么？

Harrison Chase：AutoGPT 等項目沒有成功的一個原因是早期 LLM 無法明確推理第一步該做什么。思路鏈等技術(shù)為模型提供了更好的推理空間。

姚舜宇的 ReAct 論文是第一個專門用于智能體的認(rèn)知架構(gòu)之一。ReAct 結(jié)合了推理和行動，讓模型不僅執(zhí)行動作，還能進(jìn)行推理，從而提高其能力?，F(xiàn)在，隨著模型訓(xùn)練的深入，顯式推理步驟變得不再那么必要。

當(dāng)前主要挑戰(zhàn)在于長期規(guī)劃和執(zhí)行，模型在這方面表現(xiàn)不佳，需要認(rèn)知架構(gòu)幫助生成計劃并逐步執(zhí)行。反思則幫助判斷任務(wù)是否完成。

總的來說，規(guī)劃和推理是目前最重要的通用認(rèn)知架構(gòu)，未來隨著訓(xùn)練改進(jìn)，這些問題將得到更好的解決。

Sonya Huang：你提到杰夫·貝索斯說過“專注于讓你的啤酒更好”。這讓我想到早期許多啤酒廠選擇自己發(fā)電。今天很多公司面臨類似問題：是否需要控制認(rèn)知架構(gòu)來提升業(yè)務(wù)？構(gòu)建和優(yōu)化這些架構(gòu)真的能“讓你的啤酒更好”，還是應(yīng)該放棄控制，專注于用戶界面和產(chǎn)品開發(fā)？

Harrison Chase：這取決于你構(gòu)建的認(rèn)知架構(gòu)類型。如果是通用架構(gòu)，可能不會直接提升業(yè)務(wù)。未來，模型提供商會專注于通用的規(guī)劃和認(rèn)知架構(gòu)，企業(yè)可以直接使用這些來解決問題。但如果是高度定制的架構(gòu)，反映了特定的業(yè)務(wù)流程或最佳實踐，那它確實能提升業(yè)務(wù)，尤其在依賴這些應(yīng)用的領(lǐng)域。

定制的業(yè)務(wù)邏輯和認(rèn)知模型可以顯著提高系統(tǒng)表現(xiàn)，個性化后更加精確和高效。盡管用戶體驗和界面設(shè)計依然重要，但定制化智能體顯然是企業(yè)的一個重要優(yōu)勢。我認(rèn)為通用和定制之間有很大的區(qū)別。

編排和可觀察性

LangSmith and LangGraph

Sonya Huang：我們能聊聊 LangSmith 和 LangGraph 嗎？你們解決了哪些問題？特別是在智能體管理方面，你們的產(chǎn)品如何幫助人們更好地管理狀態(tài)和提高智能體的可控性？

Harrison Chase：當(dāng)然可以。LangChain 的推出解決了關(guān)鍵問題，尤其是標(biāo)準(zhǔn)化各個組件的接口。這讓我們能夠與多種模型、向量存儲、工具和數(shù)據(jù)庫進(jìn)行廣泛集成，這也是LangChain受歡迎的重要原因。

LangChain 還提供了一系列高級接口，使用戶可以輕松使用功能，如 RAG（檢索增強(qiáng)生成）和 SQL 問答，同時動態(tài)構(gòu)建鏈的運(yùn)行時間也較短。我們把這些“鏈”視為有向無環(huán)圖（DAG），這一點很重要。

LangGraph 解決了與可定制和可控的循環(huán)元素相關(guān)的問題。循環(huán)引入了新挑戰(zhàn)，比如設(shè)計持久化層，以便恢復(fù)狀態(tài)并讓循環(huán)在后臺異步運(yùn)行。因此，我們關(guān)注如何有效部署長期、循環(huán)和人機(jī)交互的應(yīng)用程序。

關(guān)于 LangSmith，自公司成立以來我們就一直在研究它，專注于 LLM 應(yīng)用的可觀察性和測試。

我們發(fā)現(xiàn)，LLM 作為核心時，其固有的不確定性使得可觀察性和測試尤為重要，以確保能自信地投入生產(chǎn)。LangSmith 的設(shè)計使其能夠與 LangChain 無縫配合。

此外，LangSmith 還提供了提示中心，幫助用戶管理和手動審查提示。這在整個過程中顯得尤其重要，因為我們需要明確 LLM 輸出的新內(nèi)容。

可觀察性是 LLM 的顯著特征，而測試的復(fù)雜性也在增加。因此，我們希望人們能更頻繁地審查內(nèi)容，而不僅僅局限于傳統(tǒng)的軟件測試。LangSmith 提供的工具和路由正是為了解決這些挑戰(zhàn)。

可觀察性

Pat Grady：你是否有一種啟發(fā)式的方法來評估現(xiàn)有的可觀察性、測試和填空，看看它們在多大程度上適用于 LLM？哪些特征使得現(xiàn)有 LLM 與之前的模型有顯著不同，以至于你們需要開發(fā)新產(chǎn)品、新架構(gòu)或新方法？

Harrison Chase：是的，這確實是一個值得深入思考的問題。尤其是在可觀察性和測試方面，LLM 的復(fù)雜性讓我們必須創(chuàng)新。雖然像 Datadog 這樣的工具可以很好地監(jiān)控，但要深入分析多步驟的應(yīng)用程序，LangSmith 能提供更精細(xì)的痕跡分析，幫助更好地調(diào)試和應(yīng)對 LLM 的不確定性。

測試方面也很有趣。在傳統(tǒng)軟件測試中，通常只關(guān)注結(jié)果是否通過，而不進(jìn)行成對比較。然而，LLM 評估中，像 LLMSYS 這種工具允許并排比較兩個模型，這種方式在 LLM 測試中尤為關(guān)鍵。

另一個挑戰(zhàn)是，LLM測試中你不會總是有100%的通過率，因此跟蹤進(jìn)展非常重要，確保你在不斷進(jìn)步，而不是退步。相比傳統(tǒng)測試的通過/失敗判斷，LLM的測試需要更細(xì)致的跟蹤和分析。

最后，人類的參與至關(guān)重要。盡管我們希望系統(tǒng)自動化運(yùn)行，但人工干預(yù)往往更可靠。這和軟件測試中簡單的等式驗證非常不同，我們需要引入人類判斷，使測試更加精確且靈活。

軟件開發(fā)的未來

Pat Grady：在深入討論智能體構(gòu)建細(xì)節(jié)前，我想問一個問題。我們的創(chuàng)始人唐·瓦倫丁有一個著名的提問“那又怎樣？”如果自主智能體完美運(yùn)作，那又怎樣？這對世界有什么影響？我們的生活將如何不同？

Harrison Chase：從更高層面來看，這意味著我們?nèi)祟悓⒖梢躁P(guān)注不同的事情。

現(xiàn)階段，很多行業(yè)都依賴重復(fù)性、機(jī)械性的工作，而智能體的想法是自動化其中的大部分，從而讓我們能夠?qū)Ｗ⒂诟邔哟蔚膯栴}。我們可以利用智能體的輸出進(jìn)行更多創(chuàng)造性和高杠桿的工作，像公司運(yùn)營中的許多職能可以外包給智能體。

你可以想象自己扮演首席執(zhí)行官的角色，而智能體負(fù)責(zé)營銷、銷售等其他職能，自動化大量重復(fù)性工作，讓你有更多時間進(jìn)行戰(zhàn)略思考或產(chǎn)品開發(fā)。這將使我們自由地做我們擅長的、有興趣的事情，擺脫那些不太愿意做的機(jī)械工作。

Pat Grady：你有沒有看到任何現(xiàn)實中的例子，或者有什么正在開發(fā)中的有趣項目？

Harrison Chase：目前兩個最受關(guān)注的智能體領(lǐng)域是客戶支持和編碼。

客戶支持是一個很好的例子，很多公司都需要外包這類服務(wù)，而智能體可以高效地替代這部分工作，這會非常有力。

至于編碼，它更復(fù)雜，涉及許多創(chuàng)造性和產(chǎn)品定位的思考。雖然某些編碼任務(wù)確實限制了人的創(chuàng)造力，但如果有智能體可以自動完成這些編碼任務(wù)，像我媽媽有一個網(wǎng)站的想法但不會編程，這樣的智能體就能讓她把更多精力放在網(wǎng)站的想法和范圍上，而代碼部分可以自動生成。

客戶支持智能體已經(jīng)開始發(fā)揮作用，而在編碼領(lǐng)域，也有許多新進(jìn)展，盡管它還未完全成熟，但許多人正開展有趣的項目。

Pat Grady：你提到的編碼問題很有趣，因為這是我們對人工智能抱有樂觀態(tài)度的原因之一。AI有可能縮短從想法到執(zhí)行的距離，讓創(chuàng)造性的想法更容易變成現(xiàn)實。像 Figma 的 Dylan 經(jīng)常談?wù)撨@一點。

Harrison Chase：是的，自動化可以消除那些阻礙創(chuàng)作的東西，這種“從想法到現(xiàn)實”的轉(zhuǎn)換非常吸引人。在生成式 AI 時代和智能體時代，“構(gòu)建者”的定義將發(fā)生變化。

今天的軟件構(gòu)建者大多是工程師，或者需要雇傭工程師。而未來，借助智能體和生成式 AI，構(gòu)建者可以構(gòu)建更多的東西，因為他們可以低成本地利用智能體，獲得所需的知識和能力。這相當(dāng)于讓智能體商品化了情報，意味著更多人可以成為構(gòu)建者。

Pat Grady：我很好奇，對于那些試圖使用 LLMs 構(gòu)建產(chǎn)品或 AI 的開發(fā)人員來說，有哪些問題是你們目前沒有直接解決，但未來可能會考慮的？

Harrison Chase：是的，確實有兩個主要領(lǐng)域。一個是模型層，另一個是數(shù)據(jù)庫層。

比如，我們并不打算構(gòu)建矢量數(shù)據(jù)庫，但關(guān)于如何存儲數(shù)據(jù)，這是個非常有趣的問題。不過，這并不是我們現(xiàn)在的重點。我們也不構(gòu)建基礎(chǔ)模型，也不專注于微調(diào)。

我們更多是想幫助開發(fā)者在數(shù)據(jù)管理上簡化工作流程，但并不打算為了微調(diào)去搭建基礎(chǔ)設(shè)施。

有很多公司，比如 Fireworks，正在專門做這些事，這真的很有趣。對于開發(fā)者來說，這些問題處于技術(shù)堆棧的底層。

同時，另一個值得思考的問題是，如果智能體真的像我們設(shè)想的那樣變得更加普遍，將會出現(xiàn)哪些新的基礎(chǔ)性問題？所以說實話，現(xiàn)在就說我們未來會做什么或者不會做什么還為時尚早。因為我們現(xiàn)在離一個完全可靠的智能體經(jīng)濟(jì)系統(tǒng)還有一段距離。

不過，有些概念已經(jīng)很吸引人了，比如智能體的身份驗證、授權(quán)、支付等基礎(chǔ)設(shè)施。

想象一下，未來的某天，智能體給人類支付服務(wù)費(fèi)用，而不是相反！這種場景真的讓人興奮。如果智能體真的像我們想象的那樣流行起來，我們需要什么樣的工具和基礎(chǔ)設(shè)施來支持這一切？

這些問題和開發(fā)者社區(qū)中構(gòu)建 LLM 應(yīng)用程序的需求有些不同。LLM 應(yīng)用已經(jīng)在這里了，智能體正在逐步成熟，但整個智能體生態(tài)系統(tǒng)還沒有完全成型。這會是一個非常有趣的發(fā)展方向。

Sonya Huang：你剛才提到微調(diào)，說你們目前不打算深入這個領(lǐng)域?？雌饋硖崾竟こ毯臀⒄{(diào)常常被認(rèn)為是互相替代的工具。你怎么看現(xiàn)在提示與微調(diào)的使用方式？你覺得未來的走向會怎樣？

Harrison Chase：其實，我并不認(rèn)為微調(diào)和認(rèn)知架構(gòu)是互相替代的。相反，我覺得它們在很多方面是互補(bǔ)的。

當(dāng)你有更定制化的認(rèn)知架構(gòu)時，智能體每個部分或節(jié)點的職責(zé)變得更加具體明確。而在這種情況下，微調(diào)就顯得格外有用。因為當(dāng)你明確了每個模塊的工作范圍時，微調(diào)就可以進(jìn)一步優(yōu)化這些模塊的表現(xiàn)。

所以我覺得微調(diào)和架構(gòu)的關(guān)系并不是互相競爭的，而是各司其職，互相增強(qiáng)的。

雷峰網(wǎng)版權(quán)文章，未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見轉(zhuǎn)載須知。

0人收藏

相關(guān)文章

劉潔

編輯

發(fā)私信

當(dāng)月熱門文章

Harrison Chase：獨創(chuàng)AI智能體「認(rèn)知架構(gòu)」，定制+極簡加減法雙驅(qū)動