在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文

本文作者：我在思考中

2022-12-15 10:13

導(dǎo)語：ChatGPT 的論文寫作能力高過圖靈，還騙過了 AI 寫作評分工具。

ChatGPT 的論文寫作能力高過圖靈，還騙過了 AI 寫作評分工具。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

以 ChatGPT 為代表的文本生成的興起，正促使許多研究人員尋求一個比原始版本更具挑戰(zhàn)性的圖靈測試。

圖靈測試解決兩個問題：“機器可以思考嗎？”，如果可以，“如何證明它？”經(jīng)典圖靈測試針對的是 AI 最棘手的目標(biāo)之一：如何欺騙不知情的人類？但隨著當(dāng)前語言模型變得越來越復(fù)雜，與 AI 如何欺騙人類相比，研究人員開始更關(guān)注“如何證明它？”的問題。

有觀點認(rèn)為，現(xiàn)代的圖靈測試應(yīng)當(dāng)在科學(xué)的環(huán)境中證明語言模型的能力，而不是僅僅看語言模型是否能夠愚弄或模仿人類。

最近有項研究就重新審視了經(jīng)典圖靈測試，并將圖靈在 1950 年所著論文的內(nèi)容作為 prompt，使用 ChatGPT 生成了一份更可信的論文版本，來評估它的語言理解和生成能力。在使用 AI 寫作輔助工具 Grammarly 進行定量評分后發(fā)現(xiàn)，ChatGPT 生成的論文得分比圖靈原始論文高出 14%。有趣的是，該項研究所發(fā)表的論文部分內(nèi)容是由 GPT-3 生成的。

在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文

論文地址：https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而，ChatGPT 的算法是否真的展示了圖靈的最初觀點，這仍然是個問號。尤其是，當(dāng)下越來越擅長模仿人類語言的大型語言模型，很容易讓人產(chǎn)生它們具有“信念”、能夠“推理”的錯覺，這會阻礙我們以更可信、更安全的方式部署這些 AI 系統(tǒng)。

圖靈測試的演變

1950年版本的圖靈測試是問答形式。圖靈在論文中模擬了未來智能計算機的測試，如下圖所示的一個算術(shù)問題：34957 加 70764 等于多少？

圖注：ChatGPT 的問答序列，當(dāng)中答案正確，問題來自圖靈 1950 年論文

這個問題曾使當(dāng)時最好的語言模型如 GPT?2 失手。然而諷刺的是，在當(dāng)時，圖靈的論文（人類版本）給出了一個錯誤答案：（停頓約30秒，然后給出答案）105621。即使存在機器為了通過圖靈測試而故意犯錯的可能性，五分鐘的對話仍讓裁判人員相信，計算機30%以上的時間是人為操控的。

自1950年以來，圖靈測試出現(xiàn)了許多改進，包括2014年一項著名的測試，稱為“Lovelace 2.0 測試”。Lovelace 2.0 測試的標(biāo)準(zhǔn)是，機器可以在藝術(shù)、文學(xué)或任何類似創(chuàng)造性飛躍中創(chuàng)造出具有代表性的例子。

2014年，一個名為 Eugene Goostman 的聊天機器人模擬了一位13歲的烏克蘭男孩，成功欺騙了 33% 的裁判人員，被認(rèn)為是第一個通過圖靈測試的機器。

在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文

但批評者很快注意到了預(yù)定義的問題和主題，以及僅使用鍵盤敲擊的簡短格式，這意味著該圖靈測試的結(jié)果是不可靠的。

2018 年，谷歌 CEO Sundar Pichai 在一段視頻中介紹了他們最新的名為 Duplex 的計算機助手，該機器成功實現(xiàn)了美發(fā)沙龍預(yù)約，成為人們在不知不覺中同機器互動的一部分。雖然正式通過圖靈測試可能需要多種形式，但 The Big Think 得出結(jié)論：“迄今為止，還沒有計算機明確通過圖靈 AI 測試”。其他研究人員也重申了所有這些問題是否值得被探討，其中特別考慮到目前大型語言模型在大量場景中的應(yīng)用，比如航空工程的文本并沒有將其領(lǐng)域的目標(biāo)定義為“制造出的飛行器要與鴿子完全一樣，并騙過其他鴿子”。

使用 ChatGPT 生成

更可信的圖靈測試

在 PeopleTec 的一項研究中，作者將圖靈測試的原始論文內(nèi)容作為 prompt，讓 ChatGPT 重新生成一個更具可信性度的論文版本，并使用寫作評估工具進行評估。

此前已經(jīng)有使用 GPT?3模型早期版本撰寫和發(fā)表完全由機器撰寫的研究論文的工作。識別機器所生成的敘述，對機器生成文本的抱怨通常源于已知的模型缺陷，例如容易丟失上下文、退化為重復(fù)或胡言亂語、答案形式重述問題，以及在被難住時抄襲互聯(lián)網(wǎng)資源。

這里要生成的論文格式主要執(zhí)行幾個常規(guī)的大型語言模型（Large Language Model，LLM ）任務(wù)，特別是文本摘要和使用圖靈問題作為 prompt 本身來生成原始內(nèi)容。另外，作者使用 Grammarly Pro 工具來評估生成的內(nèi)容，對論文的原創(chuàng)性、風(fēng)格、清晰度和整體說服力等難以表征的特征進行定量評估。

這項工作更多地側(cè)重于圖靈挑戰(zhàn)的后半部分，不是關(guān)于模型如何欺騙人類，而更多是關(guān)于如何量化好的文本生成。因此，OpenAI 的努力所展示的部分顯著進步歸結(jié)為它以提高人類生產(chǎn)力的方式改進機器衍生對話的能力。

作者首先用 Grammarly 來評估圖靈的原始論文、得出各項分?jǐn)?shù)，然后使用圖靈提出的測試問題作為 prompt 來創(chuàng)造原始的 GPT-3 內(nèi)容，從而復(fù)制這些分?jǐn)?shù)。

研究使用三個文本作為基準(zhǔn)：

（1）Turing Original，圖靈 1950 年在 Mind 上發(fā)表的論文；

（2）Turing Summarization，2022 年“Free Research Preview: ChatGPT optimized for dialog”；

（3）Turing Generative Prompt，與（2）相同，但是使用圖靈問題在對話中生成。

每個文本塊輸出都為可為 Grammarly 指標(biāo)提供數(shù)據(jù)，并設(shè)定了基于受眾：專家，形式：中性，領(lǐng)域：一般，當(dāng)中應(yīng)用大多數(shù)語法規(guī)則和約定，具有中等嚴(yán)格性。

這樣一個圖靈測試，其實也可驗證一個欺騙性任務(wù)：一臺機器（ChatGPT）可以欺騙另一臺機器（Grammarly）嗎？

圖注：用于對大型語言模型和圖靈論文進行評分的指標(biāo)

圖靈 1950 年的原始論文提出了用于圖靈測試的 37 個問題，當(dāng)中有針對他思考關(guān)于機器的中心主題，還有一些是向?qū)嶒災(zāi)７掠螒虻挠嬎銠C提出的示例問題。研究人員在 ChatGPT 的對話框中，將論文大綱中的主題混合在一起后摘錄了這些問題，用來提示 ChatGPT 重現(xiàn)原始的基本內(nèi)容。

ChatGPT 完成內(nèi)容的生成后，在可讀性、正確性、清晰性等指標(biāo)上與圖靈的原始論文進行比較，結(jié)果如下圖。

圖注：圖靈 1950 年的論文與 ChatGPT 生成論文在各種任務(wù)中的比較結(jié)果

在清晰性（“有點不清楚”）、參與感（“有點乏味”）和信息傳達（“略有偏差”）等更主觀的評分中，所有四個版本都未能引起專家或普通讀者的共鳴。

第一個文本摘要挑戰(zhàn)表明，ChatGPT 能夠掌握簡短提示的意圖，如：將論文總結(jié)成十段，并提供 PDF 論文的鏈接。這不僅需要模型理解和遵循請求中的摘要程度，還需要知道鏈接代表什么，并找到它作為參考或從其標(biāo)記化標(biāo)題中猜測。

OpenAI 稱 GPT3 不會回答可能不屬于其初始訓(xùn)練數(shù)據(jù)的內(nèi)容，例如“誰贏得了 2022 年 11 月的選舉？”。這種知識差距表明，ChatGPT 本身并不主動尋找鏈接，而是了解其他人之前對其內(nèi)容所做行為。

有趣的是，當(dāng)同一提示出現(xiàn)兩次時（唯一的區(qū)別是提示工程和鏈接本身冒號后的文本換行符），ChatGPT 的答案會大相徑庭。其中，第一次是一篇及格的學(xué)生論文，總結(jié)了圖靈原始論文的要點；第二次則將問題解釋為對前十段中的每一段的總結(jié)，而不是對整篇論文的總結(jié)。

最終的結(jié)果表明，ChatGPT 生成的研究論文的整體內(nèi)容在度量意義上可獲得較高的分?jǐn)?shù)，但缺乏連貫性，尤其當(dāng)問題作為敘述中的提示被省略時。

由此或許能夠得出結(jié)論，這次與 ChatGPT 的交流充分說明了它能夠產(chǎn)生真正有創(chuàng)意的內(nèi)容或思想飛躍的能力。

ChatGPT 拒絕承認(rèn)通過圖靈測試

GPT?3 在生成內(nèi)容時，有一個重要過濾器用于消除固有偏見。這次的 ChatGPT 也被設(shè)計為頗具有道德正當(dāng)性，當(dāng)被問及對某事物的看法時，ChatGPT 會拒絕給出任何具體答案，而只強調(diào)自己是如何被創(chuàng)造的。

許多研究人員也認(rèn)同，任何模型在被問到時，都必須在道德上聲明自己僅僅是一臺機器，ChatGPT 嚴(yán)格遵守了這一要求。

而且，經(jīng)過 OpenAI 對 ChatGPT 各個模型層進行的微調(diào)，當(dāng)前的 ChatGPT 在被直接問到它只是一個方程式還是圖靈欺騙時，它會回答：“我模仿人的能力并不一定意味著我有與人相同的思想、感覺或意識。我只是一臺機器，我的行為是由所受過訓(xùn)練的算法和數(shù)據(jù)決定的。”

圖靈還提出人類的列表記憶能力：“實際的人類計算機真的記得它們必須做什么......構(gòu)建指令表通常被描述為‘編程’?！?/span>

就像越來越大的語言模型（>1000 億）的演變一樣，改進也有內(nèi)置的啟發(fā)式或模型執(zhí)行護欄，GPT?3 的 Instruct 系列就展示了直接回答問題的能力。而 ChatGPT 包括長期對話記憶，因此，即便單個 API 調(diào)用無法跨越的敘述跳躍，但 API 仍可以跟蹤對話。

我們可以測試帶有非人稱代詞（如“it”）的對話，在對話中將上下文與單個會話中的先前 API 調(diào)用一起進行——這是一個易于掌握的示例，用于 ChatGPT 的 API 內(nèi)存，因為對較長的對話進行編碼既強大又昂貴。

在 LLM 中，API 限制以及費用影響，使得很長一段時間里，token 權(quán)重之間的相關(guān)性通常在每隔幾段的整體上下文中衰減（GPT-3 中的2048個token）?？朔松舷挛南拗瓶蓪?ChatGPT 與其公開可用的前身區(qū)分開來。

第二代 Lovelace 2.0 測試提出了創(chuàng)造性任務(wù)和細(xì)化執(zhí)行任務(wù)的約束條件。然后，人類判斷專家會評估該模型是否可以用確定性的方式進行解釋，或者輸出是否符合有價值、新穎和令人驚訝的條件。因此，與其讓程序“寫短篇小說”，不如改進任務(wù)以展示特定的長度、風(fēng)格或主題。該測試結(jié)合了許多不同類型的智能理解，其中，約束層試圖限制谷歌搜索內(nèi)容和有關(guān) AI 成功稀釋或偽裝原始來源的爭論。

以下展示了一個直接回答 Lovelace 2.0 測試中提出的挑戰(zhàn)的短篇故事示例：講述一個男孩愛上一個女孩，外星人綁架男孩，女孩在一只會說話的貓的幫助下拯救了世界

在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文

自2014年以來，作為對文本和圖像生成的限制，高質(zhì)量提示工程的使用已變得司空見慣，通常效果越好，關(guān)于樣式、地點或時間的說明或限定詞越詳細(xì)。事實上，構(gòu)建提示本身是當(dāng)今 AI 中獲得良好輸出的最具創(chuàng)造性的方面。在這種情況下，人們可以通過使用 ChatGPT 強制進行創(chuàng)造性工作，同時處理單一主題、對所需輸出的風(fēng)格和基調(diào)的多層限制，將圖靈和 Lovelace 測試交織在一起。

下面顯示了 ChatGPT 在圖靈模仿游戲中生成的十種詩歌：

在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文

圖靈測試的結(jié)果由人類來裁決。正如 ChatGPT 所回答的，提問者是否判斷模型通過了圖靈測試問題“將取決于多種因素，例如機器提供的響應(yīng)質(zhì)量、提問者區(qū)分人和機器響應(yīng)的能力，以及用于確定機器是否成功模仿人類的特定規(guī)則和標(biāo)準(zhǔn)。最終，游戲的結(jié)果將取決于具體情況和參與者?！?/span>

LLM 只做序列預(yù)測

并不真正理解語言

可以看到，當(dāng)代基于 LLM 的對話互動可以創(chuàng)造一種令人信服的錯覺，仿佛置身于我們面前的，是像人類這樣會思考的生物。但就本質(zhì)而言，此類系統(tǒng)從根本上不同于人類，像 ChatGPT 這樣的 LLM 還涉及技術(shù)哲學(xué)的話題。

語言模型正變得越來越擅長模仿人類語言，這帶來一種強烈的感受，即這些 AI 系統(tǒng)已經(jīng)與人類非常相像，而且我們會使用“知道”、“相信”和“認(rèn)為”等具有強烈自主意識的詞語去描述這些系統(tǒng)。基于上述現(xiàn)狀，DeepMind 資深科學(xué)家 Murray Shanahan 在近日一篇文章中提到，要破除任何或過度悲觀或過度樂觀的迷思，我們需要清楚 LLM 的系統(tǒng)到底是如何運作的。

Murray Shanahan

1、LLM 是什么，可以做什么？

BERT、GPT-2 等 LLM 的出現(xiàn)改變了人工智能的游戲規(guī)則，之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架構(gòu)，在數(shù)百 TB 的文本數(shù)據(jù)上進行訓(xùn)練，更加凸顯了數(shù)據(jù)的強大作用。

這些模型的能力是令人驚訝的。首先，它們在基準(zhǔn)上的表現(xiàn)與訓(xùn)練集的大小成比例；其次，隨著模型規(guī)模的擴大，它們的能力有了質(zhì)的飛躍；最后，許多需要人類智能的任務(wù)可以簡化為使用性能足夠的模型“對下一個token進行預(yù)測”。

最后一點實際上揭示了語言模型的運作方式與人類的根本不同。人類在相互交流中所使用的的直覺是經(jīng)過數(shù)千年進化而來的，如今人們正在錯誤地把這些直覺遷移到 AI 系統(tǒng)上。ChatGPT 具有相當(dāng)大的實用性和巨大的商業(yè)潛力，為了確保它能被可信地、安全地部署，我們需要了解它的實際工作原理。

與人類語言相比，大型語言模型有什么本質(zhì)上的不同？

如維特根斯坦所說，人類語言的使用是人類集體行為的一個方面，它只有在人類社會活動的大背景下才具有意義。人類嬰兒是出生在一個與其他語言使用者共享的世界，并通過與外部互動來習(xí)得語言。

而 LLM 的語言能力來源不同。人類生成的文本構(gòu)成一個大規(guī)模的公共語料庫，它包含了單詞、單詞的構(gòu)件、或帶標(biāo)點的單個字符等 tokens，大型語言模型就是關(guān)于這些 tokens 的統(tǒng)計分布的生成式數(shù)學(xué)模型。

所謂的“生成”，是指我們可以從這些模型中取樣，也就是進行提問。但提問的問題是非常具體的，比如我們要求 ChatGPT 幫我們續(xù)寫一段話，實際上是在要求它根據(jù)它的人類語言統(tǒng)計模型，來預(yù)測接下來可能會出現(xiàn)什么詞。假如我們給 ChatGPT 提示“第一個在月球上行走的人是”，并假設(shè)它會回答“Neil Armstrong”。這里實際上并不是真的在問誰是第一個在月球上行走的人，而是：給定大量文本公共語料庫中單詞的統(tǒng)計分布，哪些單詞最有可能遵循“第一個在月球上行走的人是”的序列？

盡管模型對這些問題給出的答案可能會被人類解讀為模型“理解”了語言，但實際上對模型而言，它要做的就是生成具有在統(tǒng)計上可能的單詞序列。

2、LLM 真的什么都懂嗎？

LLM 通過以下兩個方式來轉(zhuǎn)變?yōu)閱柎鹣到y(tǒng)：

a) 將其嵌入到更大的系統(tǒng)中；

b) 使用 prompt 工程來引發(fā)所需的行為。

這樣一來，LLM 不僅可以用于問答，還可以用來總結(jié)新聞文章、生成劇本、解決邏輯難題以及進行語言翻譯等。

這里有兩個重要的要點。首先，LLM 的基本功能即生成統(tǒng)計意義上可能的單詞序列，是非常通用的。其次，盡管具有這種多功能性，但所有這類應(yīng)用程序的核心都是同一種模型，都只做同一件事，即生成統(tǒng)計意義上可能的單詞序列。

LLM 的基礎(chǔ)模型包括模型架構(gòu)和訓(xùn)練參數(shù)。一個 LLM 并不真正“知道”任何事情，因為它所做的一切在底層意義上都是序列預(yù)測。模型本身并沒有“真”或“假”的概念，因為它們不具備人類運用這些概念的方法。LLM 在某種意義上并不依賴意圖立場。

這對于以 LLM 為核心的對話系統(tǒng)也是一樣，它們并不能理解人類語言中關(guān)于真理的概念，因為它們不存在于我們?nèi)祟愓Z言使用者所共享的世界中。

3、關(guān)于涌現(xiàn)

如今的 LLM 是如此強大、多才多藝，以至于人們很難不或多或少地賦予其人格。一個相當(dāng)具有吸引力的論點是，盡管 LLM 從根本上說只執(zhí)行序列預(yù)測，但在學(xué)習(xí)這樣做的過程中，它們有可能發(fā)現(xiàn)了需要用更高層次的術(shù)語比如“知識” 和“信念”進行描述的涌現(xiàn)機制。

事實上，人工神經(jīng)網(wǎng)絡(luò)可以將任何可計算函數(shù)逼近到任意精度。因此，無論需要何種機制來形成信念，它們都可能駐留在參數(shù)空間的某個地方。如果隨機梯度下降是優(yōu)化準(zhǔn)確序列預(yù)測目標(biāo)的最佳方式，那么給定一個足夠大的模型、足夠多的正確類型的數(shù)據(jù)以及足夠的算力來訓(xùn)練模型，也許它們真的可以發(fā)現(xiàn)那種機制。

而且，最近的 LLM 研究進展已經(jīng)表明，當(dāng)足夠大的模型在非常大量的文本數(shù)據(jù)上進行訓(xùn)練時，就會涌現(xiàn)出非凡的、意想不到的能力。

然而，只要我們的考慮僅限于一個簡單的基于 LLM 的問答系統(tǒng)，它就根本不涉及交際依圖。不管它使用的內(nèi)部機制是什么，序列預(yù)測本身并沒有交際意圖的，簡單地將交際依圖嵌入到對話管理系統(tǒng)中也無濟于事。

只有在能夠區(qū)分真假的情況下，我們才能談?wù)撟钔暾饬x上的“信念”，但是 LLM 并不負(fù)責(zé)做出判斷，它只是模擬哪些詞可能跟在其他詞后面。我們可以說 LLM“編碼”、“存儲”或“包含”知識，也可以合理地稱 LLM 的一個涌現(xiàn)屬性是它編碼了日常生活世界的各種知識及其工作方式，但如果說“ChatGPT 知道北京是中國的首都”，那便只是一種修辭。

4、外部信息來源

這里的重點是，涉及將任何信念完全歸于一個系統(tǒng)的先決條件。

任何東西都不能算作對我們共享的世界的信念，從廣義上講，除非它是在根據(jù)來自某個世界的證據(jù)適當(dāng)?shù)馗滦拍畹哪芰Φ谋尘跋?，這是辨別真假能力的一個重要方面。

維基百科或其他一些網(wǎng)站，能否提供外部標(biāo)準(zhǔn)來衡量一個信念的真實性或虛假性？假設(shè)一個 LLM 被嵌入到一個系統(tǒng)中，該系統(tǒng)定期咨詢此類資源，并使用現(xiàn)代模型編輯技術(shù)來保持其預(yù)測的事實準(zhǔn)確性，實現(xiàn)信念更新需要什么樣的能力？

序列預(yù)測器本身可能不是那種可以具有交流意圖或形成對外部現(xiàn)實的信念的事物。但是，正如反復(fù)強調(diào)的那樣，野外的 LLM 必須嵌入到更大的體系結(jié)構(gòu)中才能發(fā)揮作用。

要構(gòu)建一個問答系統(tǒng)，LLM 只需輔以一個對話管理系統(tǒng)以適當(dāng)?shù)夭樵兡Ｐ?。這個更大的架構(gòu)所做的任何事情都可以算作交流意圖或形成信念的能力。

至關(guān)重要的是，這種思路取決于從語言模型本身到語言模型所屬的更大系統(tǒng)的轉(zhuǎn)變。語言模型本身仍然只是一個序列預(yù)測器，并沒有像以往那樣更多地訪問外部世界。只有相對于整個系統(tǒng)，在這種情況下，意向性立場才會變得更有說服力。但在屈服于它之前，我們應(yīng)該提醒自己，這樣的系統(tǒng)與人類有多么不同。

5、視覺-語言模型

LLM 可以與其他類型的模型結(jié)合和/或嵌入到更復(fù)雜的體系結(jié)構(gòu)中。例如，VilBERT 和 Flamingo 等視覺語言模型 (VLM) 將語言模型與圖像編碼器相結(jié)合，并在文本-圖像對的多模態(tài)語料庫上進行訓(xùn)練。這使得它們能夠預(yù)測給定的單詞序列將如何在給定圖像的上下文中繼續(xù)。VLM 可用于視覺問答或就用戶提供的圖像進行對話，也就是俗稱的“看圖說話”

那么，用戶提供的圖像能否代表可以評估命題真假的外部現(xiàn)實？談?wù)?LLM 的信念是否合理？我們可以想象，一個 VLM 使用 LLM 來生成關(guān)于圖像的假設(shè)，然后針對該圖像驗證其真實性，然后對 LLM 進行微調(diào)，以免做出被證明是錯誤的陳述。

但大多數(shù)基于 VLM 的系統(tǒng)并不是這樣工作的。相反，它們依賴于文本和圖像聯(lián)合分布的凍結(jié)模型。用戶提供的圖像與 VLM 生成的文字之間的關(guān)系，與人類共享的世界與我們談?wù)撛撌澜鐣r使用的文字之間的關(guān)系根本不同。重要的是，前者僅僅是相關(guān)關(guān)系，而后者則是因果關(guān)系，當(dāng)然，模型在推理過程中進行的計算存在因果結(jié)構(gòu)，但這跟詞語與其所指事物之間的因果關(guān)系不同。

6、具身 AI

人類語言使用者存在于一個共享世界中，這使得我們與 LLM 有著本質(zhì)區(qū)別。孤立的 LLM 無法通過與外界交流來更新自己的信念，但如果將 LLM 嵌入到更大的系統(tǒng)中會如何呢？比如，呈現(xiàn)為機器人或虛擬化身的系統(tǒng)。這時候談?wù)?LLM 的知識和信念是合理的嗎？

這要取決于 LLM 是如何具身化的。

以今年谷歌發(fā)布的 SayCan 系統(tǒng)為例，在這項工作中，LLM 被嵌入到控制物理機器人的系統(tǒng)中。機器人根

據(jù)用戶的高級自然語言指令執(zhí)行日常任務(wù)（例如清理灑在桌面上的水）。

其中，LLM 的工作是將用戶的指令映射到將幫助機器人實現(xiàn)所需目標(biāo)的低級動作（例如尋找海綿）。這是通過一個工程化的 prompt 前綴來完成的，該前綴使模型輸出合適的低級動作的自然語言描述，并對它們的有用性進行評分。

SayCan 系統(tǒng)的語言模型組件可能會無視機器人所在的實際環(huán)境來給出動作建議，比如旁邊并沒有海綿。所以，研究人員使用一個單獨的感知模塊利用機器人的傳感器來評估場景，并確定執(zhí)行每個低級動作的當(dāng)前可行性。將 LLM 對每個動作的有用性評估與感知模塊對每個動作的可行性評估結(jié)合起來，便可以得出下一步最優(yōu)動作。

盡管 SayCan 在物理上有與現(xiàn)實世界的互動，但它學(xué)習(xí)和使用語言的方式與人類仍然非常不同。SayCan 這類系統(tǒng)中包含的語言模型經(jīng)過預(yù)訓(xùn)練，可以在純文本數(shù)據(jù)集的無實體環(huán)境中執(zhí)行序列預(yù)測。它們并沒有通過與其他語言使用者交談來學(xué)習(xí)語言。

SayCan 的確給我們帶來了關(guān)于未來語言使用系統(tǒng)的一種想象，但在今天這樣的系統(tǒng)中，語言的作用非常有限。用戶用自然語言向系統(tǒng)發(fā)出指令，系統(tǒng)生成對其動作的可解釋的自然語言描述。但是，這種微小的語言使用范圍根本無法與由語言?持的人類集體活動的規(guī)模相提并論。

所以，即使是對于包含 LLM 的具身 AI 系統(tǒng)，我們也要謹(jǐn)慎地選擇詞語去描述它們。

7、 LLM 能夠推理嗎？

現(xiàn)在我們可以否認(rèn) ChatGPT 具有信念，但它真的可以推理（reason）嗎？

這個問題更加棘手，因為在形式邏輯中，推理是內(nèi)容中立的（content neutral）。比如無論前提如何，“肯定前件”（modus ponens）的推理規(guī)則都是有效的：

如果：所有的人都會死，蘇格拉底是人；那么：蘇格拉底會死。

邏輯的內(nèi)容中立性似乎意味著我們不能在推理方面對 LLM 過多苛求，因為 LLM 無法杰出到可以衡量真假的外部現(xiàn)實。但即便如此，當(dāng)我們提示 ChatGPT“所有的人都會死，蘇格拉底是人，那么”時，我們并不是在讓模型進行假言推理，而是在問：給定的公共語料庫中的詞語統(tǒng)計分布，哪些詞可能遵循“所有的人都會死，蘇格拉底是人，那么”這一序列。

而且，更復(fù)雜的推理問題會包含多個推理步驟，由于聰明的提示工程，LLM 可以有效地應(yīng)用于多步推理，無需進一步培訓(xùn)。例如，在思維鏈提示中，在用戶查詢之前向模型提交一個提示前綴，其中包含一些多步驟推理的示例，并明確說明，所有中間步驟在思維鏈風(fēng)格中都包含一個提示前綴會鼓勵模型，以相同的風(fēng)格生成后續(xù)序列，也就是說，包括一系列導(dǎo)致最終答案的顯式推理步驟。

像往常一樣，真正向模型提出的問題的形式是“給定公共語料庫中單詞的統(tǒng)計分布，哪些單詞可能遵循序列 S ”，在這種情況下，序列 S 是鏈接 thought 提示前綴加上用戶的查詢，最有可能跟在 S 之后的標(biāo)記序列，將具有與提示前綴中找到的序列類似的形式，也即是在它們當(dāng)中，將包括多個推理步驟，因此這些就是模型生成的。

值得注意的是，不僅模型的響應(yīng)采用多步驟論證的形式，而且所討論的論證通常（但并非總是）有效，并且最終答案通常（但并非總是）正確。在某種程度上，適當(dāng)提示的 LLM 似乎推理正確，它通過在其訓(xùn)練集中和/或提示中模仿格式正確的參數(shù)來實現(xiàn)。

但是，這種模仿能構(gòu)成真正的推理嗎？即使今天的模型偶爾會犯錯誤，是否可以進一步縮小這些錯誤，使模型的性能與硬編碼推理算法的性能無法區(qū)分？

或許答案確實為“是”，但是我們怎么知道呢？我們怎么能相信這樣的模型呢？

定理證明器生成的句子序列是忠實于邏輯的，因為它們是底層計算過程的結(jié)果，其因果結(jié)構(gòu)反映了定理的推理結(jié)構(gòu)問題。使用 LLM 構(gòu)建可信推理系統(tǒng)的一種方法是將其嵌入到執(zhí)行相同因果結(jié)構(gòu)的算法中。但是，如果我們堅持使用純 LLM，那么，要完全相信它產(chǎn)生的論點，唯一方法就是對其進行逆向工程，并發(fā)現(xiàn)符合忠實推理規(guī)定的緊急機制。與此同時，我們應(yīng)該更加謹(jǐn)慎，并在描述這些模型的作用時慎重行事。

參考鏈接：

1.https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.https://arxiv.org/pdf/2212.03551v1.pdf

更多內(nèi)容，點擊下方關(guān)注：

在一篇由 GPT-3 生成的論文中，ChatGPT 重現(xiàn)了圖靈測試的原始論文