日本在线看黄a美女久草|日本动漫亚洲在线一区|日韩人妻无码免费视频|A√有码中文字幕|日韩一级片视频热久久久|一区二区三区四区精品无码在线|亚洲AV成人无码一二三app|亚洲综合图片绯色|91极品人妻在线网站|国产成人精品一区二三区四区五区

您正在使用IE低版瀏覽器,為了您的雷峰網(wǎng)賬號(hào)安全和更好的產(chǎn)品體驗(yàn),強(qiáng)烈建議使用更快更安全的瀏覽器
此為臨時(shí)鏈接,僅用于文章預(yù)覽,將在時(shí)失效
人工智能學(xué)術(shù) 正文
發(fā)私信給我在思考中
發(fā)送

0

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

本文作者: 我在思考中 2022-12-15 10:13
導(dǎo)語(yǔ):ChatGPT 的論文寫(xiě)作能力高過(guò)圖靈,還騙過(guò)了 AI 寫(xiě)作評(píng)分工具。
ChatGPT 的論文寫(xiě)作能力高過(guò)圖靈,還騙過(guò)了 AI 寫(xiě)作評(píng)分工具。

作者 | 李梅、黃楠

編輯 | 陳彩嫻

以 ChatGPT 為代表的文本生成的興起,正促使許多研究人員尋求一個(gè)比原始版本更具挑戰(zhàn)性的圖靈測(cè)試。

圖靈測(cè)試解決兩個(gè)問(wèn)題:“機(jī)器可以思考嗎?”,如果可以,“如何證明它?”經(jīng)典圖靈測(cè)試針對(duì)的是 AI 最棘手的目標(biāo)之一:如何欺騙不知情的人類?但隨著當(dāng)前語(yǔ)言模型變得越來(lái)越復(fù)雜,與 AI 如何欺騙人類相比,研究人員開(kāi)始更關(guān)注“如何證明它?”的問(wèn)題。

有觀點(diǎn)認(rèn)為,現(xiàn)代的圖靈測(cè)試應(yīng)當(dāng)在科學(xué)的環(huán)境中證明語(yǔ)言模型的能力,而不是僅僅看語(yǔ)言模型是否能夠愚弄或模仿人類。

最近有項(xiàng)研究就重新審視了經(jīng)典圖靈測(cè)試,并將圖靈在 1950 年所著論文的內(nèi)容作為 prompt,使用 ChatGPT 生成了一份更可信的論文版本,來(lái)評(píng)估它的語(yǔ)言理解和生成能力。在使用 AI 寫(xiě)作輔助工具 Grammarly 進(jìn)行定量評(píng)分后發(fā)現(xiàn),ChatGPT 生成的論文得分比圖靈原始論文高出 14%。有趣的是,該項(xiàng)研究所發(fā)表的論文部分內(nèi)容是由 GPT-3 生成的。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文
論文地址:https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

然而,ChatGPT 的算法是否真的展示了圖靈的最初觀點(diǎn),這仍然是個(gè)問(wèn)號(hào)。尤其是,當(dāng)下越來(lái)越擅長(zhǎng)模仿人類語(yǔ)言的大型語(yǔ)言模型,很容易讓人產(chǎn)生它們具有“信念”、能夠“推理”的錯(cuò)覺(jué),這會(huì)阻礙我們以更可信、更安全的方式部署這些 AI 系統(tǒng)。



1

圖靈測(cè)試的演變

1950年版本的圖靈測(cè)試是問(wèn)答形式。圖靈在論文中模擬了未來(lái)智能計(jì)算機(jī)的測(cè)試,如下圖所示的一個(gè)算術(shù)問(wèn)題:34957 加 70764 等于多少?

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

圖注:ChatGPT 的問(wèn)答序列,當(dāng)中答案正確,問(wèn)題來(lái)自圖靈 1950 年論文

這個(gè)問(wèn)題曾使當(dāng)時(shí)最好的語(yǔ)言模型如 GPT?2 失手。然而諷刺的是,在當(dāng)時(shí),圖靈的論文(人類版本)給出了一個(gè)錯(cuò)誤答案:(停頓約30秒,然后給出答案)105621。即使存在機(jī)器為了通過(guò)圖靈測(cè)試而故意犯錯(cuò)的可能性,五分鐘的對(duì)話仍讓裁判人員相信,計(jì)算機(jī)30%以上的時(shí)間是人為操控的。

自1950年以來(lái),圖靈測(cè)試出現(xiàn)了許多改進(jìn),包括2014年一項(xiàng)著名的測(cè)試,稱為“Lovelace 2.0 測(cè)試”。Lovelace 2.0 測(cè)試的標(biāo)準(zhǔn)是,機(jī)器可以在藝術(shù)、文學(xué)或任何類似創(chuàng)造性飛躍中創(chuàng)造出具有代表性的例子。

2014年,一個(gè)名為 Eugene Goostman 的聊天機(jī)器人模擬了一位13歲的烏克蘭男孩,成功欺騙了 33% 的裁判人員,被認(rèn)為是第一個(gè)通過(guò)圖靈測(cè)試的機(jī)器。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

但批評(píng)者很快注意到了預(yù)定義的問(wèn)題和主題,以及僅使用鍵盤(pán)敲擊的簡(jiǎn)短格式,這意味著該圖靈測(cè)試的結(jié)果是不可靠的。

2018 年,谷歌 CEO Sundar Pichai 在一段視頻中介紹了他們最新的名為 Duplex 的計(jì)算機(jī)助手,該機(jī)器成功實(shí)現(xiàn)了美發(fā)沙龍預(yù)約,成為人們?cè)诓恢挥X(jué)中同機(jī)器互動(dòng)的一部分。雖然正式通過(guò)圖靈測(cè)試可能需要多種形式,但 The Big Think 得出結(jié)論:“迄今為止,還沒(méi)有計(jì)算機(jī)明確通過(guò)圖靈 AI 測(cè)試”。其他研究人員也重申了所有這些問(wèn)題是否值得被探討,其中特別考慮到目前大型語(yǔ)言模型在大量場(chǎng)景中的應(yīng)用,比如航空工程的文本并沒(méi)有將其領(lǐng)域的目標(biāo)定義為“制造出的飛行器要與鴿子完全一樣,并騙過(guò)其他鴿子”。



2

使用 ChatGPT 生成
更可信的圖靈測(cè)試

在 PeopleTec 的一項(xiàng)研究中,作者將圖靈測(cè)試的原始論文內(nèi)容作為 prompt,讓 ChatGPT 重新生成一個(gè)更具可信性度的論文版本,并使用寫(xiě)作評(píng)估工具進(jìn)行評(píng)估。

此前已經(jīng)有使用 GPT?3模型早期版本撰寫(xiě)和發(fā)表完全由機(jī)器撰寫(xiě)的研究論文的工作。識(shí)別機(jī)器所生成的敘述,對(duì)機(jī)器生成文本的抱怨通常源于已知的模型缺陷,例如容易丟失上下文、退化為重復(fù)或胡言亂語(yǔ)、答案形式重述問(wèn)題,以及在被難住時(shí)抄襲互聯(lián)網(wǎng)資源。

這里要生成的論文格式主要執(zhí)行幾個(gè)常規(guī)的大型語(yǔ)言模型(Large Language Model,LLM )任務(wù),特別是文本摘要和使用圖靈問(wèn)題作為 prompt 本身來(lái)生成原始內(nèi)容。另外,作者使用 Grammarly  Pro 工具來(lái)評(píng)估生成的內(nèi)容,對(duì)論文的原創(chuàng)性、風(fēng)格、清晰度和整體說(shuō)服力等難以表征的特征進(jìn)行定量評(píng)估。

這項(xiàng)工作更多地側(cè)重于圖靈挑戰(zhàn)的后半部分,不是關(guān)于模型如何欺騙人類,而更多是關(guān)于如何量化好的文本生成。因此,OpenAI 的努力所展示的部分顯著進(jìn)步歸結(jié)為它以提高人類生產(chǎn)力的方式改進(jìn)機(jī)器衍生對(duì)話的能力。

作者首先用 Grammarly 來(lái)評(píng)估圖靈的原始論文、得出各項(xiàng)分?jǐn)?shù),然后使用圖靈提出的測(cè)試問(wèn)題作為 prompt 來(lái)創(chuàng)造原始的 GPT-3 內(nèi)容,從而復(fù)制這些分?jǐn)?shù)。

研究使用三個(gè)文本作為基準(zhǔn):

(1)Turing Original,圖靈 1950 年在 Mind 上發(fā)表的論文;

(2)Turing Summarization,2022 年“Free Research Preview: ChatGPT optimized for dialog”;

(3)Turing Generative Prompt,與(2)相同,但是使用圖靈問(wèn)題在對(duì)話中生成。

每個(gè)文本塊輸出都為可為 Grammarly 指標(biāo)提供數(shù)據(jù),并設(shè)定了基于受眾:專家,形式:中性,領(lǐng)域:一般,當(dāng)中應(yīng)用大多數(shù)語(yǔ)法規(guī)則和約定,具有中等嚴(yán)格性。

這樣一個(gè)圖靈測(cè)試,其實(shí)也可驗(yàn)證一個(gè)欺騙性任務(wù):一臺(tái)機(jī)器(ChatGPT)可以欺騙另一臺(tái)機(jī)器(Grammarly)嗎?

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

圖注:用于對(duì)大型語(yǔ)言模型和圖靈論文進(jìn)行評(píng)分的指標(biāo)

圖靈 1950 年的原始論文提出了用于圖靈測(cè)試的 37 個(gè)問(wèn)題,當(dāng)中有針對(duì)他思考關(guān)于機(jī)器的中心主題,還有一些是向?qū)嶒?yàn)?zāi)7掠螒虻挠?jì)算機(jī)提出的示例問(wèn)題。研究人員在 ChatGPT 的對(duì)話框中,將論文大綱中的主題混合在一起后摘錄了這些問(wèn)題,用來(lái)提示 ChatGPT 重現(xiàn)原始的基本內(nèi)容。

ChatGPT 完成內(nèi)容的生成后,在可讀性、正確性、清晰性等指標(biāo)上與圖靈的原始論文進(jìn)行比較,結(jié)果如下圖。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

圖注:圖靈 1950 年的論文與 ChatGPT 生成論文在各種任務(wù)中的比較結(jié)果

在清晰性(“有點(diǎn)不清楚”)、參與感(“有點(diǎn)乏味”)和信息傳達(dá)(“略有偏差”)等更主觀的評(píng)分中,所有四個(gè)版本都未能引起專家或普通讀者的共鳴。

第一個(gè)文本摘要挑戰(zhàn)表明,ChatGPT 能夠掌握簡(jiǎn)短提示的意圖,如:將論文總結(jié)成十段,并提供 PDF 論文的鏈接。這不僅需要模型理解和遵循請(qǐng)求中的摘要程度,還需要知道鏈接代表什么,并找到它作為參考或從其標(biāo)記化標(biāo)題中猜測(cè)。

OpenAI 稱 GPT3 不會(huì)回答可能不屬于其初始訓(xùn)練數(shù)據(jù)的內(nèi)容,例如“誰(shuí)贏得了 2022 年 11 月的選舉?”。這種知識(shí)差距表明,ChatGPT 本身并不主動(dòng)尋找鏈接,而是了解其他人之前對(duì)其內(nèi)容所做行為。

有趣的是,當(dāng)同一提示出現(xiàn)兩次時(shí)(唯一的區(qū)別是提示工程和鏈接本身冒號(hào)后的文本換行符),ChatGPT 的答案會(huì)大相徑庭。其中,第一次是一篇及格的學(xué)生論文,總結(jié)了圖靈原始論文的要點(diǎn);第二次則將問(wèn)題解釋為對(duì)前十段中的每一段的總結(jié),而不是對(duì)整篇論文的總結(jié)。

最終的結(jié)果表明,ChatGPT 生成的研究論文的整體內(nèi)容在度量意義上可獲得較高的分?jǐn)?shù),但缺乏連貫性,尤其當(dāng)問(wèn)題作為敘述中的提示被省略時(shí)。

由此或許能夠得出結(jié)論,這次與 ChatGPT 的交流充分說(shuō)明了它能夠產(chǎn)生真正有創(chuàng)意的內(nèi)容或思想飛躍的能力。



3

ChatGPT 拒絕承認(rèn)通過(guò)圖靈測(cè)試

GPT?3 在生成內(nèi)容時(shí),有一個(gè)重要過(guò)濾器用于消除固有偏見(jiàn)。這次的 ChatGPT 也被設(shè)計(jì)為頗具有道德正當(dāng)性,當(dāng)被問(wèn)及對(duì)某事物的看法時(shí),ChatGPT 會(huì)拒絕給出任何具體答案,而只強(qiáng)調(diào)自己是如何被創(chuàng)造的。

許多研究人員也認(rèn)同,任何模型在被問(wèn)到時(shí),都必須在道德上聲明自己僅僅是一臺(tái)機(jī)器,ChatGPT 嚴(yán)格遵守了這一要求。

而且,經(jīng)過(guò) OpenAI 對(duì) ChatGPT 各個(gè)模型層進(jìn)行的微調(diào),當(dāng)前的 ChatGPT 在被直接問(wèn)到它只是一個(gè)方程式還是圖靈欺騙時(shí),它會(huì)回答:“我模仿人的能力并不一定意味著我有與人相同的思想、感覺(jué)或意識(shí)。我只是一臺(tái)機(jī)器,我的行為是由所受過(guò)訓(xùn)練的算法和數(shù)據(jù)決定的。

圖靈還提出人類的列表記憶能力:“實(shí)際的人類計(jì)算機(jī)真的記得它們必須做什么......構(gòu)建指令表通常被描述為‘編程’?!?/span>

就像越來(lái)越大的語(yǔ)言模型(>1000  億)的演變一樣,改進(jìn)也有內(nèi)置的啟發(fā)式或模型執(zhí)行護(hù)欄,GPT?3 的 Instruct 系列就展示了直接回答問(wèn)題的能力。而 ChatGPT 包括長(zhǎng)期對(duì)話記憶, 因此,即便單個(gè) API 調(diào)用無(wú)法跨越的敘述跳躍,但 API 仍可以跟蹤對(duì)話。

我們可以測(cè)試帶有非人稱代詞(如“it”)的對(duì)話,在對(duì)話中將上下文與單個(gè)會(huì)話中的先前 API 調(diào)用一起進(jìn)行——這是一個(gè)易于掌握的示例,用于 ChatGPT 的 API 內(nèi)存,因?yàn)閷?duì)較長(zhǎng)的對(duì)話進(jìn)行編碼既強(qiáng)大又昂貴。

在 LLM 中,API 限制以及費(fèi)用影響,使得很長(zhǎng)一段時(shí)間里,token 權(quán)重之間的相關(guān)性通常在每隔幾段的整體上下文中衰減(GPT-3 中的2048個(gè)token)。克服此上下文限制可將 ChatGPT 與其公開(kāi)可用的前身區(qū)分開(kāi)來(lái)。

第二代 Lovelace 2.0 測(cè)試提出了創(chuàng)造性任務(wù)和細(xì)化執(zhí)行任務(wù)的約束條件。然后,人類判斷專家會(huì)評(píng)估該模型是否可以用確定性的方式進(jìn)行解釋,或者輸出是否符合有價(jià)值、新穎和令人驚訝的條件。因此,與其讓程序“寫(xiě)短篇小說(shuō)”,不如改進(jìn)任務(wù)以展示特定的長(zhǎng)度、風(fēng)格或主題。該測(cè)試結(jié)合了許多不同類型的智能理解,其中,約束層試圖限制谷歌搜索內(nèi)容和有關(guān) AI 成功稀釋或偽裝原始來(lái)源的爭(zhēng)論。

以下展示了一個(gè)直接回答 Lovelace 2.0 測(cè)試中提出的挑戰(zhàn)的短篇故事示例:講述一個(gè)男孩愛(ài)上一個(gè)女孩,外星人綁架男孩,女孩在一只會(huì)說(shuō)話的貓的幫助下拯救了世界

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

自2014年以來(lái),作為對(duì)文本和圖像生成的限制,高質(zhì)量提示工程的使用已變得司空見(jiàn)慣,通常效果越好,關(guān)于樣式、地點(diǎn)或時(shí)間的說(shuō)明或限定詞越詳細(xì)。事實(shí)上,構(gòu)建提示本身是當(dāng)今 AI 中獲得良好輸出的最具創(chuàng)造性的方面。在這種情況下,人們可以通過(guò)使用 ChatGPT 強(qiáng)制進(jìn)行創(chuàng)造性工作,同時(shí)處理單一主題、對(duì)所需輸出的風(fēng)格和基調(diào)的多層限制,將圖靈和 Lovelace 測(cè)試交織在一起。

下面顯示了 ChatGPT 在圖靈模仿游戲中生成的十種詩(shī)歌:

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

圖靈測(cè)試的結(jié)果由人類來(lái)裁決。正如 ChatGPT 所回答的,提問(wèn)者是否判斷模型通過(guò)了圖靈測(cè)試問(wèn)題“將取決于多種因素,例如機(jī)器提供的響應(yīng)質(zhì)量、提問(wèn)者區(qū)分人和機(jī)器響應(yīng)的能力,以及用于確定機(jī)器是否成功模仿人類的特定規(guī)則和標(biāo)準(zhǔn)。最終,游戲的結(jié)果將取決于具體情況和參與者?!?/span>



4

LLM 只做序列預(yù)測(cè)

并不真正理解語(yǔ)言

可以看到,當(dāng)代基于 LLM 的對(duì)話互動(dòng)可以創(chuàng)造一種令人信服的錯(cuò)覺(jué),仿佛置身于我們面前的,是像人類這樣會(huì)思考的生物。但就本質(zhì)而言,此類系統(tǒng)從根本上不同于人類,像 ChatGPT 這樣的 LLM 還涉及技術(shù)哲學(xué)的話題。

語(yǔ)言模型正變得越來(lái)越擅長(zhǎng)模仿人類語(yǔ)言,這帶來(lái)一種強(qiáng)烈的感受,即這些 AI 系統(tǒng)已經(jīng)與人類非常相像,而且我們會(huì)使用“知道”、“相信”和“認(rèn)為”等具有強(qiáng)烈自主意識(shí)的詞語(yǔ)去描述這些系統(tǒng)?;谏鲜霈F(xiàn)狀,DeepMind 資深科學(xué)家 Murray Shanahan 在近日一篇文章中提到,要破除任何或過(guò)度悲觀或過(guò)度樂(lè)觀的迷思,我們需要清楚 LLM 的系統(tǒng)到底是如何運(yùn)作的。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

Murray Shanahan

1、LLM 是什么,可以做什么?

BERT、GPT-2 等 LLM 的出現(xiàn)改變了人工智能的游戲規(guī)則,之后的 GPT-3、Gopher、PaLM 等大模型基于 Tansformer 架構(gòu),在數(shù)百 TB 的文本數(shù)據(jù)上進(jìn)行訓(xùn)練,更加凸顯了數(shù)據(jù)的強(qiáng)大作用。

這些模型的能力是令人驚訝的。首先,它們?cè)诨鶞?zhǔn)上的表現(xiàn)與訓(xùn)練集的大小成比例;其次,隨著模型規(guī)模的擴(kuò)大,它們的能力有了質(zhì)的飛躍;最后,許多需要人類智能的任務(wù)可以簡(jiǎn)化為使用性能足夠的模型“對(duì)下一個(gè)token進(jìn)行預(yù)測(cè)”。

最后一點(diǎn)實(shí)際上揭示了語(yǔ)言模型的運(yùn)作方式與人類的根本不同。人類在相互交流中所使用的的直覺(jué)是經(jīng)過(guò)數(shù)千年進(jìn)化而來(lái)的,如今人們正在錯(cuò)誤地把這些直覺(jué)遷移到 AI 系統(tǒng)上。ChatGPT 具有相當(dāng)大的實(shí)用性和巨大的商業(yè)潛力,為了確保它能被可信地、安全地部署,我們需要了解它的實(shí)際工作原理。

與人類語(yǔ)言相比,大型語(yǔ)言模型有什么本質(zhì)上的不同?

如維特根斯坦所說(shuō),人類語(yǔ)言的使用是人類集體行為的一個(gè)方面,它只有在人類社會(huì)活動(dòng)的大背景下才具有意義。人類嬰兒是出生在一個(gè)與其他語(yǔ)言使用者共享的世界,并通過(guò)與外部互動(dòng)來(lái)習(xí)得語(yǔ)言。

而 LLM 的語(yǔ)言能力來(lái)源不同。人類生成的文本構(gòu)成一個(gè)大規(guī)模的公共語(yǔ)料庫(kù),它包含了單詞、單詞的構(gòu)件、或帶標(biāo)點(diǎn)的單個(gè)字符等 tokens,大型語(yǔ)言模型就是關(guān)于這些 tokens 的統(tǒng)計(jì)分布的生成式數(shù)學(xué)模型。

所謂的“生成”,是指我們可以從這些模型中取樣,也就是進(jìn)行提問(wèn)。但提問(wèn)的問(wèn)題是非常具體的,比如我們要求 ChatGPT 幫我們續(xù)寫(xiě)一段話,實(shí)際上是在要求它根據(jù)它的人類語(yǔ)言統(tǒng)計(jì)模型,來(lái)預(yù)測(cè)接下來(lái)可能會(huì)出現(xiàn)什么詞。假如我們給 ChatGPT 提示“第一個(gè)在月球上行走的人是”,并假設(shè)它會(huì)回答“Neil  Armstrong”。這里實(shí)際上并不是真的在問(wèn)誰(shuí)是第一個(gè)在月球上行走的人,而是:給定大量文本公共語(yǔ)料庫(kù)中單詞的統(tǒng)計(jì)分布,哪些單詞最有可能遵循“第一個(gè)在月球上行走的人是”的序列?

盡管模型對(duì)這些問(wèn)題給出的答案可能會(huì)被人類解讀為模型“理解”了語(yǔ)言,但實(shí)際上對(duì)模型而言,它要做的就是生成具有在統(tǒng)計(jì)上可能的單詞序列。

2、LLM 真的什么都懂嗎?

LLM 通過(guò)以下兩個(gè)方式來(lái)轉(zhuǎn)變?yōu)閱?wèn)答系統(tǒng):

a)  將其嵌入到更大的系統(tǒng)中;

b)  使用 prompt 工程來(lái)引發(fā)所需的行為。

這樣一來(lái),LLM 不僅可以用于問(wèn)答,還可以用來(lái)總結(jié)新聞文章、生成劇本、解決邏輯難題以及進(jìn)行語(yǔ)言翻譯等。

這里有兩個(gè)重要的要點(diǎn)。首先,LLM 的基本功能即生成統(tǒng)計(jì)意義上可能的單詞序列,是非常通用的。其次,盡管具有這種多功能性,但所有這類應(yīng)用程序的核心都是同一種模型,都只做同一件事,即生成統(tǒng)計(jì)意義上可能的單詞序列。

LLM 的基礎(chǔ)模型包括模型架構(gòu)和訓(xùn)練參數(shù)。一個(gè) LLM 并不真正“知道”任何事情,因?yàn)樗龅囊磺性诘讓右饬x上都是序列預(yù)測(cè)。模型本身并沒(méi)有“真”或“假”的概念,因?yàn)樗鼈儾痪邆淙祟愡\(yùn)用這些概念的方法。LLM 在某種意義上并不依賴意圖立場(chǎng)。

這對(duì)于以 LLM 為核心的對(duì)話系統(tǒng)也是一樣,它們并不能理解人類語(yǔ)言中關(guān)于真理的概念,因?yàn)樗鼈儾淮嬖谟谖覀內(nèi)祟愓Z(yǔ)言使用者所共享的世界中。

3、關(guān)于涌現(xiàn)

如今的 LLM 是如此強(qiáng)大、多才多藝,以至于人們很難不或多或少地賦予其人格。一個(gè)相當(dāng)具有吸引力的論點(diǎn)是,盡管 LLM 從根本上說(shuō)只執(zhí)行序列預(yù)測(cè),但在學(xué)習(xí)這樣做的過(guò)程中,它們有可能發(fā)現(xiàn)了需要用更高層次的術(shù)語(yǔ)比如“知識(shí)” 和“信念”進(jìn)行描述的涌現(xiàn)機(jī)制。

事實(shí)上,人工神經(jīng)網(wǎng)絡(luò)可以將任何可計(jì)算函數(shù)逼近到任意精度。因此,無(wú)論需要何種機(jī)制來(lái)形成信念,它們都可能駐留在參數(shù)空間的某個(gè)地方。如果隨機(jī)梯度下降是優(yōu)化準(zhǔn)確序列預(yù)測(cè)目標(biāo)的最佳方式,那么給定一個(gè)足夠大的模型、足夠多的正確類型的數(shù)據(jù)以及足夠的算力來(lái)訓(xùn)練模型,也許它們真的可以發(fā)現(xiàn)那種機(jī)制。

而且,最近的 LLM 研究進(jìn)展已經(jīng)表明,當(dāng)足夠大的模型在非常大量的文本數(shù)據(jù)上進(jìn)行訓(xùn)練時(shí),就會(huì)涌現(xiàn)出非凡的、意想不到的能力。

然而,只要我們的考慮僅限于一個(gè)簡(jiǎn)單的基于 LLM 的問(wèn)答系統(tǒng),它就根本不涉及交際依圖。不管它使用的內(nèi)部機(jī)制是什么,序列預(yù)測(cè)本身并沒(méi)有交際意圖的,簡(jiǎn)單地將交際依圖嵌入到對(duì)話管理系統(tǒng)中也無(wú)濟(jì)于事。

只有在能夠區(qū)分真假的情況下,我們才能談?wù)撟钔暾饬x上的“信念”,但是 LLM 并不負(fù)責(zé)做出判斷,它只是模擬哪些詞可能跟在其他詞后面。我們可以說(shuō) LLM“編碼”、“存儲(chǔ)”或“包含”知識(shí),也可以合理地稱 LLM 的一個(gè)涌現(xiàn)屬性是它編碼了日常生活世界的各種知識(shí)及其工作方式,但如果說(shuō)“ChatGPT 知道北京是中國(guó)的首都”,那便只是一種修辭。

4、外部信息來(lái)源

這里的重點(diǎn)是,涉及將任何信念完全歸于一個(gè)系統(tǒng)的先決條件。

任何東西都不能算作對(duì)我們共享的世界的信念,從廣義上講,除非它是在根據(jù)來(lái)自某個(gè)世界的證據(jù)適當(dāng)?shù)馗滦拍畹哪芰Φ谋尘跋?,這是辨別真假能力的一個(gè)重要方面。

維基百科或其他一些網(wǎng)站,能否提供外部標(biāo)準(zhǔn)來(lái)衡量一個(gè)信念的真實(shí)性或虛假性?假設(shè)一個(gè) LLM 被嵌入到一個(gè)系統(tǒng)中,該系統(tǒng)定期咨詢此類資源,并使用現(xiàn)代模型編輯技術(shù)來(lái)保持其預(yù)測(cè)的事實(shí)準(zhǔn)確性,實(shí)現(xiàn)信念更新需要什么樣的能力?

序列預(yù)測(cè)器本身可能不是那種可以具有交流意圖或形成對(duì)外部現(xiàn)實(shí)的信念的事物。但是,正如反復(fù)強(qiáng)調(diào)的那樣,野外的 LLM 必須嵌入到更大的體系結(jié)構(gòu)中才能發(fā)揮作用。

要構(gòu)建一個(gè)問(wèn)答系統(tǒng),LLM 只需輔以一個(gè)對(duì)話管理系統(tǒng)以適當(dāng)?shù)夭樵兡P?。這個(gè)更大的架構(gòu)所做的任何事情都可以算作交流意圖或形成信念的能力。

至關(guān)重要的是,這種思路取決于從語(yǔ)言模型本身到語(yǔ)言模型所屬的更大系統(tǒng)的轉(zhuǎn)變。語(yǔ)言模型本身仍然只是一個(gè)序列預(yù)測(cè)器,并沒(méi)有像以往那樣更多地訪問(wèn)外部世界。只有相對(duì)于整個(gè)系統(tǒng),在這種情況下,意向性立場(chǎng)才會(huì)變得更有說(shuō)服力。但在屈服于它之前,我們應(yīng)該提醒自己,這樣的系統(tǒng)與人類有多么不同。

5、視覺(jué)-語(yǔ)言模型

LLM 可以與其他類型的模型結(jié)合和/或嵌入到更復(fù)雜的體系結(jié)構(gòu)中。例如,VilBERT 和  Flamingo 等視覺(jué)語(yǔ)言模型 (VLM)  將語(yǔ)言模型與圖像編碼器相結(jié)合,并在文本-圖像對(duì)的多模態(tài)語(yǔ)料庫(kù)上進(jìn)行訓(xùn)練。這使得它們能夠預(yù)測(cè)給定的單詞序列將如何在給定圖像的上下文中繼續(xù)。VLM 可用于視覺(jué)問(wèn)答或就用戶提供的圖像進(jìn)行對(duì)話,也就是俗稱的“看圖說(shuō)話”

那么,用戶提供的圖像能否代表可以評(píng)估命題真假的外部現(xiàn)實(shí)?談?wù)?LLM 的信念是否合理?我們可以想象,一個(gè) VLM 使用 LLM 來(lái)生成關(guān)于圖像的假設(shè),然后針對(duì)該圖像驗(yàn)證其真實(shí)性,然后對(duì) LLM 進(jìn)行微調(diào),以免做出被證明是錯(cuò)誤的陳述。

但大多數(shù)基于 VLM 的系統(tǒng)并不是這樣工作的。相反,它們依賴于文本和圖像聯(lián)合分布的凍結(jié)模型。用戶提供的圖像與 VLM 生成的文字之間的關(guān)系,與人類共享的世界與我們談?wù)撛撌澜鐣r(shí)使用的文字之間的關(guān)系根本不同。重要的是,前者僅僅是相關(guān)關(guān)系,而后者則是因果關(guān)系,當(dāng)然,模型在推理過(guò)程中進(jìn)行的計(jì)算存在因果結(jié)構(gòu),但這跟詞語(yǔ)與其所指事物之間的因果關(guān)系不同。

6、具身 AI

人類語(yǔ)言使用者存在于一個(gè)共享世界中,這使得我們與 LLM 有著本質(zhì)區(qū)別。孤立的 LLM 無(wú)法通過(guò)與外界交流來(lái)更新自己的信念,但如果將 LLM 嵌入到更大的系統(tǒng)中會(huì)如何呢?比如,呈現(xiàn)為機(jī)器人或虛擬化身的系統(tǒng)。這時(shí)候談?wù)?LLM 的知識(shí)和信念是合理的嗎?

這要取決于 LLM 是如何具身化的。

以今年谷歌發(fā)布的 SayCan 系統(tǒng)為例,在這項(xiàng)工作中,LLM 被嵌入到控制物理機(jī)器人的系統(tǒng)中。機(jī)器人根

據(jù)用戶的高級(jí)自然語(yǔ)言指令執(zhí)行日常任務(wù)(例如清理灑在桌面上的水)。

其中,LLM 的工作是將用戶的指令映射到將幫助機(jī)器人實(shí)現(xiàn)所需目標(biāo)的低級(jí)動(dòng)作(例如尋找海綿)。這是通過(guò)一個(gè)工程化的 prompt 前綴來(lái)完成的,該前綴使模型輸出合適的低級(jí)動(dòng)作的自然語(yǔ)言描述,并對(duì)它們的有用性進(jìn)行評(píng)分。

SayCan 系統(tǒng)的語(yǔ)言模型組件可能會(huì)無(wú)視機(jī)器人所在的實(shí)際環(huán)境來(lái)給出動(dòng)作建議,比如旁邊并沒(méi)有海綿。所以,研究人員使用一個(gè)單獨(dú)的感知模塊利用機(jī)器人的傳感器來(lái)評(píng)估場(chǎng)景,并確定執(zhí)行每個(gè)低級(jí)動(dòng)作的當(dāng)前可行性。將 LLM 對(duì)每個(gè)動(dòng)作的有用性評(píng)估與感知模塊對(duì)每個(gè)動(dòng)作的可行性評(píng)估結(jié)合起來(lái),便可以得出下一步最優(yōu)動(dòng)作。

盡管 SayCan 在物理上有與現(xiàn)實(shí)世界的互動(dòng),但它學(xué)習(xí)和使用語(yǔ)言的方式與人類仍然非常不同。SayCan 這類系統(tǒng)中包含的語(yǔ)言模型經(jīng)過(guò)預(yù)訓(xùn)練,可以在純文本數(shù)據(jù)集的無(wú)實(shí)體環(huán)境中執(zhí)行序列預(yù)測(cè)。它們并沒(méi)有通過(guò)與其他語(yǔ)言使用者交談來(lái)學(xué)習(xí)語(yǔ)言。

SayCan 的確給我們帶來(lái)了關(guān)于未來(lái)語(yǔ)言使用系統(tǒng)的一種想象,但在今天這樣的系統(tǒng)中,語(yǔ)言的作用非常有限。用戶用自然語(yǔ)言向系統(tǒng)發(fā)出指令,系統(tǒng)生成對(duì)其動(dòng)作的可解釋的自然語(yǔ)言描述。但是,這種微小的語(yǔ)言使用范圍根本無(wú)法與由語(yǔ)言?持的人類集體活動(dòng)的規(guī)模相提并論。

所以,即使是對(duì)于包含 LLM 的具身 AI 系統(tǒng),我們也要謹(jǐn)慎地選擇詞語(yǔ)去描述它們。

7 LLM 能夠推理嗎?

現(xiàn)在我們可以否認(rèn) ChatGPT 具有信念,但它真的可以推理(reason)嗎?

這個(gè)問(wèn)題更加棘手,因?yàn)樵谛问竭壿嬛?,推理是?nèi)容中立的(content neutral)。比如無(wú)論前提如何,“肯定前件”(modus ponens)的推理規(guī)則都是有效的:

如果:所有的人都會(huì)死,蘇格拉底是人;那么:蘇格拉底會(huì)死。

邏輯的內(nèi)容中立性似乎意味著我們不能在推理方面對(duì) LLM 過(guò)多苛求,因?yàn)?LLM 無(wú)法杰出到可以衡量真假的外部現(xiàn)實(shí)。但即便如此,當(dāng)我們提示 ChatGPT“所有的人都會(huì)死,蘇格拉底是人,那么”時(shí),我們并不是在讓模型進(jìn)行假言推理,而是在問(wèn):給定的公共語(yǔ)料庫(kù)中的詞語(yǔ)統(tǒng)計(jì)分布,哪些詞可能遵循“所有的人都會(huì)死,蘇格拉底是人,那么”這一序列。

而且,更復(fù)雜的推理問(wèn)題會(huì)包含多個(gè)推理步驟,由于聰明的提示工程,LLM 可以有效地應(yīng)用于多步推理,無(wú)需進(jìn)一步培訓(xùn)。例如,在思維鏈提示中,在用戶查詢之前向模型提交一個(gè)提示前綴,其中包含一些多步驟推理的示例,并明確說(shuō)明,所有中間步驟在思維鏈風(fēng)格中都包含一個(gè)提示前綴會(huì)鼓勵(lì)模型,以相同的風(fēng)格生成后續(xù)序列,也就是說(shuō),包括一系列導(dǎo)致最終答案的顯式推理步驟。

像往常一樣,真正向模型提出的問(wèn)題的形式是“給定公共語(yǔ)料庫(kù)中單詞的統(tǒng)計(jì)分布,哪些單詞可能遵循序列 S ”,在這種情況下,序列 S 是鏈接 thought 提示前綴加上用戶的查詢,最有可能跟在 S 之后的標(biāo)記序列,將具有與提示前綴中找到的序列類似的形式,也即是在它們當(dāng)中,將包括多個(gè)推理步驟,因此這些就是模型生成的。

值得注意的是,不僅模型的響應(yīng)采用多步驟論證的形式,而且所討論的論證通常(但并非總是)有效,并且最終答案通常(但并非總是)正確。在某種程度上,適當(dāng)提示的 LLM 似乎推理正確,它通過(guò)在其訓(xùn)練集中和/或提示中模仿格式正確的參數(shù)來(lái)實(shí)現(xiàn)。

但是,這種模仿能構(gòu)成真正的推理嗎?即使今天的模型偶爾會(huì)犯錯(cuò)誤,是否可以進(jìn)一步縮小這些錯(cuò)誤,使模型的性能與硬編碼推理算法的性能無(wú)法區(qū)分?

或許答案確實(shí)為“是”,但是我們?cè)趺粗滥兀课覀冊(cè)趺茨芟嘈胚@樣的模型呢?

定理證明器生成的句子序列是忠實(shí)于邏輯的,因?yàn)樗鼈兪堑讓佑?jì)算過(guò)程的結(jié)果,其因果結(jié)構(gòu)反映了定理的推理結(jié)構(gòu)問(wèn)題。使用 LLM 構(gòu)建可信推理系統(tǒng)的一種方法是將其嵌入到執(zhí)行相同因果結(jié)構(gòu)的算法中。但是,如果我們堅(jiān)持使用純 LLM,那么,要完全相信它產(chǎn)生的論點(diǎn),唯一方法就是對(duì)其進(jìn)行逆向工程,并發(fā)現(xiàn)符合忠實(shí)推理規(guī)定的緊急機(jī)制。與此同時(shí),我們應(yīng)該更加謹(jǐn)慎,并在描述這些模型的作用時(shí)慎重行事。

參考鏈接:
1.https://arxiv.org/ftp/arxiv/papers/2212/2212.06721.pdf

2.https://arxiv.org/pdf/2212.03551v1.pdf

更多內(nèi)容,點(diǎn)擊下方關(guān)注:

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

未經(jīng)「AI科技評(píng)論」授權(quán),嚴(yán)禁以任何方式在網(wǎng)頁(yè)、論壇、社區(qū)進(jìn)行轉(zhuǎn)載!

公眾號(hào)轉(zhuǎn)載請(qǐng)先在「AI科技評(píng)論」后臺(tái)留言取得授權(quán),轉(zhuǎn)載時(shí)需標(biāo)注來(lái)源并插入本公眾號(hào)名片。

雷峰網(wǎng)(公眾號(hào):雷峰網(wǎng))

雷峰網(wǎng)版權(quán)文章,未經(jīng)授權(quán)禁止轉(zhuǎn)載。詳情見(jiàn)轉(zhuǎn)載須知。

在一篇由 GPT-3 生成的論文中,ChatGPT 重現(xiàn)了圖靈測(cè)試的原始論文

分享:
相關(guān)文章

運(yùn)營(yíng)

當(dāng)月熱門文章
最新文章
請(qǐng)?zhí)顚?xiě)申請(qǐng)人資料
姓名
電話
郵箱
微信號(hào)
作品鏈接
個(gè)人簡(jiǎn)介
為了您的賬戶安全,請(qǐng)驗(yàn)證郵箱
您的郵箱還未驗(yàn)證,完成可獲20積分喲!
請(qǐng)驗(yàn)證您的郵箱
立即驗(yàn)證
完善賬號(hào)信息
您的賬號(hào)已經(jīng)綁定,現(xiàn)在您可以設(shè)置密碼以方便用郵箱登錄
立即設(shè)置 以后再說(shuō)