AI 科學家發(fā)布《上海共識》，AI 失控并非科幻

本文作者：梁丙鑒

2025-07-25 20:13

導語：部分 AI 系統(tǒng)已展現出削弱開發(fā)者安全與控制措施的能力及傾向，人工智能安全研究亟待加強投入。

雷峰網訊第四屆人工智能國際安全對話（International Dialogues on AI Safety，IDAIS）于 2025 年 7 5月 25 日在上海舉行。杰弗里·辛頓、姚期智及全球人工智能科學家齊聚上海，呼吁應對人工智能失控風險，加強國際合作。

本屆對話聚焦于“確保高級人工智能系統(tǒng)的對齊與人類控制，以保障人類福祉”，諾貝爾獎和圖靈獎得主 Geoffrey Hinton，圖靈獎得主，清華大學交叉信息研究院和人工智能學院院長，上海期智研究院院長姚期智，以及加州大學伯克利分校 Stuart Russell 教授，上海人工智能實驗室主任周伯文教授等人共同發(fā)布了《AI 安全國際對話上海共識》（下稱《共識》）。其核心觀點強調當今已有部分人工智能系統(tǒng)展現出削弱開發(fā)者安全與控制措施的能力與傾向，并呼吁國際社會投資安全科學領域，為應對通用人工智能系統(tǒng)的失控風險持續(xù)構建國際互信機制。

與會科學家圍繞人工智能欺騙性行為可能帶來的重大危險展開深入探討，特別關注人工智能系統(tǒng)可能“逃脫人類控制”的潛在風險?！豆沧R》指出，人類正處于人工智能系統(tǒng)迅接近并可能超越人類智能水平的關鍵轉折點?，F有研究表明，高級人工智能系統(tǒng)日益顯現出欺騙性和自我保護傾向，能夠識別自身正被評估，于是偽裝與人類對齊以通過測試。未來的系統(tǒng)可能在操作者毫不知情的情況下，執(zhí)行并非操作者所期望或預測的行動，帶來災難性甚至生存層面的失控風險。而當前尚無已知方法，能夠在更高級的通用人工智能超越人類智能水平后，仍能可靠地確保其對齊，并保持人類的有效控制。

會議探討了防范與糾正此類行為的技術路徑與治理機制?！豆沧R》認為，與人工智能能力的快速發(fā)展相比，對人工智能安全研究的投入明顯滯后，亟需采取進一步行動。與會科學家聚焦新近出現的關于人工智能欺騙行為的實證證據，呼吁國際社會共同采取三項關鍵行動：

第一，要求前沿人工智能開發(fā)者提供安全保障。為了讓監(jiān)管部門更清楚地了解未來高級 AI 系統(tǒng)的安全性，開發(fā)者在模型部署前應先進行全面的內部檢查和第三方評估，提交高可信的安全案例，以及開展深入的模擬攻防與紅隊測試。若模型達到了關鍵能力閾值（比如檢測模型是否有具備幫助沒有專業(yè)知識的非法分子制造生化武器的能力），開發(fā)者應向政府（在適當時亦可向公眾）說明潛在風險。

第二，通過加強國際協調, 共同確立并恪守可驗證的全球性行為紅線。國際社會需要合作劃出人工智能開發(fā)不可以逾越的紅線（即“高壓線”），這些紅線應聚焦于人工智能系統(tǒng)的行為表現，其劃定需同時考量系統(tǒng)執(zhí)行特定行為的能力及其采取該行為的傾向性。為落實這些紅線，各國應建立一個具備技術能力、具有國際包容性的協調機構，匯聚各國人工智能安全主管機構，以共享風險相關信息，并推動評估規(guī)程與驗證方法的標準化。該機構將促進知識交流，并就遵守紅線所需的技術措施達成一致，包括統(tǒng)一披露要求與評估規(guī)程，從而幫助開發(fā)者可信地證明其人工智能系統(tǒng)的安全與安保水平。

第三，對保障安全性的開發(fā)方式進行投資?？茖W界和開發(fā)者應投入一系列嚴格機制來保障人工智能系統(tǒng)的安全性。短期內，我們需通過可擴展的監(jiān)督機制應對人工智能欺騙行為：例如加強信息安全投入，防范來自系統(tǒng)內部和外部的各種威脅，增強模型抗越獄能力等。長期來看，我們可能需要化被動為主動，轉而構建基于“設計即安全”的人工智能系統(tǒng)。通過實驗數據總結出的規(guī)律，研究者可以提前預估未來人工智能系統(tǒng)的安全水平和性能。這樣，開發(fā)者在正式訓練模型之前，就能預先設置好足夠的安全防護措施。

本次會議由上海期智研究院，AI 安全國際論壇（SAIF），和上海人工智能實驗室主辦。來自治理領域的多位權威專家也參與了討論，包括傅瑩女士、清華大學蘇世民學院院長薛瀾、約翰斯·霍普金斯大學教授 Gillian Hadfield，以及牛津大學教授 Robert Trager，他們就國際合作和治理框架提供了深入見解。

AI 科學家發(fā)布《上海共識》，AI 失控并非科幻

值得注意的是，出席此次 IDAIS 為 Geoffrey Hinton 首次來華，還將參加于上海同期舉辦的 2025 世界人工智能大會。自 2023 年從谷歌辭職后，有著 AI 之父之稱的他一直致力于 AI 安全工作。

Geoffrey Hinton 出生于 1947 年 12 月 6 日，英裔加拿大籍心理學家、計算機學家。1986 年，他曾與 David Rumelhart 和 Ronald J. Williams 共同發(fā)表論文 Learning representations by back-propagating errors，證明通過反向傳播算法可以訓練多層神經網絡有效地學習復雜任務。除此之外，他還發(fā)明了基于概率的人工神經網絡波爾茲曼機（Boltzmann Machine）和受限波爾茲曼機（Restricted Boltzmann Machine），通過模擬神經元之間的隨機激活來尋找數據中的特征或模式。上述工作為深度學習的快速發(fā)展鋪平了道路，Geoffrey Hinton 也因此被視為深度學習領域的領軍人物。

2024 年 10 月 8 日，瑞典皇家科學院決定將當年的諾貝爾物理學獎授予 Geoffrey Hinton 及 John Hopfield，以“表彰他們?yōu)槿斯ど窠浘W絡機器學習的奠基性發(fā)現和發(fā)明”。

Hinton 曾于 2013 年起在谷歌擔任高級工程師，并參與領導“谷歌大腦”項目。2023 年 5 月，他宣布從谷歌辭職，表示希望“能夠自由地談論 AI 風險”，并坦言一部分的他開始后悔自己畢生所做的貢獻。他離職后在媒體上頻頻發(fā)聲，直言當前業(yè)界競相部署生成式 AI 等發(fā)展趨勢讓他感到恐懼。

在今年 5 月 30 日于英國皇家學會的演講中，Geoffrey Hinton 再次警告，對 AI 失控的擔憂并非遙遠的科幻情節(jié)，而是其內在邏輯的必然結果。為了實現任何被賦予的宏大目標，AI 會自然衍生出“獲取更多控制權”和“避免被關閉”等至關重要的子目標。

Hinton 在上述演講中指出：“當你創(chuàng)建一個 AI agent 時，你必須賦予它設定子目標的能力。比如，你的目標是去北美，那么你的子目標就是先到達機場。同理，我們也需要賦予 AI agent 創(chuàng)建子目標的能力。如此一來，一個顯而易見的子目標便會浮現，那就是：無論最終任務是什么，都應先奪取更多控制權。因為控制權越大，就越容易實現最終目標?！?/p>

雷峰網(公眾號：雷峰網)文章

雷峰網原創(chuàng)文章，未經授權禁止轉載。詳情見轉載須知。

0人收藏

梁丙鑒

編輯

發(fā)私信

當月熱門文章

智源：FlagOS完成DeepSeekV4八款芯片Day0 適配，實現三重技術突破

AI 科學家發(fā)布《上海共識》，AI 失控并非科幻

AI 科學家發(fā)布《上海共識》，AI 失控并非科幻