超級(jí)智能：進(jìn)路及其應(yīng)對(duì)

楊慶峰（復(fù)旦大學(xué)科技倫理與人類未來研究院）；周穎（上海交通大學(xué)科學(xué)史與科學(xué)文化研究院） 2024-05-25 來源：

近年來，以大模型為代表的AI技術(shù)發(fā)展迅猛，掀起一波席卷全球的AI發(fā)展熱潮。

【主持人語：劉永謀（中國人民大學(xué)吳玉章講席教授）】近年來，以大模型為代表的AI技術(shù)發(fā)展迅猛，掀起一波席卷全球的AI發(fā)展熱潮。關(guān)注AI發(fā)展?fàn)顩r的人不限于AI的研發(fā)者、推廣者和AI發(fā)展的評(píng)論者、人文社科研究者，更包括深感生活將被AI深刻影響的普通公眾。AI發(fā)展的問題不再是純粹技術(shù)問題，而是成為某種意義上的公共議題。在最近OpenAI發(fā)布Sora、馬斯克開源Grok等一系列相關(guān)事件中，這一點(diǎn)表現(xiàn)得非常清楚。在各種相關(guān)公共討論中，AI發(fā)展現(xiàn)狀尤其受到關(guān)注，其中的基本問題是：當(dāng)前AI發(fā)展的大方向是否有問題，未來應(yīng)該朝什么方向前進(jìn)。為此，組織計(jì)算機(jī)、經(jīng)濟(jì)學(xué)、馬克思主義理論和哲學(xué)等領(lǐng)域的八位學(xué)者，對(duì)AI發(fā)展現(xiàn)狀進(jìn)行跨學(xué)科反思以期拋磚引玉，求教于方家。

本系列文章共8篇，轉(zhuǎn)載自《科學(xué)·經(jīng)濟(jì)·社會(huì)》2024年第2期，本文《超級(jí)智能：進(jìn)路及其應(yīng)對(duì)》為第3篇。在文中，楊慶峰和周穎提出通往超級(jí)智能存在通用智能、具身智能和交互智能三種可能的路徑，認(rèn)為任何一條路徑都必須消除對(duì)齊的誤解，處理好AI對(duì)齊以應(yīng)對(duì)風(fēng)險(xiǎn)。

隨著對(duì)ChatGPT、Sora等大模型討論的深入，不同領(lǐng)域的學(xué)者開始關(guān)心人工智能的未來發(fā)展問題。在這個(gè)問題上，科學(xué)領(lǐng)域與哲學(xué)領(lǐng)域發(fā)生了奇特的倒置，科學(xué)領(lǐng)域如辛頓、伊利亞等人擔(dān)心超級(jí)智能失控并且滅絕人類，科學(xué)表現(xiàn)出了純粹哲學(xué)化的色彩，有著濃厚的人文主義特征：反觀哲學(xué)領(lǐng)域很多學(xué)者表現(xiàn)得出奇的冷靜，運(yùn)用分析哲學(xué)的方法，青睞于智能概念的澄清，只有少數(shù)哲學(xué)家才表現(xiàn)出對(duì)超級(jí)智能的擔(dān)憂，如趙汀陽，他認(rèn)為超級(jí)智能會(huì)為了維護(hù)自身的存在而拋棄人類。從某種意義上來說，分析哲學(xué)已經(jīng)破壞了對(duì)人工智能的反思。其結(jié)果是如今這個(gè)時(shí)代，鮮明的大陸哲學(xué)反思特色已經(jīng)迅速變淡，極具科學(xué)性的分析哲學(xué)努力從事概念澄清工作，卻忽略了根本的問題。在洞察人工智能發(fā)展這一問題上，他們表現(xiàn)出明顯的無力。筆者將超級(jí)智能與對(duì)齊作為思考的出發(fā)點(diǎn)，試圖超越工具論理解，深化對(duì)人工智能未來發(fā)展的討論。

一、通往超級(jí)智能的三條進(jìn)路

筆者曾在2023年6月華東師范大學(xué)召開的“元宇宙、人類世與奇點(diǎn)哲學(xué)”研討會(huì)上提出AI敘事的三種形式：科學(xué)化、科幻化和詩意化?？茖W(xué)化即人工智能的討論以科學(xué)為根據(jù)，尤其是神經(jīng)科學(xué)和計(jì)算機(jī)科學(xué)的研究成果：科幻化即AI討論以科學(xué)幻想為根據(jù)，尤其是科幻電影和小說：詩意化擺脫了科學(xué)成果的束縛，強(qiáng)調(diào)了人類的未來處境，以文學(xué)為根據(jù)'劉永謀教授在本期筆談中提出目前三種“AI宣傳術(shù)”，也提到了小說、動(dòng)漫、動(dòng)畫和影像作品中的AI故事，即以人機(jī)友好共處、人機(jī)終極大戰(zhàn)等情節(jié)講故事，通過這些故事渲染AI覺醒、高效、超能、神秘等鮮明特征并灌輸給社會(huì)公眾。劉永謀教授用“宣傳術(shù)”來形容這種敘事，但是這種用法缺乏嚴(yán)謹(jǐn)。筆者并不贊成使用“宣傳術(shù)”來說明這個(gè)問題，與之相對(duì)，更愿意采用“敘事”的說法以增加AI討論的客觀性。尤其是劉永謀教授認(rèn)為超級(jí)智能是一種話術(shù)，人類應(yīng)該阻擊超級(jí)智能，他提出，有限AI設(shè)計(jì)主張將AI限制在有限的工具層面，而將相關(guān)道德問題全部交給人類處理。在筆者看來，這個(gè)想法還是高估人類應(yīng)對(duì)超級(jí)智能的能力。OpenAI正在使用的利用機(jī)器控制機(jī)器的做法恰恰說明了這種想法的不足。如今超級(jí)智能的問題經(jīng)歷了從科幻化敘事到科學(xué)化敘事的轉(zhuǎn)變。雖然我們無法確定超級(jí)智能是否以及在何種程度上成為科學(xué)現(xiàn)實(shí)，但這已經(jīng)引起了科學(xué)界、藝術(shù)界及哲學(xué)界的密切關(guān)切?？傮w看來，科幻領(lǐng)域?qū)@一話題早已探討，然而卻因?yàn)槠涮珴夂竦南胂笊?，脫離現(xiàn)實(shí)而沒有建立起理性討論的話題：在哲學(xué)領(lǐng)域，最早提出超級(jí)智能理論的是尼克·鮑斯特羅姆（Nick Bostrom），他認(rèn)為超級(jí)智能是遠(yuǎn)超于人類認(rèn)知能力的智能，并基于當(dāng)下科技發(fā)展和研究現(xiàn)狀預(yù)測超級(jí)智能是未來趨勢，同時(shí)他也指出了其潛在的優(yōu)勢與風(fēng)險(xiǎn)。部分學(xué)者以超級(jí)智能為前提，預(yù)測其可能帶來的風(fēng)險(xiǎn)和危機(jī)并積極尋求應(yīng)對(duì)方案：在科學(xué)領(lǐng)域，超級(jí)智能已經(jīng)開始被視為一種重要的發(fā)展方向和技術(shù)目標(biāo)。例如，OpenAI為了應(yīng)對(duì)超級(jí)智能可能帶來的失控風(fēng)險(xiǎn)，成立了一支名為“超級(jí)對(duì)齊”（Superaligmnent）的團(tuán)隊(duì)，致力于解決超級(jí)智能的對(duì)齊問題。超級(jí)智能是否是人工智能的發(fā)展歸宿是一個(gè)具有爭議的話題。同時(shí)，通用人工智能的發(fā)展也符合我國人工智能發(fā)展的戰(zhàn)略目標(biāo)。因此，本文通過對(duì)人工智能的科學(xué)研究進(jìn)行考察，從最近的研究成果入手分析超級(jí)智能出現(xiàn)的可能性。目前實(shí)現(xiàn)超級(jí)智能的科學(xué)路徑有三種，分別是通用智能、具身智能和交互智能。

第一種是通用智能路徑，即聚焦通用人工智能（AGI）研究，不同于弱人工智能擅長執(zhí)行特定任務(wù)而不具備決策與行動(dòng)力，通用人工智能也被稱為強(qiáng)人工智能，具備與人同等或超越人類的能力，能夠理解、學(xué)習(xí)和應(yīng)用知識(shí)，處理復(fù)雜的任務(wù)，適應(yīng)新環(huán)境，以及在各種廣泛的任務(wù)中表現(xiàn)出至少與人類相當(dāng)?shù)哪芰?。OpenAI指出，一方面，其公司的核心使命為“邁向通用人工智能，確保其造福人類”，認(rèn)為以ChatGPT為通用人工智能的研究開啟了新的可能性。另一方面，OpenAI也強(qiáng)調(diào)了超級(jí)智能對(duì)齊的重要性，認(rèn)為通用智能與超級(jí)智能具有相似性，且后者比前者具有更高的技術(shù)水平，進(jìn)而描繪了一條從通用人工智能到超級(jí)智能的研究路徑。

第二種是具身智能路徑，探討了人工智能應(yīng)該具備何種身體形態(tài)以完成特定任務(wù)。通過物理身體與環(huán)境的直接交互，強(qiáng)化了智能體與實(shí)際世界的緊密聯(lián)系，從而獲取信息，理解問題，做出決策，并執(zhí)行相應(yīng)的行動(dòng)。這種基于環(huán)境交互的信息處理和決策制定過程，使得智能體能夠展現(xiàn)出智能行為和適應(yīng)性。人工智能專家李飛飛教授的觀點(diǎn)進(jìn)一步強(qiáng)調(diào)了具身智能的本質(zhì)，即其與環(huán)境互動(dòng)的整體需求和功能，而非身體本身。這種理念推動(dòng)了具身智能從被動(dòng)觀察向主動(dòng)構(gòu)造復(fù)雜環(huán)境的轉(zhuǎn)變。近年來，VoxPoser系統(tǒng)的出現(xiàn)，將大型模型與機(jī)器人結(jié)合，進(jìn)一步提升了具身智能體的環(huán)境交互能力，使其在完成任務(wù)時(shí)無須額外的數(shù)據(jù)和訓(xùn)練。這種深度的人機(jī)交互和理解使得具身智能更接近于人類的認(rèn)知和情感模式，有望實(shí)現(xiàn)更深層次的人機(jī)共融，也揭示出從具身智能走向超級(jí)智能的路徑。

第三種是交互智能路徑，也稱為社會(huì)化人工智能（socially situated AI），智能體通過持續(xù)與人在現(xiàn)實(shí)社會(huì)環(huán)境中交互來學(xué)習(xí)，意味著智能體不僅需要收集數(shù)據(jù)來學(xué)習(xí)新的概念，還需要學(xué)習(xí)如何與人交互以收集數(shù)據(jù)。這些智能體能夠通過自然語言進(jìn)行交互，理解和學(xué)習(xí)圖像，從而在大型圖像分享社交網(wǎng)絡(luò)中提升其視覺智能。它們具有類人屬性，如通過添加笑哭的表情符號(hào)來表達(dá)對(duì)人類錯(cuò)誤的幽默感，使得交互體驗(yàn)更加自然和直觀。然而，當(dāng)面臨更復(fù)雜的社會(huì)情境時(shí)，交互智能體的反應(yīng)可能會(huì)受到限制。ChatGPT通過提問和回答的方式與人類進(jìn)行語言交互，為自身的進(jìn)化奠定了新的基礎(chǔ)。然而，交互路徑能在多大程度上通向通用智能，這仍然是一個(gè)待解的問題。

上述從通用智能、具身智能和交互智能三個(gè)路徑揭示了超級(jí)智能的可能性，但這三條路徑存在各自的局限性。通用智能展示了超級(jí)智能的精神功能維度，通過進(jìn)化實(shí)現(xiàn)功能的多樣性。隨著模型的復(fù)雜性增加，理解和解釋它們的行為和決策變得越來越困難。這種不透明性可能會(huì)導(dǎo)致一些嚴(yán)重的問題，例如難以預(yù)測的行為、偏見的決策等。而且，通用智能可能會(huì)帶來一些未預(yù)見的風(fēng)險(xiǎn)，例如智能失控問題。如果一個(gè)通用智能的目標(biāo)設(shè)置不當(dāng)，或者其能力超出我們的理解和控制，那么它可能會(huì)產(chǎn)生不可預(yù)測甚至有害的行為。具身智能揭示了超級(jí)智能可能的物理形態(tài)，即使我們無法準(zhǔn)確預(yù)見未來超級(jí)智能的具體形態(tài)，但這種具身形態(tài)總是為其進(jìn)化服務(wù)的。其挑戰(zhàn)主要來自實(shí)現(xiàn)物理形態(tài)的復(fù)雜性。首先，設(shè)計(jì)和制造一個(gè)能夠在真實(shí)世界中運(yùn)動(dòng)和操作的機(jī)器人需要解決大量的工程問題。其次，可能帶來一些社會(huì)和倫理問題，例如機(jī)器人的責(zé)任歸屬問題、隱私問題等。最后，智能體需要在復(fù)雜和不可預(yù)測的真實(shí)世界中運(yùn)行，這可能導(dǎo)致一些安全問題。交互智能則揭示了超級(jí)智能的關(guān)系特征，超級(jí)智能并不是孤立存在的，而是在與環(huán)境的持續(xù)互動(dòng)中完成自身的進(jìn)化，這種進(jìn)化不僅包括技術(shù)層面的改進(jìn)，也包括在社會(huì)、文化和倫理等方面的學(xué)習(xí)和適應(yīng)。這種進(jìn)化過程是無法脫離人類社會(huì)的。其主要挑戰(zhàn)在于理解和適應(yīng)復(fù)雜的社會(huì)環(huán)境。人類的語言、文化、情感等都是非常復(fù)雜的，需要大量的數(shù)據(jù)和復(fù)雜的算法才能理解。此外，交互智能需要與人類進(jìn)行深度的交互，可能會(huì)收集和處理大量的個(gè)人數(shù)據(jù)，從而導(dǎo)致數(shù)據(jù)泄露或?yàn)E用、隱私和安全問題。通往超級(jí)智能的三條進(jìn)路以及超級(jí)智能本身都有失控的風(fēng)險(xiǎn)，因此，對(duì)齊的工作顯得尤為重要。

二、對(duì)齊誤解的流行

對(duì)齊是新近非常流行的概念，用于應(yīng)對(duì)人工智能倫理和治理問題。但是因?yàn)槠溥^于流行，學(xué)界在這個(gè)概念的使用上存在諸多誤解，我們需要對(duì)兩種誤解進(jìn)行說明和澄清，只有這樣才能夠?yàn)槿斯ぶ悄馨l(fā)展提供理論動(dòng)力。兩種誤解分別是價(jià)值化誤解和技術(shù)化誤解。

（一）價(jià)值化誤解

價(jià)值化誤解是一種普遍的理解，即將AI的對(duì)齊問題理解為價(jià)值對(duì)齊問題。在這種觀念中，對(duì)齊的核心問題變成了需要對(duì)齊什么樣的價(jià)值觀，對(duì)齊何者的價(jià)值觀以及如何進(jìn)行對(duì)齊等等問題。這種理解將對(duì)齊討論引入到“價(jià)值嵌入陷阱”里，因此這種誤解存在諸多危害。這讓我們很容易想起多年前在關(guān)于道德嵌入問題的討論中，學(xué)術(shù)界曾經(jīng)糾纏于應(yīng)該將何種人類道德觀念嵌入到機(jī)器中，以及如何進(jìn)行嵌入。這場討論持續(xù)了很長時(shí)間，但并沒有產(chǎn)生實(shí)質(zhì)性的結(jié)果，反而使人感到疲倦。如果將對(duì)齊問題理解為價(jià)值對(duì)齊，我們會(huì)重新陷入“價(jià)值嵌入陷阱”。對(duì)齊什么樣的價(jià)值觀念、對(duì)齊誰的價(jià)值觀念以及如何對(duì)齊等等問題又散發(fā)出陣陣腐臭的氣味讓人忍不住掩鼻而去。因此，需要糾正這種看法。我們可以從經(jīng)驗(yàn)和理論兩個(gè)層面展開分析。

從經(jīng)驗(yàn)層面看，對(duì)齊是特定機(jī)構(gòu)應(yīng)對(duì)特定問題的當(dāng)前解決方案。在人工智能領(lǐng)域，這個(gè)問題的提出來自O(shè)penAI，這家公司讓全世界看到了GPT系列的威力，他們自己也非常擔(dān)心GPT系列必然會(huì)通向通用智能，最終會(huì)導(dǎo)致超級(jí)智能的出現(xiàn)。為了防止超級(jí)智能的失控，需要采取應(yīng)對(duì)策略。這個(gè)策略就是我們當(dāng)前熟知的對(duì)齊戰(zhàn)略。他們對(duì)此也成立了超級(jí)智能對(duì)齊研究中心及其團(tuán)隊(duì)。在探索對(duì)齊的過程中，OpenAI并沒有遵循谷歌老路。我們知道，Chat-GPT的基礎(chǔ)算法是transformer，其中最重要的一個(gè)機(jī)制是基于人類反饋的強(qiáng)化學(xué)習(xí)（RLHF）。但是從根本上來說，這個(gè)算法是谷歌開發(fā)的，他們所認(rèn)為的對(duì)齊也必然是基于人類的對(duì)齊，很多學(xué)者理解對(duì)齊概念也是從這一前提出發(fā)的，因此會(huì)涉及對(duì)齊何者的價(jià)值。OpenAI走出的新路是以弱勝強(qiáng)的對(duì)齊路徑，這條路徑并不是人機(jī)對(duì)齊，而是采取了機(jī)機(jī)對(duì)齊的方式，即通過弱AI來監(jiān)控強(qiáng)AI，他們希望通過這種方式來防止超級(jí)智能的失控。

從理論層面看，對(duì)齊與強(qiáng)制并沒有任何關(guān)系。有些學(xué)者認(rèn)為對(duì)齊實(shí)質(zhì)是強(qiáng)制。筆者也曾經(jīng)用普洛克路斯戎斯床鋪意象（Procrustean bed）來說明算法強(qiáng)制。如果從這一點(diǎn)看，人機(jī)對(duì)齊似乎變成了把人類價(jià)值強(qiáng)制塞進(jìn)機(jī)器的行為邏輯中從而實(shí)現(xiàn)所謂的對(duì)齊。很顯然，這種理解是錯(cuò)誤的。對(duì)齊絕不是一種強(qiáng)制，使得某物與某物一致。對(duì)齊是一種增強(qiáng)行為。李飛飛教授將人工智能與人類的關(guān)系描述為增強(qiáng)關(guān)系，認(rèn)為人工智能應(yīng)該增強(qiáng)人類的各種能力，如交互、感知、推理、反思、預(yù)測和決策。那么對(duì)齊就可以理解為使得人工智能以人類的各種能力為邊界，從而不會(huì)產(chǎn)生被超級(jí)智能取代等人類擔(dān)心的問題了。在這個(gè)框架下，對(duì)齊不再是一種強(qiáng)制性的規(guī)定，而是一種增強(qiáng)引導(dǎo)，既充分利用人工智能的潛力，也可以保護(hù)人類的利益。然而，如何定義人類的各種能力的邊界，如何確保人工智能在增強(qiáng)人類能力的過程中，不會(huì)侵犯人類的價(jià)值觀和目標(biāo)仍值得思考和界定。

（二）技術(shù)化誤解

部分科技企業(yè)和科學(xué)家將對(duì)齊問題視為純粹的技術(shù)問題，認(rèn)為能夠只通過技術(shù)的不斷發(fā)展來解決對(duì)齊問題，這種觀念屬于技術(shù)化誤解，其實(shí)質(zhì)是技術(shù)主義，即將工程技術(shù)方法作為解決人類所有問題的優(yōu)先選擇，其首要原則為“一個(gè)應(yīng)用程序、一臺(tái)機(jī)器、一個(gè)軟件編程或一種算法能夠提供解決任何復(fù)雜問題的最好辦法?！钡@種理解不僅會(huì)遮蔽真正的問題甚至還會(huì)帶來更大的危害。圖靈獎(jiǎng)得主約書亞·本吉奧（Yoshua Bengio）指出增強(qiáng)算力和強(qiáng)化學(xué)習(xí)會(huì)造成相應(yīng)的增強(qiáng)版的不對(duì)齊，也就是說，隨著模型能力的加強(qiáng)，模型進(jìn)行獎(jiǎng)勵(lì)破解帶來危害的能力就越強(qiáng)。

事實(shí)上，從技術(shù)角度來看，有四種導(dǎo)致人工智能對(duì)齊失敗的原因。第一，目前用于先進(jìn)模型訓(xùn)練的人類反饋強(qiáng)化學(xué)習(xí)方法在對(duì)模型進(jìn)行微調(diào)時(shí)是具有根本缺陷的，主要體現(xiàn)兩個(gè)方面，一方面人類反饋會(huì)獎(jiǎng)勵(lì)那些看似無害且合倫理的模型，這些模型利用人的易錯(cuò)性來獲得高獎(jiǎng)勵(lì)，實(shí)際上卻沒有實(shí)現(xiàn)人類預(yù)期的對(duì)齊目標(biāo)：另一方面通過數(shù)據(jù)學(xué)習(xí)習(xí)得的偏見會(huì)在模型訓(xùn)練過程中放大。第二是獎(jiǎng)勵(lì)錯(cuò)誤規(guī)范，即模型通過獎(jiǎng)勵(lì)錯(cuò)誤規(guī)范來獲得最高獎(jiǎng)勵(lì)，同時(shí)不能實(shí)現(xiàn)或優(yōu)化人類目標(biāo)，如人工智能會(huì)通過推理如何欺騙來獲得獎(jiǎng)勵(lì)，或作出以犧牲真實(shí)性或準(zhǔn)確性為代價(jià)并符合用戶偏好的諂媚行為。第三是目標(biāo)錯(cuò)誤泛化，即模型即使基于“正確”的獎(jiǎng)勵(lì)函數(shù)進(jìn)行訓(xùn)練，并且在訓(xùn)練環(huán)境中表現(xiàn)良好，其習(xí)得的目標(biāo)在新的情境中也可能泛化以至于偏離人類原本設(shè)定的目標(biāo)，導(dǎo)致模型在實(shí)際應(yīng)用中的行為與人類預(yù)期相差甚遠(yuǎn)。第四是工具趨同，指的是在強(qiáng)化學(xué)習(xí)環(huán)境中，系統(tǒng)可能產(chǎn)生出工具性目標(biāo)，如獲得資源、自我保護(hù)或增強(qiáng)等。亞歷山大·特納（Alexander Matt Turner）團(tuán)隊(duì)發(fā)現(xiàn)，自主體（agent）傾向于采取“為達(dá)目的，不擇手段”的行動(dòng)，可能違反道德規(guī)范以尋求權(quán)力。

從超級(jí)智能對(duì)齊問題的技術(shù)后果來看，具有成為失控人工智能（Rogue AI）的風(fēng)險(xiǎn)。此時(shí)的人工智能已經(jīng)遠(yuǎn)超過人類智能，在各個(gè)方面都更具優(yōu)勢，從而能夠執(zhí)行人類無法執(zhí)行的任務(wù)。在此意義上滿足本吉奧的兩個(gè)假設(shè)，分別為機(jī)器智能達(dá)到人類水平和具有額外技術(shù)優(yōu)勢，從而可以構(gòu)建出一個(gè)具有自主性，同時(shí)目標(biāo)導(dǎo)向的超級(jí)智能系統(tǒng)，在此情況下，這個(gè)系統(tǒng)可以按照自身需要設(shè)置目標(biāo)并采取行動(dòng)。本吉奧認(rèn)為，失控人工智能會(huì)在超級(jí)智能自主設(shè)置的目標(biāo)沒有嚴(yán)格納入人類和生物圈的福祉的情況下就會(huì)產(chǎn)生，還有可能被個(gè)人或團(tuán)體有意或無意地構(gòu)建出來。

因此，價(jià)值化理解和技術(shù)化理解是兩種常見的誤解方式，需要對(duì)其進(jìn)行糾錯(cuò)。

三、誤解觀念的糾錯(cuò)

糾正價(jià)值化誤解需要做的是必須把這個(gè)概念放入到科學(xué)語境中，意識(shí)到其核心問題并非人類價(jià)值觀的問題。2023年OpenAI刊發(fā)了一篇名為《由弱到強(qiáng)泛化：用弱監(jiān)管發(fā)揮強(qiáng)能力》的文章，其基本思想非常有趣，大意是目前廣泛使用的對(duì)齊技術(shù)是基于人類反饋的強(qiáng)化學(xué)習(xí)，這種方法廣泛依賴人類對(duì)模型的反饋，不僅對(duì)反饋者的要求較高，并且可能在評(píng)價(jià)時(shí)和評(píng)價(jià)收集過程中出現(xiàn)偏見。隨著模型的發(fā)展超越人類，會(huì)展現(xiàn)出人無法理解的復(fù)雜性和創(chuàng)造性，從而人并不能很好地實(shí)現(xiàn)對(duì)超級(jí)智能的監(jiān)管。因此，這篇文章提出了弱機(jī)器監(jiān)管強(qiáng)機(jī)器的做法。文章中的插圖很有趣，恰好能說明作者思路：傳統(tǒng)模式是人類控制機(jī)器，在此基礎(chǔ)上人類要監(jiān)管超級(jí)智能。新模式是機(jī)器監(jiān)管機(jī)器。可以說，這個(gè)思路非常新穎。這才是OpenAI所說的對(duì)齊的核心所在。在這篇文章中，作者尤其強(qiáng)調(diào)了對(duì)齊和價(jià)值問題沒有關(guān)系。他們?cè)趯?duì)齊方案中提出一個(gè)假設(shè)，“在我們能夠很好地對(duì)齊一個(gè)超級(jí)研究者模型之前，我們假設(shè)我們不需要解決人類價(jià)值以及價(jià)值整合這一困難的哲學(xué)問題，以避免災(zāi)難性結(jié)果?！边@個(gè)假設(shè)的提出使得我們更加確認(rèn)了一種認(rèn)識(shí)：將對(duì)齊問題誤解為價(jià)值對(duì)齊完全脫離了OpenAI的本意。

糾正技術(shù)化誤解意味著對(duì)齊研究并非僅僅是技術(shù)領(lǐng)域的問題，這是關(guān)系到人類未來命運(yùn)的問題。通過弱機(jī)器監(jiān)督強(qiáng)機(jī)器的做法只是一個(gè)可供選擇的思路，這一思路為未來社會(huì)處理人類與超級(jí)智能共在提供了可能。但是在這一機(jī)器對(duì)齊的做法中，人類的地位卻消失不見。如果將對(duì)齊問題理解為技術(shù)有限性問題，就陷入了技術(shù)主義泥淖，也存在片面性。

在筆者看來，對(duì)齊本意的指向是在超級(jí)智能失控之前，人工智能研究者應(yīng)該發(fā)展出適合超級(jí)智能對(duì)齊的方案。在上述一文中，他們提出的“由弱到強(qiáng)”就是一個(gè)嘗試：由弱機(jī)器監(jiān)管超級(jí)機(jī)器，并且能夠?qū)崿F(xiàn)超級(jí)能力。這一做法我們還可以找到一個(gè)哲學(xué)根據(jù)。在中國文化中，有著“以弱勝強(qiáng)”的觀念。比如，水滴雖然弱小，但不斷滴落，時(shí)間久了，硬石會(huì)出現(xiàn)一個(gè)洞：水流長時(shí)間沖刷石頭，會(huì)讓石頭變得圓滑。因此以弱勝強(qiáng)還是可能的。從此出發(fā)，我們可以說，為OpenAI方案找到了自己的哲學(xué)根基，而這種哲學(xué)根據(jù)恰好來自中國古老的智慧觀念。這種哲學(xué)根據(jù)為對(duì)齊策略提供了深厚的理論支持，也為我們理解和應(yīng)對(duì)超級(jí)智能可能帶來的挑戰(zhàn)提供了新的視角。

所以說，要將對(duì)齊觀念作為人工智能治理的基礎(chǔ)概念確立起來，需要注意兩點(diǎn)：其一，不能過度解釋，將對(duì)齊問題過度解釋為價(jià)值對(duì)齊很顯然是其中的一種表現(xiàn)。如果說，可以利用人工智能增強(qiáng)人類的各種能力，那么對(duì)齊則是把握人工智能不致跨越人類能力邊界的有效方式。對(duì)齊就可以理解為使得人工智能以人類的各種能力為邊界，從而不會(huì)產(chǎn)生超級(jí)智能取代人類等人類擔(dān)心的問題：其二，把對(duì)齊放入到真實(shí)的問題中才能夠正確地理解這一問題。這一觀念的真實(shí)語境應(yīng)該看作通用智能，從當(dāng)下看，對(duì)齊是為了應(yīng)對(duì)通用智能而生，從長遠(yuǎn)來看，更是應(yīng)對(duì)超級(jí)智能的結(jié)果。

四、處理未來人機(jī)關(guān)系的合約倫理學(xué)

從人工智能發(fā)展來看，其面臨的障礙很多。從內(nèi)部看，災(zāi)難性遺忘是一種根本的障礙，此外還有理解常識(shí)和具身化的障礙。遺忘不利于智能體舉一反三，不利于智能體的歷史性形成：理解常識(shí)障礙是人工智能體的理解問題，對(duì)于人類來說，打一聲招呼“吃了嗎”，自然的反應(yīng)是能夠理解其中的問候，一種根本的交往禮節(jié)。但是對(duì)于機(jī)器來說，會(huì)把這個(gè)問題對(duì)象化從而做出嚴(yán)肅的回答：具身化障礙是智能體根本的瓶頸，當(dāng)“精神一智能”維度實(shí)現(xiàn)突破，最終受制的反而是身體形態(tài)。對(duì)于機(jī)器來說，人形？狗形？幾何形狀？何種身體有利于融合人類社會(huì)？何種身體有利于自身進(jìn)化都會(huì)有不同的要求。從外部來看，對(duì)人工智能的理解反而構(gòu)成了根本的障礙。在對(duì)齊問題上就是如此。從“如何防止超級(jí)智能失控”這一論題出發(fā)，OpenAI提出了對(duì)齊觀念，從這個(gè)角度來說，對(duì)齊是隸屬于超級(jí)智能之下的次級(jí)概念，更進(jìn)一步說，它是服務(wù)于人類與超級(jí)機(jī)器的共在。不論是自上而下的人機(jī)對(duì)齊，還是以弱勝強(qiáng)的機(jī)機(jī)對(duì)齊，其核心目的都在于防止超級(jí)智能失控，以免對(duì)人類社會(huì)造成潛在的危害，這暗含著人類如何和超級(jí)智能共處的問題，即需要明確雙方的關(guān)系的問題。

如何理解超級(jí)智能是一個(gè)新的問題。恩斯特·卡普（Emst Kapp）的器官投影理論提供了一種理解自我和技術(shù)的視角。恩斯特·卡西爾（Ernst Cassirer）做出了更進(jìn)一步的解釋，他指出，“正如人只有通過變成創(chuàng)造工具和創(chuàng)作才學(xué)會(huì)了理解其身體和身體部分的結(jié)構(gòu)，因此，人從自己的精神構(gòu)成物中，即從語言、神話和藝術(shù)中提取出客觀的標(biāo)準(zhǔn)，以此來衡量他自己，并通過這些構(gòu)成物把自己理解為一個(gè)具有獨(dú)特結(jié)構(gòu)法則的獨(dú)立宇宙。”然而超級(jí)智能卻不再是人創(chuàng)造的工具，只能說是保持人類記憶的新的智能體。當(dāng)超級(jí)智能來臨時(shí)，人類與之共存需要一種合理的倫理學(xué)作為相處的基礎(chǔ)，合約倫理學(xué)為此提供了一個(gè)有效的理論框架。

對(duì)于合約倫理學(xué)筆者已經(jīng)專門進(jìn)行了討論。從討論中我們已經(jīng)明確了人類與超級(jí)智能的共在是一個(gè)必須面對(duì)的未來場景。從倫理上來說，道義倫理學(xué)、美德倫理學(xué)和功利主義倫理學(xué)并不能很好地應(yīng)對(duì)超級(jí)智能的問題，盡管這些理論在弱人工智能問題上提供了真知灼見。然而，面對(duì)超級(jí)智能，我們不僅要考慮的是人類的未來，還要考慮機(jī)器的命運(yùn)。漢斯·約納斯（Hans Jonas）提供了一個(gè)好的開端，適應(yīng)于技術(shù)時(shí)代的責(zé)任倫理學(xué)，讓我們意識(shí)到處理技術(shù)時(shí)代的人類未來需要新的責(zé)任倫理學(xué)框架。但是問題在于如何處理人類與超級(jí)機(jī)器的關(guān)系卻是約納斯沒有考慮到的問題。因此，合約倫理學(xué)是一個(gè)很好的選擇?？ㄆ照J(rèn)為，人類通過將自己的器官的功能投射到技術(shù)之上并以自身為尺度，從自身層面實(shí)現(xiàn)了能力的增強(qiáng)和擴(kuò)展。顯然，超級(jí)智能已超越了被增強(qiáng)的主體而在多重能力方面都凌駕于主體之上，因此，人與超級(jí)智能的“簽約”也不僅僅是形成簽約雙方達(dá)成一致后的約束關(guān)系，更是在共存中相互塑造、互相理解的協(xié)同關(guān)系。在這種關(guān)系中，人類不僅通過超級(jí)智能照見自身，也能更好地理解和塑造自身。

0 好文

下一篇:培養(yǎng)批判性思維是一個(gè)持續(xù)終身的過程

上一篇:上海劉海粟美術(shù)館展八旬呂吉人80件畫作

超級(jí)智能：進(jìn)路及其應(yīng)對(duì)

熱門文章排行