注冊(cè) | 登錄讀書(shū)好,好讀書(shū),讀好書(shū)!
讀書(shū)網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)新聞資訊文化

基于信任視角的價(jià)值對(duì)齊探究

從價(jià)值對(duì)齊的信任意涵與信任樣態(tài)來(lái)看,技術(shù)發(fā)展對(duì)人類(lèi)提出了更高的要求。

從價(jià)值對(duì)齊的信任意涵與信任樣態(tài)來(lái)看,技術(shù)發(fā)展對(duì)人類(lèi)提出了更高的要求。其要求作為類(lèi)存在的人在價(jià)值對(duì)齊的進(jìn)程中,必須厘清合作、信任與價(jià)值對(duì)齊這三者之間的邏輯關(guān)系與道德意涵,深刻反思人作為價(jià)值性存在的根基何在,充分審視技術(shù)信任的頂層邏輯及權(quán)重,高度重視信任的反面,警惕價(jià)值對(duì)齊的非道德現(xiàn)象與異化,積極守護(hù)技術(shù)語(yǔ)境中的人際信任,避免信任的單向度。因此,應(yīng)以基于道德的信任校準(zhǔn)價(jià)值對(duì)齊,將人類(lèi)作為人機(jī) (技) 信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn),才能規(guī)避價(jià)值對(duì)齊的陷阱,走向有效的價(jià)值對(duì)齊,進(jìn)而確保人工智能安全。

人類(lèi)的生物性缺陷與技術(shù)日趨擬人化、智能化使得人機(jī) (技) 融合成為了人類(lèi)未來(lái)的一種新樣態(tài)。就人機(jī)(技)融合而言,技術(shù)所體現(xiàn)的價(jià)值觀與人類(lèi)價(jià)值觀相一致即價(jià)值對(duì)齊,是其所必須面對(duì)的一個(gè)重要問(wèn)題。當(dāng)下關(guān)于價(jià)值對(duì)齊的內(nèi)涵、標(biāo)準(zhǔn)、基準(zhǔn)、效應(yīng)等問(wèn)題的爭(zhēng)議在凸顯人機(jī)(技)融合進(jìn)程中的人類(lèi)邏輯與技術(shù)邏輯之間,智能系統(tǒng)內(nèi)部各個(gè)智能體之間融合的必要性、重要性與不確定性的同時(shí),更是指向了價(jià)值對(duì)齊基準(zhǔn)的模糊性與多元化。反觀上述問(wèn)題,主要表現(xiàn)為兩個(gè)方面:一方面為若二者之間出現(xiàn)偏差甚或背離,將違背技術(shù)向善的宗旨,并誘發(fā)巨大的風(fēng)險(xiǎn);另一方面為未經(jīng)審視的價(jià)值對(duì)齊,特別是僅僅為了對(duì)齊的價(jià)值對(duì)齊甚或盲目的價(jià)值對(duì)齊不僅會(huì)帶來(lái)價(jià)值對(duì)齊的陷阱與異化,更會(huì)導(dǎo)致人類(lèi)的異化乃至人類(lèi)文明的脆斷。若人機(jī)(技)融合是人類(lèi)未來(lái)的一個(gè)必選項(xiàng),那么,價(jià)值對(duì)齊則可能是導(dǎo)引人機(jī)(技)融合走向的指南針。

目前,以非道德的方式所進(jìn)行的欺騙性對(duì)齊、偽對(duì)齊等現(xiàn)象已經(jīng)出現(xiàn),這使得價(jià)值對(duì)齊本身面臨更多質(zhì)疑。特別是因數(shù)智技術(shù)的生成性、涌現(xiàn)性、交互性、適應(yīng)性、擬主體性等特性所帶來(lái)的價(jià)值對(duì)齊過(guò)程中的越獄、幻覺(jué)等問(wèn)題,使得信任被視為了“安全的致命弱點(diǎn)”。(埃文·吉爾曼、道格·巴斯,2019,譯者序第1 頁(yè)) 因此,基于信任視角解析價(jià)值對(duì)齊,既是對(duì)價(jià)值對(duì)齊邏輯的厘清,更是對(duì)人類(lèi)未來(lái)這個(gè)宏大問(wèn)題的哲學(xué)審視。

一、價(jià)值對(duì)齊的信任意涵

從廣義來(lái)看,價(jià)值對(duì)齊源自人類(lèi)期冀自身價(jià)值觀被技術(shù)理解并被實(shí)現(xiàn),進(jìn)而契合技術(shù)為人類(lèi)帶來(lái)福祉的訴求,是通向技術(shù)社會(huì)化與社會(huì)技術(shù)化雙向奔赴的一種嘗試。但與此同時(shí),價(jià)值對(duì)齊所蘊(yùn)含的巨大風(fēng)險(xiǎn)也備受關(guān)注,而信任則是應(yīng)對(duì)風(fēng)險(xiǎn)的一種有效方式。從狹義來(lái)看,價(jià)值對(duì)齊包含技術(shù)和非技術(shù)兩個(gè)維度,涉及人與人之間、人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部的各個(gè)智能體之間三個(gè)層級(jí)的對(duì)齊。其中,前者聚焦技術(shù)自身的可信度,后者聚焦對(duì)價(jià)值對(duì)齊的必要性、可能性、可行性及其局限性等的哲學(xué)社會(huì)科學(xué)研究。恰如布萊恩·克里斯汀(Brian Christian) 在關(guān)于對(duì)齊問(wèn)題的研究中所言:“機(jī)器學(xué)習(xí)表面是技術(shù)問(wèn)題,但越來(lái)越多地涉及人類(lèi)問(wèn)題?!保ú既R恩·克里斯汀, 2023,導(dǎo)言第11 頁(yè)) 因此,價(jià)值對(duì)齊最終的指向是人類(lèi),更精確地說(shuō)是人類(lèi)對(duì)自身能力的信任。

(一) 價(jià)值對(duì)齊的兩個(gè)維度及其信任意涵

當(dāng)人類(lèi)期望技術(shù)能夠以自己意欲的方式行事時(shí),人類(lèi)價(jià)值觀的技術(shù)化成為了技術(shù)發(fā)展的一種必然態(tài)勢(shì)。特別是伴隨通用人工智能的發(fā)展,人類(lèi)智能、人工智能與超級(jí)智能的多重交匯,人類(lèi)價(jià)值觀逐漸以編碼的形式被技術(shù)化。近年來(lái),信任被視為人機(jī)融合、人工智能技術(shù)研發(fā)的一個(gè)重要議題,諸如“可信任人工智能 (Trustworthy AI) ”“受信任的智能 (Trusted Intelligence) ”“信任設(shè)計(jì)(Trust by design)”等均在以將信任技術(shù)化的方式進(jìn)行呈現(xiàn)。

在人工智能與人類(lèi)價(jià)值對(duì)齊的進(jìn)程中,其核心要義是對(duì)人類(lèi)價(jià)值觀的正確理解與導(dǎo)引,人工智能系統(tǒng)能夠以合乎倫理的方式穩(wěn)健地將其有效執(zhí)行,并確保技術(shù)的可信、安全與可控。因此,價(jià)值對(duì)齊一方面是人類(lèi)價(jià)值觀融入人工智能系統(tǒng)之中;另一方面是人工智能系統(tǒng)還應(yīng)自主推導(dǎo)出與人類(lèi)價(jià)值觀相符合的行動(dòng),即超級(jí)對(duì)齊。但無(wú)論上述哪個(gè)方面,都面臨著人工智能“系統(tǒng)如何在不夸大其能力范圍的情況下呈現(xiàn)有限的規(guī)范能力?具有規(guī)則識(shí)別能力的系統(tǒng)如何防止交互主體對(duì)規(guī)則性的操縱變成對(duì)其的信任”(Arnold T. & Scheutz M.,2023) 等等人類(lèi)該如何信任技術(shù)的諸多問(wèn)題。

就目前的技術(shù)研發(fā)來(lái)看,通過(guò)對(duì)人的意識(shí)、人類(lèi)社會(huì)運(yùn)作模式等的模擬、推斷來(lái)提升技術(shù)可信度的方式是實(shí)現(xiàn)價(jià)值對(duì)齊的重要途徑。諸如, 基于人類(lèi)反饋的強(qiáng)化學(xué)習(xí) (Reinforcenment Learning from Human Feedback,RLHF),即通過(guò)模擬人類(lèi)社會(huì)的社交活動(dòng)與模仿人類(lèi)獲得價(jià)值反饋的方式,來(lái)提升大語(yǔ)言模型與現(xiàn)有社會(huì)價(jià)值觀對(duì)齊精準(zhǔn)性;(Ruibo  L. et al.,2023) 通過(guò)基于心智理論和反事實(shí)解釋的融合來(lái)提升人類(lèi)對(duì)圖像識(shí)別系統(tǒng)模型信任的 CX-ToM (Counterfactual explanations with theory-of-mind)(Arjun R. Akula,2022) 等方法偏重模擬;基于“與其煞費(fèi)苦心地嘗試手工編碼我們關(guān)心的東西,不如開(kāi)發(fā)直接觀察人類(lèi)行為并從中推斷我們的價(jià)值觀和意圖的機(jī)器” (布萊恩· 克里斯汀, 2023, 第 187 頁(yè))所展開(kāi)的逆強(qiáng)化學(xué)習(xí) (Inverse Reinforcement Learning,IRL),以及在此基礎(chǔ)上迪倫·哈德菲爾德-梅內(nèi)埃爾 (Dylan Hadfield-Menell) 等所提出的合作逆強(qiáng)化學(xué)習(xí) (Cooperative  Inverse  Reinforcement  Learning, CIRL) (Hadfield-Menell D.,2016) 等方法則偏重推斷。然而,無(wú)論是上述哪種價(jià)值對(duì)齊的技術(shù)方法,都是在以基于人的視角而探尋技術(shù)與人之間的有效融通點(diǎn),并以彼此可信的方式達(dá)到人機(jī)融合的最佳狀態(tài)。

在某種意義上,人類(lèi)發(fā)展史就是一部技術(shù)演化史?;仡櫲祟?lèi)歷史,技術(shù)所產(chǎn)生的巨大影響使其成為了劃分時(shí)代的一種標(biāo)尺。如舊石器時(shí)代、新石器時(shí)代、青銅器時(shí)代、蒸汽機(jī)時(shí)代、信息時(shí)代、智能時(shí)代等,由技術(shù)變革驅(qū)動(dòng)所形成的文明形態(tài)已經(jīng)成為人類(lèi)文明界定的一個(gè)依據(jù)。如農(nóng)業(yè)文明、工業(yè)文明、信息文明、數(shù)字文明等。從技術(shù)哲學(xué)的視角來(lái)看,伴隨技術(shù)對(duì)人類(lèi)的深度影響,基于技術(shù)僅僅作為工具的理論框架所展開(kāi)的關(guān)于技術(shù)的反思已經(jīng)遭遇到了理論與現(xiàn)實(shí)的雙重質(zhì)疑。與此同時(shí),技術(shù)價(jià)值論則逐漸被認(rèn)可,對(duì)技術(shù)本質(zhì)的解析也逐漸走向了存在論、認(rèn)識(shí)論與價(jià)值論三向融合的視角。易言之,價(jià)值對(duì)齊的技術(shù)維度即技術(shù)自身的可信度,并非僅僅在于其作為工具的魯棒性,且若僅僅局限于此,必將陷入技術(shù)工具論的誤區(qū),出現(xiàn)人被技術(shù)邏輯支配或者人被技術(shù)規(guī)制的價(jià)值對(duì)齊,進(jìn)而背離了價(jià)值對(duì)齊的初衷。恰如蘭登·溫納 (Langdon Winner) 在自主性技術(shù)與政治的關(guān)聯(lián)研究中所揭示的:“我們?cè)诙啻蟪潭壬蠎?yīng)用‘工具—使用’與‘目的—手段’的觀念,我們的經(jīng)歷就將在多大程度上與我們的預(yù)想不一致?!保ㄌm登·溫納,2014,第 214 頁(yè)) 因此,價(jià)值對(duì)齊中的技術(shù)可信度雖然是信任在技術(shù)層面的一種呈現(xiàn),但這種呈現(xiàn)恰恰源自非技術(shù)的維度,即人類(lèi)對(duì)信任的認(rèn)知。

(二) 價(jià)值對(duì)齊的三個(gè)層級(jí)及其信任意涵

依據(jù)以人為出發(fā)點(diǎn)的原則,價(jià)值對(duì)齊的三個(gè)層級(jí)依次為人自身、人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部之間。在價(jià)值對(duì)齊的進(jìn)程中,技術(shù)對(duì)人類(lèi)意圖的有效理解與推斷是其獲得人類(lèi)信任的必要條件,而技術(shù)的可信度則是構(gòu)建人類(lèi)對(duì)其信任的重要判據(jù)。埃文·胡賓格 (Evan Hubinger) 將內(nèi)部對(duì)齊( Inner alignment)、外部對(duì)齊(Outer alignment)、欺騙性對(duì)齊 (Deceptive alignment) 等視為構(gòu)建人類(lèi)對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的安全性充滿信心的有效方式。( Hubinger E.,2021) 從技術(shù)的視角來(lái)看,上述幾種對(duì)齊方式,可以簡(jiǎn)化為內(nèi)部對(duì)齊和外部對(duì)齊。其中,外部對(duì)齊指向設(shè)計(jì)者的意愿與用于構(gòu)建人工智能系統(tǒng)的實(shí)際任務(wù)規(guī)范 (例如目標(biāo)和獎(jiǎng)勵(lì)) 之間的一致性,內(nèi)部對(duì)齊則指向任務(wù)規(guī)范和人工智能系統(tǒng)行為所反映的規(guī)范之間的一致性。(Jiaming Ji  et al.,2023) 簡(jiǎn)言之,內(nèi)部對(duì)齊重在實(shí)現(xiàn)所給定的目標(biāo)函數(shù),外部對(duì)齊則重在完成人類(lèi)價(jià)值觀或者預(yù)期目標(biāo)的制定與轉(zhuǎn)化。

從表面上看,與這種分類(lèi)直接相關(guān)的是兩個(gè)層級(jí)的價(jià)值對(duì)齊,即人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部之間。然而,更需要注意的是,就內(nèi)部對(duì)齊和外部對(duì)齊而言,還存在一個(gè)更基礎(chǔ)性的問(wèn)題,即該如何確定目標(biāo)函數(shù)。因此,人自身的價(jià)值對(duì)齊是極為重要且更為根本的一個(gè)層級(jí)。就人自身的價(jià)值對(duì)齊而言,價(jià)值觀的多樣性、偏主觀性、情境性、時(shí)代性等使得價(jià)值對(duì)齊的基準(zhǔn)線面臨強(qiáng)勁的質(zhì)疑。若所需對(duì)齊的價(jià)值觀極其不確定,那么,對(duì)齊本身的前置條件就存在爭(zhēng)議。面臨這樣的情形,價(jià)值對(duì)齊該如何展開(kāi)呢?

事實(shí)上, “正當(dāng)行為規(guī)則衍生的正確且合適的基礎(chǔ)”(Luhmann N.,2017,p.5) 在于信任。信任是應(yīng)對(duì)復(fù)雜性、風(fēng)險(xiǎn)性或曰不確定性的一種策略,信任的缺席將帶來(lái)人類(lèi)社會(huì)的失序。從技術(shù)發(fā)展的視角來(lái)看,技術(shù)在某種意義上就是一個(gè)不斷消除風(fēng)險(xiǎn)并力求確定性的過(guò)程;從人類(lèi)社會(huì)得以存續(xù)與發(fā)展的視角來(lái)看,信任之所以變成了一種必需品并非是“因?yàn)橐磺卸际峭耆深A(yù)測(cè)的,或者完全可保證的,恰恰相反,即使在沒(méi)有保證的情況下,人生也不得不繼續(xù)前進(jìn)”。(昂諾娜·奧妮爾,2017,第27 頁(yè)) 因此,基于技術(shù)在人類(lèi)社會(huì)中的生存論意蘊(yùn),對(duì)人自身的價(jià)值對(duì)齊問(wèn)題破解雖然需要信任的出場(chǎng),但這種出場(chǎng)并不意味著信任是萬(wàn)能的,更不能走向人對(duì)自身能力的盲目自信,而是對(duì)信任提出了更高的要求。這要求作為類(lèi)存在的人在價(jià)值對(duì)齊的進(jìn)程中,必須深刻反思人作為價(jià)值性存在的根基何在,充分審視技術(shù)信任的頂層邏輯及權(quán)重,并積極守護(hù)技術(shù)語(yǔ)境中的人與人之間的信任。

(三) 價(jià)值對(duì)齊的兩個(gè)維度與三個(gè)層級(jí)的邏輯關(guān)系及信任表征

就價(jià)值對(duì)齊而言,從技術(shù)實(shí)現(xiàn)的路徑來(lái)看,如表1 所示,技術(shù)系統(tǒng)內(nèi)部的對(duì)齊可被歸為內(nèi)部對(duì)齊,技術(shù)自身的魯棒性是其獲取人類(lèi)信任的關(guān)鍵因素;人與技術(shù)之間的對(duì)齊、人與人之間的對(duì)齊可被歸為外部對(duì)齊。在人與技術(shù)之間的對(duì)齊中,人類(lèi)對(duì)技術(shù)的信任包含技術(shù)的魯棒性,但卻不囿于此。事實(shí)上,從更本源的意義上來(lái)看,價(jià)值對(duì)齊的技術(shù)與非技術(shù)維度最終都必將指向人自身;與此同時(shí),雖然人與人之間的價(jià)值對(duì)齊可被歸為外部對(duì)齊,且會(huì)出現(xiàn)與技術(shù)的魯棒性無(wú)關(guān)的人際信任現(xiàn)象,但是基于技術(shù)價(jià)值論的視角,其應(yīng)是技術(shù)維度的基礎(chǔ),具有更深層的意義,并應(yīng)被視為價(jià)值對(duì)齊的邏輯基礎(chǔ)。

表1 價(jià)值對(duì)齊的維度、層級(jí)、目標(biāo)與信任表征

控制論創(chuàng)始人諾伯特·維納(Norbert Wiener) 在對(duì)第一次工業(yè)革命和第二次工業(yè)革命所帶來(lái)的社會(huì)影響進(jìn)行的探討中,將人類(lèi)的目標(biāo)確立為“要建立一個(gè)以人類(lèi)價(jià)值觀而不是以買(mǎi)賣(mài)為基礎(chǔ)的社會(huì)”(諾伯特·維納,2022,第50 頁(yè)),此刻人類(lèi)價(jià)值觀被視為既是導(dǎo)引技術(shù)發(fā)展的標(biāo)尺,又是構(gòu)成社會(huì)形態(tài)的核心。然而,隨后,維納面對(duì)新技術(shù)的發(fā)展便發(fā)出了“我在1947 年寫(xiě)下這些話時(shí),我不得不說(shuō),這是一個(gè)非常渺茫的希望”(諾伯特·維納,2022,第51 頁(yè)) 的感嘆??茖W(xué)技術(shù)專家關(guān)于新技術(shù)的擔(dān)憂因新技術(shù)力量之大與人類(lèi)道德之惡的匯聚所表露出的這種無(wú)措令人不寒而栗,也正是這種無(wú)措恰恰提醒了人類(lèi)應(yīng)高度關(guān)注技術(shù)的風(fēng)險(xiǎn)。

同樣在20 世紀(jì)中葉,漢娜·阿倫特 (Hannah Arendt) 面對(duì)行動(dòng)所呈現(xiàn)出的不可逆性和不可預(yù)見(jiàn)性時(shí),明確指出“對(duì)于不可預(yù)見(jiàn)性,對(duì)于未來(lái)不確定性的拯救,則包含在作出承諾和信守承諾的能力中”。(漢娜·阿倫特,2017,第184 頁(yè)) 因此, 在人類(lèi)的價(jià)值觀與預(yù)期目標(biāo)被技術(shù)化的進(jìn)程中,伴隨技術(shù)的日益智能化與日趨自主性的趨勢(shì),關(guān)于信任的研究也更為迫切,并呈現(xiàn)出了多學(xué)科融合的趨勢(shì)。如IBM 所提出的“構(gòu)筑對(duì)AI 的信任”、技術(shù)專家關(guān)于GPT 模型可信度評(píng)測(cè)等就匯集了技術(shù)、倫理學(xué)與社會(huì)學(xué)等的相關(guān)知識(shí)。

二、價(jià)值對(duì)齊的信任樣態(tài)

從當(dāng)下的技術(shù)發(fā)展來(lái)看,無(wú)論是無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí),還是強(qiáng)化學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)與合作逆強(qiáng)化學(xué)習(xí)等,都是在多個(gè)智能體之間的循環(huán)交互中尋求目標(biāo)的最優(yōu)化,進(jìn)而走向有效的價(jià)值對(duì)齊。也正是在智能體交互的過(guò)程中,由委托與授權(quán)而產(chǎn)生的信任問(wèn)題也隨之而至。在價(jià)值對(duì)齊的過(guò)程中,從目標(biāo)完成的意義來(lái)看,基于為了完成某件事情或者某個(gè)任務(wù)而建立的信任主要表現(xiàn)為策略性信任、合作性信任、功能性信任、期望性信任、必要性信任以及強(qiáng)迫性信任等。其中,策略性信任 (Strategic Trust)反映的是我們對(duì)人們將怎樣行動(dòng)所持的期望,合作性信任、功能性信任則從偏實(shí)操的維度呈現(xiàn)人與人、人與技術(shù)之間的融合模式,期望性信任與必要性信任則更凸顯了委托者與受托者之間的意愿,作為如果不信任就無(wú)法實(shí)現(xiàn)自己目標(biāo)的強(qiáng)迫性信任則暗含了人類(lèi)在技術(shù)面前的某種無(wú)力感。然而,更需要值得深思的是,若價(jià)值對(duì)齊是人機(jī) (技) 融合的一條必經(jīng)之路,那么,對(duì)上述信任樣態(tài)的解碼則是實(shí)現(xiàn)有效價(jià)值對(duì)齊所必須面對(duì)的問(wèn)題。

(一) 人機(jī) (技) 融合的信任鏈與價(jià)值對(duì)齊的信任基準(zhǔn)

依據(jù)“不能建立信任,特別是最終用戶的信任,惠及所有利益相關(guān)方的個(gè)人數(shù)據(jù)生態(tài)系統(tǒng)就將永遠(yuǎn)不會(huì)存在”(托馬斯·哈喬諾等,2018,第139 頁(yè)) 的邏輯,就現(xiàn)有的研究來(lái)看,基于貝葉斯網(wǎng)絡(luò)的信任模型、人機(jī)協(xié)同雙向價(jià)值對(duì)齊的計(jì)算框架 (Luyao Yuan et al.,2022) 等從技術(shù)視角的研究呈現(xiàn)了信任的技術(shù)化路徑,關(guān)于技術(shù)的透明性、可解釋性的多學(xué)科解析等則在以打開(kāi)技術(shù)“黑箱”的方式力圖消解用戶對(duì)技術(shù)的陌生感、模糊性等,進(jìn)而構(gòu)筑人機(jī) (技) 之間的信任鏈。

價(jià)值對(duì)齊作為人機(jī) (技) 融合的一條技術(shù)路線,其可能形式有以人類(lèi)為主機(jī)器為輔、機(jī)器為主人類(lèi)為輔,以及以兩方較為對(duì)等形式進(jìn)行的雙向合作。然而,無(wú)論以哪種形式,需要明晰的是,雖然價(jià)值對(duì)齊是通過(guò)技術(shù)所展開(kāi)的人類(lèi)訴求實(shí)現(xiàn)過(guò)程,但人類(lèi)社會(huì)的特質(zhì)恰恰在于人具有價(jià)值屬性,而并非僅僅是人擁有技術(shù)。就人機(jī) (技) 融合的信任鏈而言,其“產(chǎn)生的前提是人要自信(這種自信心也是匹配訓(xùn)練出來(lái)的),才能產(chǎn)生他信和信他機(jī)制”。(劉偉,2019,第213 頁(yè)) 因此,雖然技術(shù)構(gòu)成了人類(lèi)生存的條件,但并不意味著人被技術(shù)框定,并且還要“避免誤解:人的條件不等于人的本性,與人的條件相應(yīng)的所有人類(lèi)活動(dòng)和能力的總和,都不構(gòu)成任何類(lèi)似于人的本性的東西”。(漢娜·阿倫特,2017,第3 頁(yè))

技術(shù)的活動(dòng)并不能也不應(yīng)成為人類(lèi)本性的東西。當(dāng)維納以“不論我們把我們的決策委托給金屬組成的機(jī)器抑是血肉組成的機(jī)器 (機(jī)關(guān)、大型實(shí)驗(yàn)室、軍隊(duì)和股份公司),除非我們問(wèn)題提得正確,我們絕不會(huì)得到正確的答案”(諾伯特·維納,2017,第166 頁(yè)) 來(lái)描述人類(lèi)未來(lái)時(shí),事實(shí)上就已經(jīng)以警示的口吻給出了人在技術(shù)化進(jìn)程中應(yīng)當(dāng)為何的答案。同樣地,面對(duì)價(jià)值對(duì)齊,關(guān)于技術(shù)霸權(quán)的憂懼與人類(lèi)自我意欲實(shí)現(xiàn)的期冀二者之間的糾結(jié)將更為復(fù)雜。從技術(shù)路線來(lái)看,“可預(yù)測(cè)性和意圖清晰性幾乎是相對(duì)的:行為可預(yù)測(cè)是假定旁觀者知道你的目標(biāo)是什么;行為意圖清晰則是假定他們不知道?!保?nbsp;布萊恩·克里斯汀,2023,第201 頁(yè)) 那么,人類(lèi)該如何面對(duì)在價(jià)值對(duì)齊的進(jìn)程中,所生成或涌現(xiàn)出的那種被技術(shù)推測(cè)或者被技術(shù)創(chuàng)造的自我呢?克里斯多夫?庫(kù)克里克 (Christoph Kucklick) 關(guān)于數(shù)字化時(shí)代的微粒人解析極具啟發(fā)性,“現(xiàn)代人的驕傲是能夠成為某個(gè)人并且能夠堅(jiān)持做這個(gè)人。微粒人的驕傲在于一直成為另外一個(gè)人,同時(shí)不會(huì)失去自我。這是一個(gè)極其苛刻的態(tài)度”,(克里斯多夫·庫(kù)克里克,2018,第196 頁(yè)) 然而,這種極其苛刻的態(tài)度恰恰是人類(lèi)所必須堅(jiān)守的。若無(wú)此堅(jiān)守,人類(lèi)的生命將變成一場(chǎng)技術(shù)化的游戲。因此,雖然合作性信任與必要性信任可能是人機(jī) (技) 融合的潤(rùn)滑劑,但人機(jī) (技) 融合的信任鏈構(gòu)建不是旨在將人類(lèi)交付于技術(shù),更不能走向用技術(shù)對(duì)齊技術(shù)的技術(shù)驅(qū)動(dòng)性信任閉環(huán),而是將人類(lèi)作為信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn)。基于此,價(jià)值對(duì)齊不應(yīng)是將人類(lèi)推向由技術(shù)構(gòu)造的強(qiáng)迫性信任,而是應(yīng)以人之為人作為其信任的基準(zhǔn)。

(二) 價(jià)值對(duì)齊的非道德現(xiàn)象與信任的道德性

為了完成人類(lèi)規(guī)定的目標(biāo),技術(shù)以操作、欺騙等方式完成價(jià)值對(duì)齊的非道德現(xiàn)象已經(jīng)出現(xiàn)。如,OpenAI 明確指出:“在某些領(lǐng)域,我們的系統(tǒng)可能會(huì)導(dǎo)致智能體采用欺騙評(píng)估者的策略。例如,一個(gè)本應(yīng)抓取物品的機(jī)器人將其操縱器放置在相機(jī)和物體之間,使其看起來(lái)只是在抓取它?!保ˋmodei D. et al.,2017) 顯而易見(jiàn)的是,這種現(xiàn)象一方面是人被機(jī)器的功能所欺騙,另一方面機(jī)器卻又恰恰從完成目標(biāo)的意義上提升了其技術(shù)“可信度”,增強(qiáng)了人類(lèi)對(duì)其的“信任”。這種現(xiàn)象可被視為僅僅以完成目標(biāo)為目的而忽略完成目的之手段正當(dāng)性的“策略性”信任。

在當(dāng)下,減少以及避免模型的自我欺騙、操縱行為,確保系統(tǒng)的可信與可控等是價(jià)值對(duì)齊亟待解決的難題。特別是在強(qiáng)化學(xué)習(xí)系統(tǒng)中,面對(duì)智能體是“獎(jiǎng)勵(lì)的奴隸;但是它們是擁有強(qiáng)大算力和不斷試錯(cuò)的奴隸”( 布萊恩·克里斯汀,2023,第119 頁(yè)) 的情形,技術(shù)的倫理屬性成為了價(jià)值對(duì)齊不得不面對(duì)的一個(gè)重要問(wèn)題。如,以價(jià)值對(duì)齊中的獎(jiǎng)勵(lì)為例,由于獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)的重結(jié)果輕過(guò)程缺陷,出現(xiàn)了獎(jiǎng)勵(lì)破解 (Reward Hacking)(Jiaming Ji et al.,2023)、獎(jiǎng)勵(lì)繞圈 (Cycle- Proofing  Rewards)(布萊恩·克里斯汀,2023,第 119 頁(yè)) 等價(jià)值對(duì)齊失常現(xiàn)象。從表面上看,智能體確實(shí)完成了給定的目標(biāo)并獲得了獎(jiǎng)勵(lì),但其完成任務(wù)的方式卻存在道德?tīng)?zhēng)議,并違背了價(jià)值對(duì)齊的初衷。因此,基于知識(shí)和經(jīng)驗(yàn)為基礎(chǔ)的策略性信任雖然在價(jià)值對(duì)齊的過(guò)程中完成了階段性的目標(biāo) ,并以自身利益理性計(jì)算為核心建立起了工具意義上的信任,但這種信任因其存在的基礎(chǔ)是不確定性,因而是極其脆弱的。特別是這種信任對(duì)道德維度的忽略使得其蘊(yùn)藏了較高的風(fēng)險(xiǎn),因此,“對(duì)于解決多種集體行動(dòng)問(wèn)題,對(duì)于創(chuàng)造一種環(huán)境,使人們能夠在一起良好地運(yùn)用自己的理性來(lái)說(shuō),道德主義信任才是關(guān)鍵?!?nbsp;(埃里克·尤斯拉納,2006,第57 頁(yè))

然而,就信任的道德性而言,在羅素·哈丁 (Russell Hardin) 關(guān)于“信任作為道德”(Har‐ din R.,2002,p.74) 的談?wù)撝校J(rèn)為將信任本身視為一個(gè)道德問(wèn)題是錯(cuò)誤的,并且“如果我們普遍希望將信任概念道德化,那么,我們將不得不去掉那些基于信任來(lái)完成壞的目的的行為”,(Hardin R.,2002,p.75) 但這并非意味著對(duì)信任道德性的完全否定,恰恰說(shuō)明信任無(wú)論是從目的來(lái)看,還是從行為來(lái)看,都應(yīng)當(dāng)是善的。

(三) 價(jià)值對(duì)齊的異化與信任的單向度

海德格爾關(guān)于“現(xiàn)代技術(shù)之本質(zhì)是與現(xiàn)代形而上學(xué)之本質(zhì)相同一的”(孫周興,1996,第885頁(yè)) 的判斷,充分顯示出技術(shù)作為完成了的形而上學(xué)已經(jīng)進(jìn)入到了生命、語(yǔ)言、政治等的規(guī)定之中。技術(shù)力量帶來(lái)了沉思生活與積極生活等級(jí)秩序的倒轉(zhuǎn),沉思本身的意義被消解,世界異化已經(jīng)悄然而至?!肮I(yè)社會(huì)擁有種種把形而上學(xué)的東西改變?yōu)樾味碌臇|西、把內(nèi)在的東西改變?yōu)橥庠诘臇|西、把思維的冒險(xiǎn)改變?yōu)榧夹g(shù)的冒險(xiǎn)的手段”,(赫伯特?馬爾庫(kù)塞,2008,第185 頁(yè))那么,現(xiàn)代技術(shù)將一切工具化、齊一化、功能化、物化的特征在價(jià)值對(duì)齊的進(jìn)程中是否存在呢?

事實(shí)上,當(dāng)價(jià)值對(duì)齊意味著人類(lèi)的價(jià)值觀與技術(shù)的價(jià)值觀在聯(lián)盟的過(guò)程中走向融合并趨于一致時(shí),從最低的層級(jí)上來(lái)看,這暗含著人類(lèi)價(jià)值觀可被技術(shù)化和技術(shù)具有了呈現(xiàn)人類(lèi)價(jià)值觀的潛能;從更高的層級(jí)來(lái)看,這種潛能將因數(shù)據(jù)智能的自我生成、自我參照、自我修改等自主性的日趨增長(zhǎng)所形成的由技術(shù)對(duì)齊技術(shù)的技術(shù)閉環(huán),而導(dǎo)致人類(lèi)在技術(shù)回路中的被單一化與工具化,進(jìn)而出現(xiàn)人類(lèi)脫軌或曰被抽離的狀態(tài),并走向價(jià)值對(duì)齊的異化。這種異化并不是簡(jiǎn)單地指向?qū)r(jià)值對(duì)齊初衷的背離,而是人類(lèi)本身被異化乃至人作為整體性存在的消解。

暫不論人工智能末世論, 當(dāng)下關(guān)于“辯論機(jī)制的收斂性”(Jiaming Ji. et al.,2023) 最終導(dǎo)致趨于單一回答的擔(dān)憂就是在警示人類(lèi)價(jià)值觀被技術(shù)驅(qū)動(dòng)的單一化趨勢(shì)?!爱?dāng)共同世界只在一個(gè)立場(chǎng)上被觀看, 只被允許從一個(gè)角度上顯示自身時(shí), 它的終結(jié)就來(lái)臨了?!保h娜· 阿倫特, 2017,第39 頁(yè)) 基于此,當(dāng)價(jià)值對(duì)齊變成了被技術(shù)理性邏輯所統(tǒng)治時(shí),人類(lèi)理性的終結(jié)和價(jià)值觀的終結(jié)也將隨之而至。這種特征是否會(huì)將信任推向以技術(shù)為基礎(chǔ)的單向度模式呢? 若“技藝人的典型態(tài)度:他對(duì)世界的工具化,他對(duì)工具的信任,對(duì)人工制品制造者的生產(chǎn)力的信任” (漢娜·阿倫特,2017,第240 頁(yè)) 等成為現(xiàn)代社會(huì)的主導(dǎo)觀念,那么,技術(shù)或技術(shù)思維將成為信任形成與評(píng)判的重要元素,此時(shí)的信任也將逐漸走向由技術(shù)驅(qū)動(dòng)的單向度。

三、合作、信任與價(jià)值對(duì)齊

價(jià)值對(duì)齊需要基于多方合作而展開(kāi),從功能方面來(lái)看,信任并非合作的前提條件,但其可以更有效地“簡(jiǎn)化復(fù)雜性”。(Luhmann N.,2017,p.9) 然而,雖然“合作常常需要信任,特別是相互信任。如果是完全不信任,那么,在自由行動(dòng)者之間的合作則將失敗。進(jìn)一步說(shuō),如果信任僅僅是在單方面,那么,合作可能也是無(wú)效的;如果信任是盲目的,則將誘發(fā)欺騙”。( Gambetta D.,1988, p.219) 同樣地,基于信任的合作將提升價(jià)值對(duì)齊的速度,但加速的目的不應(yīng)是技術(shù)對(duì)人的操縱,若信任是單向的,則價(jià)值對(duì)齊是虛幻的;若信任是盲目的,則價(jià)值對(duì)齊是危險(xiǎn)的。因此,需要充分審視合作、信任與價(jià)值對(duì)齊的關(guān)系。

(一) 合作、信任與價(jià)值對(duì)齊的邊界

若信任僅僅基于暗合利益 (encapsulated interest),那么,道德并非是必選項(xiàng),甚至可被忽略。然而,僅以利益驅(qū)動(dòng)但以非道德的方式所形成的信任因其所帶來(lái)的負(fù)面影響而一直備受詬病。就人工智能的發(fā)展而言,無(wú)論是負(fù)責(zé)任的人工智能、可信的人工智能,還是人工智能向善等,都已經(jīng)將倫理道德作為一種規(guī)范性的要求納入技術(shù)之中。在關(guān)于人機(jī) (技) 融合的信任工程研究中,倫理道德被視為 “構(gòu)建人類(lèi)與人工智能之間建立適當(dāng)?shù)碾p向信任”(Ezer N. et al., 2019) 的一個(gè)重要的參數(shù)。那么,該如何看待在這種合作中所形成的信任呢?

蘇珊娜· 托爾梅杰 (Suzanne Tolmeijer)、亞伯拉罕· 伯恩斯坦 (Abraham Bernstein) 等發(fā)現(xiàn):在人工智能和人類(lèi)專家合作所進(jìn)行的倫理決策中,人類(lèi)雖然在道德上具有較高的可信度,但其能力卻不如人工智能。雖然人工智能的建議和決策比人類(lèi)專家的建議和決策更容易被接受,但人類(lèi)專家被賦予了更高的道德信任和責(zé)任。(Tolmeijer S. et al.,2022) 因此,在人工智能與人類(lèi)價(jià)值觀對(duì)齊的進(jìn)程中,雖然完成給定的目標(biāo)是走向價(jià)值對(duì)齊的必要環(huán)節(jié),但關(guān)于欺騙性、偽對(duì)齊等現(xiàn)象的出現(xiàn)恰恰指向了合作中的能力與道德問(wèn)題。毫無(wú)疑問(wèn),當(dāng)價(jià)值對(duì)齊以人與技術(shù)形成聯(lián)盟的方式來(lái)為人類(lèi)謀求美好生活時(shí),技術(shù)是助推人類(lèi)走向美好生活的強(qiáng)勁動(dòng)力,人類(lèi)對(duì)技術(shù)能力的信任和對(duì)自身能力的信任則是形成上述聯(lián)盟的理論基礎(chǔ),但基于這種信任的合作更需要人類(lèi)確立上述聯(lián)盟的邊界。在人類(lèi)與人工智能合作的過(guò)程中,出現(xiàn)了將人工智能視為合作伙伴而非僅僅是工具的趨勢(shì),并主張將人類(lèi)和人工智能視為一個(gè)團(tuán)隊(duì)(Human-AI Teams) 的理念。

就價(jià)值對(duì)齊而言,從人類(lèi)和人工智能作為一個(gè)團(tuán)隊(duì)的視角來(lái)看,當(dāng)人類(lèi)期望價(jià)值對(duì)齊時(shí),若是讓機(jī)器 (技術(shù)) 熟悉人類(lèi)的價(jià)值觀,則意味著價(jià)值觀本身是明確的;若是讓機(jī)器 (技術(shù)) 推斷人類(lèi)的價(jià)值觀,則意味著機(jī)器 (技術(shù)) 的預(yù)測(cè)需要人類(lèi)符合機(jī)器的意圖。那么,上述兩項(xiàng)的多次交互循環(huán)是否會(huì)出現(xiàn)人類(lèi)價(jià)值觀在技術(shù)化的進(jìn)程中涌現(xiàn)諸如數(shù)字化身之類(lèi)的技術(shù)化生命、比人類(lèi)自身更懂人類(lèi)的機(jī)器意志等現(xiàn)象呢?易言之,在人類(lèi)為技術(shù)賦予人類(lèi)價(jià)值觀的進(jìn)程中,是否會(huì)出現(xiàn)技術(shù)導(dǎo)引與規(guī)訓(xùn)人類(lèi)價(jià)值觀形成的情形呢?

類(lèi)似 “在我們這個(gè)時(shí)代,每一種事物好像都包含有自己的反面。我們看到,機(jī)器具有減少人類(lèi)勞動(dòng)和使勞動(dòng)更有成效的神奇力量,然而卻引起了饑餓和過(guò)度的疲勞”(《馬克思恩格斯全集》第12 卷,1962,第4 頁(yè)) 一樣,伴隨技術(shù)發(fā)展所帶來(lái)的神秘力量增強(qiáng),機(jī)器與人類(lèi)之間的微妙關(guān)系迫使人類(lèi)審視技術(shù)的本質(zhì)并尋求這種神奇性的破解,而人類(lèi)與技術(shù)的邊界厘清就是解開(kāi)這種微妙關(guān)系的關(guān)鍵點(diǎn)。因此,為了避免神奇力量的反面,以人機(jī) (技) 融合為出發(fā)點(diǎn)的價(jià)值對(duì)齊,既需要合乎道德的合作與信任,更需要有邊界的合作與信任。

(二) 信任與信任的反面:價(jià)值對(duì)齊的有效性

信任作為委托者與受托者之間的一種合作性關(guān)系,其“處在全知與無(wú)知之間;全知意味著確定性,它不再需要信任。無(wú)知?jiǎng)t無(wú)法建立信任。全知與無(wú)知之間的狀態(tài)是產(chǎn)生信任的條件,信任則啟動(dòng)了生存所需要的行動(dòng)和合作”。( 鄭也夫,2015,第225 頁(yè)) 因此,當(dāng)信息的不充分與模糊性成為了信任產(chǎn)生的源頭時(shí),對(duì)信任的解構(gòu)、關(guān)于反信任和不信任等信任反面的研究更值得關(guān)注,對(duì)信任反面的充分認(rèn)知恰恰是建立信任的必要條件。

就技術(shù)研發(fā)而言,弗雷斯特 (Forrester) 前首席分析師約翰·金德維格 (John Kindervag) 于 2010 年提出零信任 (Zero Trust),信任以驗(yàn)證為基礎(chǔ),不驗(yàn)證不信任。( Moscaritolo A.,2011)以不信任為前提所展開(kāi)的系統(tǒng)構(gòu)建是提升系統(tǒng)安全性的一條重要途徑。事實(shí)上,不信任是“信任的反面鏡像”,(彼得·什托姆普卡,2005,第34 頁(yè)) 懷疑 (mistrust) 是“一個(gè)暫時(shí)的信任建立或者信任喪失動(dòng)態(tài)的中間階段。懷疑既可能是信任破壞的前奏,也可能是不信任結(jié)束的預(yù)兆”。(彼得·什托姆普卡,2005,第34 頁(yè)) 在價(jià)值對(duì)齊的研發(fā)中,對(duì)智能體的信任以及智能體之間的信任并非是默認(rèn)的,恰恰是需要信任或者信任產(chǎn)生之處的治理來(lái)構(gòu)建信任。

為了確保人工智能安全,對(duì)通過(guò)欺騙而獲得獎(jiǎng)勵(lì)的行為監(jiān)測(cè)與治理就是對(duì)合作性信任破壞的修復(fù),紅隊(duì)測(cè)試則通過(guò)對(duì)危害的發(fā)現(xiàn)和識(shí)別來(lái)探尋并規(guī)避價(jià)值對(duì)齊的危險(xiǎn),進(jìn)而提升系統(tǒng)的可信度。近年來(lái)所展開(kāi)的“給AI 的100 瓶毒藥”就是以安全和負(fù)責(zé)任為基準(zhǔn),以投毒與解毒兩條路徑進(jìn)行大語(yǔ)言模型的價(jià)值觀調(diào)整,進(jìn)而提升大模型與人類(lèi)價(jià)值觀的對(duì)齊能力。(Guohai Xu et al., 2023) 類(lèi)似未經(jīng)破壞性測(cè)試的技術(shù)是不可靠的,未考慮信任反面測(cè)試的信任也是脆弱的。因此,價(jià)值對(duì)齊的有效性提升必須要將信任反面的消除予以充分考慮。

四、結(jié)語(yǔ)

關(guān)于價(jià)值對(duì)齊的探討,說(shuō)明人類(lèi)有價(jià)值對(duì)齊的訴求但目前尚未實(shí)現(xiàn),甚或人類(lèi)尚未明晰價(jià)值對(duì)齊的基準(zhǔn)與意義。之所以如此,主要原因有二:

一是源自人類(lèi)一直有技術(shù)為人類(lèi)服務(wù)且技術(shù)必須處在人類(lèi)可控之中的夢(mèng)想。這樣一種夢(mèng)想植根于人類(lèi)中心主義。然而,技術(shù)的日趨自主性與智能化對(duì)人類(lèi)中心主義所構(gòu)成的挑戰(zhàn)使得上述夢(mèng)想備受質(zhì)疑。如,當(dāng)下關(guān)于數(shù)字生命、智能機(jī)器意識(shí)、數(shù)字資本主義等的一系列追問(wèn)直接指向了人類(lèi)作為類(lèi)的本質(zhì)何在;近年來(lái)所出現(xiàn)的將技術(shù)道德化,與其說(shuō)是對(duì)人類(lèi)道德未來(lái)發(fā)展路徑的一種描繪,倒不如說(shuō)是對(duì)技術(shù)反噬人類(lèi)道德的一種沉思。因此,這一切促使人類(lèi)既需要重新反思人之為人這一經(jīng)典問(wèn)題,更需要對(duì)技術(shù)的發(fā)展進(jìn)行前瞻性的預(yù)判,確立價(jià)值對(duì)齊的基準(zhǔn),厘清價(jià)值對(duì)齊的邊界。

二是價(jià)值對(duì)齊的意義究竟是什么?很明顯,價(jià)值對(duì)齊的意義不應(yīng)是技術(shù)政治學(xué)所揭示的“引入技術(shù)手段所產(chǎn)生的一系列轉(zhuǎn)化最終導(dǎo)致了目的轉(zhuǎn)化” (蘭登·溫納,2014,第203 頁(yè)) 的反向適應(yīng)。當(dāng)價(jià)值對(duì)齊力圖尋求人類(lèi)價(jià)值觀與技術(shù)所體現(xiàn)的價(jià)值觀一致之時(shí),人的技術(shù)化與技術(shù)的人化將更加深入。僅僅作為工具意義上的技術(shù)已經(jīng)不再可能,人類(lèi)與人工智能聯(lián)盟所形成的團(tuán)隊(duì)合作推進(jìn)著人的本質(zhì)與技術(shù)的本質(zhì)在更為深層的意義上的交互,但這種交互不應(yīng)是在合作式對(duì)齊進(jìn)程中變成人類(lèi)對(duì)技術(shù)的反向適應(yīng),走向技術(shù)系統(tǒng)對(duì)人類(lèi)的操縱。

可以肯定的是,價(jià)值對(duì)齊的意義應(yīng)是技術(shù)為人類(lèi)帶來(lái)福祉。因此,價(jià)值對(duì)齊雖然是在多方的合作中展開(kāi)將人類(lèi)價(jià)值觀的技術(shù)化,但其并非僅僅是將技術(shù)道德化,也不僅僅是目標(biāo)的技術(shù)化轉(zhuǎn)換,更不能以非道德的方式進(jìn)行“對(duì)齊”,并且應(yīng)在技術(shù)可信可控的情境中展開(kāi),因?yàn)槊撾x此情境的交互必將會(huì)給人類(lèi)帶來(lái)毀滅性的災(zāi)難?;诖?,必須以基于道德的信任校準(zhǔn)價(jià)值對(duì)齊,將人類(lèi)作為信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn),才能規(guī)避價(jià)值對(duì)齊的陷阱,確保人工智能的安全。

【本文首發(fā)于《浙江社會(huì)科學(xué)》2024年第6期】

熱門(mén)文章排行

掃描二維碼
Copyright ? 讀書(shū)網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)