基于信任視角的價(jià)值對(duì)齊探究

閆宏秀（上海交通大學(xué)科學(xué)史與科學(xué)文化研究院、數(shù)字化未來(lái)與價(jià)值研究中心教授） 2025-01-14 來(lái)源：澎湃新聞

從價(jià)值對(duì)齊的信任意涵與信任樣態(tài)來(lái)看，技術(shù)發(fā)展對(duì)人類提出了更高的要求。

從價(jià)值對(duì)齊的信任意涵與信任樣態(tài)來(lái)看，技術(shù)發(fā)展對(duì)人類提出了更高的要求。其要求作為類存在的人在價(jià)值對(duì)齊的進(jìn)程中，必須厘清合作、信任與價(jià)值對(duì)齊這三者之間的邏輯關(guān)系與道德意涵，深刻反思人作為價(jià)值性存在的根基何在，充分審視技術(shù)信任的頂層邏輯及權(quán)重，高度重視信任的反面，警惕價(jià)值對(duì)齊的非道德現(xiàn)象與異化，積極守護(hù)技術(shù)語(yǔ)境中的人際信任，避免信任的單向度。因此，應(yīng)以基于道德的信任校準(zhǔn)價(jià)值對(duì)齊，將人類作為人機(jī) （技）信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn)，才能規(guī)避價(jià)值對(duì)齊的陷阱，走向有效的價(jià)值對(duì)齊，進(jìn)而確保人工智能安全。

人類的生物性缺陷與技術(shù)日趨擬人化、智能化使得人機(jī) （技）融合成為了人類未來(lái)的一種新樣態(tài)。就人機(jī)（技）融合而言，技術(shù)所體現(xiàn)的價(jià)值觀與人類價(jià)值觀相一致即價(jià)值對(duì)齊，是其所必須面對(duì)的一個(gè)重要問(wèn)題。當(dāng)下關(guān)于價(jià)值對(duì)齊的內(nèi)涵、標(biāo)準(zhǔn)、基準(zhǔn)、效應(yīng)等問(wèn)題的爭(zhēng)議在凸顯人機(jī)（技）融合進(jìn)程中的人類邏輯與技術(shù)邏輯之間，智能系統(tǒng)內(nèi)部各個(gè)智能體之間融合的必要性、重要性與不確定性的同時(shí)，更是指向了價(jià)值對(duì)齊基準(zhǔn)的模糊性與多元化。反觀上述問(wèn)題，主要表現(xiàn)為兩個(gè)方面：一方面為若二者之間出現(xiàn)偏差甚或背離，將違背技術(shù)向善的宗旨，并誘發(fā)巨大的風(fēng)險(xiǎn)；另一方面為未經(jīng)審視的價(jià)值對(duì)齊，特別是僅僅為了對(duì)齊的價(jià)值對(duì)齊甚或盲目的價(jià)值對(duì)齊不僅會(huì)帶來(lái)價(jià)值對(duì)齊的陷阱與異化，更會(huì)導(dǎo)致人類的異化乃至人類文明的脆斷。若人機(jī)（技）融合是人類未來(lái)的一個(gè)必選項(xiàng)，那么，價(jià)值對(duì)齊則可能是導(dǎo)引人機(jī)（技）融合走向的指南針。

目前，以非道德的方式所進(jìn)行的欺騙性對(duì)齊、偽對(duì)齊等現(xiàn)象已經(jīng)出現(xiàn)，這使得價(jià)值對(duì)齊本身面臨更多質(zhì)疑。特別是因數(shù)智技術(shù)的生成性、涌現(xiàn)性、交互性、適應(yīng)性、擬主體性等特性所帶來(lái)的價(jià)值對(duì)齊過(guò)程中的越獄、幻覺等問(wèn)題，使得信任被視為了“安全的致命弱點(diǎn)”。（埃文·吉爾曼、道格·巴斯，2019，譯者序第1 頁(yè)）因此，基于信任視角解析價(jià)值對(duì)齊，既是對(duì)價(jià)值對(duì)齊邏輯的厘清，更是對(duì)人類未來(lái)這個(gè)宏大問(wèn)題的哲學(xué)審視。

一、價(jià)值對(duì)齊的信任意涵

從廣義來(lái)看，價(jià)值對(duì)齊源自人類期冀自身價(jià)值觀被技術(shù)理解并被實(shí)現(xiàn)，進(jìn)而契合技術(shù)為人類帶來(lái)福祉的訴求，是通向技術(shù)社會(huì)化與社會(huì)技術(shù)化雙向奔赴的一種嘗試。但與此同時(shí)，價(jià)值對(duì)齊所蘊(yùn)含的巨大風(fēng)險(xiǎn)也備受關(guān)注，而信任則是應(yīng)對(duì)風(fēng)險(xiǎn)的一種有效方式。從狹義來(lái)看，價(jià)值對(duì)齊包含技術(shù)和非技術(shù)兩個(gè)維度，涉及人與人之間、人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部的各個(gè)智能體之間三個(gè)層級(jí)的對(duì)齊。其中，前者聚焦技術(shù)自身的可信度，后者聚焦對(duì)價(jià)值對(duì)齊的必要性、可能性、可行性及其局限性等的哲學(xué)社會(huì)科學(xué)研究。恰如布萊恩·克里斯?。˙rian Christian）在關(guān)于對(duì)齊問(wèn)題的研究中所言：“機(jī)器學(xué)習(xí)表面是技術(shù)問(wèn)題，但越來(lái)越多地涉及人類問(wèn)題?！保ú既R恩·克里斯汀， 2023，導(dǎo)言第11 頁(yè)）因此，價(jià)值對(duì)齊最終的指向是人類，更精確地說(shuō)是人類對(duì)自身能力的信任。

（一）價(jià)值對(duì)齊的兩個(gè)維度及其信任意涵

當(dāng)人類期望技術(shù)能夠以自己意欲的方式行事時(shí)，人類價(jià)值觀的技術(shù)化成為了技術(shù)發(fā)展的一種必然態(tài)勢(shì)。特別是伴隨通用人工智能的發(fā)展，人類智能、人工智能與超級(jí)智能的多重交匯，人類價(jià)值觀逐漸以編碼的形式被技術(shù)化。近年來(lái)，信任被視為人機(jī)融合、人工智能技術(shù)研發(fā)的一個(gè)重要議題，諸如“可信任人工智能（Trustworthy AI） ”“受信任的智能（Trusted Intelligence） ”“信任設(shè)計(jì)（Trust by design）”等均在以將信任技術(shù)化的方式進(jìn)行呈現(xiàn)。

在人工智能與人類價(jià)值對(duì)齊的進(jìn)程中，其核心要義是對(duì)人類價(jià)值觀的正確理解與導(dǎo)引，人工智能系統(tǒng)能夠以合乎倫理的方式穩(wěn)健地將其有效執(zhí)行，并確保技術(shù)的可信、安全與可控。因此，價(jià)值對(duì)齊一方面是人類價(jià)值觀融入人工智能系統(tǒng)之中；另一方面是人工智能系統(tǒng)還應(yīng)自主推導(dǎo)出與人類價(jià)值觀相符合的行動(dòng)，即超級(jí)對(duì)齊。但無(wú)論上述哪個(gè)方面，都面臨著人工智能“系統(tǒng)如何在不夸大其能力范圍的情況下呈現(xiàn)有限的規(guī)范能力？具有規(guī)則識(shí)別能力的系統(tǒng)如何防止交互主體對(duì)規(guī)則性的操縱變成對(duì)其的信任”（Arnold T. & Scheutz M.，2023）等等人類該如何信任技術(shù)的諸多問(wèn)題。

就目前的技術(shù)研發(fā)來(lái)看，通過(guò)對(duì)人的意識(shí)、人類社會(huì)運(yùn)作模式等的模擬、推斷來(lái)提升技術(shù)可信度的方式是實(shí)現(xiàn)價(jià)值對(duì)齊的重要途徑。諸如，基于人類反饋的強(qiáng)化學(xué)習(xí) （Reinforcenment Learning from Human Feedback，RLHF），即通過(guò)模擬人類社會(huì)的社交活動(dòng)與模仿人類獲得價(jià)值反饋的方式，來(lái)提升大語(yǔ)言模型與現(xiàn)有社會(huì)價(jià)值觀對(duì)齊精準(zhǔn)性；（Ruibo L. et al.，2023）通過(guò)基于心智理論和反事實(shí)解釋的融合來(lái)提升人類對(duì)圖像識(shí)別系統(tǒng)模型信任的 CX-ToM （Counterfactual explanations with theory-of-mind）（Arjun R. Akula，2022）等方法偏重模擬；基于“與其煞費(fèi)苦心地嘗試手工編碼我們關(guān)心的東西，不如開發(fā)直接觀察人類行為并從中推斷我們的價(jià)值觀和意圖的機(jī)器” （布萊恩· 克里斯汀， 2023，第 187 頁(yè)）所展開的逆強(qiáng)化學(xué)習(xí) （Inverse Reinforcement Learning，IRL），以及在此基礎(chǔ)上迪倫·哈德菲爾德－梅內(nèi)埃爾（Dylan Hadfield-Menell）等所提出的合作逆強(qiáng)化學(xué)習(xí) （Cooperative Inverse Reinforcement Learning， CIRL）（Hadfield-Menell D.，2016）等方法則偏重推斷。然而，無(wú)論是上述哪種價(jià)值對(duì)齊的技術(shù)方法，都是在以基于人的視角而探尋技術(shù)與人之間的有效融通點(diǎn)，并以彼此可信的方式達(dá)到人機(jī)融合的最佳狀態(tài)。

在某種意義上，人類發(fā)展史就是一部技術(shù)演化史?；仡櫲祟悮v史，技術(shù)所產(chǎn)生的巨大影響使其成為了劃分時(shí)代的一種標(biāo)尺。如舊石器時(shí)代、新石器時(shí)代、青銅器時(shí)代、蒸汽機(jī)時(shí)代、信息時(shí)代、智能時(shí)代等，由技術(shù)變革驅(qū)動(dòng)所形成的文明形態(tài)已經(jīng)成為人類文明界定的一個(gè)依據(jù)。如農(nóng)業(yè)文明、工業(yè)文明、信息文明、數(shù)字文明等。從技術(shù)哲學(xué)的視角來(lái)看，伴隨技術(shù)對(duì)人類的深度影響，基于技術(shù)僅僅作為工具的理論框架所展開的關(guān)于技術(shù)的反思已經(jīng)遭遇到了理論與現(xiàn)實(shí)的雙重質(zhì)疑。與此同時(shí)，技術(shù)價(jià)值論則逐漸被認(rèn)可，對(duì)技術(shù)本質(zhì)的解析也逐漸走向了存在論、認(rèn)識(shí)論與價(jià)值論三向融合的視角。易言之，價(jià)值對(duì)齊的技術(shù)維度即技術(shù)自身的可信度，并非僅僅在于其作為工具的魯棒性，且若僅僅局限于此，必將陷入技術(shù)工具論的誤區(qū)，出現(xiàn)人被技術(shù)邏輯支配或者人被技術(shù)規(guī)制的價(jià)值對(duì)齊，進(jìn)而背離了價(jià)值對(duì)齊的初衷。恰如蘭登·溫納（Langdon Winner）在自主性技術(shù)與政治的關(guān)聯(lián)研究中所揭示的：“我們?cè)诙啻蟪潭壬蠎?yīng)用‘工具—使用’與‘目的—手段’的觀念，我們的經(jīng)歷就將在多大程度上與我們的預(yù)想不一致?！保ㄌm登·溫納，2014，第 214 頁(yè)）因此，價(jià)值對(duì)齊中的技術(shù)可信度雖然是信任在技術(shù)層面的一種呈現(xiàn)，但這種呈現(xiàn)恰恰源自非技術(shù)的維度，即人類對(duì)信任的認(rèn)知。

（二）價(jià)值對(duì)齊的三個(gè)層級(jí)及其信任意涵

依據(jù)以人為出發(fā)點(diǎn)的原則，價(jià)值對(duì)齊的三個(gè)層級(jí)依次為人自身、人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部之間。在價(jià)值對(duì)齊的進(jìn)程中，技術(shù)對(duì)人類意圖的有效理解與推斷是其獲得人類信任的必要條件，而技術(shù)的可信度則是構(gòu)建人類對(duì)其信任的重要判據(jù)。埃文·胡賓格（Evan Hubinger）將內(nèi)部對(duì)齊（ Inner alignment）、外部對(duì)齊（Outer alignment）、欺騙性對(duì)齊（Deceptive alignment）等視為構(gòu)建人類對(duì)機(jī)器學(xué)習(xí)系統(tǒng)的安全性充滿信心的有效方式。（ Hubinger E.，2021）從技術(shù)的視角來(lái)看，上述幾種對(duì)齊方式，可以簡(jiǎn)化為內(nèi)部對(duì)齊和外部對(duì)齊。其中，外部對(duì)齊指向設(shè)計(jì)者的意愿與用于構(gòu)建人工智能系統(tǒng)的實(shí)際任務(wù)規(guī)范（例如目標(biāo)和獎(jiǎng)勵(lì)）之間的一致性，內(nèi)部對(duì)齊則指向任務(wù)規(guī)范和人工智能系統(tǒng)行為所反映的規(guī)范之間的一致性。（Jiaming Ji et al.，2023）簡(jiǎn)言之，內(nèi)部對(duì)齊重在實(shí)現(xiàn)所給定的目標(biāo)函數(shù)，外部對(duì)齊則重在完成人類價(jià)值觀或者預(yù)期目標(biāo)的制定與轉(zhuǎn)化。

從表面上看，與這種分類直接相關(guān)的是兩個(gè)層級(jí)的價(jià)值對(duì)齊，即人與技術(shù)之間、技術(shù)系統(tǒng)內(nèi)部之間。然而，更需要注意的是，就內(nèi)部對(duì)齊和外部對(duì)齊而言，還存在一個(gè)更基礎(chǔ)性的問(wèn)題，即該如何確定目標(biāo)函數(shù)。因此，人自身的價(jià)值對(duì)齊是極為重要且更為根本的一個(gè)層級(jí)。就人自身的價(jià)值對(duì)齊而言，價(jià)值觀的多樣性、偏主觀性、情境性、時(shí)代性等使得價(jià)值對(duì)齊的基準(zhǔn)線面臨強(qiáng)勁的質(zhì)疑。若所需對(duì)齊的價(jià)值觀極其不確定，那么，對(duì)齊本身的前置條件就存在爭(zhēng)議。面臨這樣的情形，價(jià)值對(duì)齊該如何展開呢？

事實(shí)上， “正當(dāng)行為規(guī)則衍生的正確且合適的基礎(chǔ)”（Luhmann N.，2017，p.5）在于信任。信任是應(yīng)對(duì)復(fù)雜性、風(fēng)險(xiǎn)性或曰不確定性的一種策略，信任的缺席將帶來(lái)人類社會(huì)的失序。從技術(shù)發(fā)展的視角來(lái)看，技術(shù)在某種意義上就是一個(gè)不斷消除風(fēng)險(xiǎn)并力求確定性的過(guò)程；從人類社會(huì)得以存續(xù)與發(fā)展的視角來(lái)看，信任之所以變成了一種必需品并非是“因?yàn)橐磺卸际峭耆深A(yù)測(cè)的，或者完全可保證的，恰恰相反，即使在沒有保證的情況下，人生也不得不繼續(xù)前進(jìn)”。（昂諾娜·奧妮爾，2017，第27 頁(yè)）因此，基于技術(shù)在人類社會(huì)中的生存論意蘊(yùn)，對(duì)人自身的價(jià)值對(duì)齊問(wèn)題破解雖然需要信任的出場(chǎng)，但這種出場(chǎng)并不意味著信任是萬(wàn)能的，更不能走向人對(duì)自身能力的盲目自信，而是對(duì)信任提出了更高的要求。這要求作為類存在的人在價(jià)值對(duì)齊的進(jìn)程中，必須深刻反思人作為價(jià)值性存在的根基何在，充分審視技術(shù)信任的頂層邏輯及權(quán)重，并積極守護(hù)技術(shù)語(yǔ)境中的人與人之間的信任。

（三）價(jià)值對(duì)齊的兩個(gè)維度與三個(gè)層級(jí)的邏輯關(guān)系及信任表征

就價(jià)值對(duì)齊而言，從技術(shù)實(shí)現(xiàn)的路徑來(lái)看，如表1 所示，技術(shù)系統(tǒng)內(nèi)部的對(duì)齊可被歸為內(nèi)部對(duì)齊，技術(shù)自身的魯棒性是其獲取人類信任的關(guān)鍵因素；人與技術(shù)之間的對(duì)齊、人與人之間的對(duì)齊可被歸為外部對(duì)齊。在人與技術(shù)之間的對(duì)齊中，人類對(duì)技術(shù)的信任包含技術(shù)的魯棒性，但卻不囿于此。事實(shí)上，從更本源的意義上來(lái)看，價(jià)值對(duì)齊的技術(shù)與非技術(shù)維度最終都必將指向人自身；與此同時(shí)，雖然人與人之間的價(jià)值對(duì)齊可被歸為外部對(duì)齊，且會(huì)出現(xiàn)與技術(shù)的魯棒性無(wú)關(guān)的人際信任現(xiàn)象，但是基于技術(shù)價(jià)值論的視角，其應(yīng)是技術(shù)維度的基礎(chǔ)，具有更深層的意義，并應(yīng)被視為價(jià)值對(duì)齊的邏輯基礎(chǔ)。

表1 價(jià)值對(duì)齊的維度、層級(jí)、目標(biāo)與信任表征

控制論創(chuàng)始人諾伯特·維納（Norbert Wiener）在對(duì)第一次工業(yè)革命和第二次工業(yè)革命所帶來(lái)的社會(huì)影響進(jìn)行的探討中，將人類的目標(biāo)確立為“要建立一個(gè)以人類價(jià)值觀而不是以買賣為基礎(chǔ)的社會(huì)”（諾伯特·維納，2022，第50 頁(yè)），此刻人類價(jià)值觀被視為既是導(dǎo)引技術(shù)發(fā)展的標(biāo)尺，又是構(gòu)成社會(huì)形態(tài)的核心。然而，隨后，維納面對(duì)新技術(shù)的發(fā)展便發(fā)出了“我在1947 年寫下這些話時(shí)，我不得不說(shuō)，這是一個(gè)非常渺茫的希望”（諾伯特·維納，2022，第51 頁(yè)）的感嘆。科學(xué)技術(shù)專家關(guān)于新技術(shù)的擔(dān)憂因新技術(shù)力量之大與人類道德之惡的匯聚所表露出的這種無(wú)措令人不寒而栗，也正是這種無(wú)措恰恰提醒了人類應(yīng)高度關(guān)注技術(shù)的風(fēng)險(xiǎn)。

同樣在20 世紀(jì)中葉，漢娜·阿倫特（Hannah Arendt）面對(duì)行動(dòng)所呈現(xiàn)出的不可逆性和不可預(yù)見性時(shí)，明確指出“對(duì)于不可預(yù)見性，對(duì)于未來(lái)不確定性的拯救，則包含在作出承諾和信守承諾的能力中”。（漢娜·阿倫特，2017，第184 頁(yè)）因此，在人類的價(jià)值觀與預(yù)期目標(biāo)被技術(shù)化的進(jìn)程中，伴隨技術(shù)的日益智能化與日趨自主性的趨勢(shì)，關(guān)于信任的研究也更為迫切，并呈現(xiàn)出了多學(xué)科融合的趨勢(shì)。如IBM 所提出的“構(gòu)筑對(duì)AI 的信任”、技術(shù)專家關(guān)于GPT 模型可信度評(píng)測(cè)等就匯集了技術(shù)、倫理學(xué)與社會(huì)學(xué)等的相關(guān)知識(shí)。

二、價(jià)值對(duì)齊的信任樣態(tài)

從當(dāng)下的技術(shù)發(fā)展來(lái)看，無(wú)論是無(wú)監(jiān)督學(xué)習(xí)、監(jiān)督學(xué)習(xí)，還是強(qiáng)化學(xué)習(xí)、逆強(qiáng)化學(xué)習(xí)與合作逆強(qiáng)化學(xué)習(xí)等，都是在多個(gè)智能體之間的循環(huán)交互中尋求目標(biāo)的最優(yōu)化，進(jìn)而走向有效的價(jià)值對(duì)齊。也正是在智能體交互的過(guò)程中，由委托與授權(quán)而產(chǎn)生的信任問(wèn)題也隨之而至。在價(jià)值對(duì)齊的過(guò)程中，從目標(biāo)完成的意義來(lái)看，基于為了完成某件事情或者某個(gè)任務(wù)而建立的信任主要表現(xiàn)為策略性信任、合作性信任、功能性信任、期望性信任、必要性信任以及強(qiáng)迫性信任等。其中，策略性信任（Strategic Trust）反映的是我們對(duì)人們將怎樣行動(dòng)所持的期望，合作性信任、功能性信任則從偏實(shí)操的維度呈現(xiàn)人與人、人與技術(shù)之間的融合模式，期望性信任與必要性信任則更凸顯了委托者與受托者之間的意愿，作為如果不信任就無(wú)法實(shí)現(xiàn)自己目標(biāo)的強(qiáng)迫性信任則暗含了人類在技術(shù)面前的某種無(wú)力感。然而，更需要值得深思的是，若價(jià)值對(duì)齊是人機(jī) （技）融合的一條必經(jīng)之路，那么，對(duì)上述信任樣態(tài)的解碼則是實(shí)現(xiàn)有效價(jià)值對(duì)齊所必須面對(duì)的問(wèn)題。

（一）人機(jī) （技）融合的信任鏈與價(jià)值對(duì)齊的信任基準(zhǔn)

依據(jù)“不能建立信任，特別是最終用戶的信任，惠及所有利益相關(guān)方的個(gè)人數(shù)據(jù)生態(tài)系統(tǒng)就將永遠(yuǎn)不會(huì)存在”（托馬斯·哈喬諾等，2018，第139 頁(yè)）的邏輯，就現(xiàn)有的研究來(lái)看，基于貝葉斯網(wǎng)絡(luò)的信任模型、人機(jī)協(xié)同雙向價(jià)值對(duì)齊的計(jì)算框架（Luyao Yuan et al.，2022）等從技術(shù)視角的研究呈現(xiàn)了信任的技術(shù)化路徑，關(guān)于技術(shù)的透明性、可解釋性的多學(xué)科解析等則在以打開技術(shù)“黑箱”的方式力圖消解用戶對(duì)技術(shù)的陌生感、模糊性等，進(jìn)而構(gòu)筑人機(jī) （技）之間的信任鏈。

價(jià)值對(duì)齊作為人機(jī) （技）融合的一條技術(shù)路線，其可能形式有以人類為主機(jī)器為輔、機(jī)器為主人類為輔，以及以兩方較為對(duì)等形式進(jìn)行的雙向合作。然而，無(wú)論以哪種形式，需要明晰的是，雖然價(jià)值對(duì)齊是通過(guò)技術(shù)所展開的人類訴求實(shí)現(xiàn)過(guò)程，但人類社會(huì)的特質(zhì)恰恰在于人具有價(jià)值屬性，而并非僅僅是人擁有技術(shù)。就人機(jī) （技）融合的信任鏈而言，其“產(chǎn)生的前提是人要自信（這種自信心也是匹配訓(xùn)練出來(lái)的），才能產(chǎn)生他信和信他機(jī)制”。（劉偉，2019，第213 頁(yè)）因此，雖然技術(shù)構(gòu)成了人類生存的條件，但并不意味著人被技術(shù)框定，并且還要“避免誤解：人的條件不等于人的本性，與人的條件相應(yīng)的所有人類活動(dòng)和能力的總和，都不構(gòu)成任何類似于人的本性的東西”。（漢娜·阿倫特，2017，第3 頁(yè)）

技術(shù)的活動(dòng)并不能也不應(yīng)成為人類本性的東西。當(dāng)維納以“不論我們把我們的決策委托給金屬組成的機(jī)器抑是血肉組成的機(jī)器（機(jī)關(guān)、大型實(shí)驗(yàn)室、軍隊(duì)和股份公司），除非我們問(wèn)題提得正確，我們絕不會(huì)得到正確的答案”（諾伯特·維納，2017，第166 頁(yè)）來(lái)描述人類未來(lái)時(shí)，事實(shí)上就已經(jīng)以警示的口吻給出了人在技術(shù)化進(jìn)程中應(yīng)當(dāng)為何的答案。同樣地，面對(duì)價(jià)值對(duì)齊，關(guān)于技術(shù)霸權(quán)的憂懼與人類自我意欲實(shí)現(xiàn)的期冀二者之間的糾結(jié)將更為復(fù)雜。從技術(shù)路線來(lái)看，“可預(yù)測(cè)性和意圖清晰性幾乎是相對(duì)的：行為可預(yù)測(cè)是假定旁觀者知道你的目標(biāo)是什么；行為意圖清晰則是假定他們不知道?！保?nbsp;布萊恩·克里斯汀，2023，第201 頁(yè)）那么，人類該如何面對(duì)在價(jià)值對(duì)齊的進(jìn)程中，所生成或涌現(xiàn)出的那種被技術(shù)推測(cè)或者被技術(shù)創(chuàng)造的自我呢？克里斯多夫?庫(kù)克里克（Christoph Kucklick）關(guān)于數(shù)字化時(shí)代的微粒人解析極具啟發(fā)性，“現(xiàn)代人的驕傲是能夠成為某個(gè)人并且能夠堅(jiān)持做這個(gè)人。微粒人的驕傲在于一直成為另外一個(gè)人，同時(shí)不會(huì)失去自我。這是一個(gè)極其苛刻的態(tài)度”，（克里斯多夫·庫(kù)克里克，2018，第196 頁(yè)）然而，這種極其苛刻的態(tài)度恰恰是人類所必須堅(jiān)守的。若無(wú)此堅(jiān)守，人類的生命將變成一場(chǎng)技術(shù)化的游戲。因此，雖然合作性信任與必要性信任可能是人機(jī) （技）融合的潤(rùn)滑劑，但人機(jī) （技）融合的信任鏈構(gòu)建不是旨在將人類交付于技術(shù)，更不能走向用技術(shù)對(duì)齊技術(shù)的技術(shù)驅(qū)動(dòng)性信任閉環(huán)，而是將人類作為信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn)?；诖?，價(jià)值對(duì)齊不應(yīng)是將人類推向由技術(shù)構(gòu)造的強(qiáng)迫性信任，而是應(yīng)以人之為人作為其信任的基準(zhǔn)。

（二）價(jià)值對(duì)齊的非道德現(xiàn)象與信任的道德性

為了完成人類規(guī)定的目標(biāo)，技術(shù)以操作、欺騙等方式完成價(jià)值對(duì)齊的非道德現(xiàn)象已經(jīng)出現(xiàn)。如，OpenAI 明確指出：“在某些領(lǐng)域，我們的系統(tǒng)可能會(huì)導(dǎo)致智能體采用欺騙評(píng)估者的策略。例如，一個(gè)本應(yīng)抓取物品的機(jī)器人將其操縱器放置在相機(jī)和物體之間，使其看起來(lái)只是在抓取它。”（Amodei D. et al.，2017）顯而易見的是，這種現(xiàn)象一方面是人被機(jī)器的功能所欺騙，另一方面機(jī)器卻又恰恰從完成目標(biāo)的意義上提升了其技術(shù)“可信度”，增強(qiáng)了人類對(duì)其的“信任”。這種現(xiàn)象可被視為僅僅以完成目標(biāo)為目的而忽略完成目的之手段正當(dāng)性的“策略性”信任。

在當(dāng)下，減少以及避免模型的自我欺騙、操縱行為，確保系統(tǒng)的可信與可控等是價(jià)值對(duì)齊亟待解決的難題。特別是在強(qiáng)化學(xué)習(xí)系統(tǒng)中，面對(duì)智能體是“獎(jiǎng)勵(lì)的奴隸；但是它們是擁有強(qiáng)大算力和不斷試錯(cuò)的奴隸”（布萊恩·克里斯汀，2023，第119 頁(yè)）的情形，技術(shù)的倫理屬性成為了價(jià)值對(duì)齊不得不面對(duì)的一個(gè)重要問(wèn)題。如，以價(jià)值對(duì)齊中的獎(jiǎng)勵(lì)為例，由于獎(jiǎng)勵(lì)系統(tǒng)設(shè)計(jì)的重結(jié)果輕過(guò)程缺陷，出現(xiàn)了獎(jiǎng)勵(lì)破解（Reward Hacking）（Jiaming Ji et al.，2023）、獎(jiǎng)勵(lì)繞圈（Cycle- Proofing Rewards）（布萊恩·克里斯汀，2023，第 119 頁(yè)）等價(jià)值對(duì)齊失常現(xiàn)象。從表面上看，智能體確實(shí)完成了給定的目標(biāo)并獲得了獎(jiǎng)勵(lì)，但其完成任務(wù)的方式卻存在道德爭(zhēng)議，并違背了價(jià)值對(duì)齊的初衷。因此，基于知識(shí)和經(jīng)驗(yàn)為基礎(chǔ)的策略性信任雖然在價(jià)值對(duì)齊的過(guò)程中完成了階段性的目標(biāo) ，并以自身利益理性計(jì)算為核心建立起了工具意義上的信任，但這種信任因其存在的基礎(chǔ)是不確定性，因而是極其脆弱的。特別是這種信任對(duì)道德維度的忽略使得其蘊(yùn)藏了較高的風(fēng)險(xiǎn)，因此，“對(duì)于解決多種集體行動(dòng)問(wèn)題，對(duì)于創(chuàng)造一種環(huán)境，使人們能夠在一起良好地運(yùn)用自己的理性來(lái)說(shuō)，道德主義信任才是關(guān)鍵?！?nbsp;（埃里克·尤斯拉納，2006，第57 頁(yè)）

然而，就信任的道德性而言，在羅素·哈丁（Russell Hardin）關(guān)于“信任作為道德”（Har‐ din R.，2002，p.74）的談?wù)撝校J(rèn)為將信任本身視為一個(gè)道德問(wèn)題是錯(cuò)誤的，并且“如果我們普遍希望將信任概念道德化，那么，我們將不得不去掉那些基于信任來(lái)完成壞的目的的行為”，（Hardin R.，2002，p.75）但這并非意味著對(duì)信任道德性的完全否定，恰恰說(shuō)明信任無(wú)論是從目的來(lái)看，還是從行為來(lái)看，都應(yīng)當(dāng)是善的。

（三）價(jià)值對(duì)齊的異化與信任的單向度

海德格爾關(guān)于“現(xiàn)代技術(shù)之本質(zhì)是與現(xiàn)代形而上學(xué)之本質(zhì)相同一的”（孫周興，1996，第885頁(yè)）的判斷，充分顯示出技術(shù)作為完成了的形而上學(xué)已經(jīng)進(jìn)入到了生命、語(yǔ)言、政治等的規(guī)定之中。技術(shù)力量帶來(lái)了沉思生活與積極生活等級(jí)秩序的倒轉(zhuǎn)，沉思本身的意義被消解，世界異化已經(jīng)悄然而至?！肮I(yè)社會(huì)擁有種種把形而上學(xué)的東西改變?yōu)樾味碌臇|西、把內(nèi)在的東西改變?yōu)橥庠诘臇|西、把思維的冒險(xiǎn)改變?yōu)榧夹g(shù)的冒險(xiǎn)的手段”，（赫伯特?馬爾庫(kù)塞，2008，第185 頁(yè)）那么，現(xiàn)代技術(shù)將一切工具化、齊一化、功能化、物化的特征在價(jià)值對(duì)齊的進(jìn)程中是否存在呢？

事實(shí)上，當(dāng)價(jià)值對(duì)齊意味著人類的價(jià)值觀與技術(shù)的價(jià)值觀在聯(lián)盟的過(guò)程中走向融合并趨于一致時(shí)，從最低的層級(jí)上來(lái)看，這暗含著人類價(jià)值觀可被技術(shù)化和技術(shù)具有了呈現(xiàn)人類價(jià)值觀的潛能；從更高的層級(jí)來(lái)看，這種潛能將因數(shù)據(jù)智能的自我生成、自我參照、自我修改等自主性的日趨增長(zhǎng)所形成的由技術(shù)對(duì)齊技術(shù)的技術(shù)閉環(huán)，而導(dǎo)致人類在技術(shù)回路中的被單一化與工具化，進(jìn)而出現(xiàn)人類脫軌或曰被抽離的狀態(tài)，并走向價(jià)值對(duì)齊的異化。這種異化并不是簡(jiǎn)單地指向?qū)r(jià)值對(duì)齊初衷的背離，而是人類本身被異化乃至人作為整體性存在的消解。

暫不論人工智能末世論，當(dāng)下關(guān)于“辯論機(jī)制的收斂性”（Jiaming Ji. et al.，2023）最終導(dǎo)致趨于單一回答的擔(dān)憂就是在警示人類價(jià)值觀被技術(shù)驅(qū)動(dòng)的單一化趨勢(shì)?！爱?dāng)共同世界只在一個(gè)立場(chǎng)上被觀看，只被允許從一個(gè)角度上顯示自身時(shí)，它的終結(jié)就來(lái)臨了?！保h娜· 阿倫特， 2017，第39 頁(yè)）基于此，當(dāng)價(jià)值對(duì)齊變成了被技術(shù)理性邏輯所統(tǒng)治時(shí)，人類理性的終結(jié)和價(jià)值觀的終結(jié)也將隨之而至。這種特征是否會(huì)將信任推向以技術(shù)為基礎(chǔ)的單向度模式呢？若“技藝人的典型態(tài)度：他對(duì)世界的工具化，他對(duì)工具的信任，對(duì)人工制品制造者的生產(chǎn)力的信任” （漢娜·阿倫特，2017，第240 頁(yè)）等成為現(xiàn)代社會(huì)的主導(dǎo)觀念，那么，技術(shù)或技術(shù)思維將成為信任形成與評(píng)判的重要元素，此時(shí)的信任也將逐漸走向由技術(shù)驅(qū)動(dòng)的單向度。

三、合作、信任與價(jià)值對(duì)齊

價(jià)值對(duì)齊需要基于多方合作而展開，從功能方面來(lái)看，信任并非合作的前提條件，但其可以更有效地“簡(jiǎn)化復(fù)雜性”。（Luhmann N.，2017，p.9）然而，雖然“合作常常需要信任，特別是相互信任。如果是完全不信任，那么，在自由行動(dòng)者之間的合作則將失敗。進(jìn)一步說(shuō)，如果信任僅僅是在單方面，那么，合作可能也是無(wú)效的；如果信任是盲目的，則將誘發(fā)欺騙”。（ Gambetta D.，1988， p.219）同樣地，基于信任的合作將提升價(jià)值對(duì)齊的速度，但加速的目的不應(yīng)是技術(shù)對(duì)人的操縱，若信任是單向的，則價(jià)值對(duì)齊是虛幻的；若信任是盲目的，則價(jià)值對(duì)齊是危險(xiǎn)的。因此，需要充分審視合作、信任與價(jià)值對(duì)齊的關(guān)系。

（一）合作、信任與價(jià)值對(duì)齊的邊界

若信任僅僅基于暗合利益（encapsulated interest），那么，道德并非是必選項(xiàng)，甚至可被忽略。然而，僅以利益驅(qū)動(dòng)但以非道德的方式所形成的信任因其所帶來(lái)的負(fù)面影響而一直備受詬病。就人工智能的發(fā)展而言，無(wú)論是負(fù)責(zé)任的人工智能、可信的人工智能，還是人工智能向善等，都已經(jīng)將倫理道德作為一種規(guī)范性的要求納入技術(shù)之中。在關(guān)于人機(jī) （技）融合的信任工程研究中，倫理道德被視為 “構(gòu)建人類與人工智能之間建立適當(dāng)?shù)碾p向信任”（Ezer N. et al.， 2019）的一個(gè)重要的參數(shù)。那么，該如何看待在這種合作中所形成的信任呢？

蘇珊娜· 托爾梅杰（Suzanne Tolmeijer）、亞伯拉罕· 伯恩斯坦（Abraham Bernstein）等發(fā)現(xiàn)：在人工智能和人類專家合作所進(jìn)行的倫理決策中，人類雖然在道德上具有較高的可信度，但其能力卻不如人工智能。雖然人工智能的建議和決策比人類專家的建議和決策更容易被接受，但人類專家被賦予了更高的道德信任和責(zé)任。（Tolmeijer S. et al.，2022）因此，在人工智能與人類價(jià)值觀對(duì)齊的進(jìn)程中，雖然完成給定的目標(biāo)是走向價(jià)值對(duì)齊的必要環(huán)節(jié)，但關(guān)于欺騙性、偽對(duì)齊等現(xiàn)象的出現(xiàn)恰恰指向了合作中的能力與道德問(wèn)題。毫無(wú)疑問(wèn)，當(dāng)價(jià)值對(duì)齊以人與技術(shù)形成聯(lián)盟的方式來(lái)為人類謀求美好生活時(shí)，技術(shù)是助推人類走向美好生活的強(qiáng)勁動(dòng)力，人類對(duì)技術(shù)能力的信任和對(duì)自身能力的信任則是形成上述聯(lián)盟的理論基礎(chǔ)，但基于這種信任的合作更需要人類確立上述聯(lián)盟的邊界。在人類與人工智能合作的過(guò)程中，出現(xiàn)了將人工智能視為合作伙伴而非僅僅是工具的趨勢(shì)，并主張將人類和人工智能視為一個(gè)團(tuán)隊(duì)（Human-AI Teams）的理念。

就價(jià)值對(duì)齊而言，從人類和人工智能作為一個(gè)團(tuán)隊(duì)的視角來(lái)看，當(dāng)人類期望價(jià)值對(duì)齊時(shí)，若是讓機(jī)器（技術(shù)）熟悉人類的價(jià)值觀，則意味著價(jià)值觀本身是明確的；若是讓機(jī)器（技術(shù)）推斷人類的價(jià)值觀，則意味著機(jī)器（技術(shù)）的預(yù)測(cè)需要人類符合機(jī)器的意圖。那么，上述兩項(xiàng)的多次交互循環(huán)是否會(huì)出現(xiàn)人類價(jià)值觀在技術(shù)化的進(jìn)程中涌現(xiàn)諸如數(shù)字化身之類的技術(shù)化生命、比人類自身更懂人類的機(jī)器意志等現(xiàn)象呢？易言之，在人類為技術(shù)賦予人類價(jià)值觀的進(jìn)程中，是否會(huì)出現(xiàn)技術(shù)導(dǎo)引與規(guī)訓(xùn)人類價(jià)值觀形成的情形呢？

類似 “在我們這個(gè)時(shí)代，每一種事物好像都包含有自己的反面。我們看到，機(jī)器具有減少人類勞動(dòng)和使勞動(dòng)更有成效的神奇力量，然而卻引起了饑餓和過(guò)度的疲勞”（《馬克思恩格斯全集》第12 卷，1962，第4 頁(yè)）一樣，伴隨技術(shù)發(fā)展所帶來(lái)的神秘力量增強(qiáng)，機(jī)器與人類之間的微妙關(guān)系迫使人類審視技術(shù)的本質(zhì)并尋求這種神奇性的破解，而人類與技術(shù)的邊界厘清就是解開這種微妙關(guān)系的關(guān)鍵點(diǎn)。因此，為了避免神奇力量的反面，以人機(jī) （技）融合為出發(fā)點(diǎn)的價(jià)值對(duì)齊，既需要合乎道德的合作與信任，更需要有邊界的合作與信任。

（二）信任與信任的反面：價(jià)值對(duì)齊的有效性

信任作為委托者與受托者之間的一種合作性關(guān)系，其“處在全知與無(wú)知之間；全知意味著確定性，它不再需要信任。無(wú)知?jiǎng)t無(wú)法建立信任。全知與無(wú)知之間的狀態(tài)是產(chǎn)生信任的條件，信任則啟動(dòng)了生存所需要的行動(dòng)和合作”。（鄭也夫，2015，第225 頁(yè)）因此，當(dāng)信息的不充分與模糊性成為了信任產(chǎn)生的源頭時(shí)，對(duì)信任的解構(gòu)、關(guān)于反信任和不信任等信任反面的研究更值得關(guān)注，對(duì)信任反面的充分認(rèn)知恰恰是建立信任的必要條件。

就技術(shù)研發(fā)而言，弗雷斯特（Forrester）前首席分析師約翰·金德維格（John Kindervag）于 2010 年提出零信任（Zero Trust），信任以驗(yàn)證為基礎(chǔ)，不驗(yàn)證不信任。（ Moscaritolo A.，2011）以不信任為前提所展開的系統(tǒng)構(gòu)建是提升系統(tǒng)安全性的一條重要途徑。事實(shí)上，不信任是“信任的反面鏡像”，（彼得·什托姆普卡，2005，第34 頁(yè)）懷疑（mistrust）是“一個(gè)暫時(shí)的信任建立或者信任喪失動(dòng)態(tài)的中間階段。懷疑既可能是信任破壞的前奏，也可能是不信任結(jié)束的預(yù)兆”。（彼得·什托姆普卡，2005，第34 頁(yè)）在價(jià)值對(duì)齊的研發(fā)中，對(duì)智能體的信任以及智能體之間的信任并非是默認(rèn)的，恰恰是需要信任或者信任產(chǎn)生之處的治理來(lái)構(gòu)建信任。

為了確保人工智能安全，對(duì)通過(guò)欺騙而獲得獎(jiǎng)勵(lì)的行為監(jiān)測(cè)與治理就是對(duì)合作性信任破壞的修復(fù)，紅隊(duì)測(cè)試則通過(guò)對(duì)危害的發(fā)現(xiàn)和識(shí)別來(lái)探尋并規(guī)避價(jià)值對(duì)齊的危險(xiǎn)，進(jìn)而提升系統(tǒng)的可信度。近年來(lái)所展開的“給AI 的100 瓶毒藥”就是以安全和負(fù)責(zé)任為基準(zhǔn)，以投毒與解毒兩條路徑進(jìn)行大語(yǔ)言模型的價(jià)值觀調(diào)整，進(jìn)而提升大模型與人類價(jià)值觀的對(duì)齊能力。（Guohai Xu et al.， 2023）類似未經(jīng)破壞性測(cè)試的技術(shù)是不可靠的，未考慮信任反面測(cè)試的信任也是脆弱的。因此，價(jià)值對(duì)齊的有效性提升必須要將信任反面的消除予以充分考慮。

四、結(jié)語(yǔ)

關(guān)于價(jià)值對(duì)齊的探討，說(shuō)明人類有價(jià)值對(duì)齊的訴求但目前尚未實(shí)現(xiàn)，甚或人類尚未明晰價(jià)值對(duì)齊的基準(zhǔn)與意義。之所以如此，主要原因有二：

一是源自人類一直有技術(shù)為人類服務(wù)且技術(shù)必須處在人類可控之中的夢(mèng)想。這樣一種夢(mèng)想植根于人類中心主義。然而，技術(shù)的日趨自主性與智能化對(duì)人類中心主義所構(gòu)成的挑戰(zhàn)使得上述夢(mèng)想備受質(zhì)疑。如，當(dāng)下關(guān)于數(shù)字生命、智能機(jī)器意識(shí)、數(shù)字資本主義等的一系列追問(wèn)直接指向了人類作為類的本質(zhì)何在；近年來(lái)所出現(xiàn)的將技術(shù)道德化，與其說(shuō)是對(duì)人類道德未來(lái)發(fā)展路徑的一種描繪，倒不如說(shuō)是對(duì)技術(shù)反噬人類道德的一種沉思。因此，這一切促使人類既需要重新反思人之為人這一經(jīng)典問(wèn)題，更需要對(duì)技術(shù)的發(fā)展進(jìn)行前瞻性的預(yù)判，確立價(jià)值對(duì)齊的基準(zhǔn)，厘清價(jià)值對(duì)齊的邊界。

二是價(jià)值對(duì)齊的意義究竟是什么？很明顯，價(jià)值對(duì)齊的意義不應(yīng)是技術(shù)政治學(xué)所揭示的“引入技術(shù)手段所產(chǎn)生的一系列轉(zhuǎn)化最終導(dǎo)致了目的轉(zhuǎn)化” （蘭登·溫納，2014，第203 頁(yè)）的反向適應(yīng)。當(dāng)價(jià)值對(duì)齊力圖尋求人類價(jià)值觀與技術(shù)所體現(xiàn)的價(jià)值觀一致之時(shí)，人的技術(shù)化與技術(shù)的人化將更加深入。僅僅作為工具意義上的技術(shù)已經(jīng)不再可能，人類與人工智能聯(lián)盟所形成的團(tuán)隊(duì)合作推進(jìn)著人的本質(zhì)與技術(shù)的本質(zhì)在更為深層的意義上的交互，但這種交互不應(yīng)是在合作式對(duì)齊進(jìn)程中變成人類對(duì)技術(shù)的反向適應(yīng)，走向技術(shù)系統(tǒng)對(duì)人類的操縱。

可以肯定的是，價(jià)值對(duì)齊的意義應(yīng)是技術(shù)為人類帶來(lái)福祉。因此，價(jià)值對(duì)齊雖然是在多方的合作中展開將人類價(jià)值觀的技術(shù)化，但其并非僅僅是將技術(shù)道德化，也不僅僅是目標(biāo)的技術(shù)化轉(zhuǎn)換，更不能以非道德的方式進(jìn)行“對(duì)齊”，并且應(yīng)在技術(shù)可信可控的情境中展開，因?yàn)槊撾x此情境的交互必將會(huì)給人類帶來(lái)毀滅性的災(zāi)難。基于此，必須以基于道德的信任校準(zhǔn)價(jià)值對(duì)齊，將人類作為信任鏈構(gòu)建的出發(fā)點(diǎn)和落腳點(diǎn)，才能規(guī)避價(jià)值對(duì)齊的陷阱，確保人工智能的安全。

【本文首發(fā)于《浙江社會(huì)科學(xué)》2024年第6期】

0 好文

下一篇:《軌道》：從另一種高度看地球

上一篇:女性文學(xué)好書榜：凡持微火者，手中皆有光

基于信任視角的價(jià)值對(duì)齊探究

熱門文章排行