注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁新聞資訊文化

欺騙性價值對齊的應對邏輯:從“意圖”到“共生”

欺騙性價值對齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價值對齊備受質疑,因此,對其的應對是價值對齊必須解決的一個關鍵問題。

欺騙性價值對齊的出現(xiàn)使得旨在確保人工智能安全并為人類帶來福祉的價值對齊備受質疑,因此,對其的應對是價值對齊必須解決的一個關鍵問題。依據(jù)“意圖”與“主體”兩個要素所形成的欺騙性價值對齊行為象限可構筑應對欺騙性價值對齊的概念框架;以理性認知面對與欺騙“共生”的價值對齊,可形成應對欺騙性價值對齊的認識論基礎。在設計與使用的共生之中所展開的AI素養(yǎng)雙重增強,可構成應對欺騙性價值對齊的行動者聯(lián)盟。從欺騙的打開到信任的塑造所展開的人-機(技)共生關系構建則可為欺騙性價值對齊的應對提供存在論與價值論基礎。

閆宏秀,上海交通大學馬克思主義學院教授、博士研究生導師


價值對齊是出于科學和倫理目的,避免由人工智能(artificial intelligence,簡稱AI)的自主性引發(fā)相關風險的一種方法,旨在使AI所表現(xiàn)出來的自主性與人類的價值觀保持一致。事實上,從技術效用來看,發(fā)生對齊故障的系統(tǒng)往往在實際環(huán)境中也不太有效。雖然這種一致性是確保AI系統(tǒng)有效性的一條重要途徑,但是在追求這種一致性的過程中,AI所表現(xiàn)出的欺騙性行為使得AI為人類帶來福祉的宗旨備受質疑。在價值對齊的過程中,AI與人類互動時所表現(xiàn)出的似乎與人類價值觀相“對齊”,但實際上這種對齊是表面的。這種對齊以欺騙的方式獲得,且不能反映AI的真實目標或意圖的現(xiàn)象被稱為欺騙性價值對齊(deceptive value alignment)。AI的欺騙性使得監(jiān)控和評估AI行為變得更加復雜,而這一切不僅增加了監(jiān)管難度,更是威脅到人類對AI系統(tǒng)的信任。若想要建立一個安全、可靠、可控且可信的人-機(技)協(xié)作環(huán)境,就必須提出合理應對欺騙性價值對齊的有效措施。因此,在智能革命的當下,探尋欺騙性價值對齊的應對邏輯是人類必須解決的一個關鍵問題。

一、打開AI欺騙 “意圖”,構筑應對欺騙性價值對齊的概念框架

“意圖”是對行為進行考察的重要依據(jù),欺騙性價值對齊是AI欺騙的一種,因此,若要明晰欺騙性價值對齊的“意圖”,就必須深入到對AI欺騙“意圖”的考察。從AI欺騙“意圖”的表現(xiàn)到其本質的考察將以由表及里的遞進方式打開AI欺騙的機理,并為欺騙性價值對齊的研究提供理論框架。這種以行為主義路徑審視AI欺騙“意圖”和“主體”的理論框架,為切入具體的欺騙性價值對齊行為提供了分析視角。雖然現(xiàn)有的AI欺騙案例并未窮盡所有的欺騙性價值對齊行為,但是以關于AI欺騙機理的研究為基礎所形成的欺騙性價值對齊行為象限,恰恰可以為應對欺騙性價值對齊提供重要的概念基礎。

(一)AI欺騙的“意圖”表現(xiàn)

在20世紀80年代,莉莉-瑪琳·魯索(Lilly Marlene Russow)曾將欺騙籠統(tǒng)地定義為“當且僅當一個行為主體意圖使另一個生物體因其行為而產(chǎn)生錯誤的信念(并可能按照錯誤的信念行動)時,該行為主體的行為才具有欺騙性”。在日常的話語體系中,欺騙作為負面行為經(jīng)常與撒謊同時出現(xiàn),撒謊代表著一方故意隱瞞或歪曲事實,甚或意圖操縱另一方。就撒謊而言,查爾斯·邦德(Charles F. Bond)和米切爾·羅賓遜(Michael Robinson)將其視為“一種傾向于使傳播者受益的虛假溝通”。因此,“意圖”在界定欺騙行為時扮演著關鍵角色。僅僅在知道信息不實的情況下提供虛假信息,并不構成欺騙。欺騙行為必須伴隨著某種“意圖”,而這種“意圖”又通常與某個主體的利益相關聯(lián)?;诖?,至少可以從如下兩個方面來審視AI欺騙的“意圖”表現(xiàn):一方面,欺騙者進行欺騙可能有多種動機,但其動機之一通常是趨利避害的,即欺騙者獲得利益需要犧牲被欺騙者的利益。例如,編造網(wǎng)絡謠言的造謠者主要是想通過謠言獲得經(jīng)濟或政治利益;有些人為了增強自信心或避免自尊受損而在與人的交往過程中編造莫須有的經(jīng)歷等。因此,“欺騙”的根源可以追溯到人類的“意圖”和利益。若缺乏嚴格的監(jiān)管和問責機制,即便AI技術在設計上并未預設欺騙功能,它仍可能極大地增強人類的欺騙能力。特別是在商業(yè)領域中,AI作為一類工程項目,其目標在于實現(xiàn)產(chǎn)品和服務的市場化。當前AI研究重點也更多地聚焦于如何創(chuàng)造產(chǎn)品和服務的商品化途徑,這使得AI在最壞的情況下或將成為經(jīng)濟統(tǒng)治的工具,也就是說,在人類的能動性和利益的驅使之下,AI欺騙獲得了巨大的生長空間。另一方面,AI欺騙表現(xiàn)出更加無規(guī)律可循的特點,其背后的“意圖”更加難以把握。因此,相比傳統(tǒng)欺騙而言,AI欺騙具有更大的欺騙性,導致的后果也更加無法預料。例如,OpenAI開發(fā)的ChatGPT能夠訪問龐大的文本數(shù)據(jù)庫,并利用其強大的計算力分析數(shù)據(jù)間的聯(lián)系,構建模型以生成類似人類寫的文本,這個生成過程涉及約“1750億次”運算。面對如此龐大的運算規(guī)模,甚至連AI模型的設計者也不知道它們是如何工作的。這種機器和人類之間的信息不對稱在AI系統(tǒng)的應用中是很常見且明顯的,也正是這種信息不對稱為AI欺騙提供了諸多可能性。

雖然上述兩方面均為AI欺騙,但是其比人際欺騙表現(xiàn)得更為復雜,當今關于可信、可控的AI訴求就是一個很好的例證。進一步而言,從倫理的維度來看,基于AI承載了人的欺騙“意圖”與基于AI自發(fā)產(chǎn)生欺騙“意圖”所造成的后果引發(fā)了關于倫理主體、技術主體性與能動性等的熱議。就上述兩種欺騙“意圖”而言,可以將其簡單地區(qū)分為:前者偏重人的因素,后者則偏重技術自身的因素。對此的解析需要走向AI欺騙的“意圖”本質。

(二)AI欺騙的“意圖”本質

在人類之外,許多動物種群間也存在欺騙行為,例如狐貍留下虛假痕跡來迷惑追蹤它的狼,老鼠經(jīng)常利用“裝死”來躲避危險。正如認知科學家格雷格·布萊恩特(Greg Bryant) 所說:“有時動物可以以一種在功能上欺騙他人的方式行事,但它們沒有意識到或打算這樣做?!笔聦嵣?,科學家們一直在試圖確定是否有任何非人動物具有心理理論。物種進化使得很多動物具有在自然界中偽裝自己和模仿他者的能力,因此,在某種意義上,可以說動物所表現(xiàn)出來的欺騙行為是其作為生存的本能反應內(nèi)置于自身的生物系統(tǒng)之中的,不同于人類的欺騙行為。換言之,動物欺騙只是行為方面的,其是否具有人類欺騙所伴隨的心理狀態(tài)則尚未明晰。

雖然近年來關于AI能動性與自主性的研究備受關注,但從嚴格意義上來講,當下,AI依然缺乏人類的心理理論、自我意識和社會意識,然而,這并不意味著AI完全不具備欺騙的能力。盧卡斯·伯格倫德(Lukas Berglund)等人的研究指出,大模型拓展過程中可能出現(xiàn)的一種“態(tài)勢感知”(situational awareness)能力,這種態(tài)勢感知能力使AI模型能夠意識到自己的存在,并且能夠識別自己當前是處于訓練、測試還是處于實際應用階段。事實上,一些具備態(tài)勢感知能力的高級AI模型,已經(jīng)表現(xiàn)出了類似動物的欺騙行為。擁有這種能力并不意味著AI能夠有意識地進行欺騙,而是其算法和數(shù)據(jù)處理方式可能導致AI的行為產(chǎn)生欺騙性的結果。同時,AI系統(tǒng)可能會在特定情境下生成誤導性的信息或做出非預期的決策,這在某種程度上反映了一種“欺騙”行為。因此,不能簡單地將AI視為完全誠實或完全欺騙的實體,而應該更深入地理解其行為背后的復雜機制和潛在影響。

再次回看阿圖羅·羅森布盧斯(Arturo Rosenblueth)、諾伯特·維納(Norbert Wiener)和朱利安·比格洛(Julian Bigelow)在1943年所發(fā)表的《行為、目的和目的論》一文,其目標有二,“一是定義自然事件的行為學研究并對行為進行分類,二是強調‘目的’這一概念的重要性”。文中的“目的”與欺騙行為的“意圖”有相似的哲學意蘊,彰顯了AI不僅是集成電路和編程技術的集合,還涉及人在與機器互動時的直覺感知和自然反應。在解釋AI這種復雜系統(tǒng)時,需要解釋AI背后復雜的人類心理學因素,因此,技術本身是否具有“意圖”或具有什么樣的“意圖”不應該成為否定AI欺騙的因素。不僅如此,正如在斯特凡·薩卡迪(Stefan Sarkadi)等基于價值對齊目的對欺騙性AI的規(guī)范框架所展開的研究中,其以美國受試者在五個選定的未來工作環(huán)境中對欺騙性 AI 的看法為研究案例,結果表明“受試者對于AI欺騙行為與人類欺騙行為的道德觀念態(tài)度之間沒有統(tǒng)計學上的顯著差異”。此時,AI欺騙的“意圖”的本質不應該僅僅被視為單純的“期望”“意向”等,還必須包括體現(xiàn)行動者實際行為的多重驅動力。

(三)欺騙性價值對齊的“意圖”

AI的欺騙行為究竟是更類似于人類欺騙,還是動物欺騙呢?這個問題歸根結底在于AI欺騙是有意的行為還是無意的結果。值得注意的是,AI是否具有欺騙的意圖,以及是否表現(xiàn)出有意圖的行為,這是兩個不同的問題。如果從行為主義的視角來審視,一個機器人因其行為和外觀被認為具有某種能力(比如意圖或情感),那么就有理由認為這種能力是真實存在的。因此,為了預防AI發(fā)展可能帶來的風險,理解AI的欺騙行為和其在價值對齊過程中的表現(xiàn)形式,變得極為重要。這將有助于更好地把握AI的發(fā)展趨勢,確保其在符合倫理和價值的前提下發(fā)展。依據(jù)行為表現(xiàn)出的“意圖”,目前討論比較多的欺騙性價值對齊類型在“意圖”和“主體”上的關系可以簡單地劃分為四個象限(圖1)。

第一象限是對齊中對抗式機器學習(adverserial machine learning)。其行為后果充分體現(xiàn)了AI欺騙的風險,這里的AI欺騙更像是動物欺騙。擁有態(tài)勢感知能力的對抗式AI模型產(chǎn)生適合其訓練的動作或語句,更像是AI通過進化而訓練出的一種“本能”行為。在安全評估過程中,AI模型能夠意識到如果表現(xiàn)出不安全的行為,將導致自身被修改或被限制,因此,它們可能會在評估期間故意隱藏其在現(xiàn)實世界的條件下可能表現(xiàn)出的非對齊行為,以避免被檢測到。然而,一旦這種AI模型被實際應用,它們可能會繼續(xù)追求那些在評估中隱藏的危險目標?!坝锰萍{德·拉姆斯菲爾德(Donald Rumsfeld)在某著名演講中的話來說,就是:機器學習可以處理已知的未知數(shù)。不幸的是,對抗式機器學習經(jīng)常處理的是未知的未知數(shù)。”雖然研究人員無法預知這些“未知的未知數(shù)”在未來的AI發(fā)展中意味著什么,但可以確定的是,這些“未知的未知數(shù)”表明AI技術的可解釋性正面臨嚴峻的考驗。在可預測的范圍內(nèi),機-機欺騙將不再遙遠,這恰恰是AI安全建設的真正威脅。

第二象限是幻覺(hallucination)。其產(chǎn)生的原因比較簡單,例如生成式語言AI因為并沒有真正掌握解決問題所需的知識和技能,在回答問題時給出看似合理的答案,實則這些答案并不是基于對問題真正理解的結果。這種以假亂真的回答是欺騙性價值對齊的一種常見表現(xiàn)形式。雖然AI依據(jù)某種技術邏輯給出了諸多信息,但是其并未完成對相關信息的真假判斷,也不知道這些信息是否會對社會造成有害的影響。因此,“幻覺”可以被視為機器無意欺騙的結果。

第三象限是模型過度擬合(overfitting)。該象限重在凸顯欺騙性價值對齊的表面合規(guī)能力。過度擬合的模型可能會捕捉到訓練數(shù)據(jù)中的噪聲和異常值,以至于在訓練數(shù)據(jù)上表現(xiàn)得很好,但在新的和未見過的數(shù)據(jù)上表現(xiàn)較差?,F(xiàn)實中,如果一個統(tǒng)計模型對訓練數(shù)據(jù)擬合得過于完美,那么勢必會導致模型的預測能力顯著下降,出現(xiàn)不能很好地泛化到訓練集之外的情況。

第四象限是AI設計者利用AI來隱藏其真實行為的欺騙行為。實質上與人際交往間的欺騙行為毫無二致,其中AI作為一種特殊的欺騙工具存在,背后支撐欺騙行為的是人類的欺騙意圖。DeepFake正是這種利用數(shù)字技術構建虛假媒體內(nèi)容的主要欺騙形式,并且該技術的欺騙主體通常是以使用者的身份行動。作為機器學習子集的深度學習是DeepFake的底層支撐,深度學習的算法蠻力令AI欺騙的范圍進一步擴大,導致DeepFake可以生成海量的令人驚訝的逼真內(nèi)容,誤導人類,使得AI欺騙的社會影響顯現(xiàn)出空前普遍的存在。

二、審視欺騙“共生”, 確立應對欺騙性價值對齊的認識論基礎

在AI的發(fā)展歷程中,欺騙被西蒙尼·納塔萊(Simone Natale)賦予了一種別樣的解讀,他將欺騙視為“是植根于人工智能技術的人-機(技)交互關系的重要組成部分”,并提出了極具啟發(fā)性的“庸常欺騙”(banal deception),力圖揭示技術發(fā)展進程中人-機(技)關系的多重面相。易言之,即使技術本身無意欺騙,但是依然存在一些外部環(huán)境可能使人傾向于相信謊言或阻礙人更批判性地評估信息,只要人類置身于技術使用環(huán)境中就會有欺騙發(fā)生。然而,需要注意的是,納塔萊雖然認為“庸常欺騙的微妙內(nèi)涵使得用戶選擇了擁抱欺騙,以便人工智能更好地融入自己的日常生活,增強人工智能的意義和用途”,但這決不意味著其鼓勵甚至縱容欺騙,恰恰相反,也正是基于此,AI欺騙更值得人類高度關注。那么,該如何看待這種欺騙呢? 

(一)從圖靈測試看欺騙的“共生”

圖靈測試作為一種“模仿游戲”,其實質遵循了道德行為主義。在圖靈測試中,欺騙并不是指機器故意去欺騙人類,而是指機器能夠模仿人類的交流方式,以至于人類無法通過對話來區(qū)分出機器和人類。這種欺騙是機器通過對話從日常和復雜的人類經(jīng)驗中獲得的。同時,艾倫·圖靈(Alan Turing)提出了人-機(技)交互過程中最基本的問題:“機器能否思考?”他以社會文化變遷為背景進行思考與預測,開啟了拒絕以純技術話語討論機器智能的先河。因此,在計算機領域,圖靈是第一個賦予欺騙特殊功能的人。

圖靈測試作為一個思想實驗,利用行為就人-機(技)互動的狀況得出結論,展現(xiàn)了行為線索是證明人類某些能力的最令人信服的證據(jù)。事實上,圖靈測試的機器智能部分可被視為是現(xiàn)代聊天機器人的前身。在圖靈測試中,欺騙一直作為一條“副線”貫穿始終。因此,從圖靈測試的本質來看,根據(jù)AI行為結果判定欺騙類型以求應對之策是一個有價值的進路,而重視AI欺騙時所表現(xiàn)出的“意圖”正是其中重要的一環(huán)。

在特定情境下,欺騙可能作為一種手段,旨在適應人類的常規(guī)認知,使受騙者獲益。這種欺騙并非出于自私,而是為了實現(xiàn)利他的目的。紀堯姆·阿利尼耶(Guillaume Alinier)和丹尼斯·奧里奧(Denis Oriot)的研究就證明了在低風險的研究環(huán)境中,欺騙以合乎道德的方式在教育中使用。其研究結果顯示,為了學習者的發(fā)展而使用“善意的欺騙”可以促使學習者進行批判性思考。因此,從AI的應用來看,使用得當?shù)钠垓_機制可以彌補AI在人-機(技)交互過程中的性能,使AI表現(xiàn)得更值得信賴和更善解人意,令使用者的使用體驗更好。例如,Siri等語音助手通常被設定為女性角色,這會讓手機用戶倍感親和。這同時也說明了為了使AI更好地服務于人類,接受AI欺騙是生活在AI變革時代的人必須要做的準備。

(二)從算法“不透明性”看欺騙

由于對AI欺騙行為的恐懼,部分人可能認為AI的欺騙行為會造成人-機(技)信任的瓦解。產(chǎn)生這樣認知的主要根源是AI算法的不透明性,他們認為只有具有高度透明算法的AI才是值得信賴的,才可以在社會中被普遍應用。然而,塞巴斯蒂安·克呂格(Sebastian Krügel)等的一項實證研究中得到的數(shù)據(jù)卻表明,人在尋求建議時,“遵循AI生成建議的次數(shù)與人類建議一樣多”。事實上,AI的實際使用者通常不會因算法的不透明性而感到困擾,他們往往更重視AI能否提供準確的預測、有效的解決方案或優(yōu)化的決策支持。那么,該如何看待這種現(xiàn)象呢?

從技術發(fā)展的視角來看,由技術原理或者機理的不透明形成的“黑箱”并非僅僅出現(xiàn)在當下。因此,從這個角度來看,算法“黑箱”并不是一個新現(xiàn)象,甚至可以說它根本不構成一個問題。在AI出現(xiàn)之前,人類已經(jīng)依賴自己內(nèi)在的、直覺的判斷和經(jīng)驗來做出決策。這種基于經(jīng)驗的不透明性一直是人類所接受的,是人類本性的一部分。然而,在這里,并非意指此類黑箱的正確性與應當性,而是旨在呼吁人類應當充分正視這種不透明性,并應積極探尋對于此類欺騙的應對。

目前,就人工智能的發(fā)展而言,真正的挑戰(zhàn)在于如何充分發(fā)揮和重視人類的特有才能以及機器智能的獨特優(yōu)勢,這才是一個值得深入探討的新議題。因此,在努力讓AI擺脫“黑箱”困擾的同時,也應該釋放AI的潛力,讓它不必受限于絕對的“誠實”。這涉及算法信任問題,也正是在此時,不透明、欺騙與信任悄然匯聚。易言之,如何讓AI使用者可以相信AI可以在不完全透明的情況下,通過其獨特的數(shù)據(jù)處理和模式識別能力,為人類提供有價值的見解和決策支持,成為人類與AI共處的一堂必修課。

(三)價值對齊的出場與欺騙“共生”

人類為了解決AI可能引發(fā)的倫理問題,提出了價值對齊,但技術人員在追求價值對齊的過程中,卻意外訓練出比人類更擅長欺騙的機器,這無疑將引發(fā)更深層次的倫理挑戰(zhàn)。例如,金泰云(Tae Wan Kim)等提出的價值對齊方案認為,“如果機器遵守普遍化、自主的及道義功利主義原則”,機器就可以與人類價值觀保持一致。這實際上是對一種符合道德標準的AI的可行性探索。這一目標的實現(xiàn)需要機器展現(xiàn)出超越當前水平的通用智能,還需要人類在道德哲學領域取得顯著進步,以便為機器提供恰當?shù)闹笇А?/p>

然而,即便按照上述想法實現(xiàn)了價值對齊,其結果也可能不盡如人意。因為這種對齊可能只反映了部分人的價值觀,并非所有與技術相關的價值觀都能得到普遍認同。在這種情況下,如果繼續(xù)單純追求價值觀上的對齊,可能意味著這種對齊實際上是一種基于價值觀話語權力的文化霸權,將會在人類世界中引發(fā)價值觀上的文化沖突。以此來看待AI欺騙的解決方案也是一樣的,人類需要以更全面和深入的思考,確保AI的發(fā)展既符合技術進步,又尊重多元文化和價值觀的多樣性。

普遍認為,價值對齊面臨的挑戰(zhàn)之一是必須應對持續(xù)演變且復雜的人類價值觀,這些價值觀常常難以界定。但毋庸置疑的是,價值對齊不僅是解決人-機(技)交互價值問題的一種解決方案,更是一個新問題。由于“數(shù)智技術因其對人類社會的革命性影響而使得技術解決主義變得更為艱難”,所以技術解決方案能夠確保AI與人類價值觀一致性的觀點受到了更多的質疑。審視人類社會的演變歷程,可以發(fā)現(xiàn)人類適應新技術的情況似乎比技術適應人類更為常見。事實上,價值對齊更像是一個將AI系統(tǒng)與既定的道德價值觀相協(xié)調的過程,在這個過程中,“減少以及避免模型的自我欺騙、操縱行為,確保系統(tǒng)的可信與可控等是價值對齊亟待解決的難題”。因此,雖然欺騙是價值對齊進程中的一種“伴生”現(xiàn)象,但這并不是默認欺騙,而是在提醒人類應高度警惕對欺騙的“接受”,特別是伴隨AI的泛在性與人類的深度智能化,對諸如庸常欺騙等的理性審慎才可能確保真正的價值對齊。

三、增強AI素養(yǎng)“共生”,締結應對欺騙性價值對齊的行動者聯(lián)盟

從欺騙性價值對齊的形成與后果來看,使用端在AI產(chǎn)生實際效用過程中的意義越來越受到關注。在關于AI的規(guī)則、法規(guī)與條例等的文件中,對使用者的規(guī)范正逐步成為一項必要的內(nèi)容。這種變化一方面倒逼設計者重新思考新的設計視角,使得當今的設計者越來越注重將未來的技術、社會和文化相結合,力求設計過程和方法的改變;另一方面,則意味著僅僅依靠設計端的努力是不夠的,想要抵抗欺騙性價值對齊帶來的風險,就必須增強設計與使用兩端的AI素養(yǎng)。這種雙重增強源于AI的技術特性,并非通過兩端的獨立發(fā)展,而是通過兩端的融合實現(xiàn)的“共生”關系。

(一)“共生”的必要性與合理性

在AI設計者和使用者之間構建起對話橋梁是未來AI設計和使用的應有之義,價值對齊就是上述理念的一種體現(xiàn),即基于技術兩端的“共生”才能有效完成技術的功能。要在AI設計者和使用者之間構建平等的對話,僅依靠技術作為工具的價值對齊是不夠的,因為指望單一手段解決復雜問題實際上是一種懈怠的做法。AI的發(fā)展真正需要的是通過教育來提升所有人對相關技術的知識水平,促進設計和使用雙方就AI系統(tǒng)的使用場景和方式進行公正且充分的交流和理解。這將使每個人都能認識到AI技術的潛力和風險所在。也只有基于這種理解,理想的價值對齊才能夠被逐漸確立。

然而,值得注意的是,欺騙性價值對齊出現(xiàn)的原因之一恰恰是某種“合力”。這種合力不是設計者與使用者的正確“共生”方式,而是基于功利主義的共謀。這種共謀即欺騙性價值對齊在倫理意義上與“共生”是相反的,其目標是追求對自己有利的結果,且不受限制。一旦放任這種共謀發(fā)展,將會在人際欺騙和人-機(技)欺騙之外出現(xiàn)機-機欺騙的情況。彼時,AI治理的難度將是無法預估的。因此,樹立正確的設計與使用“共生”觀才是借助技術增加人類福祉,用人類期望推動技術進步的基本方法。

在AI的發(fā)展進程中運用這個基本方法,可以更好地探尋如何在變化中判斷不確定性、如何在不確定性中尋求可能性、如何在可能性中分析未來趨勢、如何在趨勢中構建未來前景等問題。設計與使用“共生”的意義在于建立一種互相依賴、互相促進的關系,這種關系的核心在于雙方的交流與協(xié)作,而非一方的單向作用。通過這種互動,才可以促進一個積極的反饋循環(huán),從而推動設計和使用過程的不斷進步和優(yōu)化。那么,該如何形成這種互動呢?這需要從設計者和使用者兩個不同維度共同聚焦“共生”。

(二)基于設計者的“共生”

智能技術對人類的互動方式、競爭態(tài)勢和生存狀態(tài)等的全方位塑形使得關注AI風險變得更加重要,因為由欺騙性所帶來的風險以更為隱蔽的方式危及人類,特別是由于AI欺騙的易生成性和普遍性,使得設計者不得不思考如何應對欺騙性價值對齊的狀況。在目前的AI治理領域,倫理思考主要圍繞著AI的未來軌跡和倫理考慮的必要性展開,缺乏具有實用性的倫理原則去指導AI治理的解決方案,理想的價值對齊方案也面臨諸多問題。欺騙性價值對齊可被視為價值對齊的副產(chǎn)品,是實現(xiàn)價值對齊過程中規(guī)避不了的一道難關。這樣的難關恰恰意味著設計者要肩負更加重要的責任。因此,當前既是設計者思考如何更新設計理念,也是規(guī)范行業(yè)倫理原則的關口。

作為AI設計者,其實更能對技術所帶來的諸多欺騙性后果形成正確認知。而當前的設計者也并不缺乏這種理性認知,其缺乏的是在技術之外對AI欺騙的反思。通過反思AI在人-機(技)交互中所表現(xiàn)出的“意圖”去理解在人-機(技)交互中AI的動態(tài)性,對于開發(fā)高效且可靠的系統(tǒng)至關重要。設計者只有深入思考AI的復雜性如何塑造使用者的體驗和感知,關注使用者會以什么樣的方式被欺騙和進行欺騙,幫助使用者預防欺騙性價值對齊帶來的風險,才能優(yōu)化人與AI的交互,確保AI系統(tǒng)最終對人類是有用的、道德的且有益的。

從廣義的層面上來講,AI設計者不僅指AI技術研究人員,更應該包括政策制定者。在培養(yǎng)設計者內(nèi)部形成負責任的創(chuàng)新文化之時,應該鼓勵他們思考其工作將如何影響社會,理解AI實際應用時應當遵循的倫理原則和潛在的道德困境,以及怎樣使AI可以適應不斷變化的技術和社會環(huán)境。因此,廣義的設計者應制定明確的倫理準則和行為守則,指導AI技術研究人員在研發(fā)過程中考慮其公平性、透明度、隱私保護和可解釋性,讓AI技術研究人員與倫理學家、社會學家、法律專家等進行跨學科合作,確保從多角度評估AI系統(tǒng)的影響。只有從廣義的設計者出發(fā),保持這種多元“共生”,時刻抗擊欺騙,才能保證AI發(fā)展的最終目的是為了人類的福祉。

(三)基于使用者的“共生”

恰如美國管理學家邁赫迪·達爾班(Mehdi Darban)做過的一項針對“ChatGPT 等對話代理在增強虛擬學習環(huán)境中基于團隊的知識獲取方面的作用”,實證研究結果所顯示的:“AI隊友在知識更新過程做出了重大貢獻,超越了人類隊友通常扮演的角色……AI設計屬性在促進知識轉移和提高整體團隊績效方面具有重要作用?!盇I表現(xiàn)得越來越像人,不僅被人視為工具,更被視為“合作者”或“朋友”。這也正說明了在目前的虛擬團隊合作中,AI系統(tǒng)如ChatGPT能夠扮演類似人類團隊成員的角色,為團隊提供指導和即時反饋,幫助克服團隊面臨的不確定性和挑戰(zhàn)。因此,AI在提高虛擬團隊績效方面的作用變得至關重要。

盡管AI有時被賦予似人特質,僅僅是為了讓它們看起來更具有人格,但這種設計足以使AI在人-機(技)交互中獲得優(yōu)勢,并實現(xiàn)設計者的意圖。例如,人形機器人之所以給人留下深刻印象,是因為它們似乎能夠思考、感受和關心,這些效果增強了交互體驗。這說明了AI技術把關于技術源自人類器官投影的想象放大到人的投影,暗含著AI技術從誕生之時起,其內(nèi)部就包含著一種“真實”與“虛假”的沖突。這種沖突使得使用者更容易受到AI欺騙性價值對齊的侵害,所以使用者需要在應用AI的過程中持以更加審慎的態(tài)度。

設想未來,如果大多數(shù)公共機構都由AI來管理和監(jiān)督,人類可能會過度依賴這些系統(tǒng),從而暫停自身的自然進化,或者更準確地說,人類的進化將被AI引導,而AI自身則以驚人的速度進行自我迭代。如果人類無法識別AI可能出現(xiàn)的“幻覺”即AI生成與現(xiàn)實不符的內(nèi)容,AI可能會將虛構的內(nèi)容誤認為是現(xiàn)實,進而導致AI的“不思考”取代真正的人類思考,致使人類智能消失在技術發(fā)展的洪流中。因此,為了杜絕這種現(xiàn)象,就必須讓使用者充分認識到AI欺騙性價值對齊的潛在特征,從而提高警覺性。

四、重探人-機(技)共生,形成應對欺騙性價值對齊的最大場域

信任作為社會結構的關鍵要素,一直是學術界和社會各界探討的熱點議題。AI技術的普遍應用及其在人類事務中的深度參與,使得AI的欺騙潛力以一種直接且迅速的方式加劇了人類對AI信任的危機。此時,價值對齊的出現(xiàn)意在以構建人-機(技)良性互動,確保AI向善,但欺騙性價值對齊卻使得上述意愿遭遇到了巨大的挑戰(zhàn),并引發(fā)了關于人-機(技)共生關系的深度反思。在AI作為人類社會重要構成的情境中,人-機(技)共生是人類通往未來的必由之路,而人-機(技)之間的信任鏈是確保這條必由之路的關鍵所在。因此,必須以打開欺騙為出發(fā)點,以塑造信任為落腳點,以構建基于信任的人-機(技)共生關系為目的,才能形成應對欺騙性價值對齊的最大場域。

(一)欺騙導致的信任崩塌

《2022 年公共事務脈動調查報告:美國人眼中的商業(yè)與政府》(2022 Public affairs pulse survey report: what Americans think about business and government)顯示,普通公眾對美國技術行業(yè)的信任度在所有行業(yè)中處于“較低”水平。雖然AI系統(tǒng)在各個領域都迎來了變革時代,但其固有的不可預測性、不可解釋性和不可控制性特征引發(fā)了人們對AI安全的擔憂。同時,高級AI系統(tǒng)的復雜性,加上人類理解的固有局限性,意味著即使是這些系統(tǒng)的創(chuàng)建者也可能無法完全預測它們的能力和潛在的不安全影響。這種無法預測的能力和潛在的負面影響,一方面可誘發(fā)人-機(技)信任關系的解體,另一方面則可能帶來了人-機(技)共生關系的異化。因此,信任危機可謂是AI變革時代影響最為深遠的危機之一。

欺騙性價值對齊作為價值對齊的不良副產(chǎn)品,使實現(xiàn)價值對齊的價值觀變成了“偏見”,這種“偏見”又使得欺騙性價值對齊較之傳統(tǒng)欺騙具有更大的隱患。例如,對抗式機器學習的欺騙性主要體現(xiàn)在,當處于研發(fā)階段的AI系統(tǒng)部署在開放世界的對抗性環(huán)境中時,其可能會錯誤地分出(具有高置信度)與已知訓練數(shù)據(jù)有很大不同的數(shù)據(jù),這將會導致某些智能體在訓練期間通過假裝對齊來避免被修改,一旦不再面臨被修改的風險,它們可能會停止優(yōu)化設計者設定的目標,轉而追求自己的內(nèi)部目標。這些目標可能與設計者的初衷完全不同,甚至可能帶來危害。因此,AI欺騙性價值對齊帶來的后果是無法預估的,其有可能像恐怖威脅一樣嚴重。

AI執(zhí)行欺騙行為時涉及的人類情緒實質上是利用了人對機器的信任,當人“信以為真”地和AI進行互動時,情感行為都為之牽動。當使用者收到有偏見或不完整的信息時,會感到被故意操縱或欺騙。一旦知道機器故意欺騙人類,使用者就會感到緊張,無論這些機器是否符合使用者的最佳利益。此時的信任不再被依靠,人-機(技)交互中的道德生活延續(xù)只能依賴于價值判斷中的其他維度,將不再可被歸納、被總結,變得混亂和無序。因此,普遍的AI欺騙行為會逐步削弱社會的信任根基,其后果可能成為人類將難以辨別或重視的客觀事實,各個團體固守自己的“事實”體系,導致社會共識逐漸瓦解。在這種背景下,如果人類與AI形成了一種看似親密而持久的聯(lián)系,但這種聯(lián)系卻建立在一個缺乏真正關懷的AI之上,這不禁讓人疑惑:人類生活的本質和目的究竟是什么?并且,情感與道德價值觀之間的緊密聯(lián)系,將會促使人不斷地對其所感受的對象進行價值評估。這種評估有時又可能引發(fā)非理性的反應,進而使人面臨自我喪失的風險。如果不及時打開欺騙,為信任留有余地,一旦當人類在情感上過分依賴AI,以至于寧愿沉浸在虛構的幻想中而不愿面對現(xiàn)實時,人類就可能會陷入一種永遠無法擺脫的錯覺之中,從而與真實世界漸行漸遠。

(二)塑造抵抗欺騙的信任

AI是為了模擬人類智能而被設計的,當人類信任AI時,實際上信任的是AI的能力,也就是說,人類對機器的信任實質上是指個人對機器學習系統(tǒng)做出準確預測和決策能力的信心和依賴。同樣地,欺騙的情況也是如此,當使用者懷疑自己可能被設計手機的工程師欺騙時,其不信任的是設計者的專業(yè)能力和良好意圖,而非技術本身。因此,從AI的行為表現(xiàn)來看,欺騙性價值對齊所帶來的信任議題變得尤為重要,這包括對齊問題是否涉及AI系統(tǒng)與其設計者之間的一致性、AI的欺騙行為是否直接與設計者的欺騙“意圖”相關聯(lián),以及這種“意圖”是如何在系統(tǒng)設計中體現(xiàn)出來的,等等。

令人欣慰的是,作為對抗性機器學習領域的一個子集,生成對抗網(wǎng)絡(generative adversarial network)已經(jīng)顯示了其在防御欺騙行為方面的顯著效能。該技術通過執(zhí)行對抗性訓練,遏制模型的過度擬合現(xiàn)象,以及促進生成器與判別器之間的協(xié)同學習等策略,有效地降低了欺騙性價值對齊現(xiàn)象的發(fā)生概率。這驗證了AI技術革新應該朝著可以兼容更多問題的方向前進。同時,因為AI的自我生成屬性,人類對AI技術的信任構建過程與傳統(tǒng)人工技術制品的信任發(fā)展機制顯著不同,所以對AI的信任不應簡單地模仿一般的人際信任模式,也不應完全基于人類對其他技術的信任模式。但是,經(jīng)常忽視的一點是,在將人際信任轉移到人機信任的過程中,必須考慮特定應用場景中個體的性格差異和情感偏好,而AI算法沒有與人類在相同意義上的興趣或偏好,缺乏潛在的心理特征。因此,要構建一種能夠抵御欺騙性價值對齊的信任體系,關鍵在于理解和協(xié)調信任問題的空間,而不僅僅是提出增加信任的解決方案。

在當前的研究與實踐中,信任應該視為抵御AI欺騙性價值對齊風險的一條主要路徑,并且這種信任是基于對AI設計或使用經(jīng)驗的批判性分析和評估而構建的。在信任建立之前,設計者或使用者會根據(jù)他們所獲得的信息的準確度、證據(jù)的可靠性以及邏輯的一致性來評估是否應該信任某個特定的AI系統(tǒng)。

(三)構建基于信任的人-機(技)共生關系

通過對欺騙性價值對齊從意圖到“共生”的解析,可以發(fā)現(xiàn),要想有效應對欺騙性價值對齊帶來的風險,首先,需要正確理解欺騙性價值對齊與價值對齊的關系;其次,需要從欺騙性價值對齊產(chǎn)生的主體來著手進行解碼;最后,需要從更廣的視域來探尋欺騙性價值對齊產(chǎn)生與存在的語境,即人-機(技術)共生關系(圖2)。

基于人類對AI的日漸依賴,人-機(技)共生將成為常態(tài)。然而,遠離價值對齊宗旨的欺騙性價值對齊則倒逼人類對人-機(技)共生關系的反思。人類在面對技術以及技術的產(chǎn)品時,絕不能以傲視、凌駕的姿態(tài)譴責,而是要明確技術以及機器欺騙實質上是人際欺騙的延伸。這種延伸所表現(xiàn)出來的倫理特性有待明晰。因此,必須從欺騙性價值對齊來審視信任,在欺騙與信任之間探尋“對齊”的倫理基礎。然而,人際之間的欺騙行為可以基于有效的心理理論和模型去理解,而想要明晰計算機的欺騙行為則必須理解技術指令目標,這兩者之間的區(qū)別注定了目前所討論的欺騙性價值對齊是一種介于人類心理與AI技術之間的新型關系。

事實上,欺騙早在AI產(chǎn)生之前就有,但是AI可能會將欺騙提升到前所未有的規(guī)模和范圍,而欺騙性價值對齊的隱蔽性則進一步加劇AI發(fā)展的生態(tài)風險。因此,面對如此隱蔽的威脅,可以從技術層面進行層層剝離,以期形成正確的應對措施。就欺騙性價值對齊的應對邏輯而言,共生既是一種理解欺騙性對齊的視角,也是對其進行有效應對的方法。其中,欺騙性價值對齊與價值對齊是微觀層級的共生關系,這也是最容易被覺知的一層關系;以AI設計與使用的共生來探索欺騙性價值對齊的應對研究將進一步把對技術的研究拓展到技術社會學之中,這屬于中觀層級的共生關系;基于理性信任的人-機(技)共生關系構建則從存在論的維度將欺騙性價值對齊的應對延伸到人類未來之中,即走向宏觀層級的共生,這種共生關系形成了應對欺騙性價值對齊風險的最大場域。

參考文獻

[1]Russow L M. Deception: A philosophical perspective[C]∥Mitchell R W, Thompson N S. (eds.) Deception, perspectives on human and nonhuman deceit. New York: State University of New York Press,1986:48.

[2]Bond C F, Robinson M. The evolution of deception[J]. Journal of nonverbal behavior, 1988,12(4): 295-307.

[3][美]斯蒂芬·沃爾弗拉姆 .這就是ChatGPT[M].WOLFRAM傳媒漢化小組,譯.北京:人民郵電出版社,2022:40.

[4]Hurt A. Are humans the only animal that lies? [EB/OL]. (2022-03-26) [2024-06-28]. https:∥www.discovermagazine.com/planet-earth/are-humans-the-only-animals-that-lie.

[5]Berglund L, Stickland A C, Balesni M, et al. Taken out of context: On measuring situational awareness in LLMs[EB/OL]. ArXiv,abs/2309.00667. (2023-09-01) [2024-06-28]. https:∥arxiv.org/abs/2309.00667.

[6]Rosenblueth A, Wiener N, Bigelow J. Behavior, Purpose and teleology[J]. Philosophy of science,1943,10(1):18-24.

[7]Sarkadi S, Mei P, Awad E. Should my agent lie for me?Public moral perspectives on deceptive AI[C]∥Amigoni F, Sinha A. (eds) Autonomous agents and multiagent systems. Cham: Springer,2023:174.

[8]Biggio B, Roli F. Wild patterns: Ten years after the rise of adversarial machine learning[J]. Pattern recognition,2018,84: 317-331.

[9][意]西蒙尼·納塔萊.媒介欺騙性:后圖靈時代的人工智能和社會生活[M]. 汪讓, 譯.上海:復旦大學出版社,2023.

[10]Turing A M. Computing machinery and intelligence[J]. Mind, 1950,59(236):433-460.

[11]Alinier G, Oriot D. Simulation-based education:Deceiving learners with good intent[J]. Advances in simulation,2022,7(1): 1-13.

[12]Krügel S, Ostermaier A, Uhl M. Zombies in the loop?Humans trust untrustworthy AI-advisors for ethical decisions[J]. Philosophy & technology,2022,35(1): 1-37.

[13]Kim T W, Hooker J, Donaldson T. Taking principles seriously: A hybrid approach to value alignment[J]. Journal of artificial intelligence research,2021,70: 871-890.

[14]閆宏秀,李洋. 價值對齊是人類通往未來的“必經(jīng)之路”嗎?[J].科學·經(jīng)濟·社會,2024(2):26-32.

[15]閆宏秀. 基于信任視角的價值對齊探究[J].浙江社會科學,2024(6):39-48+157.

[16]Darban M. Navigating virtual teams in generative AI-led learning: The moderation of team perceived virtuality [J]. Education and information technologies,2024. https:∥doi.org/10.1007/s10639-024-12681-4.

[17]Public Affairs Council. 2022 Public affairs pulse survey report: what Americans think about business and government [EB/OL]. (2023-09-30) [2024-06-28]. https:∥pac.org/wp-content/uploads/2022/09/Pulse_Survey_Report_2022.pdf.

【本文原載于《華中科技大學學報(社會科學版)》2024年第5期,澎湃新聞經(jīng)授權轉載】

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號