無限猴子與結(jié)構(gòu)蜘蛛
假設(shè)有一只猴子,它會一直隨機地在打字機上敲擊鍵盤。那么只要給它的足夠長的時間,它就幾乎肯定可以敲出人類任何一本已有圖書的內(nèi)容,例如莎士比亞的全集。從數(shù)學上講,在無限次嘗試中,猴子可以敲打出任何一部作品的概率都無限趨近于1。
這就是著名的無限猴子定理,它是“荒誕”的。就像如果把一杯水倒入大海中,在之后的某個時刻,我們剛剛好可以打撈出一杯一模一樣的水一般。
但是現(xiàn)在我們已經(jīng)完全不需要暢想無限猴子了。在自然語言處理(NLP)和文本生成領(lǐng)域,要模仿特定的風格生成文本,如果結(jié)合大規(guī)模預(yù)訓練模型、風格特征提取、文本生成調(diào)優(yōu)等技術(shù)方法,就可以做到“以假亂真”。
一種關(guān)于AI的新型自指羅素悖論:由AI寫作的一篇“我堅決不看任何AI寫的東西”
這就是同樣基于概率的deepseek晚近“震驚人類”的創(chuàng)作,它生成的文本幾乎無法分辨是不是人寫的,并能夠模擬任何風格與作者的文本。
AI眼中的“文學風格”是什么樣的?
如果說類似網(wǎng)文、公文等因其程式化、商業(yè)化的文體特征,既沒有什么獨一無二的“作者性”,也沒有什么高明的文學性,很容易找到它們“批量生成方式”的話,那我們不妨直接擺上人類整個文學史上最高段的作家之一——三島由紀夫為例,讓AI生成一段三島式的文段:
暴雨中的劍道場彌漫著鐵銹與朽木的氣息,汗水順著少年繃緊的脊梁滑落,在榻榻米上洇出深色圖騰。竹刀相擊的脆響里,他看見師父眼角的皺紋藏著江戶時代某場未竟的復(fù)仇。當狂風掀開紙門,攜來山茶花的殘瓣黏在汗?jié)竦男靥艜r,他恍然領(lǐng)悟肉體不過是盛裝恥辱的陶器,唯有在徹底粉碎的瞬間,方能窺見永恒澄明的月光。
三島的文風“汪洋恣肆,波云詭譎”,比喻驚世駭俗,往往“語不驚人死不休”,令人拍案叫絕,難以名狀。而Deepseek交出的答卷,即使還不能說已經(jīng)足夠“以假亂真”,但文風的確已經(jīng)相當有極具辨識度的三島韻味了。那么AI是怎么做到的呢?
當我們說“三島由紀夫式的段落”時,我們首先在表達的,是一種極度抽象、模糊的文本特征,亦即一種經(jīng)過后人總結(jié)與概括出的美學風格。
相信很少有人可以否認,三島由紀夫的核心風格至少是包括以下幾個方面的:
極端美學:三島強調(diào)死亡之美、肉體之美、秩序與毀滅的共存。他的文字往往冷峻、華麗,帶有儀式感。
日本傳統(tǒng)與西方現(xiàn)代性的交融:他擅長描繪日本傳統(tǒng)武士道精神、神道教意象,同時又深受西方文學影響(如尼采、波德萊爾)。
強烈的視覺意象:他的描寫極富畫面感,常用光影、色彩、質(zhì)感等細節(jié)來增強感官刺激。
短促有力的句子與復(fù)雜華美的句群交替:他能夠在冷靜、簡潔的描述和繁復(fù)的抒情段落之間切換自如。
有美與毀滅的共存、個人意志與時代洪流、武士道精神的絕對化等思想沖突:“唯有被烈焰吞噬的建筑,才能顯現(xiàn)其真正的輪廓”“他寧愿讓自己的信仰碎裂成光輝四濺的玻璃,也不愿在時代的塵埃中沉默”“肉體不過是意志的器皿,若器皿已破,則意志亦得解放”等。
不僅如此,嗜讀三島的人們也很容易就可以總結(jié)出三島有以下這些鮮明的修辭風格,甚至可以說風格鮮明到了若是不如此,就根本“不像”三島作品的程度:
對自然的高度擬人化:如“秋日的陽光像一柄銳利的匕首,斜斜地刺入庭院,那金色的光芒在枯葉上燃燒,宛如即將自焚的舞姬。”
對肉體的極端關(guān)注:如“他脫下襯衫,背肌繃緊,皮膚因寒冷而泛起淡淡的青白色,像是刀刃輕撫過的瓷器?!?/p>
華麗的比喻與象征:“在夜色中,寺廟的影子倒映在水面,仿佛一匹黑色的戰(zhàn)馬正在湖心飲水?!?/p>
而以上三島核心美學特點與修辭特點的描述正是 AI 自己的“體會”,已經(jīng)非常準確與出色了,與專家精心編撰的文學史教材中對三島風格的概括可以說具有幾乎同樣準確的知識深度。
上述這些在人類看來是美學風格的東西,在進行過語料庫構(gòu)建與風格學習的機器眼中,卻全然是另一番景象。
機器在收集足夠的三島由紀夫文本后,會首先進行預(yù)處理。三島由紀夫的作品會被機器進行分句、分詞,處理日語/中文/翻譯英文版本等,并“確保數(shù)據(jù)格式一致”。此后,機器會采用TF-IDF、BERTembeddings等方法分析三島文本的常見詞匯與獨特短語,比如他偏好使用的比喻、色彩詞、身體意象等。有了上述準備工作,機器就可以對文本進行句法分析,從而識別出三島句子的結(jié)構(gòu)模式,比如:
·修飾性強的長句(多層定語、隱喻、插入語)
·簡短有力的斷句(刀鋒般的短句,強調(diào)死亡、決絕)。
其后,機器就可以訓練風格分類器(Style Classifier),用以區(qū)分三島文本與其他作家的文本,并讓模型學習他的詞匯分布、句法模式、修辭風格,從中提取獨特的風格特征了。
AI是怎么生成特定風格的文本的?
當模型根據(jù)人類給定的條件來調(diào)整輸出,并生成特定風格、主題或情感的文字時,比如生成三島由紀夫風格的文字,就叫做“受控文本生成”。
大模型會限制輸出自己句子的平均長度、從句嵌套深度、比喻使用率等,使其符合三島的句法特點,并優(yōu)先使用“死亡、美、毀滅、身體、宗教”等高頻詞,以保持風格一致性。
而且如果降低溫度(Temperature),就可以控制詞匯分布、減少生成隨機性,使生成文本更符合訓練數(shù)據(jù)風格,并更具連貫性,不至于過于發(fā)散。
人類也很容易訓練一個句法轉(zhuǎn)換模型(Syntax Transfer Model)和比喻生成器(Metaphor Generator),用以將普通文本轉(zhuǎn)換成三島風格,比如:
·普通句子:“落葉在風中飄零”“他的手指微微顫抖”
·三島風格:“秋風撕裂枝頭,枯葉如燒盡的詩篇,沉默地墜落”“他的指尖如風中殘燭,顫抖著,仿佛即將熄滅”
甚至還可以結(jié)合情感分析模型(Sentiment Analysis),調(diào)整文本的情緒參數(shù),讓生成更具三島式的“悲壯美感”或“壓抑感”。
最后是大模型的評估與優(yōu)化環(huán)節(jié),機器可以自己計算三島文本與生成文本的困惑度。(Perplexity),評估其可讀性與風格一致性,并使用BERTScore(計算生成文本與參考文本之間單詞片段的重復(fù)率)、BLEU(衡量生成文本覆蓋了多少原文的關(guān)鍵內(nèi)容)、ROUGE(將文本轉(zhuǎn)化為上下文語義向量,計算生成文本與原文在深層語義上的相似度)等方式,衡量生成文本與三島原文的相似度。
再加上人類“專家”的最后的評估與調(diào)優(yōu),機器就可以把文學、美學風格轉(zhuǎn)化為數(shù)據(jù)、概率,并由此模擬任何人的寫作風格。
作者應(yīng)該是AI本身,還是“原作者”,亦或是問問題的用戶?
卡夫卡在臨終前給了好友布洛德一份遺囑,要求他死后銷毀所有未發(fā)表的手稿,其中包括《城堡》、《審判》等公認最偉大的文學作品??ǚ蚩ù饲熬投啻伪磉_過類似的意愿,并甚至親手銷毀過自己的手稿,但布洛德選擇了"背叛"他最好朋友的遺愿。他不但沒有銷毀這些手稿,反而傾盡畢生精力整理、編輯并出版了它們。
米蘭·昆德拉正是以這個故事展開他的著名的文論作品《被背叛的遺囑》的,而且恐怕沒有人會對此抱有異議:布洛德救贖了文學,即使他背叛了作家本人的意愿與友誼,他還是干得漂亮,他做得太對了!
然而如果我們思考昆德拉在這本書中提出的另一個有趣的問題,答案似乎就不如此黑白鮮明了。斯特拉文斯基堅持認為,演奏者必須嚴格按照自己樂譜演奏,他反對任何形式的擅自改動。即使在有些時候,經(jīng)過改動后的樂譜演出效果更好。那么這種有悖于作曲家或藝術(shù)家原意的“更好”的改動,是可以被允許的嗎?昆德拉借題發(fā)揮道:
毫無疑問,人們完全可能把《追憶逝水年華》中的某個句子寫得更好些。但上哪兒去找這么個愿意讀一本修改后的普魯斯特作品的瘋子呢?
即使在實質(zhì)意義上,被改動后的文本是比原來的文本“更好”的,這種改動也是不被允許的。這個問題在昆德拉這里之所以是不證自明的,根本原因在于他認為作者的作品是一個有機的整體,任何改動都可能破壞其內(nèi)在的邏輯和意義。后人首先應(yīng)該尊重作者的創(chuàng)作意圖,并盡量理解和還原作者想要表達的思想和情感。
所以昆德拉并沒有在這個問題上更進一步,這個被改動了個別詞句的,甚至已經(jīng)改變了作者原意的“文本”,他的作者,到底應(yīng)該是普魯斯特,還是應(yīng)該是普魯斯特以及改動了這段文本的那個人兩人合著呢?
而昆德拉之所以沒有考慮這個問題,主因或許是印刷時代的紙質(zhì)圖書生成方式,被其他人改動了個別字句的《追憶似水年華》因為沒有人愿意看的“市場性”原因根本沒有被印出來的價值,而且著作權(quán)也不允許這樣的著作被印出來。
所以文本的作者是普魯斯特與一個沒有經(jīng)過普魯斯特允許的改寫者的情況是不可能發(fā)生的。在信息的生產(chǎn)與流通并不依賴紙質(zhì)圖書的印刷、出版的數(shù)字時代,一般出現(xiàn)這種偷偷改動原文個別字句并據(jù)為己用的情況,自然會被判定為洗稿。
但如果這段文本的創(chuàng)作者是具有生成能力的大語言模型呢?尤其是大語言模型生成的文本是在它學習了原作者的大量文本后,利用上述手段生成了在人類可以識別的“風格”上完全相同的新的文本。如果AI生成文本的風格與原作還有差距,那也只是AI“還”不能出色地完成仿寫任務(wù),而不是AI“不能”完成這個任務(wù)。
那么AI通過仿寫生成的文本,他的“作者”到底應(yīng)該是AI本身,是原始文本數(shù)據(jù)的提供者“原作者”,還是那個通過提問詞一步步引導(dǎo)AI生產(chǎn)出了這段文本的用戶?
很多人認為AI生成的內(nèi)容應(yīng)視為“委托作品”,著作權(quán)歸屬于終端用戶。但另一種觀點認為,AI生成的內(nèi)容缺乏人類創(chuàng)作者的直接參與,不應(yīng)視為作品,因而不受著作權(quán)法保護。純粹由AI生成的藝術(shù)作品不應(yīng)該獲得版權(quán)保護,因為AI提示本身不足以使用戶成為作品的作者。
而AI在生成內(nèi)容時,未經(jīng)授權(quán)使用他人作品進行訓練,已經(jīng)出現(xiàn)過實際的侵權(quán)案例。例如,Thomson Reuters在與Ross Intelligence的訴訟中,法院裁定Ross未經(jīng)授權(quán)復(fù)制其內(nèi)容用于AI訓練,侵犯了其版權(quán)。
不過美國的版權(quán)所有者態(tài)度與法律尺度比其他國家更為嚴苛。據(jù)傳,幾乎所有的著名AI公司都曾向數(shù)字圖書館安娜的檔案提出過合作邀約,但最后美國公司都因為對于版權(quán)問題的擔憂而最終放棄了合作。
隨著AI技術(shù)的不斷進步,AI生成內(nèi)容的著作權(quán)歸屬和相關(guān)法律倫理問題只會更加復(fù)雜。具有推理與文本生成能力的AI技術(shù)將為人類社會的方方面面的格局都帶來無比重大的改變,版權(quán)的概念與相關(guān)的法律條文概莫能外。