注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁新聞資訊文化

ChatGPT、人工智能與數(shù)字人文:傳統(tǒng)學(xué)問的科技未來?

美國人工智能公司OpenAI推出的聊天機(jī)器人ChatGPT“火”出了科技圈,也驚動了學(xué)術(shù)圈。當(dāng)傳統(tǒng)學(xué)問進(jìn)入數(shù)字時代,以ChatGPT為代表的人工智能會改變?nèi)宋膶W(xué)科的未來嗎?

美國人工智能公司OpenAI推出的聊天機(jī)器人ChatGPT“火”出了科技圈,也驚動了學(xué)術(shù)圈。當(dāng)傳統(tǒng)學(xué)問進(jìn)入數(shù)字時代,以ChatGPT為代表的人工智能會改變?nèi)宋膶W(xué)科的未來嗎?

澎湃新聞?wù)垇碜怨鸫髮W(xué)、北京大學(xué)、南京大學(xué)、上海交通大學(xué)以及德國柏林馬克斯·普朗克科學(xué)史研究所的五位學(xué)者,共同討論ChatGPT及人工智能技術(shù)如何參與人文學(xué)科的研究與教學(xué)。這五位學(xué)者均為當(dāng)下數(shù)字人文領(lǐng)域的中堅(jiān)力量,他們曾接受歷史學(xué)、哲學(xué)或計(jì)算機(jī)科學(xué)的博士訓(xùn)練,又在數(shù)字人文這一跨學(xué)科的領(lǐng)域中,將計(jì)算機(jī)工具與方法引入人文學(xué)科,也使科技工作者逐漸理解人文學(xué)科的學(xué)術(shù)語境。

圓桌嘉賓:

王宏甦,哈佛大學(xué)計(jì)量社會科學(xué)研究所研究員、“中國歷代人物傳記數(shù)據(jù)庫”(CBDB)資深項(xiàng)目經(jīng)理

王濤,南京大學(xué)歷史系教授

陳詩沛,德國柏林馬克斯·普朗克科學(xué)史研究所研究員

楊浩,北京大學(xué)人工智能研究院副研究員

趙思淵,上海交通大學(xué)歷史系教授

來自人文學(xué)科的ChatGPT使用測評

澎湃新聞:各位在人文學(xué)科相關(guān)的工作中用ChatGPT了嗎?目前為止體驗(yàn)如何?

王宏甦(哈佛大學(xué)計(jì)量社會科學(xué)研究所研究員):我們在開發(fā)“中國歷代人物傳記資料庫”(China Biographical Database,簡稱CBDB)的過程中,ChatGPT和AI編程工具Copilot這類人工智能工具已經(jīng)完全融入日常工作。我們會和 ChatGPT討論方案設(shè)計(jì)。比如上周的一個案例是,我和同事在討論如何對百萬級文件按照一定的結(jié)構(gòu)進(jìn)行整理,希望找出最優(yōu)的程序設(shè)計(jì)邏輯。在討論過程中,ChatGPT也提出了建設(shè)性方案。在工作中我們會把ChatGPT當(dāng)作平等的同事來討論問題。

在程序設(shè)計(jì)和規(guī)范方面,ChatGPT是一位非常有經(jīng)驗(yàn)的同事。而在人文的問題上,我們當(dāng)下很少使用ChatGPT。比如下圖是最近我們在工作的時候涉及的一個官職名稱,“東北面朔方江陵道都統(tǒng)使”。這是十四世紀(jì)朝鮮王朝的官職,而 ChatGPT給出了完全錯誤的說明:

受訪者供圖


在我們的工作中,ChatGPT的使用場景是很明確的:能夠快速驗(yàn)證的問題。比如,程序?qū)懙檬欠裾_、程序的方案設(shè)計(jì)得是否合理,我們可以通過運(yùn)行和測試,對ChatGPT的答案進(jìn)行直接驗(yàn)證。

王濤(南京大學(xué)歷史系教授):我和幾個同伴將于3月18日在南京召開一個研討會——“ChatGPT與人文學(xué)科的挑戰(zhàn):人工智能對人文學(xué)科影響的跨學(xué)科會議”,我們請ChatGPT來撰寫會議征稿啟事,它在幾秒鐘內(nèi)生成的會議通知完整準(zhǔn)確、文從字順,已經(jīng)超出一般學(xué)生的水平。

ChatGPT撰寫的會議通知


剛開始上手的時候ChatGPT給我的感覺是驚艷。它對使用者提出的各種需求都能夠給出有邏輯、符合一定預(yù)期的結(jié)果,讓人震撼。而且,它能夠應(yīng)付各種語境、各種場景、各種方向上的需求。從OpenAI的官網(wǎng)介紹可以了解到,ChatGPT的功能其實(shí)不僅局限于問答機(jī)器人,而是一個多面手,可以編寫程序、修改代碼、撰寫提綱、多語翻譯等等??梢哉f,ChatGPT以一己之力,取代了程序員、翻譯、律師、數(shù)據(jù)分析師、秘書、會計(jì)師等不同工種的職位。

我們可以將ChatGPT當(dāng)作一個非常智能的研究助理,是研究者大腦的延伸。從工具論的角度看,以ChatGPT為代表的人工智能產(chǎn)品的出現(xiàn),跟汽車等交通工具在人類社會的出現(xiàn),具有相似的意義。如果說現(xiàn)代交通工具是人類腳力的延伸,那么ChatGPT就是人類腦力的延伸。

因此,從積極的角度說,ChatGPT是在知識生產(chǎn)領(lǐng)域?yàn)槿祟愄峁┓?wù),可以起到協(xié)助的作用,幫助使用者提高知識梳理的效率。但是,ChatGPT是否能夠完全進(jìn)行知識創(chuàng)新,特別是進(jìn)行探索性研究,目前還看不到這種可能性。從人工智能的工作原理來看,ChatGPT的知識體系來自對人類現(xiàn)有知識結(jié)構(gòu)的模型訓(xùn)練。它的能力邊界,跟ChatGPT被投喂的數(shù)據(jù)在數(shù)量、豐富度、多樣性等方面的因素密切相關(guān)。

在官方的介紹中,ChatGPT所依循的語言模型,數(shù)據(jù)來源時間截止2021年。理論上說,它對2021年之后人類社會的知識是一無所知的。而且,研究者已經(jīng)發(fā)現(xiàn),ChatGPT雖然是一個能夠熟練進(jìn)行“多語種”輸出的平臺,可以無縫在不同語言中切換,但是,在高頻語言與低頻語言之中的表現(xiàn)存在顯著的不同。這是因?yàn)镃hatGPT所接受的語言訓(xùn)練模型存在數(shù)量上的差異性,比如ChatGPT在英語語境中的表現(xiàn)更加智能,而在中文語境的表現(xiàn)只能算是差強(qiáng)人意。它甚至還存在中文知識的盲區(qū)。

我曾經(jīng)試探ChatGPT,是否知道“地上本沒有路,走的人多了,也便成了路”這句話出自何處。ChatGPT倒也坦率,它說出了魯迅的大名,但并不知道來自哪篇文章??梢?,在中文語料的訓(xùn)練上,ChatGPT還存在缺陷。不過,隨著微軟與OpenAI的合作,ChatGPT將獲得升級,能夠得到更加即時的網(wǎng)絡(luò)信息。

但是,ChatGPT仍然是一個“任務(wù)導(dǎo)向性”的工具,它只能對使用者發(fā)出的指令進(jìn)行反饋,還不存在“主動性”。所以,是否能夠用好ChatGPT,還是要基于用戶的設(shè)計(jì)。最明顯的一點(diǎn)在于,為了規(guī)避倫理上的問題,ChatGPT的后臺設(shè)置了一些屏障,用戶不能就違背公序良俗的問題發(fā)問。但是,用戶依然能夠通過間接提問的方式,“誘導(dǎo)”ChatGPT給出答案。可見,ChatGPT對“道德”并無感知。

陳詩沛(德國柏林馬克斯·普朗克科學(xué)史研究所研究員,臺灣大學(xué)計(jì)算機(jī)博士):ChatGPT作為一個產(chǎn)品成功吸引了大眾的目光,因?yàn)樗选癈hat”即“聊天”的部分做得非常好,生成的文章或回答,起碼在格式上看起來很完美。

但我覺得大家對它的評價過高了。人們覺得它很“智能”,會“思考”,但事實(shí)上它只是在“模擬”,模擬得非常逼真,以至于大家覺得它好像是一個真的機(jī)器“人”。OpenAI的官網(wǎng)說ChatGPT是“Optimizing Language Models for Dialogue”,一個為聊天對話優(yōu)化的語言模型。語言模型的概念是,你向它提供很多文字(文章),之后它對這些大量的文句進(jìn)行整理(大致上是基于統(tǒng)計(jì)),以預(yù)測下一個文字或句子應(yīng)該是什么。ChatGPT這個語言模型產(chǎn)品結(jié)合強(qiáng)大的類神經(jīng)網(wǎng)絡(luò)以及大量文本,完成得很好,但基本上它做的只有一件事——將數(shù)據(jù)庫里的文章拆分成句子,通過你提出的問題,去預(yù)測和挑選成功幾率最高的下一個句子,再生成答案反饋給你。

我認(rèn)為ChatGPT跟大部分人想象中的“智能”還有很大落差,它的實(shí)作中還沒有人工智能學(xué)界(AI)中所謂的“推理”環(huán)節(jié)(reasoning),也沒有大部分人想象中的“自主學(xué)習(xí)”,它只是文字的堆砌、基于統(tǒng)計(jì)的文獻(xiàn)整理,它并沒有理解到語意,因此它從大量訓(xùn)練文本中整理出來的回答有可能是錯的。

至于說人類社會“被機(jī)器統(tǒng)治”……我們距離這種浪漫的想象大概至少還有一百年吧。

楊浩(北京大學(xué)人工智能研究院副研究員,北京大學(xué)哲學(xué)博士):一開始我也被驚艷到了。在技術(shù)上,ChatGPT的算法底層其實(shí)很普通,國內(nèi)外很多公司都能做大語言模型。但它做了很好的優(yōu)化,用戶的命令完全可以自然語言的方式呈現(xiàn)出來。自然語言理解和自然語言生成,一個相當(dāng)于閱讀,一個相當(dāng)于寫作,目前ChatGPT都做得很好。更重要的是,它能適配更多任務(wù),是一種初步的通用人工智能,能寫代碼、做翻譯、讀古文、寫報(bào)告,各種想不到的任務(wù)都能做。過去大眾熟悉的人工智能比如AlphaGo,只能下圍棋,不能下象棋,完全不通用。ChatGPT的優(yōu)點(diǎn)還在于可以通過與用戶進(jìn)行交互,進(jìn)行自我學(xué)習(xí)和提升。通過人機(jī)交互不斷提升,學(xué)習(xí)到對話人更偏好的答案。過去的模型能夠生成一個答案,但它不知道這個答案是不是人最喜歡的,現(xiàn)在ChatGPT根據(jù)上下文來判斷你的喜好,答案更符合對話人的喜好。這種算法多年前就有,只是現(xiàn)在有了數(shù)據(jù)的加持以及算法的優(yōu)化,交互的體驗(yàn)與對話的質(zhì)量都提升了。

但是ChatGPT所采用的深度學(xué)習(xí)方法有一個嚴(yán)重的問題,就是它沒有常識,不知道自己在說什么,它只能在語言上進(jìn)行模仿。它有意義的壁壘和障礙,對文字表達(dá)的意義完全是無知的。而且它不會推理和類比。雖然ChatGPT是通用人工智能,和此前的非通用人工智能確實(shí)區(qū)別顯著,但它離真正的“智能”還很遠(yuǎn)。甚至如楊立昆(Yann LeCun)認(rèn)為,大語言模型(LLMs)是一個岔道(off-ramp)。通過這個方式不可能實(shí)現(xiàn)真正的人工智能,因?yàn)樗粚W(xué)習(xí)到了語言的皮毛,沒有真正學(xué)習(xí)到其中的知識,它所掌握的知識都是不可靠的。但它的厲害之處在于它可以一直跟你對話下去,特別是通過人機(jī)交互使得它回答問題的能力越來越好,這是我認(rèn)為它能“出圈”的主要原因。

趙思淵(上海交通大學(xué)歷史系教授):我想在研究之外先討論教學(xué)的部分。我也看到了此前ChatGPT對于以寫作為主要考核形式的大學(xué)課程的沖擊。對于這一點(diǎn)我持比較積極開放的心態(tài)。也許就像圍棋一樣,當(dāng)人工智能擊敗了人類選手后,人工智能反而成了圍棋競賽中很好的輔助工具。如果我們的大學(xué)教育的目的仍然是培養(yǎng)具有獨(dú)立思考與解決問題能力的人的話,人工智能也可以成為課程教學(xué)很好的輔助工具。我自己每年都教學(xué)術(shù)寫作,我也嘗試了把寫作題目喂給ChatGPT的反饋。至少目前,ChatGPT所能做到的是寫出可理解的文本,而不是可信的文本。或者說,ChatGPT的工作邏輯,并不需要去進(jìn)行證據(jù)的檢驗(yàn)。這兩者是有區(qū)別的。我看到很多討論都模糊提到這一點(diǎn),但還沒有足夠明確地指出。而學(xué)術(shù)寫作的輸出是需要基于可靠證據(jù)的——這一點(diǎn)對于自然科學(xué)、人文與社會科學(xué)、應(yīng)用科學(xué)研究,都是相同的。也就是說,學(xué)生仍然要在我們的課堂上學(xué)習(xí)如何獲取和處理證據(jù),以支撐研究結(jié)論。并且,在此基礎(chǔ)上,更為重要的是,提出問題。在學(xué)術(shù)研究中,什么樣的問題是值得去問的?是更重要的問題?我想,這是我們在大學(xué)中特別需要教會學(xué)生的。正是基于這樣的認(rèn)識,ChatGPT可以成為課堂教學(xué)的一部分。這學(xué)期的課程我已經(jīng)準(zhǔn)備讓學(xué)生們試著把自己設(shè)計(jì)的研究問題扔給ChatGPT,看看會得到什么樣的輸出。這可以幫他們?nèi)z驗(yàn)和反思自己的研究提問。這甚至可能比老師直接告訴學(xué)生,某種提問方式在研究上是死胡同,還要更有效。

回到具體的研究中,我的看法是同樣的,我愿意將ChatGPT視作一個輔助工具。如果輸入一段史料給人工智能,會得到什么樣的結(jié)果?這會輔助我的思考——這仍然是一個檢驗(yàn)與反思的過程。在更早的時代,我們已經(jīng)經(jīng)歷過各種技術(shù)變化對于歷史學(xué)工作方式的改變了。畢竟歷史學(xué)也是一門時間太久的學(xué)問。歷史學(xué)的核心是處理時間變化的概念。這意味著,隨著“當(dāng)下”的時間坐標(biāo)的不斷移動,“當(dāng)下”與“過去”的聯(lián)系也在不斷發(fā)生變化,有一些會凸顯,有一些會消隱。歷史學(xué)家是在這些變化中發(fā)現(xiàn)問題,設(shè)置研究議題。對時間變化的敘述,是以具體的資料為載體的。這也意味著歷史學(xué)家總是在具體的環(huán)境中,借助一定的工具處理史料。這工具當(dāng)然也在一直變化。ChatGPT當(dāng)然一定會改變歷史學(xué)家的工作方法,甚至這個行業(yè)的生態(tài)。這當(dāng)然也會帶來激動、焦慮或其他情緒。在所有這些情緒之前,更需要問的問題也許是,有了一個可理解的人工智能的“當(dāng)下”,其與過去的聯(lián)系可能已經(jīng)發(fā)生了怎樣的變化?這種變化對于歷史學(xué)議程設(shè)置的影響可能是更深遠(yuǎn)的。

澎湃新聞:要在人文領(lǐng)域使用的話,首先要過中國古代文獻(xiàn)這一關(guān)。楊浩老師在用計(jì)算機(jī)進(jìn)行古籍整理方面很有經(jīng)驗(yàn),您認(rèn)為ChatGPT的古文處理水平如何?隨著機(jī)器的自主學(xué)習(xí),它是否會進(jìn)步到人類的水平?

楊浩:我沒有去測試古文,但是做了調(diào)研,我認(rèn)為它不會達(dá)到頂級專家的水平,但是可以超過一般的學(xué)生。

ChatGPT的古文理解與翻譯水平并不比GPT模型的祖宗——BERT模型強(qiáng)太多。BERT全稱是Bidirectional Encoder Representation from Transformers(來自Transformers的雙向編碼表示),是2018年谷歌引入的,我認(rèn)為它才是真正具有革命性的一種自然語言處理技術(shù)。它開啟了預(yù)訓(xùn)練模型時代,就是先用海量數(shù)據(jù)進(jìn)行訓(xùn)練,再根據(jù)具體需求進(jìn)行細(xì)分微調(diào)。

北大數(shù)字人文中心在古文上訓(xùn)練有BERT模型,在古文的自動標(biāo)點(diǎn)、自動句讀和命名實(shí)體識別上進(jìn)行試驗(yàn),表現(xiàn)都很優(yōu)異。其中自動標(biāo)點(diǎn)的結(jié)果令人驚嘆,能達(dá)到90%甚至更高的正確率,實(shí)際使用的話,點(diǎn)斷的錯誤其實(shí)比較少。根據(jù)相關(guān)老師的說法,它已經(jīng)超過一般古典文獻(xiàn)碩士生的水平。

BERT模型的訓(xùn)練實(shí)際上就是兩種算法,就像我們做閱讀理解,把其中一個單詞去掉,根據(jù)上下文做完形填空。自動標(biāo)點(diǎn)相當(dāng)于把標(biāo)點(diǎn)去掉,讓機(jī)器預(yù)測這里要不要加標(biāo)點(diǎn)。另一個算法就是預(yù)測下一句話是什么,仍然類比我們的閱讀理解——空出一句話,或者打亂順序,讓機(jī)器選擇,哪一句話更可能是下一句。算法本身并不復(fù)雜,但卻能表現(xiàn)出非常神奇的效果。過去我們認(rèn)為,要把古文讀懂很難,人物、官職、地理、朝代都要懂才能加標(biāo)點(diǎn),但是計(jì)算機(jī)卻通過簡單的概率運(yùn)算,從大量專家學(xué)者已有的標(biāo)點(diǎn)語料中訓(xùn)練,最終能達(dá)到一個很高的標(biāo)點(diǎn)水平。

目前人工智能能夠?qū)W習(xí)到古文中字與字之間的規(guī)律。那么未來會不會有更好的模型,學(xué)到古文當(dāng)中更多信息?我想會有的。但是仍然不會超過頂級專家的水平。因?yàn)楹茈y用算法的方式來實(shí)現(xiàn)“理解”?,F(xiàn)在人工智能只不過給我們一種“理解”的假象。網(wǎng)上有一篇文章用《大唐開元禮》檢驗(yàn)ChatGPT對文言文的理解能力,包括標(biāo)點(diǎn)、翻譯等等(《ChatGPT對中國古文的理解》,微信公號“智能數(shù)字人文”),這個任務(wù)交給專家學(xué)者來說都很難,果然從結(jié)果來看ChatGPT的回答就是在一本正經(jīng)地胡說八道。ChatGPT靠的是模仿,超過一般專家有可能,但超過頂級專家的水平是不可能的。

隨著機(jī)器的自主學(xué)習(xí),它是否會進(jìn)步到人類的水平?關(guān)鍵在于這個“人類”是誰。我覺得我不如它。它可以對任何類型的文獻(xiàn)——醫(yī)學(xué)、數(shù)學(xué)、旅游、文學(xué)等各種類型古籍進(jìn)行標(biāo)點(diǎn),而我只能對我自己所能掌握的領(lǐng)域的古文進(jìn)行標(biāo)點(diǎn)。它沒有人的情緒波動,不太會犯特別低級的錯誤。另外它處理文獻(xiàn)的速度更是沒有任何專家學(xué)者能趕上,整個中華文明漢語古籍約有300億字,只要配置足夠性能的機(jī)器,幾天時間就可以全部完成,這是難以想象的速度。雖然目前人工智能在古籍自動標(biāo)點(diǎn)等方面還遠(yuǎn)遠(yuǎn)達(dá)不到完美,但確實(shí)對我們做古籍整理已經(jīng)能夠有很大的幫助了。

澎湃新聞:人文學(xué)科學(xué)者嘗試將新的計(jì)算機(jī)技術(shù)應(yīng)用于傳統(tǒng)研究,我們稱之為“數(shù)字人文”,近十來年有不少成果,許多高校都有代表性的數(shù)據(jù)庫。但ChatGPT與過去數(shù)字人文領(lǐng)域所熟悉的工具有怎樣的差別?

王濤:單純從工具的角度說,ChatGPT跟其他數(shù)字人文研究存在三點(diǎn)最大的不同:

首先,ChatGPT具有通用性。使用者幾乎所有的需求,都可以在ChatGPT上實(shí)現(xiàn)。傳統(tǒng)的數(shù)字人文工具,基本上有特定的用途,比如要做自然語言處理,可以使用Voyant;查找資料,需要使用搜索引擎,或者專業(yè)數(shù)據(jù)庫;編寫程序,需要使用Python編輯器。但這些工作,都可以在ChatGPT的平臺上完成??梢哉f,ChatGPT是一個全能型的助理,能夠?yàn)槿祟愑脩籼峁┮徽臼降慕鉀Q方案。

其次,ChatGPT的使用門檻很低,使用者只需要會用電腦打字就足夠駕馭。傳統(tǒng)的數(shù)字人文工具,都有比較高的學(xué)習(xí)成本。使用者需要對特定工具的術(shù)語、概念、適用范圍有一定了解,還需要花時間去熟悉工具的界面、命令等,才能夠獲得比較有效的結(jié)果。ChatGPT最厲害的一點(diǎn)就在于,它沒有對用戶設(shè)置任何障礙,只要會識字,就能夠用起來。(目前ChatGPT的人機(jī)交互,只能通過文本輸入輸出進(jìn)行。也許,將來更智能的AI助理,可以支持語音輸入輸出。)這很可能是ChatGPT能夠在眾多人工智能競品中率先脫穎而出的重要原因。

第三,ChatGPT給出的結(jié)果簡潔而干脆,符合用戶“只想找答案”的心態(tài)。正是由于ChatGPT基于任務(wù)導(dǎo)向的產(chǎn)品設(shè)計(jì)理念,它非常了解用戶的預(yù)期。對于用戶的任務(wù)指令,ChatGPT的反饋都是唯一的答案,沒有提供其他選項(xiàng)。這既提高了效率,也在某種程度上提升了ChatGPT的“權(quán)威性”。

當(dāng)然,這很可能跟ChatGPT本身的知識邊界相關(guān)。我看到網(wǎng)上有人嘗試讓ChatGPT重復(fù)回答同一個問題,結(jié)果若干次之后的答案基本上就是在說車轱轆話,說明ChatGPT的知識體系非常有限。升級版的ChatGPT在新必應(yīng)的加持下,將會對反饋的結(jié)果加入信息來源,也提供了更多選項(xiàng)。這或許是為了平衡。但是,跟傳統(tǒng)的關(guān)鍵詞搜索相比,其反饋動輒上萬條網(wǎng)頁結(jié)果,ChatGPT簡直就是一個知識的霸道總裁。

澎湃新聞:在我印象中,數(shù)字人文工具大部分是做數(shù)據(jù)呈現(xiàn)、檢索以及量化結(jié)構(gòu)分析,相較而言,類似ChatGPT這樣基于神經(jīng)網(wǎng)絡(luò)的人工智能,是否可以說是革命性的技術(shù)?

楊浩:是的,數(shù)字人文在過去常常是做量化分析,采用各種統(tǒng)計(jì)的方法,并對統(tǒng)計(jì)結(jié)果予以可視化與分析。比如,語言學(xué)領(lǐng)域有計(jì)算語言學(xué),用統(tǒng)計(jì)的方法研究語言學(xué),歷史學(xué)領(lǐng)域有計(jì)量史學(xué),這些都是很早就在發(fā)展的學(xué)科。但數(shù)字人文在近年來的熱潮應(yīng)該是受到人工智能的推動,與此前不同,可以說是數(shù)字人文+人工智能。

傳統(tǒng)的人文學(xué)者,通常是對特別少量的文本進(jìn)行深度挖掘。之前古籍文本數(shù)據(jù)庫的出現(xiàn)實(shí)際上已經(jīng)逐漸在改變傳統(tǒng)的人文學(xué)科研究方式。人工智能出現(xiàn)以后,在我看來,可能會有巨大的、革命性的改變。以傳統(tǒng)的古典文獻(xiàn)學(xué)為例,光是標(biāo)點(diǎn)一部典籍就是一項(xiàng)極為繁重的任務(wù),可能需要耗費(fèi)一位學(xué)者幾個月、甚至幾年的光陰,但計(jì)算機(jī)現(xiàn)在可以瞬間完成。雖然會有一些錯誤,但是對一般的理解來說夠用了。不難預(yù)料,基于神經(jīng)網(wǎng)絡(luò)的人工智能,在不久的未來,一定會對傳統(tǒng)的人文學(xué)科產(chǎn)生一些沖擊。

陳詩沛:我覺得是革命性的。語言模型的專長是把不同的資料片段集合在一起,如果我們使用這樣的模型,大量“投喂”歷史研究的論文,當(dāng)我們再問一些基礎(chǔ)的歷史問題比如“為什么中國沒有發(fā)生工業(yè)革命”,它能很快從現(xiàn)有的研究中整合出回答,這是可以實(shí)現(xiàn)的?,F(xiàn)在一般的數(shù)字人文工具沒有到這個程度。

但是,語言模型里并沒有真正的智能,它不能辨識語義,只是一種很好的拼湊和堆砌。我們需要知道這些內(nèi)容里可能有錯誤,這非常重要。那誰去判斷里面有沒有錯誤呢?就是真正的人類,知識到達(dá)一定水平的人類。

人工智能+數(shù)字人文

澎湃新聞:除了ChatGPT,還有哪些人工智能技術(shù)已經(jīng)應(yīng)用在數(shù)字人文工具中?

王宏甦:有很多,比如我們訓(xùn)練transformer 神經(jīng)模型通過文章的標(biāo)題(比如《報(bào)任少卿書》)來判斷這篇文章是不是一封書信。這個模型是為了滿足“明代書信計(jì)劃”這個子項(xiàng)目的需求而訓(xùn)練。我們需要在120萬個來自明人文集的文章標(biāo)題中過濾出所有書信標(biāo)題,并對這些標(biāo)題進(jìn)行進(jìn)一步數(shù)據(jù)挖掘。在“明代書信計(jì)劃”的簡介頁面中可以看到,我們當(dāng)前已經(jīng)把54391個經(jīng)過初步數(shù)據(jù)挖掘的明代書信信息導(dǎo)入到任何人都可以訪問且免費(fèi)注冊、下載全部數(shù)據(jù)的開源社會關(guān)系數(shù)據(jù)眾包平臺。

再比如幾年前我們訓(xùn)練BERT + LSTM 神經(jīng)網(wǎng)絡(luò)模型,用來識別中國古代地方志中的人名、地名、官名等信息。

以上這些神經(jīng)網(wǎng)絡(luò)的預(yù)訓(xùn)練模型我們都做了開放下載,任何人都可以直接下載免費(fèi)使用。

訓(xùn)練 transformer 神經(jīng)模型通過文章的標(biāo)題判斷是不是書信,Labels1是書信,0 是非書信


澎湃新聞:CBDB最新發(fā)布的“韓文(諺文)人名轉(zhuǎn)羅馬字神經(jīng)網(wǎng)絡(luò)預(yù)訓(xùn)練模型(Kraft)”是否同為機(jī)器學(xué)習(xí)的應(yīng)用?

王宏甦:是的,現(xiàn)在能見到的人名諺文-羅馬字生成工具大多基于專家規(guī)則。這些規(guī)則本身非常復(fù)雜,你可以直接打開這個網(wǎng)頁看到,總共有16頁的規(guī)范。另外,諺文羅馬字的標(biāo)準(zhǔn)也有好幾套。我們的“Kraft”在來自韓國的教授、同事、同學(xué)、學(xué)者的幫助下,建立了一萬多條訓(xùn)練集數(shù)據(jù),通過這個訓(xùn)練集,不用書寫任何規(guī)則,就能訓(xùn)練出神經(jīng)網(wǎng)絡(luò)模型將諺文轉(zhuǎn)成拼音。未來如果我們希望訓(xùn)練其他標(biāo)準(zhǔn)的諺文-羅馬字轉(zhuǎn)換規(guī)范,只要做一批訓(xùn)練集即可。在今年三月份哈佛的國際會議Tools of the Trade上,我們將會介紹這項(xiàng)工作。

澎湃新聞:楊浩老師主要致力于將人工智能的方法運(yùn)用于中國古代典籍的整理與研究,能否談?wù)勛钚碌倪M(jìn)展?

楊浩:人工智能技術(shù)在古籍方面的運(yùn)用,目前主要是將自然語言處理技術(shù)用于自動標(biāo)點(diǎn)、命名實(shí)體識別、命名實(shí)體消歧、命名實(shí)體鏈接、相似文本的判定等方面,以及將屬于計(jì)算機(jī)視覺領(lǐng)域的OCR文字識別(光學(xué)字符識別)用于古籍圖像的文字識別上。我們現(xiàn)在基于預(yù)訓(xùn)練模型在做一些相似文本的判定方面的探索,效果比之前好很多。希望未來能夠基于更多語料,建立更廣與更深的文本與文本之間的關(guān)系,切實(shí)地成為人文學(xué)者可資利用的工具。

例如北大數(shù)字人文中心在王軍教授帶領(lǐng)下正在開發(fā)的“吾與點(diǎn)”古籍智能處理系統(tǒng)與“識典古籍”整理平臺,是人工智能方法在古籍?dāng)?shù)字化方面的集中應(yīng)用。

古籍整理平臺涉及的工作流程是:上傳圖片、OCR識別(光學(xué)字符識別)、文字校對、文字??保詣訕?biāo)點(diǎn)、自動分段、結(jié)構(gòu)整理,標(biāo)點(diǎn)校對,命名實(shí)體校對。其中古籍OCR、自動標(biāo)點(diǎn)、自動分段、命名實(shí)體校對應(yīng)用的是人工智能,結(jié)構(gòu)整理用的是傳統(tǒng)計(jì)算機(jī)方法,文字校對文字??眲t依賴人機(jī)交互,即計(jì)算機(jī)校對校勘、人工審閱。

自動標(biāo)點(diǎn)、自動分段、命名實(shí)體校對是基于預(yù)訓(xùn)練語言模型的,準(zhǔn)確率都比較高。以自動分詞功能為例,古文分詞很難,沒有預(yù)訓(xùn)練語言模型之前,對古文的分詞基本上不可靠,現(xiàn)在我們用人工智能的方法使得傳統(tǒng)的搜索變得更加智能,基于詞頻的統(tǒng)計(jì)分析也更加精確。

“吾與點(diǎn)”古籍智能處理系統(tǒng)的自動分詞功能


“吾與點(diǎn)”古籍智能處理系統(tǒng)的專名識別功能


北京大學(xué)與字節(jié)跳動聯(lián)合實(shí)驗(yàn)室建設(shè)的“識典古籍”這個項(xiàng)目,是希望通過人機(jī)協(xié)作的方式,利用人工智能方法,在OCR、自動標(biāo)點(diǎn)、命名實(shí)體識別等技術(shù)之外,還能夠進(jìn)一步實(shí)現(xiàn)古籍的自動注音、自動釋義、自動翻譯等,建立起來一個文字精良、功能豐富、閱讀體驗(yàn)優(yōu)秀的古籍閱讀平臺。北大數(shù)字人文中心的其他項(xiàng)目還有“國家珍貴古籍名錄”、《永樂大典》高清影像數(shù)據(jù)庫等等,主要是采用數(shù)字人文的可視化方法。

澎湃新聞:陳詩沛老師在馬克斯·普朗克科學(xué)史研究所負(fù)責(zé)地方志研究工具LoGaRT(Local Gazetteers Research Tools)的研發(fā)工作,您曾提到想把機(jī)器學(xué)習(xí)的方法應(yīng)用于古籍影像掃描,能否談?wù)勏嚓P(guān)的設(shè)想或?qū)嶒?yàn)?

陳詩沛:我們的人工智能主要應(yīng)用在古籍圖像上。地方志里有一些圖像,如地圖、山水建筑、星象天文圖等,晚清民國時期還有人物或風(fēng)景的照片。在古籍掃描的基礎(chǔ)上,我們使用機(jī)器學(xué)習(xí)對這些影像進(jìn)行分類。很多古籍已經(jīng)掃描成影像,人工智能會把它簡化,同時根據(jù)過去人工標(biāo)注的結(jié)果,辨認(rèn)該影像是文檔、地圖或是照片,并且繼續(xù)按照這個方法去深度學(xué)習(xí)。這個機(jī)制其實(shí)和ChatGPT很像,它根據(jù)概率選擇可能性最大的一項(xiàng)。其實(shí)這個算法本身已經(jīng)很成熟,只是應(yīng)用于古籍圖像還很少。

澎湃新聞:目前的量化歷史研究、數(shù)字人文研究中,數(shù)據(jù)庫主要還是服務(wù)于學(xué)者的工具。未來的數(shù)據(jù)庫是否有可能實(shí)現(xiàn)自主學(xué)習(xí)、自主分析數(shù)據(jù)的功能,甚至最終懂得對數(shù)據(jù)自主發(fā)問,進(jìn)而壓縮質(zhì)性研究的空間?

陳詩沛:我覺得不會。無論量化還是定性研究,面對工具,人還是在主宰的位置。我會用ChatGPT搜集材料,但最后可以下結(jié)論的一定是我,而不是機(jī)器。

王宏甦:我們一直致力于用一切方法來研究歷史,在這幾年的實(shí)踐中,定量研究幫助我們發(fā)現(xiàn)了很多有助于定性研究的問題,定性研究的成果也幫助著我們建設(shè)數(shù)據(jù)和設(shè)計(jì)研究方法。這是我們項(xiàng)目主任、哈佛大學(xué)東亞系包弼德(Peter K. Bol)教授的新書 Localizing Learning: The Literati Enterprise in Wuzhou, 1100–1600 ,在這本地方史(浙江婺州)的研究著作中,可以看到許多利用“中國歷代人物傳記資料庫”數(shù)據(jù)做定量和定性分析的例子。

包弼德著,《學(xué)習(xí)在地化:婺州的文人事業(yè)(1100-1600)》,哈佛大學(xué)出版社,2022年5月


歷史學(xué)的科技未來?

澎湃新聞:王宏甦老師提到,目前在人文的問題上很少使用ChatGPT,顯然它的人文知識不夠準(zhǔn)確。不過,有沒有可能在足夠的語料庫訓(xùn)練之后,它也能勝任人文問題的解答?換句話說,歷史學(xué)家需要擔(dān)心被人工智能替代嗎?

王宏甦:未來的神經(jīng)網(wǎng)絡(luò)模型一定能在人文問題上表現(xiàn)得更好,特別是百科類和有明確答案的問題。

歷史學(xué)家本身我認(rèn)為不會被人工智能替代。首先從狹義的角度看,有些問題需要一則或者幾則史料作為鑰匙。比如某個文化在某個時期有沒有遷徙到某個地區(qū)。這需要由例如通過考古發(fā)掘發(fā)現(xiàn)的新“事實(shí)材料”給出答案。第二,從更宏觀的角度。在一些歷史問題的價值是促進(jìn)歷史學(xué)家的思考和研究,提出自己的(沒有標(biāo)準(zhǔn)答案的)想法。比如李約瑟問題、唐宋變革問題等等。對這些問題的探討不僅有助于歷史學(xué)家理解歷史,也有助于理解當(dāng)下。如果只是對這些問題做一個歷史考卷論述題式的回答,那就太浪費(fèi)這些問題了。做一個比喻,刀叉沒有替代筷子,或者筷子沒有替代刀叉并不意味著某種對抗的結(jié)果。用刀叉吃炒飯和用筷子割肉一樣不方便,它們各自有各自勝任的場景。

澎湃新聞:人工智能可能給傳統(tǒng)人文學(xué)科帶來怎樣的機(jī)會或者挑戰(zhàn)?學(xué)者應(yīng)該如何應(yīng)對、應(yīng)用這樣的技術(shù)?

楊浩:我認(rèn)為文史哲這些傳統(tǒng)的人文學(xué)科需要做出一些改變和適應(yīng)。歷史上新技術(shù)的發(fā)明總是會對某些職業(yè)帶來沖擊,人工智能是會對人文學(xué)科帶來挑戰(zhàn)的,盡管短時間內(nèi)不明顯。

首先,對于一些程式化的工作、量化的研究來說,人工智能顯然是很有力的工具。王宏甦老師把ChatGPT當(dāng)作同事,王濤老師用它來寫會議通知,它還可以做簡單的文獻(xiàn)綜述、文本摘要等。其他很多功能還可以探索,人機(jī)交互會讓它變得越來越好用。

此外,它在一定意義上可以作為一種搜索工具。王宏甦老師提到的朝鮮官職是非常專業(yè)的問題,但是我覺得“大路貨”的問題它還是可以回答。我問ChatGPT:《社會契約論》的主要內(nèi)容是什么?它就對這本名著做了一個簡單的摘要。當(dāng)然我們要警惕其中有錯誤的內(nèi)容。就目前來說,它是很有用的工具,未來類似的大語言模型還是很有發(fā)展空間的。

ChatGPT回答《社會契約論》的主要內(nèi)容,受訪者供圖


在教學(xué)方面,之前看到網(wǎng)絡(luò)上有人說,有學(xué)生用ChatGPT寫出了關(guān)于世界宗教的小論文,獲得了高分。這是可能的。本科生的作業(yè),如果只要求對本學(xué)期講述的內(nèi)容做簡單的綜合,不需要有創(chuàng)見,ChatGPT可以做得很好。這樣以后學(xué)生是不是就會偷懶、作弊呢?這種擔(dān)憂是存在的,但是也不必過于擔(dān)憂。就像數(shù)據(jù)庫剛出現(xiàn)的時候也有人擔(dān)心,學(xué)生會不會從此不讀書了?但是數(shù)據(jù)庫根本無法取代人文學(xué)者對材料的分析綜合和鑒別能力。當(dāng)大家都用數(shù)據(jù)庫的時候,工具以外的知識與能力才能決定你是否能成為一位好的研究者。反過來說,完全“掉書袋”的研究方法,未來可能會失去市場。

目前的ChatGPT,甚至未來的ChatGPT,如果它仍不具有常識,是不可能取代人文學(xué)者的。我認(rèn)為只有實(shí)現(xiàn)真正的通用人工智能,未來才有可能談得上“取代”,但那時候應(yīng)該是整個人類都要陷入危機(jī)了。

至于對于技術(shù)的態(tài)度,人文學(xué)者顯然不應(yīng)該拒斥這樣的技術(shù),反而應(yīng)該積極了解人工智能到底是怎么一回事。大數(shù)據(jù)、人工智能技術(shù)正在逐漸改變?nèi)宋难芯康姆妒?,機(jī)器可以協(xié)助處理社會、歷史、文化等各方面的語料,呈現(xiàn)新的結(jié)果,帶來新問題和新思考。當(dāng)然這個改變過程可能是緩慢的。

人文學(xué)者應(yīng)該積極參與和了解技術(shù),因?yàn)榧夹g(shù)也需要人文精神的引領(lǐng)。北大人工智能研究院朱松純老師有一句話叫“為機(jī)器立心”。未來通用人工智能的發(fā)展無法預(yù)料,人工智能會不會是“人類發(fā)明的最后一項(xiàng)技術(shù)”?技術(shù)會不會奴役人類?為人工智能立法、建立倫理、設(shè)立邊界,也是需要人文學(xué)者參與的。韓啟德院士曾經(jīng)打比方,技術(shù)發(fā)展就像一輛沒有司機(jī)但卻在加速行駛中的汽車,人文學(xué)者首先要在車上,然后才有可能逐漸去掌握方向盤。人文和技術(shù)絕不是矛盾的。

王濤:歷史學(xué)者需要利用ChatGPT,而不是被ChatGPT利用。歷史學(xué)者在研究工作中要有非常明確的問題導(dǎo)向,可以直接向ChatGPT提出需求,讓它根據(jù)算法給出一個反饋。至于這個結(jié)果是否有效,是否能夠用于研究,還是需要?dú)v史學(xué)者做專業(yè)的判斷。我對ChatGPT的歷史問答做過測評,對某些問題,ChatGPT給出的答案其實(shí)非常普通,評價為一本正經(jīng)地“胡說八道”也并不為過;即便如此,ChatGPT卻能夠用非常自信的口吻表達(dá)出來。從目前的表現(xiàn)來看,ChatGPT其實(shí)是一個“普信AI”,人類用戶不用過于悲觀,畢竟拔掉電源的主動權(quán)還在人類這邊。

第二,人工智能的進(jìn)化也逃不過巧婦難為無米之炊的窘境。我們可以預(yù)見在不久的將來,在ChatGPT普及之后,歷史學(xué)者都用它來進(jìn)行知識生產(chǎn),互聯(lián)網(wǎng)上將充斥著主要由人工智能完成的歷史內(nèi)容。ChatGPT如果還繼續(xù)用這樣的素材來進(jìn)行訓(xùn)練、進(jìn)化,那人工智能的發(fā)展很快就會進(jìn)入瓶頸。所以,人類歷史學(xué)家的工作很難被取代,否則ChatGPT拿不到新鮮的訓(xùn)練集,只能吃老本,這樣的“內(nèi)卷”對歷史研究,對人工智能都將毫無意義。

最后,在人工智能日趨成熟的當(dāng)下,破解“信息繭房”顯得更加迫切了。如果我們盡信ChatGPT的結(jié)果,沒有能力識破它是否在一本正經(jīng)地胡說八道,這將是很悲哀的事情??苹脛 兑煞缸粉櫋吩v了一個故事,男主角在互聯(lián)網(wǎng)上查詢?nèi)魏涡畔?,都會出現(xiàn)跟抑郁癥、自殺等內(nèi)容相關(guān),結(jié)果在這樣的信息熏陶下,他也選擇了自殺??此坪翢o破綻的自殺案件,其實(shí)是一場精心策劃的謀殺案。原來,男主角的仇人買兇殺人,殺手利用人工智能控制了男主角的電腦,定向給他推送自殺的消息。在這個寓言般的故事中,人工智能其實(shí)沒有好壞,用它的人才是。所以,如果我們對“信息繭房”毫無戒心,把ChatGPT的結(jié)果當(dāng)全部真相,不僅可能要錢,還有可能要命。

澎湃新聞:王濤老師在社交網(wǎng)絡(luò)上分享了ChatGPT是如何回答“鴉片戰(zhàn)爭爆發(fā)的原因”這個問題的。從教學(xué)方面來看,您認(rèn)為ChatGPT有能力完成歷史學(xué)專業(yè)的作業(yè)和論文嗎?老師們是否考慮過如何應(yīng)對?

王濤:這是一個非正式的實(shí)驗(yàn)。我出了一道非?;A(chǔ)的歷史問題,讓ChatGPT去解釋一下鴉片戰(zhàn)爭爆發(fā)的原因,然后把ChatGPT生成的答案,拿給一些歷史學(xué)者評分。坦率地講,ChatGPT的答案像模像樣,有思路,有邏輯,也能夠從多種角度作答。歷史學(xué)者們對ChatGPT答案的評價參差不齊。當(dāng)然,之所以會出現(xiàn)這種局面有一個很重要的外在因素,歷史學(xué)者事先知道這個答案是人工智能生成的,他們主觀上已經(jīng)對此有了先入為主的判斷,所以會對評價的客觀性帶來影響。

ChatGPT回答“鴉片戰(zhàn)爭爆發(fā)的原因”,受訪者供圖


從教學(xué)的方面看,讓ChatGPT獨(dú)立完成一篇具有原創(chuàng)性結(jié)論的歷史學(xué)專業(yè)論文,目前看還不可能。因?yàn)?,ChatGPT本質(zhì)上是一個語言模型,它所有知識來源都是基于已有和已知的信息。只是基于強(qiáng)大的算力,讓ChatGPT能夠快速定位,再加上算法,把知識關(guān)聯(lián)起來,并能使用邏輯通順的自然語言導(dǎo)出結(jié)果,才讓ChatGPT看起來很智能。

ChatGPT擅長的其實(shí)是對知識的整合,在文字處理上,讓它完成公務(wù)文章或者應(yīng)用文,是信手拈來的事情,因?yàn)檫@種類型的文章具有極強(qiáng)的范式。讓ChatGPT去完成一篇?dú)v史作業(yè),對知識進(jìn)行梳理和總結(jié),對它而言也是正中下懷。對ChatGPT稍加調(diào)教,投喂足夠多的八股文數(shù)據(jù),它在競爭激烈的科舉考試中拔得頭籌,應(yīng)該也是毫無壓力。

我看到《連線》網(wǎng)站上發(fā)布的一個新聞,一名英語老師對ChatGPT布置了不同類型的寫作任務(wù),從打油詩、劇本到十四行詩,ChatGPT都能應(yīng)對自如,并以極高的效率完成,多項(xiàng)作業(yè)取得了不俗的成績。

但是,老師不應(yīng)該過分擔(dān)心ChatGPT對教學(xué)的沖擊。老師們能夠調(diào)教出像ChatGPT這樣的孩子,在業(yè)務(wù)考試中取得優(yōu)異成績的學(xué)生固然值得慶幸,但是如果所有的學(xué)生都像ChatGPT那樣,只會掉書袋,也是一種悲哀。

老師們的擔(dān)憂可能是,學(xué)生們有了類似ChatGPT這樣人工智能的協(xié)助,考試作弊,不認(rèn)真學(xué)習(xí),會破壞教學(xué)秩序。這個問題,需要從老師如何教,以及學(xué)生如何學(xué)兩個方面解決。

在人工智能技術(shù)日趨完善的將來,老師的教學(xué)不能僅僅追求知識的灌輸,而是要教會學(xué)生自我成長的方法。在ChatGPT可以在掌握知識的準(zhǔn)確度上碾壓人類的背景下,“授之以魚不如授之以漁”顯得更加重要了。

對學(xué)生而言,死記硬背的方式學(xué)習(xí)知識,顯然已經(jīng)不能滿足未來社會的需求了。在記憶這個技能上,沒有人能夠比得過ChatGPT。學(xué)生們需要掌握的技能是要善于提出問題,并且能夠使用包括ChatGPT在內(nèi)的工具找出解決方案。

澎湃新聞:以一個歷史學(xué)者的眼光,您認(rèn)為人工智能會給史學(xué)這門古老的學(xué)問帶來怎樣的影響?

王濤:ChatGPT的歷史知識是有來源的,它之所以顯得智能,就在于它能夠在數(shù)據(jù)庫中定位到相關(guān)的歷史結(jié)論。而這些知識體系,是由一代一代人類歷史學(xué)者通過腦力研究得出的成果。

所以,從比較和諧的角度來說,以ChatGPT為代表的人工智能技術(shù)對歷史學(xué)科的發(fā)展有積極推動作用,關(guān)鍵在于專業(yè)的歷史學(xué)家是否能夠用好這個助理。

歷史學(xué)家的長處,從來不是過目不忘,而是善于在不同史料中穿行,找出符合歷史語境的解釋與判斷。而歷史學(xué)家不擅長的地方,正是對ChatGPT等人工智能工具而言最普通的技能,所以兩者的合作對雙方都是揚(yáng)長避短,有機(jī)會達(dá)到雙贏的局面。

在前數(shù)字化時代,歷史學(xué)者非常重視閱讀筆記的作用,因?yàn)榧幢阌胁┞剰?qiáng)識的大學(xué)問家,大多數(shù)人的情況是好記性不如爛筆頭。學(xué)者們需要通過筆記對史料進(jìn)行體系化構(gòu)建,從而給研究提供思路和線索,特別是在書寫研究論文的時候,根據(jù)學(xué)術(shù)規(guī)范的要求對史料來源進(jìn)行注釋才能夠從容不迫。

我在ChatGPT上做過實(shí)驗(yàn),丟給ChatGPT一個問題,用符合美國現(xiàn)代語言協(xié)會制定的論文格式(MLA),規(guī)范地引用“知識就是力量”這句話。ChatGPT精準(zhǔn)地給出了作者、書名、出版年份等信息,獨(dú)缺頁碼信息。我追問了一下,為什么沒有頁碼,ChatGPT回答,在培根生活的16世紀(jì),出版的圖書還沒有出現(xiàn)規(guī)范的頁碼格式。ChatGPT還特別貼心地提醒我,培根的作品被很多文集再版了,那里可以找到頁碼信息。

澎湃新聞:楊浩老師是北大哲學(xué)系的博士,跨界到技術(shù)領(lǐng)域從事數(shù)字人文的工作。您怎么看技術(shù)給人文學(xué)科帶來的改變?要跨越不同學(xué)科間的壁壘,關(guān)鍵在哪里?

楊浩:帶來的改變我認(rèn)為大致有三個方面。第一在方法上,數(shù)字人文是量化的方法,對傳統(tǒng)的質(zhì)性研究是很重要的補(bǔ)充。第二是在視角上,逆轉(zhuǎn)了傳統(tǒng)人文學(xué)科研究那種越來越細(xì)分、越來越專門的趨勢,整合碎片化的知識生產(chǎn),帶來大尺度、大跨度的視角。第三在文獻(xiàn)上,可以提供全量文獻(xiàn)基礎(chǔ)上的研究與分析。真正的大數(shù)據(jù)含義,是趨向于無窮大的數(shù)據(jù);全部中文古籍總量也就300億字,永遠(yuǎn)不再增長,其實(shí)是“小數(shù)據(jù)”,是有極限的。數(shù)字人文的方法在理論上可以實(shí)現(xiàn)全量文獻(xiàn)基礎(chǔ)上的研究,這是過去不可能做到的。

打破不同學(xué)科之間的學(xué)術(shù)壁壘需要一些頂層設(shè)計(jì),在教育的層面鼓勵交叉學(xué)科的實(shí)踐、跨學(xué)科人才的培養(yǎng)。作為個體,無論是文是理,有這樣一些內(nèi)容是需要主動學(xué)習(xí)的:通識教育、經(jīng)典教育、對技術(shù)的掌握和自學(xué)的能力。通識的重要性毋庸多言,通用人工智能之所以驚人,也正是因?yàn)椤巴ā?。而掌握傳統(tǒng)人文知識,最好的途徑就是經(jīng)典教育,未來的人工智能如果要理解人,也要學(xué)習(xí)經(jīng)典?,F(xiàn)在這個時代,無論文理都需要掌握技術(shù),技術(shù)就是一門語言,一種生存技能。最后,我個人最大的體會還是自學(xué)能力,善于自學(xué)才能突破邊界。技術(shù)日新月異,各種新思想也不斷涌現(xiàn),沒有主動學(xué)習(xí)的能力,肯定不行。

人工智能讓我們反思人的本質(zhì),“人是什么”。人類做機(jī)械的、重復(fù)的工作的能力,并不比機(jī)器弱。所以人工智能會淘汰平庸的抄襲者,完全沒有創(chuàng)造力的工作一定會被人工智能取代。

澎湃新聞:陳詩沛老師所在的德國柏林馬克斯·普朗克科學(xué)史研究所是一個很有代表性的跨學(xué)科研究機(jī)構(gòu),科學(xué)史本身有學(xué)科交叉的性質(zhì),馬普所又倡導(dǎo)“歷史學(xué)家和計(jì)算機(jī)科學(xué)家同桌思考”。陳老師是計(jì)算機(jī)系的博士,您是怎么與歷史結(jié)緣的?以您的個人經(jīng)驗(yàn)而言,如何使兩個來自不同領(lǐng)域的人溝通得更順暢?

陳詩沛:我在臺灣大學(xué)計(jì)算機(jī)工程系的導(dǎo)師是項(xiàng)潔老師,他是數(shù)字人文最早的倡導(dǎo)者和實(shí)踐者之一。當(dāng)時他被任命為臺大圖書館館長,正在做歷史古籍的數(shù)字化項(xiàng)目,我和系里的很多碩士生、博士生一樣,參與了這些項(xiàng)目。

我的確覺得計(jì)算機(jī)和歷史學(xué)這兩個領(lǐng)域之間的壁壘很高,難以跨越。這也解釋了為什么很少計(jì)算機(jī)科學(xué)家投入數(shù)字人文。我當(dāng)初并不是一個好的計(jì)算機(jī)科學(xué)家,因?yàn)槲蚁矚g跟人講話,不喜歡跟機(jī)器講話。但由于我了解一些計(jì)算機(jī)的基礎(chǔ)概念,我就試著把它們解釋給歷史學(xué)家、人文學(xué)家。在這兩個領(lǐng)域里,大家使用的語言和思考方式不同。一個計(jì)算機(jī)科學(xué)家可能不理解一個歷史學(xué)家提出的問題有什么意思,做出來的東西不見得符合歷史學(xué)的需求。

我覺得我花了很長時間才真正進(jìn)入人文學(xué)科,直到最近幾年才覺得自己被歷史學(xué)家們接納,他們開始認(rèn)可我提出的問題是人文學(xué)者的問題。而我真正理解他們在做的事情,是通過閱讀歷史學(xué)、科學(xué)史方面的論文,以及參與他們的討論。我所接觸的歷史學(xué)者們,主要的學(xué)術(shù)活動是報(bào)告論文,他們會把論文初稿拿出來和大家切磋討論,得到反饋后再修改、發(fā)表。我參與這樣的報(bào)告和討論三四年以后,才逐漸感覺能夠理解他們在意的問題、他們的需求、他們做研究的本質(zhì),以及他們所追求的到底是什么。

身在數(shù)字人文這個領(lǐng)域,我的確有一個信念,就是這些數(shù)字工具可以為歷史研究提供很好的服務(wù),做出以往不容易做到的事情。但我們需要保持警醒,數(shù)據(jù)本身是不客觀的,尤其是歷史上的數(shù)據(jù),因?yàn)橛刑嘈畔⒁呀?jīng)遺失。所以我們不會完全相信它。我們解釋這些數(shù)據(jù)背后代表什么意思,保持對歷史文檔本身的懷疑,保持對歷史的懷疑。因?yàn)槊恳粋€文檔都不是客觀的。

回到你前面的問題,歷史學(xué)的訓(xùn)練到底是什么?我經(jīng)過和許多歷史學(xué)家的合作,深深體會到的就是,歷史文檔不是客觀的,每個文檔產(chǎn)生的背景都不一樣,很多東西沒有被寫下來,只有去重構(gòu)文檔生成的過程,才能做出相對客觀的判斷。

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號