注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)新聞資訊文化

歷史與AI的距離:AI在古典學(xué)中的應(yīng)用

2023年,高等教育(HE)領(lǐng)域的許多大學(xué)和政策組織都在努力制定在高等教育教學(xué)(T&L)中使用生成式人工智能的指導(dǎo)原則和指南。

2023年,高等教育(HE)領(lǐng)域的許多大學(xué)和政策組織都在努力制定在高等教育教學(xué)(T&L)中使用生成式人工智能的指導(dǎo)原則和指南。美國(guó)、英國(guó)和歐洲多所高校紛紛在課堂規(guī)定中加入了關(guān)于AI使用的規(guī)范和要求。教師們對(duì)AI的態(tài)度相差甚遠(yuǎn)。有些老師完全不介意學(xué)生使用AI來(lái)輔助論文寫作,甚至對(duì)這種做法持開放態(tài)度,支持AI把學(xué)生從現(xiàn)代語(yǔ)言的束縛中解放出來(lái),讓他們更多投入到問(wèn)題討論中。同時(shí)也有學(xué)者嘲諷人工智能就是“人工弱智”,認(rèn)為它無(wú)法替代歷史學(xué)者的工作,但沒想到的是,AI已經(jīng)悄無(wú)聲息地迅速更新?lián)Q代,超越了一部分學(xué)者翻譯和整理古典語(yǔ)言資料的速度。幾個(gè)月前,DeepL還無(wú)法處理中文術(shù)語(yǔ)表,而現(xiàn)在這已經(jīng)迅速改善?!皊enate”可以同時(shí)對(duì)應(yīng)古老的元老院和現(xiàn)代的參議院,人工智能對(duì)語(yǔ)境的把握也使得術(shù)語(yǔ)翻譯更加精準(zhǔn)。人工智能在古代語(yǔ)言材料的復(fù)原、翻譯、教學(xué)和研究中扮演的角色越來(lái)越重要,其效果也備受關(guān)注,國(guó)際會(huì)議和工作坊對(duì)此展開了熱烈的討論。

高校課程中對(duì)人工智能使用的規(guī)范與準(zhǔn)則


如今,人工智能用于研究的可能性已超乎人們的想象。過(guò)去令人一籌莫展的焦炭紙草,如今已經(jīng)無(wú)需手動(dòng)展開就可探索其中奧妙。對(duì)于因公元79年維蘇威火山爆發(fā)而被掩埋、因高溫碳化而變得異常脆弱的紙莎草文獻(xiàn),研究人員利用X射線斷層掃描技術(shù)對(duì)這些脆弱的卷軸進(jìn)行3D掃描,隨后在3D圖像中精確追蹤并鋪平卷曲的紙莎草層。借助先進(jìn)的機(jī)器學(xué)習(xí)模型,這些復(fù)雜的文字得以被準(zhǔn)確識(shí)別?!熬S蘇威挑戰(zhàn)”(Vesuvius Challenge)活動(dòng)更是激勵(lì)參賽者結(jié)合三維繪圖與人工智能技術(shù),檢測(cè)并破譯數(shù)字掃描后的赫庫(kù)蘭尼姆紙莎草紙卷軸片段中的墨跡與字母形狀。紙草學(xué)之外,學(xué)界對(duì)于將人工智能應(yīng)用到史料檢索、古典語(yǔ)言訓(xùn)練、古典文本破譯、翻譯與研究都有不同程度的探索。

維蘇威火山挑戰(zhàn)賽中使用的兩個(gè)卷軸 圖片來(lái)源:維蘇威火山挑戰(zhàn)賽


史料檢索

https://humanitext.ai界面


日本學(xué)者近期推出了名為Humanitext Antiqua的新型人工智能對(duì)話系統(tǒng)。該系統(tǒng)目前正處于試用期階段,可免費(fèi)供用戶體驗(yàn)。Humanitext Antiqua旨在為古典研究領(lǐng)域的學(xué)者及研究人員提供一個(gè)不可或缺的輔助工具。截至目前,Humanitext Antiqua已涵蓋22位西方古典作家的全集,總計(jì)約400篇文本。平臺(tái)覆蓋的作者與作品數(shù)量仍在持續(xù)擴(kuò)展。這一系統(tǒng)的趣味性在于,讓學(xué)者與古典文本進(jìn)行對(duì)話。借助強(qiáng)大的上下文搜索功能和基于對(duì)話的交互模式,用戶能夠直觀地深入探索并分析古典文學(xué)作品。目前研發(fā)團(tuán)隊(duì)仍在努力,致力于進(jìn)一步提升檢索增強(qiáng)生成(RAG)技術(shù)和上下文搜索功能的精確度。不過(guò),在實(shí)際試用過(guò)程中,用中文提問(wèn)給出的檢索文獻(xiàn)不盡如人意,使用英文對(duì)話的結(jié)果則更為可觀。盡管數(shù)據(jù)庫(kù)給出檢索史料的英譯文,卻沒有提供古希臘語(yǔ)原文、版本和譯者信息,因此只能在整理材料時(shí)供參考,無(wú)法直接引用。

Humanitext Antiqua的新型人工智能對(duì)話系統(tǒng)


Humanitext Antiqua的新型人工智能對(duì)話系統(tǒng)


文本研究

AI在古典文本研究中的應(yīng)用方式十分多樣,覆蓋了文本數(shù)字化、文字識(shí)別、殘缺文本復(fù)原、文獻(xiàn)定位(年代、空間、作者)、文獻(xiàn)語(yǔ)言分析、文本??薄⑽墨I(xiàn)翻譯等諸多方面。在語(yǔ)言分析過(guò)程中,在文本中定位單詞或字符邊界的過(guò)程(Tokenization)和識(shí)別句子邊界(sentence segmentation)有助于實(shí)現(xiàn)古代語(yǔ)言分析的自動(dòng)化。然而,語(yǔ)言和書寫系統(tǒng)的模糊性和多樣性為這兩項(xiàng)工作帶來(lái)不少挑戰(zhàn)。將AI用于作者風(fēng)格分析、文本譜系分析和互文分析則進(jìn)一步為文本??碧峁﹨⒖?。除此之外,AI對(duì)于文本闡釋也并非毫無(wú)價(jià)值。情感分析(Sentiment analysis)致力于從文本中提取主觀信息和情感狀態(tài),而BERT技術(shù)(Bidirectional Encoder Representations from Transformers)的引進(jìn)對(duì)此大有助益。

目前已經(jīng)有學(xué)者嘗試以計(jì)算語(yǔ)言學(xué)來(lái)進(jìn)行荷馬史詩(shī)的語(yǔ)言研究。John Pavlopoulos等學(xué)者使用基于字符的統(tǒng)計(jì)語(yǔ)言模型來(lái)分析《伊利亞特》、《奧德賽》與荷馬頌詩(shī)之間的語(yǔ)言相似性和差異,通過(guò)語(yǔ)言模型提取了文本中的各種特征,如詞頻、詞序、語(yǔ)法結(jié)構(gòu)等,由此認(rèn)為荷馬史詩(shī)很可能是由多個(gè)作者共同創(chuàng)作的,而非單一作者。計(jì)算機(jī)分析得出某些書卷之間的語(yǔ)言相似性很高,而另一些則相差甚遠(yuǎn)。獻(xiàn)給阿佛洛狄忒頌詩(shī)的語(yǔ)言與《伊利亞特》和《奧德賽》較為接近,而獻(xiàn)給赫爾墨斯的頌詩(shī)則相差較遠(yuǎn)。統(tǒng)計(jì)語(yǔ)言模型能夠高效地將《伊利亞特》和《奧德賽》中的段落進(jìn)行分類,且與學(xué)者分類結(jié)果相似。與傳統(tǒng)的基于詞匯的語(yǔ)言模型相比,字符級(jí)語(yǔ)言模型能夠更好地捕捉語(yǔ)言的細(xì)微差異。

古典語(yǔ)言教學(xué)

Edward Ross在國(guó)際工作坊中介紹了在古代語(yǔ)言課程中使用生成型人工智能的教學(xué)經(jīng)驗(yàn)。他和他的實(shí)驗(yàn)團(tuán)隊(duì)展示了如何運(yùn)用ChatGPT4o、Copilot、Gemini和Claude等AI模型來(lái)設(shè)計(jì)古希臘語(yǔ)、拉丁語(yǔ)和梵語(yǔ)等古代語(yǔ)言的教學(xué)練習(xí)。例如,要求AI快速生成詞匯測(cè)驗(yàn)、古典文獻(xiàn)翻譯、閱讀理解題目、圖像和聲音。以《伊利亞特》與維吉爾的《埃涅阿斯紀(jì)》作為教學(xué)示例,Ross要求不同的AI系統(tǒng)分別為經(jīng)典文段設(shè)計(jì)閱讀理解題和古希臘語(yǔ)法題。

對(duì)于維吉爾《埃涅阿斯紀(jì)》的拉丁文,GPT能夠提出相應(yīng)的問(wèn)題。然而,在處理《伊利亞特》的希臘語(yǔ)時(shí),GPT提出的閱讀理解問(wèn)題較為模糊。于是,Ross進(jìn)一步要求GPT提供語(yǔ)言學(xué)習(xí)方面的具體問(wèn)題。Copilot每天雖然僅免費(fèi)回答四個(gè)問(wèn)題,但其設(shè)計(jì)的題目質(zhì)量較高,并且能夠給出參考答案,這在教學(xué)輔助中極具價(jià)值。不過(guò),如果嘗試讓它模仿西塞羅撰寫拉丁語(yǔ)散文,可能會(huì)遇到嚴(yán)重的詞匯選擇問(wèn)題。值得注意的是,Copilot的提問(wèn)能力可能超越給定的文本范圍,有時(shí)會(huì)基于對(duì)整個(gè)《伊利亞特》的理解來(lái)提出問(wèn)題。這在一定程度上展示了其對(duì)于歷史語(yǔ)境把握不足,而只能給出背景性的問(wèn)題。Claude免費(fèi)版本提供的問(wèn)題則顯得不太實(shí)用。Gemini則能夠閱讀希臘語(yǔ),并能提出一些基礎(chǔ)性的問(wèn)題,但這些問(wèn)題往往不夠具體細(xì)致。若要求它針對(duì)特定細(xì)節(jié)提問(wèn),Gemini會(huì)轉(zhuǎn)向希臘語(yǔ)語(yǔ)法層面的問(wèn)題,而較少涉及段落內(nèi)容的文本闡釋。

目前國(guó)內(nèi)古希臘、拉丁語(yǔ)教學(xué)課程對(duì)于古典語(yǔ)言的寫作訓(xùn)練(Composition)的要求或許還不算高,大部分高校的語(yǔ)言課程以閱讀為主。如果需要進(jìn)一步提高語(yǔ)言水平,古典語(yǔ)言寫作的練習(xí)也十分重要。當(dāng)我們給出一個(gè)古典學(xué)家相關(guān)的話題,要求AI進(jìn)行寫作訓(xùn)練,GPT在收集信息的準(zhǔn)確性和語(yǔ)言風(fēng)格變化等方面的表現(xiàn)遠(yuǎn)遠(yuǎn)超過(guò)Gemini。

GPT普通版拉丁語(yǔ)芬利簡(jiǎn)介


GPT西塞羅文風(fēng)版拉丁語(yǔ)芬利簡(jiǎn)介


詩(shī)歌文本翻譯

古典文本中,散文的翻譯難度小于詩(shī)歌。盡管AI可以自動(dòng)識(shí)別較為清晰的古希臘語(yǔ)截圖,但對(duì)詩(shī)歌的翻譯仍不盡如人意。在這方面,Claude3.5無(wú)法翻譯出詩(shī)歌的韻律。免費(fèi)版GPT中文譯文表現(xiàn)則不如Gemini,缺乏還原詩(shī)歌韻律的意識(shí),即使給出體現(xiàn)詩(shī)歌文風(fēng)的指令,中譯文也不工整。

古希臘原文


GPT 4.0


GPT 4.0


GPT 3.5


Gemini不僅會(huì)給出譯文,還會(huì)逐行給出評(píng)注。


在古典語(yǔ)言教學(xué)中,Gemini的優(yōu)勢(shì)在于:首先,相較于GPT3.5,Gemini的詞匯量更大。這使得它能夠?yàn)閷W(xué)習(xí)者提供更豐富和準(zhǔn)確的詞匯學(xué)習(xí)資源。在生成閱讀理解題目和進(jìn)行語(yǔ)法分析時(shí),Gemini展現(xiàn)出較為完整和系統(tǒng)的能力,其題目設(shè)計(jì)既基礎(chǔ)又具有一定的挑戰(zhàn)性,非常適合本科生等初學(xué)者群體,有助于他們逐步掌握古希臘語(yǔ)語(yǔ)法結(jié)構(gòu)和閱讀能力。

目前,部分國(guó)內(nèi)高校無(wú)法同時(shí)開設(shè)古希臘語(yǔ)和拉丁語(yǔ)的課程,學(xué)生也可能沒有充分的時(shí)間和精力同時(shí)兼顧兩門語(yǔ)言課。面對(duì)學(xué)過(guò)其中一門語(yǔ)言,但又需要保持熟練度的同學(xué),Gemini等AI可以輔助古希臘語(yǔ)和拉丁語(yǔ)的交替復(fù)習(xí)。

 語(yǔ)法知識(shí)點(diǎn)解釋:

 Gemini一個(gè)顯著的劣勢(shì)在于它暫時(shí)無(wú)法有效處理殘篇、銘文以及通過(guò)OCR(光學(xué)字符識(shí)別)技術(shù)從圖像中提取的古希臘語(yǔ)文本。殘篇往往因?yàn)楸4鏍顩r不佳、書寫風(fēng)格各異或存在模糊、斷裂等問(wèn)題,難以自動(dòng)識(shí)別和分析。Gemini在這方面的不足,限制了其在某些特定研究領(lǐng)域的應(yīng)用范圍。

文字識(shí)別方面,Gemini對(duì)于圖片中的拉丁語(yǔ)文字識(shí)別較為有效,但對(duì)于照片中的古希臘語(yǔ)則相對(duì)較弱。但Gemini就像善良的路人一樣,在無(wú)法回答問(wèn)路人尋求的具體方向時(shí),依然嘗試向路人提供一些別的幫助,例如給出相關(guān)的語(yǔ)言學(xué)習(xí)資源和軟件。但AI的識(shí)別能力提升速度十分迅速,僅僅在初次提問(wèn)的2個(gè)月后,Gemini已經(jīng)能給出較為粗糙且存在錯(cuò)誤的答案了。(Μ? γ?ρ το?το τ?ν γ? ?? ?ληθ?? ?νδρα ??τεον ?στ?.)GPT給出的識(shí)別結(jié)果也同樣不完全準(zhǔn)確。(Μ? γ?ρ το?το τ?ν γε ?? ?ληθ?? ?νδρα ??τεον ?στ?ν.)

對(duì)于教師而言,AI目前對(duì)于古代語(yǔ)言的教學(xué)還算不上具有顛覆性,不過(guò)是錦上添花,能豐富課堂的趣味性,協(xié)助設(shè)計(jì)和批改課程作業(yè)。在少許歐洲高校將教室現(xiàn)代化的過(guò)程中,教室的黑板占據(jù)的空間越來(lái)越小,甚至消失了。這在一定程度上也影響了傳統(tǒng)的課堂板書。甚至有語(yǔ)言專業(yè)的課堂由于黑板太小,教師改為用投屏的方式以電子筆進(jìn)行批注和輸入來(lái)呈現(xiàn)板書。如此一來(lái),AI的自動(dòng)聯(lián)想輸入有助于提升電子化課堂學(xué)習(xí)的效率。

對(duì)學(xué)生而言,AI目前的弊端也不可忽略。不少學(xué)生向AI提問(wèn)單詞含義之后不再翻查字典。在文本語(yǔ)境缺失的情況下,用AI來(lái)查單詞暫時(shí)是不可取的。不過(guò),近期嵌入瀏覽器的的AI能夠更好地解決這一問(wèn)題,通過(guò)閱讀網(wǎng)頁(yè)內(nèi)容更準(zhǔn)確地提供詞匯的含義。首先,不少AI由于缺乏詞典數(shù)據(jù)的支持,目前仍然不足以支持閱讀多種詩(shī)歌文本。對(duì)于復(fù)雜的多方言文本,AI無(wú)法準(zhǔn)確識(shí)別難度較大的詞形變化,時(shí)常給出錯(cuò)誤的詞匯含義。其次,AI給出的單詞義項(xiàng)較為單一,且缺乏常見用法與文本的展示,這對(duì)于學(xué)生的詞匯積累十分不利。與此同時(shí),詢問(wèn)AI單詞含義使得學(xué)生不再思考古希臘語(yǔ)詞形變化的規(guī)則。如果不要求AI提供古希臘語(yǔ)的詞匯原形,學(xué)生也喪失了記住單詞的機(jī)會(huì)。

銘文識(shí)讀與翻譯

如果說(shuō)古典語(yǔ)言散文的翻譯相對(duì)較為容易,具有格律的詩(shī)歌較為困難,AI對(duì)于碑銘、紙草等殘篇的解析能力又如何呢?AI似乎能較為輕松地處理簡(jiǎn)單且已經(jīng)具有現(xiàn)代語(yǔ)言譯文的希臘拉丁銘文殘篇。我們可以在Chrome等瀏覽器中嵌入Sider,這樣一來(lái),打開碑銘文本https://epigraphy.packhum.org/等網(wǎng)站之后,用鼠標(biāo)勾選文本,Sider能夠即時(shí)開啟對(duì)銘文的翻譯工作。 

銘文識(shí)讀與翻譯


 Sider Fusion用于希臘銘文翻譯示例


遺憾的是,將免費(fèi)AI用于在碑銘訓(xùn)練時(shí),大小寫的轉(zhuǎn)換則不盡人意。當(dāng)我們要求Sider把希臘語(yǔ)小寫文本轉(zhuǎn)化為大寫希臘字母時(shí),結(jié)果出現(xiàn)了ΗΩ等字母的轉(zhuǎn)化錯(cuò)誤和局部失敗。而且,承載著銘文的石碑本身所具有的物質(zhì)屬性和字母形態(tài)是AI轉(zhuǎn)換的文本無(wú)法呈現(xiàn)的。因此,在碑銘學(xué)課程中,使用傳統(tǒng)的圖片來(lái)進(jìn)行轉(zhuǎn)寫練習(xí)更為可靠。

當(dāng)沒有古代語(yǔ)言基礎(chǔ)的學(xué)生練習(xí)史料檢索、篩選一篇碑銘是否為所需史料時(shí),AI的譯文或許可以派上用場(chǎng)。不過(guò),在研究中進(jìn)行銘文翻譯仍然無(wú)法脫離人工校對(duì)。在涉及跨行和破損嚴(yán)重的殘篇時(shí),AI的翻譯不盡如人意。即使面對(duì)較為完整簡(jiǎn)單的榮譽(yù)銘文,AI的翻譯也時(shí)常存在一些問(wèn)題。

Sider與學(xué)者的銘文翻譯比較


碑銘文本具有高度程式化的表述,AI處理較為簡(jiǎn)單的喪葬銘文和榮譽(yù)銘文基本不在話下,但面對(duì)較為復(fù)雜的法令銘文,尤其是殘篇,其翻譯表現(xiàn)則有待提升。目前國(guó)內(nèi)的古代史教學(xué)中,有條件開設(shè)碑銘學(xué)課程與訓(xùn)練的高校仍屬少數(shù)。對(duì)于沒有現(xiàn)代語(yǔ)言譯文的碑銘史料,許多學(xué)生幾乎不會(huì)嘗試去探索和使用。但若沒有古代語(yǔ)言的基礎(chǔ),學(xué)生也不具備校對(duì)AI譯文的能力,在這種情況下借助AI的銘文譯文也是十分危險(xiǎn)的?;蛟S,目前AI翻譯碑銘與紙草的能力能為學(xué)生的論文寫作增添一個(gè)史料的腳注吧。

如果說(shuō)AI在碑銘翻譯方面為研究帶來(lái)便捷,能夠提升初學(xué)者瀏覽和整理史料的速度。那么DeepMind開發(fā)的Ithaca項(xiàng)目對(duì)古希臘銘文的破譯與研究的推動(dòng)則更具革命性。早在2019年就出現(xiàn)了Pythia這一利用深度神經(jīng)網(wǎng)絡(luò)從受損文本輸入中恢復(fù)缺失字符的古文字修復(fù)模型,將最大的古希臘銘文庫(kù)PHI轉(zhuǎn)換為機(jī)器可操作文本(PHI-ML)。而Ithaca項(xiàng)目不僅能夠修復(fù)殘缺的銘文,還能為碑銘的銘刻時(shí)間與地理位置提供參考。值得注意的是,Ithaca的輸出結(jié)果并非單一答案,而是提供多種可能性,這為研究者提供了豐富的參考與借鑒方向。

然而,數(shù)據(jù)庫(kù)的封閉性減緩了AI學(xué)習(xí)能力的提升速度。目前Ithaca項(xiàng)目的數(shù)據(jù)庫(kù)主要依賴于希臘銘文公共數(shù)據(jù)集(例如The Packard Humanities Institute’s Searchable Greek Inscriptions),對(duì)博睿出版社最新的《希臘銘文補(bǔ)編》(SEG)和碑銘學(xué)年鑒(AE)等最新數(shù)據(jù)未能全面納入。開源問(wèn)題一旦不復(fù)存在,Ithaca應(yīng)用很可能成為未來(lái)碑銘學(xué)教學(xué)中不得不加入的實(shí)踐環(huán)節(jié)。

碑銘學(xué)的數(shù)字化也成為近年來(lái)學(xué)界討論的一大議題。第九屆Epigraphy.info研討會(huì)將于2025年4月2日至4日在丹麥舉行。該會(huì)議由過(guò)去的社交網(wǎng)絡(luò)項(xiàng)目和奧胡斯大學(xué)歷史和古典研究系的實(shí)驗(yàn)室主辦,將數(shù)字銘文的研究人員和愛好者聚集在一起,討論當(dāng)前趨勢(shì)和問(wèn)題(參閱https://epigraphy.info/)。

用AI可能會(huì)錯(cuò)過(guò)什么?

在依賴AI的過(guò)程中,閱讀古典語(yǔ)言本身的快樂和痛苦則可能被校對(duì)譯文準(zhǔn)確性的煩勞取代。對(duì)于還未掌握古典語(yǔ)言和現(xiàn)代語(yǔ)言的學(xué)生而言,偷懶取代了熟悉詞形變化和方言變化的學(xué)習(xí)機(jī)會(huì)。高效率和機(jī)械化的工作方式可能會(huì)打破漫游古代世界的閑暇感,這或許是這個(gè)時(shí)代選擇古典學(xué)的人們一直試圖抵抗的洪流。

在閱讀碑銘的過(guò)程中,觀察字母形態(tài)的變化、刻寫方式的變化、銘文的物質(zhì)特征都是讓讀者津津樂道的事情。相比一鍵生成的AI譯文,在“放慢速度”翻譯銘文的過(guò)程中,審視既往校勘文本的讀者也可能突然眼前一亮,意識(shí)到舊版本的錯(cuò)誤,并為這一微小而無(wú)用的發(fā)現(xiàn)而欣喜若狂。漫游在碑銘博物館中欣賞形形色色的石碑,一位學(xué)者可能突然意識(shí)到眼前的殘碑是另一組殘片的一塊。遺失已久的拼圖終于再現(xiàn)完整面貌。這種在場(chǎng)感和成就感也是用AI拼合銘文圖片無(wú)法感受的快樂。

現(xiàn)代AI工具如此便捷,不少碑銘學(xué)家對(duì)此或許也只是一笑置之。因?yàn)樵谙ED羅馬的碑銘中自如穿梭,在辦公室里一邊翻轉(zhuǎn)角度審視碑銘照片,一邊撓頭破解藏匿在腐朽碑面隱隱約約的一個(gè)個(gè)字母痕跡,拼湊出完成的碑銘全貌,亦是誰(shuí)也無(wú)法剝奪的研究樂趣。

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)