歷史與AI的距離：AI在古典學中的應(yīng)用

白珊珊 2024-11-08 來源：澎湃新聞

2023年，高等教育（HE）領(lǐng)域的許多大學和政策組織都在努力制定在高等教育教學（T&L）中使用生成式人工智能的指導原則和指南。

2023年，高等教育（HE）領(lǐng)域的許多大學和政策組織都在努力制定在高等教育教學（T&L）中使用生成式人工智能的指導原則和指南。美國、英國和歐洲多所高校紛紛在課堂規(guī)定中加入了關(guān)于AI使用的規(guī)范和要求。教師們對AI的態(tài)度相差甚遠。有些老師完全不介意學生使用AI來輔助論文寫作，甚至對這種做法持開放態(tài)度，支持AI把學生從現(xiàn)代語言的束縛中解放出來，讓他們更多投入到問題討論中。同時也有學者嘲諷人工智能就是“人工弱智”，認為它無法替代歷史學者的工作，但沒想到的是，AI已經(jīng)悄無聲息地迅速更新?lián)Q代，超越了一部分學者翻譯和整理古典語言資料的速度。幾個月前，DeepL還無法處理中文術(shù)語表，而現(xiàn)在這已經(jīng)迅速改善?！皊enate”可以同時對應(yīng)古老的元老院和現(xiàn)代的參議院，人工智能對語境的把握也使得術(shù)語翻譯更加精準。人工智能在古代語言材料的復原、翻譯、教學和研究中扮演的角色越來越重要，其效果也備受關(guān)注，國際會議和工作坊對此展開了熱烈的討論。

高校課程中對人工智能使用的規(guī)范與準則

如今，人工智能用于研究的可能性已超乎人們的想象。過去令人一籌莫展的焦炭紙草，如今已經(jīng)無需手動展開就可探索其中奧妙。對于因公元79年維蘇威火山爆發(fā)而被掩埋、因高溫碳化而變得異常脆弱的紙莎草文獻，研究人員利用X射線斷層掃描技術(shù)對這些脆弱的卷軸進行3D掃描，隨后在3D圖像中精確追蹤并鋪平卷曲的紙莎草層。借助先進的機器學習模型，這些復雜的文字得以被準確識別?！熬S蘇威挑戰(zhàn)”（Vesuvius Challenge）活動更是激勵參賽者結(jié)合三維繪圖與人工智能技術(shù)，檢測并破譯數(shù)字掃描后的赫庫蘭尼姆紙莎草紙卷軸片段中的墨跡與字母形狀。紙草學之外，學界對于將人工智能應(yīng)用到史料檢索、古典語言訓練、古典文本破譯、翻譯與研究都有不同程度的探索。

維蘇威火山挑戰(zhàn)賽中使用的兩個卷軸圖片來源：維蘇威火山挑戰(zhàn)賽

史料檢索

https://humanitext.ai界面

日本學者近期推出了名為Humanitext Antiqua的新型人工智能對話系統(tǒng)。該系統(tǒng)目前正處于試用期階段，可免費供用戶體驗。Humanitext Antiqua旨在為古典研究領(lǐng)域的學者及研究人員提供一個不可或缺的輔助工具。截至目前，Humanitext Antiqua已涵蓋22位西方古典作家的全集，總計約400篇文本。平臺覆蓋的作者與作品數(shù)量仍在持續(xù)擴展。這一系統(tǒng)的趣味性在于，讓學者與古典文本進行對話。借助強大的上下文搜索功能和基于對話的交互模式，用戶能夠直觀地深入探索并分析古典文學作品。目前研發(fā)團隊仍在努力，致力于進一步提升檢索增強生成（RAG）技術(shù)和上下文搜索功能的精確度。不過，在實際試用過程中，用中文提問給出的檢索文獻不盡如人意，使用英文對話的結(jié)果則更為可觀。盡管數(shù)據(jù)庫給出檢索史料的英譯文，卻沒有提供古希臘語原文、版本和譯者信息，因此只能在整理材料時供參考，無法直接引用。

Humanitext Antiqua的新型人工智能對話系統(tǒng)

文本研究

AI在古典文本研究中的應(yīng)用方式十分多樣，覆蓋了文本數(shù)字化、文字識別、殘缺文本復原、文獻定位（年代、空間、作者）、文獻語言分析、文本?？?、文獻翻譯等諸多方面。在語言分析過程中，在文本中定位單詞或字符邊界的過程（Tokenization）和識別句子邊界（sentence segmentation）有助于實現(xiàn)古代語言分析的自動化。然而，語言和書寫系統(tǒng)的模糊性和多樣性為這兩項工作帶來不少挑戰(zhàn)。將AI用于作者風格分析、文本譜系分析和互文分析則進一步為文本?？碧峁﹨⒖肌３酥?，AI對于文本闡釋也并非毫無價值。情感分析（Sentiment analysis）致力于從文本中提取主觀信息和情感狀態(tài)，而BERT技術(shù)（Bidirectional Encoder Representations from Transformers）的引進對此大有助益。

目前已經(jīng)有學者嘗試以計算語言學來進行荷馬史詩的語言研究。John Pavlopoulos等學者使用基于字符的統(tǒng)計語言模型來分析《伊利亞特》、《奧德賽》與荷馬頌詩之間的語言相似性和差異，通過語言模型提取了文本中的各種特征，如詞頻、詞序、語法結(jié)構(gòu)等，由此認為荷馬史詩很可能是由多個作者共同創(chuàng)作的，而非單一作者。計算機分析得出某些書卷之間的語言相似性很高，而另一些則相差甚遠。獻給阿佛洛狄忒頌詩的語言與《伊利亞特》和《奧德賽》較為接近，而獻給赫爾墨斯的頌詩則相差較遠。統(tǒng)計語言模型能夠高效地將《伊利亞特》和《奧德賽》中的段落進行分類，且與學者分類結(jié)果相似。與傳統(tǒng)的基于詞匯的語言模型相比，字符級語言模型能夠更好地捕捉語言的細微差異。

古典語言教學

Edward Ross在國際工作坊中介紹了在古代語言課程中使用生成型人工智能的教學經(jīng)驗。他和他的實驗團隊展示了如何運用ChatGPT4o、Copilot、Gemini和Claude等AI模型來設(shè)計古希臘語、拉丁語和梵語等古代語言的教學練習。例如，要求AI快速生成詞匯測驗、古典文獻翻譯、閱讀理解題目、圖像和聲音。以《伊利亞特》與維吉爾的《埃涅阿斯紀》作為教學示例，Ross要求不同的AI系統(tǒng)分別為經(jīng)典文段設(shè)計閱讀理解題和古希臘語法題。

對于維吉爾《埃涅阿斯紀》的拉丁文，GPT能夠提出相應(yīng)的問題。然而，在處理《伊利亞特》的希臘語時，GPT提出的閱讀理解問題較為模糊。于是，Ross進一步要求GPT提供語言學習方面的具體問題。Copilot每天雖然僅免費回答四個問題，但其設(shè)計的題目質(zhì)量較高，并且能夠給出參考答案，這在教學輔助中極具價值。不過，如果嘗試讓它模仿西塞羅撰寫拉丁語散文，可能會遇到嚴重的詞匯選擇問題。值得注意的是，Copilot的提問能力可能超越給定的文本范圍，有時會基于對整個《伊利亞特》的理解來提出問題。這在一定程度上展示了其對于歷史語境把握不足，而只能給出背景性的問題。Claude免費版本提供的問題則顯得不太實用。Gemini則能夠閱讀希臘語，并能提出一些基礎(chǔ)性的問題，但這些問題往往不夠具體細致。若要求它針對特定細節(jié)提問，Gemini會轉(zhuǎn)向希臘語語法層面的問題，而較少涉及段落內(nèi)容的文本闡釋。

目前國內(nèi)古希臘、拉丁語教學課程對于古典語言的寫作訓練（Composition）的要求或許還不算高，大部分高校的語言課程以閱讀為主。如果需要進一步提高語言水平，古典語言寫作的練習也十分重要。當我們給出一個古典學家相關(guān)的話題，要求AI進行寫作訓練，GPT在收集信息的準確性和語言風格變化等方面的表現(xiàn)遠遠超過Gemini。

GPT普通版拉丁語芬利簡介

GPT西塞羅文風版拉丁語芬利簡介

詩歌文本翻譯

古典文本中，散文的翻譯難度小于詩歌。盡管AI可以自動識別較為清晰的古希臘語截圖，但對詩歌的翻譯仍不盡如人意。在這方面，Claude3.5無法翻譯出詩歌的韻律。免費版GPT中文譯文表現(xiàn)則不如Gemini，缺乏還原詩歌韻律的意識，即使給出體現(xiàn)詩歌文風的指令，中譯文也不工整。

古希臘原文

GPT 4.0

GPT 3.5

Gemini不僅會給出譯文，還會逐行給出評注。

在古典語言教學中，Gemini的優(yōu)勢在于：首先，相較于GPT3.5，Gemini的詞匯量更大。這使得它能夠為學習者提供更豐富和準確的詞匯學習資源。在生成閱讀理解題目和進行語法分析時，Gemini展現(xiàn)出較為完整和系統(tǒng)的能力，其題目設(shè)計既基礎(chǔ)又具有一定的挑戰(zhàn)性，非常適合本科生等初學者群體，有助于他們逐步掌握古希臘語語法結(jié)構(gòu)和閱讀能力。

目前，部分國內(nèi)高校無法同時開設(shè)古希臘語和拉丁語的課程，學生也可能沒有充分的時間和精力同時兼顧兩門語言課。面對學過其中一門語言，但又需要保持熟練度的同學，Gemini等AI可以輔助古希臘語和拉丁語的交替復習。

語法知識點解釋：

Gemini一個顯著的劣勢在于它暫時無法有效處理殘篇、銘文以及通過OCR（光學字符識別）技術(shù)從圖像中提取的古希臘語文本。殘篇往往因為保存狀況不佳、書寫風格各異或存在模糊、斷裂等問題，難以自動識別和分析。Gemini在這方面的不足，限制了其在某些特定研究領(lǐng)域的應(yīng)用范圍。

文字識別方面，Gemini對于圖片中的拉丁語文字識別較為有效，但對于照片中的古希臘語則相對較弱。但Gemini就像善良的路人一樣，在無法回答問路人尋求的具體方向時，依然嘗試向路人提供一些別的幫助，例如給出相關(guān)的語言學習資源和軟件。但AI的識別能力提升速度十分迅速，僅僅在初次提問的2個月后，Gemini已經(jīng)能給出較為粗糙且存在錯誤的答案了。（Μ? γ?ρ το?το τ?ν γ? ?? ?ληθ?? ?νδρα ??τεον ?στ?.）GPT給出的識別結(jié)果也同樣不完全準確。（Μ? γ?ρ το?το τ?ν γε ?? ?ληθ?? ?νδρα ??τεον ?στ?ν.）

對于教師而言，AI目前對于古代語言的教學還算不上具有顛覆性，不過是錦上添花，能豐富課堂的趣味性，協(xié)助設(shè)計和批改課程作業(yè)。在少許歐洲高校將教室現(xiàn)代化的過程中，教室的黑板占據(jù)的空間越來越小，甚至消失了。這在一定程度上也影響了傳統(tǒng)的課堂板書。甚至有語言專業(yè)的課堂由于黑板太小，教師改為用投屏的方式以電子筆進行批注和輸入來呈現(xiàn)板書。如此一來，AI的自動聯(lián)想輸入有助于提升電子化課堂學習的效率。

對學生而言，AI目前的弊端也不可忽略。不少學生向AI提問單詞含義之后不再翻查字典。在文本語境缺失的情況下，用AI來查單詞暫時是不可取的。不過，近期嵌入瀏覽器的的AI能夠更好地解決這一問題，通過閱讀網(wǎng)頁內(nèi)容更準確地提供詞匯的含義。首先，不少AI由于缺乏詞典數(shù)據(jù)的支持，目前仍然不足以支持閱讀多種詩歌文本。對于復雜的多方言文本，AI無法準確識別難度較大的詞形變化，時常給出錯誤的詞匯含義。其次，AI給出的單詞義項較為單一，且缺乏常見用法與文本的展示，這對于學生的詞匯積累十分不利。與此同時，詢問AI單詞含義使得學生不再思考古希臘語詞形變化的規(guī)則。如果不要求AI提供古希臘語的詞匯原形，學生也喪失了記住單詞的機會。

銘文識讀與翻譯

如果說古典語言散文的翻譯相對較為容易，具有格律的詩歌較為困難，AI對于碑銘、紙草等殘篇的解析能力又如何呢？AI似乎能較為輕松地處理簡單且已經(jīng)具有現(xiàn)代語言譯文的希臘拉丁銘文殘篇。我們可以在Chrome等瀏覽器中嵌入Sider，這樣一來，打開碑銘文本https://epigraphy.packhum.org/等網(wǎng)站之后，用鼠標勾選文本，Sider能夠即時開啟對銘文的翻譯工作。

銘文識讀與翻譯

Sider Fusion用于希臘銘文翻譯示例

遺憾的是，將免費AI用于在碑銘訓練時，大小寫的轉(zhuǎn)換則不盡人意。當我們要求Sider把希臘語小寫文本轉(zhuǎn)化為大寫希臘字母時，結(jié)果出現(xiàn)了ΗΩ等字母的轉(zhuǎn)化錯誤和局部失敗。而且，承載著銘文的石碑本身所具有的物質(zhì)屬性和字母形態(tài)是AI轉(zhuǎn)換的文本無法呈現(xiàn)的。因此，在碑銘學課程中，使用傳統(tǒng)的圖片來進行轉(zhuǎn)寫練習更為可靠。

當沒有古代語言基礎(chǔ)的學生練習史料檢索、篩選一篇碑銘是否為所需史料時，AI的譯文或許可以派上用場。不過，在研究中進行銘文翻譯仍然無法脫離人工校對。在涉及跨行和破損嚴重的殘篇時，AI的翻譯不盡如人意。即使面對較為完整簡單的榮譽銘文，AI的翻譯也時常存在一些問題。

Sider與學者的銘文翻譯比較

碑銘文本具有高度程式化的表述，AI處理較為簡單的喪葬銘文和榮譽銘文基本不在話下，但面對較為復雜的法令銘文，尤其是殘篇，其翻譯表現(xiàn)則有待提升。目前國內(nèi)的古代史教學中，有條件開設(shè)碑銘學課程與訓練的高校仍屬少數(shù)。對于沒有現(xiàn)代語言譯文的碑銘史料，許多學生幾乎不會嘗試去探索和使用。但若沒有古代語言的基礎(chǔ)，學生也不具備校對AI譯文的能力，在這種情況下借助AI的銘文譯文也是十分危險的。或許，目前AI翻譯碑銘與紙草的能力能為學生的論文寫作增添一個史料的腳注吧。

如果說AI在碑銘翻譯方面為研究帶來便捷，能夠提升初學者瀏覽和整理史料的速度。那么DeepMind開發(fā)的Ithaca項目對古希臘銘文的破譯與研究的推動則更具革命性。早在2019年就出現(xiàn)了Pythia這一利用深度神經(jīng)網(wǎng)絡(luò)從受損文本輸入中恢復缺失字符的古文字修復模型，將最大的古希臘銘文庫PHI轉(zhuǎn)換為機器可操作文本（PHI-ML）。而Ithaca項目不僅能夠修復殘缺的銘文，還能為碑銘的銘刻時間與地理位置提供參考。值得注意的是，Ithaca的輸出結(jié)果并非單一答案，而是提供多種可能性，這為研究者提供了豐富的參考與借鑒方向。

然而，數(shù)據(jù)庫的封閉性減緩了AI學習能力的提升速度。目前Ithaca項目的數(shù)據(jù)庫主要依賴于希臘銘文公共數(shù)據(jù)集（例如The Packard Humanities Institute’s Searchable Greek Inscriptions），對博睿出版社最新的《希臘銘文補編》（SEG）和碑銘學年鑒（AE）等最新數(shù)據(jù)未能全面納入。開源問題一旦不復存在，Ithaca應(yīng)用很可能成為未來碑銘學教學中不得不加入的實踐環(huán)節(jié)。

碑銘學的數(shù)字化也成為近年來學界討論的一大議題。第九屆Epigraphy.info研討會將于2025年4月2日至4日在丹麥舉行。該會議由過去的社交網(wǎng)絡(luò)項目和奧胡斯大學歷史和古典研究系的實驗室主辦，將數(shù)字銘文的研究人員和愛好者聚集在一起，討論當前趨勢和問題（參閱https://epigraphy.info/）。

用AI可能會錯過什么？

在依賴AI的過程中，閱讀古典語言本身的快樂和痛苦則可能被校對譯文準確性的煩勞取代。對于還未掌握古典語言和現(xiàn)代語言的學生而言，偷懶取代了熟悉詞形變化和方言變化的學習機會。高效率和機械化的工作方式可能會打破漫游古代世界的閑暇感，這或許是這個時代選擇古典學的人們一直試圖抵抗的洪流。

在閱讀碑銘的過程中，觀察字母形態(tài)的變化、刻寫方式的變化、銘文的物質(zhì)特征都是讓讀者津津樂道的事情。相比一鍵生成的AI譯文，在“放慢速度”翻譯銘文的過程中，審視既往?？蔽谋镜淖x者也可能突然眼前一亮，意識到舊版本的錯誤，并為這一微小而無用的發(fā)現(xiàn)而欣喜若狂。漫游在碑銘博物館中欣賞形形色色的石碑，一位學者可能突然意識到眼前的殘碑是另一組殘片的一塊。遺失已久的拼圖終于再現(xiàn)完整面貌。這種在場感和成就感也是用AI拼合銘文圖片無法感受的快樂。

現(xiàn)代AI工具如此便捷，不少碑銘學家對此或許也只是一笑置之。因為在希臘羅馬的碑銘中自如穿梭，在辦公室里一邊翻轉(zhuǎn)角度審視碑銘照片，一邊撓頭破解藏匿在腐朽碑面隱隱約約的一個個字母痕跡，拼湊出完成的碑銘全貌，亦是誰也無法剝奪的研究樂趣。

0 好文

下一篇:鏡像里的“晚明”

上一篇:要馬斯克還是要蘇東坡

歷史與AI的距離：AI在古典學中的應(yīng)用

熱門文章排行