注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁新聞資訊歷史

概念史研究的數(shù)字轉向

2021年11月26日,復旦大學中國近代史青年學者讀書班2021年第7期在線上進行?;顒佑蓮偷┐髮W歷史學系章可副教授召集主持,南京大學學衡研究院暨歷史學院邱偉云副教授受邀主講

2021年11月26日,復旦大學中國近代史青年學者讀書班2021年第7期在線上進行?;顒佑蓮偷┐髮W歷史學系章可副教授召集主持,南京大學學衡研究院暨歷史學院邱偉云副教授受邀主講,講座題目為《概念史研究的數(shù)字轉向》。評議人為北京師范大學文學院方維規(guī)特聘教授。本文為主講人發(fā)言整理稿,末附評議人發(fā)言稿。

主講人邱偉云

主講人邱偉云


主持人章可

主持人章可


過去十年的概念史研究法的數(shù)字轉向探索實踐,逐步證明了概念史研究法數(shù)字轉向的可能性,近年來也逐漸受到中國學界同行的肯定與關注。從全球概念史學界近年發(fā)展可見,自2015年開始已有海外名校同樣意識到將計算機學界的自然語言處理技術引入詞匯與概念研究中的可能性與發(fā)展前景。以下就從概念史研究的數(shù)字轉向為題來討論概念史研究方法數(shù)字轉向的可能發(fā)展與前景所在。

節(jié)點1:什么是概念史(history of concepts)?

由于參加我們今天這個討論會的師友們,有些是計算機學界的朋友,因此我先大概說明一下何謂概念史(history of concepts)。根據(jù)方維規(guī)老師研究指出,德文Begriffsgeschichte(概念史)一詞最早出現(xiàn)于黑格爾﹙Georg Wilhelm Friedrich Hegel﹐1770–1831﹚的《歷史哲學講座》中,指基于普遍觀念撰述歷史的方式,用來指稱一種史學類型,即考察藝術、法學和宗教的歷史,可以納入哲學史的范疇。而后在科塞雷克 (Reinhart Koselleck, 1923-2006)所主編的八卷本《歷史基本概念-德國政治和社會語言歷史辭典》(1972-1997)與《歷史語義學與概念史》(1979)書中,完成了“概念史”學派的定型。簡言之,概念史研究的目的,即希望通過考察重大概念在不同歷史語境中的社會影響,推導出政治社會群體運用特定概念的典型張力,進而分析時代、社會、政治的結構變化,最后重構社會史的截面,進一步呈現(xiàn)出整個社會歷史,提供史學研究一個新范式。在概念史研究法特征上,我們發(fā)現(xiàn)了能與計算機學界文本探勘技術進行協(xié)作研究的著力點所在,因為文本探勘技術正是一種可計算長時段中巨量文字語料里的詞語結構及其變化的數(shù)字技術,從這角度而言,文本探勘技術即能介入概念史研究視野,輔助概念史研究工作者進行復雜與長時段的概念形成、運用與嬗變研究。關于概念史研究法中豐厚且復雜的理論層次與研究視角,有興趣的師友可參見方老師自2019年出版的概念史三書,分別是《概念的歷史分量:近代中國思想的概念史研究》(北京:北京大學出版社,2019年)、《什么是概念史》(北京:生活·讀書·新知三聯(lián)書店,2020年)、《歷史的概念向量》(北京:生活·讀書·新知三聯(lián)書店,2021年),通過閱讀概念史三書,當能較為全面的掌握德國概念史研究理論方法。至于概念史研究案例,可參見2013年開始至今,由南京大學學衡研究院院長孫江教授主編出版的《亞洲概念史研究》集刊,目前出版至第8卷,收錄眾多亞洲概念史研究的優(yōu)秀成果,當然也不能錯過章可老師在概念史研究領域的力作《中國“人文主義”的概念史(1901-1932)》(上海:復旦大學出版社,2015年),章老師以一本書的分量系統(tǒng)且細密地揭示了“人文主義”的概念以及圍繞此概念的其他相關概念,是想了解概念史研究方法與實踐取徑的師友們不能錯過的好書。

《什么是概念史》

《什么是概念史》


節(jié)點2:什么是數(shù)字轉向(Digital Turn)?

上面我們通過簡要的概述,幫助計算機學界師友們了解概念史研究方法的簡明基礎定義后,接著我們再談談什么是數(shù)字轉向(Digital Turn),以幫助人文學界師友們理解為何要數(shù)字轉向?以及如何數(shù)字轉向等問題。南京大學陳靜老師與香港城市大學徐力恒老師曾在〈我們?yōu)槭裁葱枰獢?shù)字人文〉(《社會科學報》第1572期,2017年8月24日,第5版)一文中指出,隨著數(shù)字技術更新迭代、數(shù)字化內容不斷增加,數(shù)字化的研究趨勢得到了更廣泛的應用,影響遍及各個人文學科。大約在2000年以后“數(shù)字轉向”(digital turn)時代到來,個人計算機變得十分普遍,成為大多數(shù)學者能方便使用的設備。如今通過高速高能的計算機設備,配合國家提出的數(shù)字中國主張,各界都如火如荼的對古代乃至近代的所有歷史文獻進行數(shù)字化、數(shù)據(jù)化乃至智能化的工作,展開各種目前可見的大型數(shù)據(jù)庫建置項目計劃,運用各種前沿的數(shù)字技術,包括數(shù)據(jù)探勘、文本探勘、圖像標記、網(wǎng)絡分析、時空地理分析、聲音分析技術等,對人文世界進行諸多前沿性的探索性研究工作,這就是目前人文學研究的數(shù)字轉向情況。

節(jié)點3:概念史研究真的需要數(shù)字轉向嗎?

也許有師友們會問,概念史研究真的需要數(shù)字轉向嗎?在當代語境中,我們不難想見未來乃是一切皆數(shù)據(jù)的世界。不僅過去的材料我們不斷的進行數(shù)字化工作,諸如愛如生的“典?!敝泻迫鐭熀5臄?shù)字化古籍;或是近現(xiàn)代的史料數(shù)字化工作,如香港中文大學中國近代思想史專業(yè)數(shù)據(jù)庫(1830-1930)具有一億兩千萬字的全文史料內容,晚清期刊全文數(shù)據(jù)庫(1833-1911)收錄期刊520余種,文章53萬余篇,民國時期期刊數(shù)據(jù)庫(1911-1949)收錄期刊25,000余種,文章1000余萬篇;中國社會科學院近代史研究所“抗日戰(zhàn)爭與近代中日關系文獻數(shù)據(jù)平臺”于2020年9月1日已上線報紙1046種、期刊2343種、圖書71071冊……以上數(shù)據(jù)平臺若配合前沿OCR技術,在未來將轉為巨量可全文檢索與計算的文字文本。概念史研究者們未來在研究概念時,會有人力難以讀盡的材料。此外還須考慮到概念史研究的重點之一即做概念比較研究,目前東亞學界也不斷進行歷史文獻材料數(shù)字化工作,如“韓國近代報刊語料庫”,近代中日詞匯交流有關文獻的數(shù)字檔案化與詞匯語料庫,及日本皓星社建置的《雜志記事檢索集成數(shù)據(jù)庫(1860-1945) 》(http://info.zassaku-plus.com/)等,都是未來在研究亞洲概念史時不可回避的巨量數(shù)據(jù)庫。目前歐美各國也都積極推行多語種歷史材料的數(shù)字化工程,如GALE平臺即收錄了跨越全球500 年歷史的1.7億頁珍稀原始資源文獻,包含多種語言的文學、檔案、法律文書、手稿等內容,其中ECCO 十八世紀作品在線數(shù)據(jù)庫更是收集了1700-1799年之間所有在英國出版的圖書和所有在美國和英聯(lián)邦出版的非英文書籍,涵蓋英語、法語、德語、西班牙語、拉丁文等多個語種,包含13萬種15萬卷,超過3,300萬頁的內容。

因此,假如概念史研究就是要觀察詞語及其作為語言的運用與嬗變過程,借以推導政治社會群體運用特定概念的典型張力,分析時代、社會、政治的結構變化,那么概念史研究就天然的適合與需要進行數(shù)字轉向。由于數(shù)據(jù)化將使人類認識世界的方式產(chǎn)生根本性轉變,因此未來世界不再是一連串自然或社會現(xiàn)象的事件,而是由信息所構成(Viktor Mayer-Sch?nberger and Kenneth Cukier,2013),百年后的概念史研究者們若想要研究百年前我們現(xiàn)在這個社會中的概念發(fā)展,他們會有看不完的文本,包含系統(tǒng)性的個人專著、論文,與碎片化的朋友圈、微博、推特等文字。這樣巨量的文字數(shù)據(jù)信息,若不借助數(shù)字方法,將難以進行“概念與社會”互動的概念史研究,因此現(xiàn)在的數(shù)字轉向正是在為未來的概念史家提出方法的準備。

在上述全球歷史材料數(shù)字化工程下,可以想像未來概念史研究者的焦慮,將從過去的“動手動腳找材料”向“巨量材料如何讀盡”轉變。在舊文本不斷被數(shù)字化,新文本膨脹速度比舊資料快的語境下,未來概念史研究者必定面對材料過多無法讀盡的問題,這也是概念史研究的數(shù)字轉向的合理性與必要性所在。

節(jié)點4:全球概念史研究的數(shù)字轉向重要案例

正因全球歷史文獻材料如火如荼的數(shù)字化工作,使得全球概念史研究者們逐漸發(fā)現(xiàn),若不采用新工具與新方法,將出現(xiàn)難以窮盡所有歷史材料再進行概念研究觀察與提出結論的問題,因此已有諸多著名大學研究團隊開啟了概念史研究的數(shù)字轉向實踐工作。

第一個案例是美國劍橋大學在2014-2018年設置的概念實驗室(CCDK)。此一實驗室嘗試通過計算方法描述和分析由概念結構生成的結構化環(huán)境,試圖揭示其中循環(huán)的概念網(wǎng)絡(https://ccdkconceptlab.wordpress.com/)。2020年,該團隊的Peter de Bolla, Ewan Jones, Paul Nulty, Gabriel Recchia, John Regan共同發(fā)表了The Idea of Liberty, 1600 – 1800: A Distributional Concept Analysis, University of Pennsylvania Press in the Journal of the History of Ideas(Volume 81, Number 3, July 2020)一文,運用計算和統(tǒng)計方法對十六到十八世紀的“Liberty”概念進行分析,基于一套定制的分析概念結構的工具,幫助對“Liberty”概念的文獻分析工作,并與以賽亞·伯林(Isaiah Berlin)和昆汀·斯金納(Quentin Skinner)過去有關Liberty概念的研究成果相互對話。

第二個案例是英國謝菲爾德大學數(shù)字人文學院(DHI),是英國領先的數(shù)字人文中心之一,成立于1994年。2016年春季開啟現(xiàn)代西方思語言DNA項目(https://www.dhi.ac.uk/ldna/),通過對十五到十八世紀英語話語中發(fā)生的語義和概念變化建模,進以理解早期現(xiàn)代思想的演變。最近的研究成果可參見Digital methods for studying meaning in historical English. Special Issue of Transactions of the Philological Society, 119 (2)、§Susan Fitzmaurice, (2020).

第三個案例是新近成立的芬蘭赫爾辛基大學數(shù)字人文中心(HELDIG),這是一個集合赫爾辛基大學七個不同院系數(shù)字人文學科相關領域的協(xié)作中心。早在成立之初的2015年,他們就舉辦了“概念變化–數(shù)字人文案例研究座談會”,討論應該如何使用大的數(shù)字化歷史數(shù)據(jù)研究概念變化。自2017年起,這個中心開始連年舉辦“概念計算方法”專題討論會、“歷時性概念變化的計算方法”討論會、“言語與行動:政治文本挖掘” 講習班及詞匯語義變化講習班等,密切聚焦于計算概念研究的趨勢方法及其轉向。

節(jié)點5:中國概念史研究的數(shù)字轉向

對詞匯概念的“形成”“運用”與“變化”研究視角進行量化轉譯與考察,很早就已經(jīng)在中國學界出現(xiàn)?;诖藢υ~匯概念研究進行數(shù)字轉向的思考,配合計算機學界自然語言處理技術的迭代與更新,在中國概念史研究學界中產(chǎn)生了三種領先全球的新的量化考察視角。

第一種是結合文本探勘技術與網(wǎng)絡分析技術對概念關系進行量化計算并發(fā)現(xiàn)互斥概念的研究路徑。如我與鄭文惠、劉昭麟、林書佑等老師合作的《概念關系的數(shù)位人文研究——以<新青年>中的“世界”觀念為考察核心》(收于項潔主編:《數(shù)位人文:在過去、現(xiàn)在和未來之間》(臺北:臺灣大學出版中心,2016年12月)一文,以數(shù)字人文技術與德國概念史理論對話,勾勒《新青年》500萬字語料中與“世界”概念共現(xiàn)的概念群并計算其間的概念網(wǎng)絡。該文使用機率統(tǒng)計、統(tǒng)計學中的LSA、PMI等關系性計算,以及詞匯相依計算法等多種可能適用于概念關聯(lián)性計算的方法,發(fā)現(xiàn)《新青年》前后不同時段“世界”概念共現(xiàn)詞群的分合。其中“世界”與“天下”這一對概念呈現(xiàn)出從不顯著相關到顯著負相關的變化,表示“天下”概念與世界論述互斥,此種概念關系型態(tài)是人力不能考察者,亦即是數(shù)字人文視野下獨特的發(fā)現(xiàn)。

第二種是對漢語詞綴復合詞研究進行量化計算的工作。關于漢語詞綴復合詞研究工作,2001年方維規(guī)老師即發(fā)表 “Yi,Yang,Xi,Wai and Other Terms:The Transition from ‘Barbarian’to ‘Foreigner’in Late Imperial Chi- na”(“夷”、“洋”、“西”、“外”及其相關概念:晚清譯詞從“夷狄”到“外國人”的轉換in:New Terms for New Ideas:Western Knowledge & Lexical Change in Late Imperial China,ed.by Michael Lackner et al.,Leiden:Bril l,2001)一文,探討由“夷”“洋”“西”“外”等四個漢語詞綴所復合出的四批復合詞間的時代變化,從中提出中國近代對西方認同的轉型現(xiàn)象;而后2011年章清先生發(fā)表《“界”的虛與實:略論漢語新詞與晚清社會的演進》(《東アジア文化交渉研究》,別冊7,2011 年3 月)一文,更是直接指明漢語詞綴復合詞研究的意義與價值,文中指出作為現(xiàn)代漢語中頗為特殊的“后綴復合詞”(或稱為“接尾詞”),這樣的構詞法已預示其具有明顯的開放性和不確定性,往往成為考察語言成長具有特殊意義的例證,而這樣的構成法大大提升了語匯的制造能力,“后綴”之前添加什么,決定于中國社會所做的取舍。拙作《詞匯、概念、話語:數(shù)字人文視野下中國近代“美”之觀念的建構與再現(xiàn)》(收入周憲主編:《藝術理論與藝術史學》第三輯(北京:中國社會科學出版社,2019年10月)即實踐了漢語詞綴復合詞研究法的量化轉譯工作,通過數(shù)字人文技術,計算并歸結中國近代“美”之觀念的建構與再現(xiàn)軌跡,有一從“美善”“美術”到“美育”的三階段發(fā)展過程,并發(fā)現(xiàn)中國近代“美”之觀念具有教化性與實用性兩個特征。當我們能將此前所提到的中國從古代到近當代所有建置完成的數(shù)據(jù)庫加以串連,那么我們就可望通過數(shù)字技術,勾勒出中國各種詞匯概念由傳統(tǒng)至當代的發(fā)展史,這是過去依靠人力難以完成的重大工作。

第三種是結合圖像標記技術對圖像概念史進行量化計算工作。如王平、鈕亮、金觀濤、劉青峰等發(fā)表的《五代北宋山水畫的數(shù)位人文研究(二)——以“漁隱”主題為例》(收入《數(shù)位典藏與數(shù)位人文》2018年第1期 )一文,即以五代北宋時期至今流傳的120余幅山水畫圖像為研究對象,圍繞舟船、漁人兩類圖像進行數(shù)據(jù)擷取與圖像分析,以此去追溯“漁隱”主題及其概念的原形與流變。在圖像概念史研究法的數(shù)字轉向思考中,研究者嘗試通過計算機自動發(fā)現(xiàn)穩(wěn)定圖像形式結構,使人文研究者可考察其圖像概念含義,以及從穩(wěn)定圖像形式結構去考察其圖像概念譬喻含義,或從概念寓意畫考察其圖像概念含義。當圖像數(shù)據(jù)的收集與數(shù)字化、數(shù)據(jù)化乃至于智能化工作完成,概念史研究者們即可快速地從長時段的跨國圖像中發(fā)現(xiàn)概念環(huán)流的蹤影與歷史意義。

節(jié)點6:中國概念史研究數(shù)字轉向的未來方向

以上我們已經(jīng)介紹了全球概念史研究在數(shù)字轉向上的經(jīng)典項目以及中國在概念史研究法數(shù)字轉向上的獨特貢獻,下面可再從人文的概念史理論視角出發(fā),談談中國概念史研究數(shù)字轉向的未來方向。

第一個基于中國概念史理論可以進行數(shù)字轉向的工作是中國近代概念發(fā)展轉型的數(shù)字考察。孫江教授曾在《概念史研究的中國轉向》(《學術月刊》2018年第10期)一文中討論中國近代概念轉型的問題,基于中國近代概念轉型的特征,提出了有別于德國概念史家科塞雷克所勾勒出的德國近代鞍型期概念轉型中的“四化”尺度,分別是標準化(Standardization)、大眾化(Popularization)、政治化(Politicization)、衍生化(Derivatization),未來可進一步通過文本探勘的量化模型方法,轉譯與偵測中國近代概念轉型中的概念四化發(fā)展現(xiàn)象。

第二是基于中國近代漢字發(fā)展的詞化現(xiàn)象進行數(shù)字轉向研究。如日本關西大學沈國威教授在《近代中日詞匯交流研究:漢字新詞的創(chuàng)制、容受與共享》(北京:中華書局,2010)一書中指出,詞化是對概念的命名。概念可以用一句話、一個說明性或比喻性詞組、一個短語來表達,而當概念用一個詞來指稱時,叫做概念的“詞化”,或稱“詞匯化”。通過數(shù)字轉向,可以利用詞嵌入、文本探勘、時空地理、網(wǎng)絡分析等技術進一步的量化轉譯東亞近代概念詞匯化的進程。

《近代中日詞匯交流研究:漢字新詞的創(chuàng)制、容受與共享》

《近代中日詞匯交流研究:漢字新詞的創(chuàng)制、容受與共享》


第三是基于近代中日韓三國之間概念環(huán)流現(xiàn)象進行數(shù)字轉向研究。亦即可運用時空地理技術、文本探勘、網(wǎng)絡分析方法等,結合中日韓三國對于同一概念的研究數(shù)據(jù)基礎,進行跨國的概念數(shù)據(jù)比較研究,借以揭示概念的源流以及在長時段過程中三向影響交流的動態(tài)過程。

今日所談的概念史研究的數(shù)字轉向方法與趨勢,正符合文理交叉的“新文科”主張,這一主張使得我們一方面能通過結合計算機與統(tǒng)計方法對人文研究議題進行“人文數(shù)字化”的思考與探討,另一方面又能再基于人文關懷角度去商榷與研發(fā)帶有人文性的計算統(tǒng)計方法而完成“數(shù)字人文化”工作。唯有建立起人文數(shù)字化與數(shù)字人文化兩個角度的循環(huán)交流協(xié)作工作流程,才能真正落實新文科的文理交叉訴求,為2035年建成高等教育強國、實現(xiàn)中國教育現(xiàn)代化提供有力支撐。 

評議人發(fā)言:方維規(guī)教授

問題一:

用計算機進行人文研究易缺乏人文溫度:計量研究如遠讀認為重要的關鍵點在數(shù)值的高峰,但人文研究學者會認為概念的意義在走勢之中,因為概念頂峰已經(jīng)喪失了銳氣,但人文研究者更在乎的是發(fā)展趨勢中如何普及的過程,以及普及過程中報人或是百姓等不同層次行動者的理解現(xiàn)象,但這些研究角度在計算機視角中容易被忽略。且在數(shù)字轉向之中,很多研究結果都以可視化圖表方式進行呈現(xiàn),但這種數(shù)據(jù)可視化的結果易將“人”推向平面化,亦即只關注高低而不關注過程,會削弱其中豐富的人文性信息。

回答:對于這一問題,數(shù)字人文學界也開始進行反思,亦即數(shù)字轉向的發(fā)展,并非拿來主義式的只聽從于計算方法的“人文數(shù)字化”,也許在過去十年我們確實是走“人文數(shù)字化”的道路,因為那時是在探索階段,我們得先把各種計算方法拿來探索實踐,看看是否能結合?然而在十年后的今天,數(shù)字轉向應該邁向建立理論的方向,亦即我常說的轉向“數(shù)字人文化”的方向,我們不能再像過去十年一樣,不問計算方法的優(yōu)劣以及其是否合適拿來計算人文問題,只要看到最新方法就拿來使用,只求量化視角的信校度,卻不問這些新方法是否適合用于計算人文問題。如今我們應該邁向從人文角度去對各種最新的方法進行“人文性”的信校度提問與反思階段,亦即必須通過人文視野去判斷與反思各種最新計算方法的人文研究配適性,甚至是更進一步,應當基于人文問題意識的需求,量身定做計算方法,如此一來,像方老師提出人文學者更應關注的是概念的爬坡發(fā)展階段的重要性此一研究視角,就能通過量身定做,發(fā)展出一種探索概念爬坡軌跡與信息的測量方法,以符合人文研究者的需求。這樣的方法才是真正結合數(shù)字與人文的思考后所產(chǎn)生出的真正的數(shù)字人文方法。

問題二:

在概念研究中常見存在著一種概念用多種不同詞匯來翻譯與理解的現(xiàn)象,例如Democracy在近代就有“民主”與“共和”兩種譯法,那么在利用數(shù)字方法進行Democracy概念研究時,如果只注意到“民主”或“共和”,就是忽略了其他當時同時代表著Democracy概念的發(fā)展向度,基于這樣的問題,數(shù)字人文方法如何解決?

回答:目前在自然語言處理技術當中,有種非監(jiān)督學習的詞向量研究法,可以通過詞匯的上下文語義關系,偵測并辨別出長時段巨量文本中的近義詞,有望處理并解決一詞多義與多詞一義的問題。因此對于上述問題,未來可以利用詞向量方法進行探索性實驗,通過數(shù)據(jù)驅動的方法找到并解決同一概念具有多種詞匯能指的問題。

問題三:

報告中談到全球概念史的比較問題,在這中間有很多需要考慮的地方,例如中日概念對比時候,要注意概念先后問題;還有概念到底是在殖民地或是半殖民地發(fā)展也會有所不同,而這些細節(jié)往往并非量化方法所考慮的問題?該如何解決?而且概念在跨語境間是很難進行比較的,因為概念隨著語境不同有著完全不同的變化?那么全球概念比較研究如何可能?

章可老師回應

我認為全球概念史研究還是有可能的,因為即使概念會隨著語境而有很大的不同,但跨語境中還是有屬于非語境成分,這個非語境成分恰恰是語義帶來的,而這往往就是全球概念史的基礎,因此全球概念比較研究還是有可能的。

回答:這正是概念史研究法在數(shù)字轉向過程中需要通過人文與計算機領域學者密切討論去解決的問題。概念史學者可以提出各種在研究概念時應當關注的人文研究變項,而計算機學者就能從這些變項去思考該如何通過計算權重的調整與方法的復合重組,讓計算方法能很好的回應人文學者所關注的焦點問題,因此概念史研究的數(shù)字轉向,需要人文學者多多提出人文性的關懷視角,借以發(fā)展適合于概念史研究專用的數(shù)字計算方法。而章可老師提出可以考察跨語境當中的非語境成分的問題意識,即是未來在概念史研究數(shù)字轉向中可以通過量化模型去嘗試加以勾勒的重要人文問題。

問題四:

從莫來蒂提出世界文學的研究主張中,可以發(fā)現(xiàn)世界文學的研究可能帶有偏見,這里的偏見包括世界文學的組成多為英語文學,而其他語種則少;又或者殖民文學多,精英文學多,那么這樣的研究結果可以稱為世界文學嗎?

回答:確實,老師提出的是目前數(shù)字轉向中時常被提出來進行反思的一個問題,亦即“數(shù)據(jù)偏見”。例如斯坦福大學李飛飛教授他們曾經(jīng)對大量圖片進行人機互動標記工作,進而訓練出一個能自動標記圖片的模型,當他們將穿有白紗的女性圖片給予識別時可以自動識別出是婚禮;但當他們將印度女性穿著印度傳統(tǒng)婚紗的圖片給機器識別時卻識別出是戲劇,這里問題就出在訓練計算機自動辨識模型時所用的圖像多為西方圖片,因此只能較好的識別西方圖像中的事物,但對東方事物的識別就產(chǎn)生了問題,這就是一種“數(shù)據(jù)偏見”,亦即機器所學習的數(shù)據(jù)是有偏向的,如此所建置的計算識別模型語自然也是帶有偏向的。在此案例中,李飛飛即通過調整機器學習的數(shù)據(jù),更為多元的重新收集機器學習的圖像材料,借以讓機器學習的結果更為公正客觀而不具有偏見。就此而言,概念史研究的數(shù)字轉向前提,就是我們用以計算概念發(fā)展的語料必須盡量避免材料的傾斜,對語料結構必須十分了解,如此才能針對語料結構的傾斜而調整計算權重,進一步避免與解決數(shù)據(jù)偏見可能導致偏見結論的問題。

熱門文章排行

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號