谷歌數(shù)字圖書館
正如活字印刷取代雕版印刷,將漢字、字母分離,再自由組合到一起,大幅提升了印刷的效率,推動(dòng)了知識(shí)的傳播與普及。如今,谷歌電子圖書館正在通過(guò)現(xiàn)代識(shí)別軟件,把紙質(zhì)書籍、圖片數(shù)據(jù)化。
谷歌圖書館是谷歌公司于2004年發(fā)布的一個(gè)頗具理想主義色彩的項(xiàng)目。它通過(guò)把國(guó)家版權(quán)條例允許的書本內(nèi)容進(jìn)行數(shù)據(jù)化,建立一個(gè)容量豐富的谷歌電子圖書館,讓處于這個(gè)世界任何角落的人都可以通過(guò)網(wǎng)絡(luò)閱讀,完全實(shí)現(xiàn)知識(shí)傳遞的無(wú)國(guó)界、無(wú)距離。
在項(xiàng)目初期,谷歌主要是使用掃描儀對(duì)實(shí)體書的內(nèi)容進(jìn)行電子化存儲(chǔ),于是珍藏在美國(guó)國(guó)會(huì)圖書館里的書本內(nèi)容就變成了能在亞洲某個(gè)大學(xué)教室里使用的電子課件,這種網(wǎng)絡(luò)的數(shù)字化傳播方式極大地方便了渴望求知的人。但是這種電子化的讀書方式首先需要讀者明確自己所搜尋的內(nèi)容,其次借助搜索引擎在浩如煙海的數(shù)字化圖書海洋中找到自己需要的內(nèi)容。因?yàn)闆](méi)有對(duì)數(shù)字文本的內(nèi)容進(jìn)行數(shù)據(jù)化的處理和分析,谷歌數(shù)字圖書館中實(shí)際只儲(chǔ)藏著這些書本的掃描圖片。
近兩年,隨著識(shí)別軟件和通信技術(shù)的發(fā)展,谷歌得以把這些數(shù)字化的圖片轉(zhuǎn)化為可處理的數(shù)據(jù),使之“躍然紙上”。借助能識(shí)別數(shù)字圖像的光學(xué)字符識(shí)別軟件轉(zhuǎn)化掃描圖片上的字、詞、句、段,如此處理后,谷歌的數(shù)字化圖像也就順利地轉(zhuǎn)化為數(shù)據(jù)化的內(nèi)容,讓這些信息的潛在價(jià)值得到最大程度的釋放,打造一個(gè)開放又可關(guān)聯(lián)的知識(shí)世界。