正文

數(shù)據(jù)大爆炸(3)

智慧政府:大數(shù)據(jù)治國時代的來臨 作者:徐繼華


結(jié)構(gòu)化數(shù)據(jù)是指在固定字段集合中存放的數(shù)據(jù),如關(guān)系型數(shù)據(jù)和電子表格數(shù)據(jù),屬于傳統(tǒng)的數(shù)據(jù)技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)是指難以用數(shù)據(jù)庫二維邏輯表表現(xiàn)的數(shù)據(jù),包括文本數(shù)據(jù)以及未標記的視頻、音頻和圖像數(shù)據(jù)等。半結(jié)構(gòu)化數(shù)據(jù)則介于兩者之間,是用標簽和其他標志劃分數(shù)據(jù)元素的數(shù)據(jù),可擴展標記語言和超文本標記語言都屬于半結(jié)構(gòu)化數(shù)據(jù)。廣義的非結(jié)構(gòu)化數(shù)據(jù)包括了半結(jié)構(gòu)化和多結(jié)構(gòu)化數(shù)據(jù)。

非結(jié)構(gòu)化數(shù)據(jù)目前普遍被認為占數(shù)據(jù)總量的85%以上,而且增速比結(jié)構(gòu)化數(shù)據(jù)快得多,有說法是快10~50倍。盡管上述數(shù)據(jù)的準確性有待研究確定,但無法否認的是,非結(jié)構(gòu)化數(shù)據(jù)富含難以估量的價值,然而如何管理非結(jié)構(gòu)化數(shù)據(jù),把“數(shù)據(jù)墳墓”變成“數(shù)據(jù)金礦”卻是一項新的挑戰(zhàn)。

在醫(yī)療行業(yè),既存在結(jié)構(gòu)化的電子病歷數(shù)據(jù),也存在非結(jié)構(gòu)化數(shù)據(jù),包括病人描述病情的自然語言以及臨床產(chǎn)生的X光片、CT(計算機X射線斷層掃描)片、核磁共振片、病理切片等影像文件。這些數(shù)據(jù)在資料傳遞交換、臨床全面展示和醫(yī)學科研等方面有重要的價值,然而對于它們的整合利用還處于非常初級的階段。再比如,到銀行辦理存貸款業(yè)務時,要復印很多證件,戶口本、身份證、收入證明等,這些紙質(zhì)原始資料都會以掃描或拍照的形式轉(zhuǎn)化為電子文檔,被永久保存起來。目前這些文檔只起到了備查的作用,并沒有被很好地開發(fā)利用。

非結(jié)構(gòu)化數(shù)據(jù)管理能力是大數(shù)據(jù)的一項核心能力。在IBM發(fā)布的白皮書《分析:大數(shù)據(jù)在現(xiàn)實世界中的應用》中,報告了基于對全球95個國家、26個行業(yè)的1 144名業(yè)務人員和信息技術(shù)專業(yè)人士的調(diào)研結(jié)果。在超過一半的大數(shù)據(jù)項目中,受訪者表示其所在組織采用了先進技術(shù)分析自然狀態(tài)的文本,例如,呼叫中心對話內(nèi)容的文字記錄。這些分析技術(shù)包括解釋和理解細微的語言特征,包括情緒、俚語和意圖等,幫助企業(yè)了解客戶當前的情緒狀態(tài),獲得能夠直接用于推動客戶管理戰(zhàn)略的寶貴信息。

對非結(jié)構(gòu)化數(shù)據(jù)的開發(fā)和利用已經(jīng)得到國家層面的重視。2012年7月6日,中國正式成立非結(jié)構(gòu)化數(shù)據(jù)管理標準工作組,負責制定和完善中國非結(jié)構(gòu)化數(shù)據(jù)管理領(lǐng)域的標準體系,制定相關(guān)國家標準,并參與非結(jié)構(gòu)化數(shù)據(jù)管理的國際標準化工作,從而提升中國在非結(jié)構(gòu)化數(shù)據(jù)管理領(lǐng)域的整體競爭力。

物聯(lián)網(wǎng)

國際電信聯(lián)盟發(fā)布的互聯(lián)網(wǎng)報告如此定義物聯(lián)網(wǎng):通過二維碼識讀設備、射頻識別裝置、紅外感應器、GPS和激光掃描器等信息傳感設備,按約定的協(xié)議,把任何物品與互聯(lián)網(wǎng)連接,進行信息交換和通信,以實現(xiàn)智能化識別、定位、跟蹤、監(jiān)控和管理的一種網(wǎng)絡。


上一章目錄下一章

Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號