本書凝練了作者近七年來的研究成果,融合了國家自然科學基金項目和博士后科學基金面上項目(一等)的相關研究成果。 基于設計科學、文本挖掘、信息抽取和機器學習等理論和方法,搭建了數(shù)據驅動的社交媒體中藥品不良反應知識發(fā)現(xiàn)框架。在應用層面,從非結構化的文本數(shù)據中最終提取出潛在的(藥品-不良反應)知識,首先從社會媒體平臺上海量數(shù)據中過濾掉了不包含不良反應信息的不相關文本,然后從非結構化文本中提取了疾病癥狀等實體,最后區(qū)分了藥品和提取的疾病癥狀等實體間的關系類型(如藥品不良反應還是藥品適應癥)。在方法層面,針對數(shù)據非均衡、高維、不規(guī)范、標注難且成本高的特點,從特征和算法兩個角度,提出了一系列改進的文本分類、實體識別和關系抽取方法。