注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)人工智能自然語言處理入門

自然語言處理入門

自然語言處理入門

定 價(jià):¥99.00

作 者: 何晗 著
出版社: 人民郵電出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787115519764 出版時(shí)間: 2019-10-01 包裝: 平裝
開本: 16開 頁數(shù): 字?jǐn)?shù):  

內(nèi)容簡介

  這是一本務(wù)實(shí)的入門書,助你零起點(diǎn)上手自然語言處理。HanLP 作者何晗匯集多年經(jīng)驗(yàn),從基本概念出發(fā),逐步介紹中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、信 息抽取、文本聚類、文本分類、句法分析這幾個(gè)熱門問題的算法原理與工程實(shí)現(xiàn)。書中通過對(duì)多種算法的講解,比較了它們的優(yōu)缺點(diǎn)和適用場景,同時(shí)詳細(xì)演示生產(chǎn)級(jí)成熟代碼,助你真正將自然語言處理應(yīng)用在生產(chǎn)環(huán)境中。隨著本書的學(xué)習(xí),你將從普通程序員晉級(jí)為機(jī)器學(xué)習(xí)工程師,最后進(jìn)化到自然語言處理工程師。

作者簡介

  何晗(@hankcs)自然語言處理類庫 HanLP 作者(GitHub 加星超過 14 600),“碼農(nóng)場”博主(日活躍讀者數(shù)超過 3000),埃默里大學(xué)計(jì)算機(jī)博士生,研究方向是句法分析、語義分析與問答系統(tǒng)。HanLP 和“碼農(nóng)場”是 NLP 領(lǐng)域?qū)嵱玫膶W(xué)習(xí)資源,何晗大約每周處理一次 HanLP GitHub上的 Issues。

圖書目錄

第1章新手上路1


1.1自然語言與編程語言.2


1.1.1詞匯量.2


1.1.2結(jié)構(gòu)化.2


1.1.3歧義性.3


1.1.4容錯(cuò)性.3


1.1.5易變性.4


1.1.6簡略性.4


1.2自然語言處理的層次.4


1.2.1語音、圖像和文本..5


1.2.2中文分詞、詞性標(biāo)注和命名實(shí)體識(shí)別.5


1.2.3信息抽取.6


1.2.4文本分類與文本聚類..6


1.2.5句法分析.6


1.2.6語義分析與篇章分析..7


1.2.7其他高級(jí)任務(wù)7


1.3自然語言處理的流派.8


1.3.1基于規(guī)則的專家系統(tǒng)..8


1.3.2基于統(tǒng)計(jì)的學(xué)習(xí)方法..9


1.3.3歷史.9


1.3.4規(guī)則與統(tǒng)計(jì).11


1.3.5傳統(tǒng)方法與深度學(xué)習(xí)11


1.4機(jī)器學(xué)習(xí)..12


1.4.1什么是機(jī)器學(xué)習(xí)13


1.4.2模型..13


1.4.3特征..13


1.4.4數(shù)據(jù)集..15


1.4.5監(jiān)督學(xué)習(xí)..16


1.4.6無監(jiān)督學(xué)習(xí).17


1.4.7其他類型的機(jī)器學(xué)習(xí)算法..18


1.5語料庫19


1.5.1中文分詞語料庫19


1.5.2詞性標(biāo)注語料庫19


1.5.3命名實(shí)體識(shí)別語料庫20


1.5.4句法分析語料庫20


1.5.5文本分類語料庫20


1.5.6語料庫建設(shè).21


1.6開源工具..21


1.6.1主流NLP工具比較..21


1.6.2Python接口23


1.6.3Java接口.28


1.7總結(jié).31


第2章詞典分詞32


2.1什么是詞..32


2.1.1詞的定義..32


2.1.2詞的性質(zhì)--齊夫定律..33


2.2詞典.34


2.2.1HanLP詞典.34


2.2.2詞典的加載.34


2.3切分算法..36


2.3.1完全切分..36


2.3.2正向最長匹配.37


2.3.3逆向最長匹配.39


2.3.4雙向最長匹配.40


2.3.5速度評(píng)測..43


2.4字典樹46


2.4.1什么是字典樹.46


2.4.2字典樹的節(jié)點(diǎn)實(shí)現(xiàn)47


2.4.3字典樹的增刪改查實(shí)現(xiàn)..48


2.4.4首字散列其余二分的字典樹.50


2.4.5前綴樹的妙用.53


2.5雙數(shù)組字典樹55


2.5.1雙數(shù)組的定義.55


2.5.2狀態(tài)轉(zhuǎn)移..56


2.5.3查詢..56


2.5.4構(gòu)造*57


2.5.5全切分與最長匹配60


2.6AC自動(dòng)機(jī)..60


2.6.1從字典樹到AC自動(dòng)機(jī)61


2.6.2goto表61


2.6.3output表..62


2.6.4fail表63


2.6.5實(shí)現(xiàn)..65


2.7基于雙數(shù)組字典樹的AC自動(dòng)機(jī).67


2.7.1原理..67


2.7.2實(shí)現(xiàn)..67


2.8HanLP的詞典分詞實(shí)現(xiàn)71


2.8.1DoubleArrayTrieSegment72


2.8.2AhoCorasickDoubleArrayTrie-Segment.73


2.9準(zhǔn)確率評(píng)測.74


2.9.1準(zhǔn)確率..74


2.9.2混淆矩陣與TP/FN/FP/TN..75


2.9.3精確率..76


2.9.4召回率..76


2.9.5F1值..77


2.9.6中文分詞中的P、R、F1計(jì)算..77


2.9.7實(shí)現(xiàn)..78


2.9.8第二屆國際中文分詞評(píng)測..79


2.9.9OOVRecallRate與IVRecallRate.81


2.10字典樹的其他應(yīng)用.83


2.10.1停用詞過濾..83


2.10.2簡繁轉(zhuǎn)換87


2.10.3拼音轉(zhuǎn)換90


2.11總結(jié).91


第3章二元語法與中文分詞.92


3.1語言模型..92


3.1.1什么是語言模型92


3.1.2馬爾可夫鏈與二元語法..94


3.1.3n元語法..95


3.1.4數(shù)據(jù)稀疏與平滑策略96


3.2中文分詞語料庫.96


3.2.11998年《人民日?qǐng)?bào)》語料庫PKU.97


3.2.2微軟亞洲研究院語料庫MSR98


3.2.3繁體中文分詞語料庫98


3.2.4語料庫統(tǒng)計(jì).99


3.3訓(xùn)練.100


3.3.1加載語料庫..101


3.3.2統(tǒng)計(jì)一元語法..101


3.3.3統(tǒng)計(jì)二元語法..103


3.4預(yù)測..104


3.4.1加載模型104


3.4.2構(gòu)建詞網(wǎng)107


3.4.3節(jié)點(diǎn)間的距離計(jì)算111


3.4.4詞圖上的維特比算法.112


3.4.5與用戶詞典的集成115


3.5評(píng)測..118


3.5.1標(biāo)準(zhǔn)化評(píng)測..118


3.5.2誤差分析118


3.5.3調(diào)整模型119


3.6日語分詞122


3.6.1日語分詞語料..122


3.6.2訓(xùn)練日語分詞器.123


3.7總結(jié)..124


第4章隱馬爾可夫模型與序列標(biāo)注.125


4.1序列標(biāo)注問題.125


4.1.1序列標(biāo)注與中文分詞.126


4.1.2序列標(biāo)注與詞性標(biāo)注.127


4.1.3序列標(biāo)注與命名實(shí)體識(shí)別128


4.2隱馬爾可夫模型..129


4.2.1從馬爾可夫假設(shè)到隱馬爾可夫模型129


4.2.2初始狀態(tài)概率向量.130


4.2.3狀態(tài)轉(zhuǎn)移概率矩陣.131


4.2.4發(fā)射概率矩陣..132


4.2.5隱馬爾可夫模型的三個(gè)基本用法..133


4.3隱馬爾可夫模型的樣本生成133


4.3.1案例--醫(yī)療診斷.133


4.3.2樣本生成算法..136


4.4隱馬爾可夫模型的訓(xùn)練..138


4.4.1轉(zhuǎn)移概率矩陣的估計(jì).138


4.4.2初始狀態(tài)概率向量的估計(jì)139


4.4.3發(fā)射概率矩陣的估計(jì).140


4.4.4驗(yàn)證樣本生成與模型訓(xùn)練141


4.5隱馬爾可夫模型的預(yù)測..142


4.5.1概率計(jì)算的前向算法.142


4.5.2搜索狀態(tài)序列的維特比算法..143


4.6隱馬爾可夫模型應(yīng)用于中文分詞.147


4.6.1標(biāo)注集148


4.6.2字符映射149


4.6.3語料轉(zhuǎn)換150


4.6.4訓(xùn)練151


4.6.5預(yù)測152


4.6.6評(píng)測153


4.6.7誤差分析154


4.7二階隱馬爾可夫模型*154


4.7.1二階轉(zhuǎn)移概率張量的估計(jì)155


4.7.2二階隱馬爾可夫模型中的維特比算法156


4.7.3二階隱馬爾可夫模型應(yīng)用于中文分詞158


4.8總結(jié)..159


第5章感知機(jī)分類與序列標(biāo)注.160


5.1分類問題160


5.1.1定義160


5.1.2應(yīng)用161


5.2線性分類模型與感知機(jī)算法161


5.2.1特征向量與樣本空間.162


5.2.2決策邊界與分離超平面164


5.2.3感知機(jī)算法..167


5.2.4損失函數(shù)與隨機(jī)梯度下降*169


5.2.5投票感知機(jī)和平均感知機(jī)171


5.3基于感知機(jī)的人名性別分類174


5.3.1人名性別語料庫.174


5.3.2特征提取174


5.3.3訓(xùn)練175


5.3.4預(yù)測176


5.3.5評(píng)測177


5.3.6模型調(diào)優(yōu)178


5.4結(jié)構(gòu)化預(yù)測問題..180


5.4.1定義180


5.4.2結(jié)構(gòu)化預(yù)測與學(xué)習(xí)的流程180


5.5線性模型的結(jié)構(gòu)化感知機(jī)算法..180


5.5.1結(jié)構(gòu)化感知機(jī)算法.180


5.5.2結(jié)構(gòu)化感知機(jī)與序列標(biāo)注182


5.5.3結(jié)構(gòu)化感知機(jī)的維特比解碼算法..183


5.6基于結(jié)構(gòu)化感知機(jī)的中文分詞..186


5.6.1特征提取187


5.6.2多線程訓(xùn)練..189


5.6.3特征裁剪與模型壓縮*.190


5.6.4創(chuàng)建感知機(jī)分詞器.192


5.6.5準(zhǔn)確率與性能..194


5.6.6模型調(diào)整與在線學(xué)習(xí)*.195


5.6.7中文分詞特征工程*.197


5.7總結(jié)..199


第6章條件隨機(jī)場與序列標(biāo)注.200


6.1機(jī)器學(xué)習(xí)的模型譜系200


6.1.1生成式模型與判別式模型201


6.1.2有向與無向概率圖模型202


6.2條件隨機(jī)場..205


6.2.1線性鏈條件隨機(jī)場.205


6.2.2條件隨機(jī)場的訓(xùn)練*207


6.2.3對(duì)比結(jié)構(gòu)化感知機(jī).210


6.3條件隨機(jī)場工具包.212


6.3.1CRF++的安裝212


6.3.2CRF++語料格式213


6.3.3CRF++特征模板214


6.3.4CRF++命令行訓(xùn)練215


6.3.5CRF++模型格式*216


6.3.6CRF++命令行預(yù)測217


6.3.7CRF++代碼分析*218


6.4HanLP中的CRF++API220


6.4.1訓(xùn)練分詞器..220


6.4.2標(biāo)準(zhǔn)化評(píng)測..220


6.5總結(jié)..221


第7章詞性標(biāo)注.222


7.1詞性標(biāo)注概述.222


7.1.1什么是詞性..222


7.1.2詞性的用處..223


7.1.3詞性標(biāo)注223


7.1.4詞性標(biāo)注模型..223


7.2詞性標(biāo)注語料庫與標(biāo)注集.224


7.2.1《人民日?qǐng)?bào)》語料庫與PKU標(biāo)注集..225


7.2.2國家語委語料庫與863標(biāo)注集.231


7.2.3《誅仙》語料庫與CTB標(biāo)注集..234


7.3序列標(biāo)注模型應(yīng)用于詞性標(biāo)注..236


7.3.1基于隱馬爾可夫模型的詞性標(biāo)注..237


7.3.2基于感知機(jī)的詞性標(biāo)注238


7.3.3基于條件隨機(jī)場的詞性標(biāo)注..240


7.3.4詞性標(biāo)注評(píng)測..241


7.4自定義詞性..242


7.4.1樸素實(shí)現(xiàn)242


7.4.2標(biāo)注語料243


7.5總結(jié)..244


第8章命名實(shí)體識(shí)別.245


8.1概述..245


8.2基于規(guī)則的命名實(shí)體識(shí)別.246


8.3命名實(shí)體識(shí)別語料庫..250


8.4基于層疊隱馬爾可夫模型的角色標(biāo)注框架252


8.5基于序列標(biāo)注的命名實(shí)體識(shí)別..260


8.6自定義領(lǐng)域命名實(shí)體識(shí)別.266


8.7總結(jié)..268


第9章信息抽取.270


9.1新詞提取270


9.2關(guān)鍵詞提取..276


9.3短語提取283


9.4關(guān)鍵句提取..284


9.5總結(jié)..287


第10章文本聚類.288


10.1概述..288


10.2文檔的特征提取291


10.3k均值算法293


10.4重復(fù)二分聚類算法..300


10.5標(biāo)準(zhǔn)化評(píng)測..303


10.6總結(jié)..305


第11章文本分類.306


11.1文本分類的概念306


11.2文本分類語料庫307


11.3文本分類的特征提取.308


11.4樸素貝葉斯分類器..312


11.5支持向量機(jī)分類器..317


11.6標(biāo)準(zhǔn)化評(píng)測..320


11.7情感分析321


11.8總結(jié)..323


第12章依存句法分析.324


12.1短語結(jié)構(gòu)樹..324


12.1.3賓州樹庫和中文樹庫.326


12.2依存句法樹..327


12.3依存句法分析.333


12.4基于轉(zhuǎn)移的依存句法分析..334


12.5依存句法分析API340


12.6案例:基于依存句法樹的意見抽取..342


12.7總結(jié)..344


第13章深度學(xué)習(xí)與自然語言處理345


13.1傳統(tǒng)方法的局限345


13.2深度學(xué)習(xí)與優(yōu)勢348


13.3word2vec..353


13.4基于神經(jīng)網(wǎng)絡(luò)的高性能依存句法分析器.360


13.5自然語言處理進(jìn)階..363


自然語言處理學(xué)習(xí)資料推薦.365

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)