注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)工業(yè)技術(shù)建筑科學(xué)建筑設(shè)計(jì)Python文本分析

Python文本分析

Python文本分析

定 價(jià):¥79.00

作 者: (印度)迪潘簡(jiǎn)·撒卡爾
出版社: 機(jī)械工業(yè)出版社
叢編項(xiàng):
標(biāo) 簽: 暫缺

ISBN: 9787111593249 出版時(shí)間: 2018-05-01 包裝:
開本: 16開 頁(yè)數(shù): 273 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  本書遵循結(jié)構(gòu)化和綜合性的方法,介紹了文本和語(yǔ)言語(yǔ)法、結(jié)構(gòu)和語(yǔ)義的基礎(chǔ)概念和高級(jí)概念。從自然語(yǔ)言和Python的基礎(chǔ)開始,進(jìn)而學(xué)習(xí)先進(jìn)的分析理念和機(jī)器學(xué)習(xí)概念。全面提供了自然語(yǔ)言處理(NLP)和文本分析的主要概念和技術(shù)。包含了豐富的真實(shí)案例實(shí)現(xiàn)技術(shù),例如構(gòu)建分類新聞文章的文本分類系統(tǒng),使用主題建模和文本摘要分析app或游戲評(píng)論,進(jìn)行熱門電影概要的聚類分析和電影評(píng)論的情感分析。介紹了基于Python和流行NLP開源庫(kù)和文本分析實(shí)用工具,如自然語(yǔ)言工具包(nltk)、gensim、scikit-learn、spaCy和Pattern。

作者簡(jiǎn)介

暫缺《Python文本分析》作者簡(jiǎn)介

圖書目錄

目錄
譯者序
前言
第1章自然語(yǔ)言基礎(chǔ)
1.1自然語(yǔ)言
1.1.1什么是自然語(yǔ)言
1.1.2語(yǔ)言哲學(xué)
1.1.3語(yǔ)言習(xí)得和用法
1.2語(yǔ)言學(xué)
1.3語(yǔ)言句法和結(jié)構(gòu)
1.3.1詞
1.3.2短語(yǔ)
1.3.3從句
1.3.4語(yǔ)法
1.3.5語(yǔ)序類型學(xué)
1.4語(yǔ)言語(yǔ)義
1.4.1詞匯語(yǔ)義關(guān)系
1.4.2語(yǔ)義網(wǎng)絡(luò)和模型
1.4.3語(yǔ)義表示
1.5文本語(yǔ)料庫(kù)
1.5.1文本語(yǔ)料庫(kù)標(biāo)注及使用
1.5.2熱門的語(yǔ)料庫(kù)
1.5.3訪問文本語(yǔ)料庫(kù)
1.6自然語(yǔ)言處理
1.6.1機(jī)器翻譯
1.6.2語(yǔ)音識(shí)別系統(tǒng)
1.6.3問答系統(tǒng)
1.6.4語(yǔ)境識(shí)別與消解
1.6.5文本摘要
1.6.6文本分類
1.7文本分析
1.8小結(jié)
第2章Python語(yǔ)言回顧
2.1了解Python
2.1.1Python之禪
2.1.2應(yīng)用:何時(shí)使用Python
2.1.3缺點(diǎn):何時(shí)不用Python
2.1.4Python實(shí)現(xiàn)和版本
2.2安裝和設(shè)置
2.2.1用哪個(gè)Python版本
2.2.2用哪個(gè)操作系統(tǒng)
2.2.3集成開發(fā)環(huán)境
2.2.4環(huán)境設(shè)置
2.2.5虛擬環(huán)境
2.3Python句法和結(jié)構(gòu)
2.4數(shù)據(jù)結(jié)構(gòu)和類型
2.4.1數(shù)值類型
2.4.2字符串
2.4.3列表
2.4.4集合
2.4.5字典
2.4.6元組
2.4.7文件
2.4.8雜項(xiàng)
2.5控制代碼流
2.5.1條件結(jié)構(gòu)
2.5.2循環(huán)結(jié)構(gòu)
2.5.3處理異常
2.6函數(shù)編程
2.6.1函數(shù)
2.6.2遞歸函數(shù)
2.6.3匿名函數(shù)
2.6.4迭代器
2.6.5分析器
2.6.6生成器
2.6.7itertools和functools模塊
2.7類
2.8使用文本
2.8.1字符串文字
2.8.2字符串操作和方法
2.9文本分析框架
2.10小結(jié)
第3章處理和理解文本
3.1文本切分
3.1.1句子切分
3.1.2詞語(yǔ)切分
3.2文本規(guī)范化
3.2.1文本清洗
3.2.2文本切分
3.2.3刪除特殊字符
3.2.4擴(kuò)展縮寫詞
3.2.5大小寫轉(zhuǎn)換
3.2.6刪除停用詞
3.2.7詞語(yǔ)校正
3.2.8詞干提取
3.2.9詞形還原
3.3理解文本句法和結(jié)構(gòu)
3.3.1安裝必要的依賴項(xiàng)
3.3.2機(jī)器學(xué)習(xí)重要概念
3.3.3詞性標(biāo)注
3.3.4淺層分析
3.3.5基于依存關(guān)系的分析
3.3.6基于成分結(jié)構(gòu)的分析
3.4小結(jié)
第4章文本分類
4.1什么是文本分類
4.2自動(dòng)文本分類
4.3文本分類的藍(lán)圖
4.4文本規(guī)范化處理
4.5特征提取
4.5.1詞袋模型
4.5.2TFIDF模型
4.5.3高級(jí)詞向量模型
4.6分類算法
4.6.1多項(xiàng)式樸素貝葉斯
4.6.2支持向量機(jī)
4.7評(píng)估分類模型
4.8建立一個(gè)多類分類系統(tǒng)
4.9應(yīng)用
4.10小結(jié)
第5章文本摘要
5.1文本摘要和信息提取
5.2重要概念
5.2.1文檔
5.2.2文本規(guī)范化
5.2.3特征提取
5.2.4特征矩陣
5.2.5奇異值分解
5.3文本規(guī)范化
5.4特征提取
5.5關(guān)鍵短語(yǔ)提取
5.5.1搭配
5.5.2基于權(quán)重標(biāo)簽的短語(yǔ)提取
5.6主題建模
5.6.1隱含語(yǔ)義索引
5.6.2隱含Dirichlet分布
5.6.3非負(fù)矩陣分解
5.6.4從產(chǎn)品評(píng)論中提取主題
5.7自動(dòng)文檔摘要
5.7.1隱含語(yǔ)義分析
5.7.2TextRank算法
5.7.3生成產(chǎn)品說明摘要
5.8小結(jié)
第6章文本相似度和聚類
6.1重要概念
6.1.1信息檢索
6.1.2特征工程
6.1.3相似度測(cè)量
6.1.4無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法
6.2文本規(guī)范化
6.3特征提取
6.4文本相似度
6.5詞項(xiàng)相似度分析
6.5.1漢明距離
6.5.2曼哈頓距離
6.5.3歐幾里得距離
6.5.4萊文斯坦編輯距離
6.5.5余弦距離和相似度
6.6文檔相似度分析
6.6.1余弦相似度
6.6.2海靈格-巴塔恰亞距離
6.6.3Okapi BM25排名
6.7文檔聚類
6.8最佳影片聚類分析
6.8.1kmeans聚類
6.8.2近鄰傳播聚類
6.8.3沃德凝聚層次聚類
6.9小結(jié)
第7章語(yǔ)義與情感分析
7.1語(yǔ)義分析
7.2探索WordNet
7.2.1理解同義詞集
7.2.2分析詞匯的語(yǔ)義關(guān)系
7.3詞義消歧
7.4命名實(shí)體識(shí)別
7.5分析語(yǔ)義表征
7.5.1命題邏輯
7.5.2一階邏輯
7.6情感分析
7.7IMDb電影評(píng)論的情感分析
7.7.1安裝依賴程序包
7.7.2準(zhǔn)備數(shù)據(jù)集
7.7.3有監(jiān)督的機(jī)器學(xué)習(xí)技術(shù)
7.7.4無(wú)監(jiān)督的詞典技術(shù)
7.7.5模型性能比較
7.8小結(jié)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)