Python語言數(shù)據(jù)分析

定　價：￥68.00

作　者：	管新潮
出版社：	上海交通大學(xué)出版社
叢編項：
標　簽：	暫缺

購買這本書可以去

ISBN：	9787313248916	出版時間：	2021-05-01	包裝：	平裝
開本：	16開	頁數(shù)：	258	字數(shù)：

內(nèi)容簡介

　　管新潮，現(xiàn)任上海交通大學(xué)外國語學(xué)院副教授、碩士生導(dǎo)師本書為新核心翻譯碩士（MTI）系列教材叢書之一。本書主要內(nèi)容包括語言數(shù)據(jù)分析基礎(chǔ)（數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)清洗、數(shù)據(jù)可視化等）以及語言數(shù)據(jù)分析應(yīng)用（N-gramsChunk提取、相似性計算、情感分析、語義分析、主題分析、語料庫變量分析等）。全書共分兩部分十個章節(jié)，內(nèi)容限制在Python的語料庫應(yīng)用提升階段，更多結(jié)合語言學(xué)和翻譯學(xué)的相關(guān)理論知識，實現(xiàn)技術(shù)與語言學(xué)翻譯學(xué)的充分結(jié)合。全書體例為文字描述結(jié)合部分關(guān)鍵代碼呈現(xiàn)，按主題劃分章節(jié)內(nèi)容。本書適合文科類語言智能、語言數(shù)據(jù)科學(xué)、AI語言等方向的教師或?qū)W生使用。本書系《語料庫與Python應(yīng)用》一書的后續(xù)提升版內(nèi)容，更注重Python在語言學(xué)翻譯學(xué)領(lǐng)域的數(shù)據(jù)分析應(yīng)用。

作者簡介

　　管新潮，現(xiàn)任上海交通大學(xué)外國語學(xué)院副教授、碩士生導(dǎo)師。主要研究方向為語料庫翻譯學(xué)，翻譯管理與技術(shù)，法律翻譯，語料數(shù)據(jù)分析（Python）。主持項目3個，發(fā)表論文16篇，出版專著3部、譯著10部，擁有專利2項、軟件著作權(quán)2項。

圖書目錄

上篇語言數(shù)據(jù)分析基礎(chǔ)
第1章語言數(shù)據(jù)結(jié)構(gòu)
1.1 一維數(shù)據(jù)結(jié)構(gòu)
1.1.1 單詞列表
1.1.2 術(shù)語列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 語篇列表
1.1.6 其他一維數(shù)據(jù)結(jié)構(gòu)
1.2 二維數(shù)據(jù)結(jié)構(gòu)
1.2.1 字典結(jié)構(gòu)
1.2.2 元組列表結(jié)構(gòu)
1.2.3 二維數(shù)據(jù)的遍歷
1.3 多維數(shù)據(jù)結(jié)構(gòu)
1.3.1 元組字典結(jié)構(gòu)
1.3.2 列表元組列表結(jié)構(gòu)
1.3.3 Brown語料庫詞性標記訓(xùn)練集
1.4 數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換
1.4.1 多連詞的轉(zhuǎn)換
1.4.2 矩陣結(jié)構(gòu)的轉(zhuǎn)換
1.4.3 spaCy列表到NLTK列表的轉(zhuǎn)換
第2章語言數(shù)據(jù)清洗
2.1 Python數(shù)據(jù)清洗方法
2.1.1 無效字符清除方法
2.1.2 字符判斷方法
2.1.3 替換方法
2.1.4 標點符號清除方法
2.1.5 停用詞方法
2.2 無效信息的清洗
2.2.1 何為無效信息
2.2.2 新聞文本的語言數(shù)據(jù)清洗
2.2.3 中文動詞的清洗
2.3 有效信息的清洗
2.3.1 何為有效信息
2.3.2 英文動詞詞組的清洗
2.3.3 詞形還原法
2.3.4 特征值清洗
第3章語言數(shù)據(jù)可視化
3.1 數(shù)字結(jié)果可視化
3.1.1 語篇詞匯密度分布及其柱狀圖可視化
3.1.2 作業(yè)分數(shù)統(tǒng)計及其正態(tài)分布擬合可視化
3.1.3 語篇詞長分布及其折線圖可視化
3.1.4 信息貢獻度分布對比及其散點圖可視化
3.1.5 語篇長句界定及其句長分布可視化
3.2 文字結(jié)果可視化
3.2.1 詞匯相似性及其相關(guān)矩陣可視化
3.2.2 主題詞凸顯及其分布式可視化
3.2.3 評價語句的相似性及其聚類可視化
3.2.4 語篇語義分析及其語義網(wǎng)絡(luò)可視化
第4章數(shù)據(jù)分析可選方法
4.1 Python+Excel應(yīng)用
4.1.1 長句文字內(nèi)容和句長分布
4.1.2 上下文關(guān)鍵詞呈現(xiàn)
4.1.3 多文本對比呈現(xiàn)
4.1.4 過程prdndas數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)
4.2 正則表達式方法
4.2.1 概述
4.2.2 案例1——首字母為元音的單詞提取
4.2.3 案例2——主題詞L5R5搭配提取
4.3 文本分類方法
4.3.1 以關(guān)鍵詞實現(xiàn)大文本分類
4.3.2 以情感極性實現(xiàn)小文本分類
4.3.3 樸素貝葉斯分類法
4.4 語言數(shù)據(jù)檢驗
下篇語言數(shù)據(jù)分析理論與應(yīng)用
第5章短語學(xué)及其計算語言學(xué)方法
5.1 短語學(xué)與計算語言學(xué)
5.1.1 語料庫與短語學(xué)
5.1.2 計算語言學(xué)
5.1.3 基于意義單位的研究
5.1.4 短語學(xué)技術(shù)應(yīng)用
5.2 短語數(shù)據(jù)處理工具
5.2.1 全額提取方法
5.2.2 分類提取方法
5.3 短語學(xué)分析路徑
5.3.1 學(xué)術(shù)文本模糊短語的弱化表述手段
5.3.2 話語分析及其ngrms()短語數(shù)據(jù)清洗
5.3.3 多詞術(shù)語的結(jié)構(gòu)語義消歧
第6章情感分析理論、方法與路徑
6.1 情感分析與接受度定位
6.1.1 情感與情感分析
6.1.2 國際關(guān)系領(lǐng)域
6.1.3 市場營銷領(lǐng)域
6.1.4 教育領(lǐng)域
6.1.5 應(yīng)用與不足
6.2 情感分析工具
6.2.1 中文類工具
6.2.2 英文類工具
6.2.3 混合類工具——樸素貝葉斯分類法
6.3 情感分析路徑
6.3.1 情感分析與傳統(tǒng)民意調(diào)查比較
6.3.2 基于文本情感分析的商品評價
6.3.3 樸素貝葉斯分類法與情感分析
6.3.4 擇校行為影響因素與情感分類
第7章相似性度量理論與應(yīng)用
7.1 相似性度量與文本分析
7.1.1 基于語義信息的相似性
7.1.2 三個層級的度量路徑
7.1.3 文本數(shù)據(jù)和知識庫
7.2 相似性度量工具
7.2.1 詞匯相似性度量
7.2.2 句子相似性度量
7.2.3 語篇相似性度量
7.3 文本相似性分析路徑
7.3.1 多譯本相似性度量
7.3.2 著作權(quán)法／版權(quán)法概念copyright及其搭配的相似性
7.3.3 語料庫的平衡性問題
第8章語義分析與文本探究
8.1 語義分析與相關(guān)模型
8.1.1 語義遷移與分布式詞向量
8.1.2 語義主題詞與信息貢獻度
8.1.3 語義關(guān)系與語義網(wǎng)
8.1.4 文本語義與語義網(wǎng)絡(luò)分析
8.2 語義分析工具
8.2.1 詞向量(詞嵌入)模型
8.2.2 語義網(wǎng)資源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本語義分析路徑
8.3.1 著作權(quán)法／版權(quán)法概念copyright詞向量關(guān)聯(lián)性
8.3.2 語義遷移描述與代碼融合
8.3.3 漢英法律語義檢索詞典構(gòu)建
第9章主題建模與文本主題
9.1 主題建模中的主題挖掘
9.1.1 語料庫主題概述
9.1.2 主題建模方法論啟示
9.1.3 歷時性文本主題
9.1.4 共時性文本主題
9.1.5 討論與總結(jié)
9.2 主題建模工具
9.2.1 Gensim主題建模方法
9.2.2 Sklearn主題建模方法
9.2.3 中文主題模型方法
9.3 主題建模實現(xiàn)路徑
9.3.1 話語分析中