注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計Python語言數(shù)據(jù)分析

Python語言數(shù)據(jù)分析

Python語言數(shù)據(jù)分析

定 價:¥68.00

作 者: 管新潮
出版社: 上海交通大學出版社
叢編項:
標 簽: 暫缺

ISBN: 9787313248916 出版時間: 2021-05-01 包裝: 平裝
開本: 16開 頁數(shù): 258 字數(shù):  

內(nèi)容簡介

  管新潮,現(xiàn)任上海交通大學外國語學院副教授、碩士生導師本書為新核心翻譯碩士(MTI)系列教材叢書之一。本書主要內(nèi)容包括語言數(shù)據(jù)分析基礎(數(shù)據(jù)結構、數(shù)據(jù)清洗、數(shù)據(jù)可視化等)以及語言數(shù)據(jù)分析應用(N-gramsChunk提取、相似性計算、情感分析、語義分析、主題分析、語料庫變量分析等)。全書共分兩部分十個章節(jié),內(nèi)容限制在Python的語料庫應用提升階段,更多結合語言學和翻譯學的相關理論知識,實現(xiàn)技術與語言學翻譯學的充分結合。全書體例為文字描述結合部分關鍵代碼呈現(xiàn),按主題劃分章節(jié)內(nèi)容。本書適合文科類語言智能、語言數(shù)據(jù)科學、AI語言等方向的教師或?qū)W生使用。本書系《語料庫與Python應用》一書的后續(xù)提升版內(nèi)容,更注重Python在語言學翻譯學領域的數(shù)據(jù)分析應用。

作者簡介

  管新潮,現(xiàn)任上海交通大學外國語學院副教授、碩士生導師。主要研究方向為語料庫翻譯學,翻譯管理與技術,法律翻譯,語料數(shù)據(jù)分析(Python)。主持項目3個,發(fā)表論文16篇,出版專著3部、譯著10部,擁有專利2項、軟件著作權2項。

圖書目錄

上篇 語言數(shù)據(jù)分析基礎
第1章 語言數(shù)據(jù)結構
1.1 一維數(shù)據(jù)結構
1.1.1 單詞列表
1.1.2 術語列表
1.1.3 句子列表
1.1.4 段落列表
1.1.5 語篇列表
1.1.6 其他一維數(shù)據(jù)結構
1.2 二維數(shù)據(jù)結構
1.2.1 字典結構
1.2.2 元組列表結構
1.2.3 二維數(shù)據(jù)的遍歷
1.3 多維數(shù)據(jù)結構
1.3.1 元組字典結構
1.3.2 列表元組列表結構
1.3.3 Brown語料庫詞性標記訓練集
1.4 數(shù)據(jù)結構轉(zhuǎn)換
1.4.1 多連詞的轉(zhuǎn)換
1.4.2 矩陣結構的轉(zhuǎn)換
1.4.3 spaCy列表到NLTK列表的轉(zhuǎn)換
第2章 語言數(shù)據(jù)清洗
2.1 Python數(shù)據(jù)清洗方法
2.1.1 無效字符清除方法
2.1.2 字符判斷方法
2.1.3 替換方法
2.1.4 標點符號清除方法
2.1.5 停用詞方法
2.2 無效信息的清洗
2.2.1 何為無效信息
2.2.2 新聞文本的語言數(shù)據(jù)清洗
2.2.3 中文動詞的清洗
2.3 有效信息的清洗
2.3.1 何為有效信息
2.3.2 英文動詞詞組的清洗
2.3.3 詞形還原法
2.3.4 特征值清洗
第3章 語言數(shù)據(jù)可視化
3.1 數(shù)字結果可視化
3.1.1 語篇詞匯密度分布及其柱狀圖可視化
3.1.2 作業(yè)分數(shù)統(tǒng)計及其正態(tài)分布擬合可視化
3.1.3 語篇詞長分布及其折線圖可視化
3.1.4 信息貢獻度分布對比及其散點圖可視化
3.1.5 語篇長句界定及其句長分布可視化
3.2 文字結果可視化
3.2.1 詞匯相似性及其相關矩陣可視化
3.2.2 主題詞凸顯及其分布式可視化
3.2.3 評價語句的相似性及其聚類可視化
3.2.4 語篇語義分析及其語義網(wǎng)絡可視化
第4章 數(shù)據(jù)分析可選方法
4.1 Python+Excel應用
4.1.1 長句文字內(nèi)容和句長分布
4.1.2 上下文關鍵詞呈現(xiàn)
4.1.3 多文本對比呈現(xiàn)
4.1.4 過程prdndas數(shù)據(jù)結構呈現(xiàn)
4.2 正則表達式方法
4.2.1 概述
4.2.2 案例1——首字母為元音的單詞提取
4.2.3 案例2——主題詞L5R5搭配提取
4.3 文本分類方法
4.3.1 以關鍵詞實現(xiàn)大文本分類
4.3.2 以情感極性實現(xiàn)小文本分類
4.3.3 樸素貝葉斯分類法
4.4 語言數(shù)據(jù)檢驗
下篇 語言數(shù)據(jù)分析理論與應用
第5章 短語學及其計算語言學方法
5.1 短語學與計算語言學
5.1.1 語料庫與短語學
5.1.2 計算語言學
5.1.3 基于意義單位的研究
5.1.4 短語學技術應用
5.2 短語數(shù)據(jù)處理工具
5.2.1 全額提取方法
5.2.2 分類提取方法
5.3 短語學分析路徑
5.3.1 學術文本模糊短語的弱化表述手段
5.3.2 話語分析及其ngrms()短語數(shù)據(jù)清洗
5.3.3 多詞術語的結構語義消歧
第6章 情感分析理論、方法與路徑
6.1 情感分析與接受度定位
6.1.1 情感與情感分析
6.1.2 國際關系領域
6.1.3 市場營銷領域
6.1.4 教育領域
6.1.5 應用與不足
6.2 情感分析工具
6.2.1 中文類工具
6.2.2 英文類工具
6.2.3 混合類工具——樸素貝葉斯分類法
6.3 情感分析路徑
6.3.1 情感分析與傳統(tǒng)民意調(diào)查比較
6.3.2 基于文本情感分析的商品評價
6.3.3 樸素貝葉斯分類法與情感分析
6.3.4 擇校行為影響因素與情感分類
第7章 相似性度量理論與應用
7.1 相似性度量與文本分析
7.1.1 基于語義信息的相似性
7.1.2 三個層級的度量路徑
7.1.3 文本數(shù)據(jù)和知識庫
7.2 相似性度量工具
7.2.1 詞匯相似性度量
7.2.2 句子相似性度量
7.2.3 語篇相似性度量
7.3 文本相似性分析路徑
7.3.1 多譯本相似性度量
7.3.2 著作權法/版權法概念copyright及其搭配的相似性
7.3.3 語料庫的平衡性問題
第8章 語義分析與文本探究
8.1 語義分析與相關模型
8.1.1 語義遷移與分布式詞向量
8.1.2 語義主題詞與信息貢獻度
8.1.3 語義關系與語義網(wǎng)
8.1.4 文本語義與語義網(wǎng)絡分析
8.2 語義分析工具
8.2.1 詞向量(詞嵌入)模型
8.2.2 語義網(wǎng)資源
8.2.3 spaCy方法
8.2.4 向量模型
8.3 文本語義分析路徑
8.3.1 著作權法/版權法概念copyright詞向量關聯(lián)性
8.3.2 語義遷移描述與代碼融合
8.3.3 漢英法律語義檢索詞典構建
第9章 主題建模與文本主題
9.1 主題建模中的主題挖掘
9.1.1 語料庫主題概述
9.1.2 主題建模方法論啟示
9.1.3 歷時性文本主題
9.1.4 共時性文本主題
9.1.5 討論與總結
9.2 主題建模工具
9.2.1 Gensim主題建模方法
9.2.2 Sklearn主題建模方法
9.2.3 中文主題模型方法
9.3 主題建模實現(xiàn)路徑
9.3.1 話語分析中

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號