注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當前位置: 首頁出版圖書科學技術計算機/網(wǎng)絡軟件與程序設計Python金融大數(shù)據(jù)挖掘與分析全流程詳解

Python金融大數(shù)據(jù)挖掘與分析全流程詳解

Python金融大數(shù)據(jù)挖掘與分析全流程詳解

定 價:¥89.80

作 者: 王宇韜,房宇亮,肖金鑫 等 著
出版社: 機械工業(yè)出版社
叢編項:
標 簽: 暫缺

ISBN: 9787111633204 出版時間: 2019-09-01 包裝: 平裝
開本: 16 頁數(shù): 字數(shù):  

內(nèi)容簡介

  金融從業(yè)者每天都要與海量的數(shù)據(jù)打交道,如何從這些數(shù)據(jù)中挖掘出需要的信息,并進行相應的分析,是很多金融從業(yè)者非常關心的內(nèi)容。本書以功能強大且較易上手的Python語言為編程環(huán)境,全面講解了金融數(shù)據(jù)的獲取、處理、分析及結果呈現(xiàn)。 全書共16章,內(nèi)容涉及Python基礎知識、網(wǎng)絡數(shù)據(jù)爬蟲技術、數(shù)據(jù)庫存取、數(shù)據(jù)清洗、數(shù)據(jù)可視化、數(shù)據(jù)相關性分析、IP代理、瀏覽器模擬操控、郵件發(fā)送、定時任務、文件讀寫、云端部署、機器學習等,可以實現(xiàn)輿情監(jiān)控、智能投顧、量化金融、大數(shù)據(jù)風控、金融反欺詐模型等多種金融應用。無論是編程知識還是金融相關知識,本書都力求從易到難、循序漸進地講解,并輔以商業(yè)實戰(zhàn)案例來加深印象。 本書定位為一本金融科技入門讀物,但書中的數(shù)據(jù)挖掘與分析思想對其他行業(yè)來說也具備較高的參考價值。本書又是一個金融科技工具箱,里面的代碼可以方便地速查速用,解決實際工作中的問題。 本書適合金融行業(yè)的從業(yè)人員學習。對于大中專院校金融、財會等專業(yè)的師生,以及具備一定計算機編程基礎,又希望投身金融行業(yè)的讀者,本書也是不錯的參考讀物。

作者簡介

  王宇韜:華能貴誠信托金融科技實驗室發(fā)起人,賓夕法尼亞大學碩士,上海交通大學學士,兩年內(nèi)通過CFA 3級、FRM 2級、AQF,在華能貴誠信托自主研發(fā)了輿情監(jiān)控系統(tǒng)、資金雷達、流程自動化AI系統(tǒng)、機器視頻面試系統(tǒng)等,專注于科技在金融領域的應用。 房宇亮:依圖科技高級算法工程師,加州大學洛杉磯分校(UCLA)碩士,南京大學學士,擅長計算機視覺、圖像識別、語音識別等人工智能算法。 肖金鑫:本碩均就讀于國防科技大學,專攻數(shù)據(jù)安全方向,在數(shù)據(jù)爬取與反爬取領域有較深的造詣,曾參加多個重點數(shù)據(jù)安全科研項目。

圖書目錄

第1章 Python基礎
1.1 Python安裝與第一個Python程序
1.1.1 安裝Python
1.1.2 編寫第一個Python程序
1.1.3 PyCharm的安裝與使用
1.2 Python基礎知識
1.2.1 變量、行、縮進與注釋
1.2.2 數(shù)據(jù)類型:數(shù)字與字符串
1.2.3 數(shù)據(jù)類型:列表與字典、元組與集合
1.2.4 運算符
1.3 Python語句
1.3.1 if條件語句
1.3.2 for循環(huán)語句
1.3.3 while循環(huán)語句
1.3.4 try/except異常處理語句
1.4 函數(shù)與庫
1.4.1 函數(shù)的定義與調(diào)用
1.4.2 函數(shù)的返回值與作用域
1.4.3 常用基本函數(shù)介紹
1.4.4 庫


第2章 金融數(shù)據(jù)挖掘之爬蟲技術基礎
2.1 爬蟲技術基礎1—網(wǎng)頁結構基礎
2.1.1 查看網(wǎng)頁源代碼—F12鍵
2.1.2 查看網(wǎng)頁源代碼—右鍵菜單
2.1.3 網(wǎng)址構成及http與https協(xié)議
2.1.4 網(wǎng)頁結構初步了解
2.2 爬蟲技術基礎2—網(wǎng)頁結構進階
2.2.1 HTML基礎知識1—我的第一個網(wǎng)頁
2.2.2 HTML基礎知識2—基礎結構
2.2.3 HTML基礎知識3—標題、段落、鏈接
2.2.4 HTML基礎知識4—區(qū)塊
2.2.5 HTML基礎知識5—類與id
2.3 初步實戰(zhàn)—百度新聞源代碼獲取
2.3.1 獲取網(wǎng)頁源代碼
2.3.2 分析網(wǎng)頁源代碼信息
2.4 爬蟲技術基礎3—正則表達式
2.4.1 正則表達式基礎1—findall()函數(shù)
2.4.2 正則表達式基礎2—非貪婪匹配之(.*?)
2.4.3 正則表達式基礎3—非貪婪匹配之.*?
2.4.4 正則表達式基礎4—自動考慮換行的修飾符re.S
2.4.5 正則表達式基礎5—知識點補充


第3章 金融數(shù)據(jù)挖掘案例實戰(zhàn)1
3.1 提取百度新聞標題、網(wǎng)址、日期及來源
3.1.1 獲取網(wǎng)頁源代碼
3.1.2 編寫正則表達式提取新聞信息
3.1.3 數(shù)據(jù)清洗并打印輸出
3.2 批量獲取多家公司的百度新聞并生成數(shù)據(jù)報告
3.2.1 批量爬取多家公司的百度新聞
3.2.2 自動生成輿情數(shù)據(jù)報告文本文件
3.3 異常處理及24小時實時數(shù)據(jù)挖掘實戰(zhàn)
3.3.1 異常處理實戰(zhàn)
3.3.2 24小時實時爬取實戰(zhàn)
3.4 按時間順序爬取及批量爬取多頁內(nèi)容
3.4.1 按時間順序爬取百度新聞
3.4.2 一次性批量爬取多頁內(nèi)容
3.5 搜狗新聞與新浪財經(jīng)數(shù)據(jù)挖掘實戰(zhàn)
3.5.1 搜狗新聞數(shù)據(jù)挖掘實戰(zhàn)
3.5.2 新浪財經(jīng)數(shù)據(jù)挖掘實戰(zhàn)


第4章 數(shù)據(jù)庫詳解及實戰(zhàn)
4.1 MySQL數(shù)據(jù)庫簡介及安裝
4.2 MySQL數(shù)據(jù)庫基礎
4.2.1 MySQL數(shù)據(jù)庫管理平臺phpMyAdmin介紹
4.2.2 創(chuàng)建數(shù)據(jù)庫及數(shù)據(jù)表
4.2.3 數(shù)據(jù)表基本操作
4.3 Python與MySQL數(shù)據(jù)庫的交互
4.3.1 安裝PyMySQL庫
4.3.2 用Python連接數(shù)據(jù)庫
4.3.3 用Python存儲數(shù)據(jù)到數(shù)據(jù)庫
4.3.4 用Python在數(shù)據(jù)庫中查找并提取數(shù)據(jù)
4.3.5 用Python從數(shù)據(jù)庫中刪除數(shù)據(jù)
4.4 案例實戰(zhàn):把金融數(shù)據(jù)存入數(shù)據(jù)庫


第5章 數(shù)據(jù)清洗優(yōu)化及數(shù)據(jù)評分系統(tǒng)搭建
5.1 深度分析—數(shù)據(jù)去重及清洗優(yōu)化
5.1.1 數(shù)據(jù)去重
5.1.2 常見的數(shù)據(jù)清洗手段及日期格式統(tǒng)一
5.1.3 文本內(nèi)容深度過濾—剔除噪聲數(shù)據(jù)
5.2 數(shù)據(jù)亂碼的處理
5.2.1 編碼分析
5.2.2 重新編碼及解碼
5.2.3 解決亂碼問題的經(jīng)驗方法
5.3 輿情數(shù)據(jù)評分系統(tǒng)搭建
5.3.1 輿情數(shù)據(jù)評分系統(tǒng)版本1—根據(jù)標題評分
5.3.2 輿情數(shù)據(jù)評分系統(tǒng)版本2—根據(jù)正文內(nèi)容評分
5.3.3 輿情數(shù)據(jù)評分系統(tǒng)版本3—解決亂碼問題
5.3.4 輿情數(shù)據(jù)評分系統(tǒng)版本4—處理非相關信息
5.4 完整的百度新聞數(shù)據(jù)挖掘系統(tǒng)搭建
5.4.1 將輿情數(shù)據(jù)評分存入數(shù)據(jù)庫
5.4.2 百度新聞數(shù)據(jù)挖掘系統(tǒng)代碼整合
5.4.3 從數(shù)據(jù)庫匯總每日評分


第6章 數(shù)據(jù)分析利器:NumPy與pandas庫
6.1 NumPy庫基礎
6.1.1 NumPy庫與數(shù)組
6.1.2 創(chuàng)建數(shù)組的幾種方式
6.2 pandas庫基礎
6.2.1 二維數(shù)據(jù)表格DataFrame的創(chuàng)建與索引的修改
6.2.2 Excel工作簿等文件的讀取和寫入
6.2.3 數(shù)據(jù)的讀取與編輯
6.2.4 數(shù)據(jù)表的拼接
6.3 利用pandas庫導出輿情數(shù)據(jù)評分
6.3.1 匯總輿情數(shù)據(jù)評分
6.3.2 導出輿情數(shù)據(jù)評分表格


第7章 數(shù)據(jù)可視化與數(shù)據(jù)相關性分析
7.1 用Tushare庫調(diào)取股價數(shù)據(jù)
7.1.1 Tushare庫的基本用法
7.1.2 匹配輿情數(shù)據(jù)評分與股價數(shù)據(jù)
7.2 輿情數(shù)據(jù)評分與股價數(shù)據(jù)的可視化
7.2.1 數(shù)據(jù)可視化基礎
7.2.2 數(shù)據(jù)可視化實戰(zhàn)
7.3 輿情數(shù)據(jù)評分與股價數(shù)據(jù)相關性分析
7.3.1 皮爾遜相關系數(shù)
7.3.2 相關性分析實戰(zhàn)


第8章 金融數(shù)據(jù)挖掘之爬蟲技術進階
8.1 爬蟲技術進階1—IP代理簡介
8.1.1 IP代理的工作原理
8.1.2 IP代理的使用方法
8.2 爬蟲技術進階2—Selenium庫詳解
8.2.1 網(wǎng)絡數(shù)據(jù)挖掘的難點
8.2.2 模擬瀏覽器ChromeDriver的下載與安裝
8.2.3 Selenium庫的安裝
8.2.4 Selenium庫的使用


第9章 金融數(shù)據(jù)挖掘案例實戰(zhàn)2
9.1 新浪財經(jīng)股票實時數(shù)據(jù)挖掘實戰(zhàn)
9.1.1 獲取網(wǎng)頁源代碼
9.1.2 數(shù)據(jù)提取
9.2 東方財富網(wǎng)數(shù)據(jù)挖掘實戰(zhàn)
9.2.1 獲取網(wǎng)頁源代碼
9.2.2 編寫正則表達式提取數(shù)據(jù)
9.2.3 數(shù)據(jù)清洗及打印輸出
9.2.4 函數(shù)定義及調(diào)用
9.3 裁判文書網(wǎng)數(shù)據(jù)挖掘實戰(zhàn)
9.4 巨潮資訊網(wǎng)數(shù)據(jù)挖掘實戰(zhàn)
9.4.1 獲取網(wǎng)頁源代碼
9.4.2 編寫正則表達式提取數(shù)據(jù)
9.4.3 數(shù)據(jù)清洗及打印輸出
9.4.4 函數(shù)定義及調(diào)用


第10章 通過PDF文本解析上市公司理財公告
10.1 PDF文件批量下載實戰(zhàn)
10.1.1 爬取多頁內(nèi)容
10.1.2 自動篩選所需內(nèi)容
10.1.3 理財公告PDF文件的自動批量下載
10.2 PDF文本解析基礎
10.2.1 用pdfplumber庫提取文本內(nèi)容
10.2.2 用pdfplumber庫提取表格內(nèi)容
10.3 PDF文本解析實戰(zhàn)—尋找合適的理財公告
10.3.1 遍歷文件夾里所有的PDF文件
10.3.2 批量解析每一個PDF文件
10.3.3 將合格的PDF文件自動歸檔


第11章 郵件提醒系統(tǒng)搭建
11.1 用Python自動發(fā)送郵件
11.1.1 通過騰訊QQ郵箱發(fā)送郵件
11.1.2 通過網(wǎng)易163郵箱發(fā)送郵件
11.1.3 發(fā)送HTML格式的郵件
11.1.4 發(fā)送郵件附件
11.2 案例實戰(zhàn):定時發(fā)送數(shù)據(jù)分析報告
11.2.1 用Python提取數(shù)據(jù)并發(fā)送數(shù)據(jù)分析報告郵件
11.2.2 用Python實現(xiàn)每天定時發(fā)送郵件


第12章 基于評級報告的投資決策分析
12.1 獲取券商研報網(wǎng)站的表格數(shù)據(jù)
12.1.1 表格數(shù)據(jù)的常規(guī)獲取方法
12.1.2 用Selenium庫爬取和訊研報網(wǎng)表格數(shù)據(jù)
12.2 pandas庫的高階用法
12.2.1 重復值和缺失值處理
12.2.2 用groupby()函數(shù)分組匯總數(shù)據(jù)
12.2.3 用pandas庫進行批量處理
12.3 評估券商分析師預測準確度
12.3.1 讀取分析師評級報告數(shù)據(jù)進行數(shù)據(jù)預處理
12.3.2 用Tushare庫計算股票收益率
12.3.3 計算平均收益率并進行分析師預測準確度排名
12.4 策略延伸
12.4.1 漲停板的考慮
12.4.2 按分析師查看每只股票的收益率
12.4.3 計算多階段股票收益率


第13章 用Python生成Word文檔
13.1 用Python創(chuàng)建Word文檔的基礎知識
13.1.1 初識python-docx庫
13.1.2 python-docx庫的基本操作
13.2 用Python創(chuàng)建Word文檔的進階知識
13.2.1 設置中文字體
13.2.2 在段落中新增文字
13.2.3 設置字體大小及顏色
13.2.4 設置段落格式
13.2.5 設置表格樣式
13.2.6 設置圖片樣式
13.3 案例實戰(zhàn):自動生成數(shù)據(jù)分析報告Word文檔


第14章 基于股票信息及其衍生變量的數(shù)據(jù)分析
14.1 策略基本思路
14.2 獲取股票基本信息及衍生變量數(shù)據(jù)
14.2.1 獲取股票基本信息數(shù)據(jù)
14.2.2 獲取股票衍生變量數(shù)據(jù)
14.2.3 通過相關性分析選取合適的衍生變量
14.2.4 數(shù)據(jù)表優(yōu)化及代碼匯總
14.3 數(shù)據(jù)可視化呈現(xiàn)
14.4 用xlwings庫生成Excel工作簿
14.4.1 xlwings庫的基本用法
14.4.2 案例實戰(zhàn):自動生成Excel工作簿報告
14.5 策略深化思路


第15章 云服務器部署實戰(zhàn)
15.1 云服務器的購買與配置
15.2 程序的云端部署
15.2.1 安裝運行程序所需的軟件
15.2.2 實現(xiàn)程序24小時不間斷運行


第16章 機器學習之客戶違約預測模型搭建
16.1 機器學習在金融領域的應用
16.2 決策樹模型的基本原理
16.2.1 決策樹模型簡介
16.2.2 決策樹模型的建樹依據(jù)
16.3 案例實戰(zhàn):客戶違約預測模型搭建
16.3.1 模型搭建
16.3.2 模型預測及評估
16.3.3 模型可視化呈現(xiàn)

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號 鄂公網(wǎng)安備 42010302001612號