基于強化學習的數(shù)據(jù)驅(qū)動優(yōu)化控制方法

定　價：￥98.00

作　者：	楊永亮著
出版社：	科學出版社
叢編項：	博士后文庫
標　簽：	暫缺

購買這本書可以去

ISBN：	9787030728692	出版時間：	2022-09-01	包裝：	平裝
開本：	16開	頁數(shù)：	151	字數(shù)：

內(nèi)容簡介

　　《基于強化學習的數(shù)據(jù)驅(qū)動優(yōu)化控制方法》結(jié)合作者近年來在優(yōu)化理論、采樣理論和控制理論方面的研究工作，系統(tǒng)地介紹了自適應優(yōu)化控制問題中的強化學習設計方法，充分考慮了學習算法的收斂性和學習過程中閉環(huán)系統(tǒng)的穩(wěn)定性，重點闡述了基于數(shù)據(jù)驅(qū)動的優(yōu)化設計方案。針對魯棒控制問題、多玩家非零和博弈問題、多智能體分布式協(xié)同控制問題、事件觸發(fā)采樣機制設計與間歇反饋控制優(yōu)化問題，建立了系統(tǒng)的數(shù)據(jù)驅(qū)動優(yōu)化控制設計與分析方法。

作者簡介

暫缺《基于強化學習的數(shù)據(jù)驅(qū)動優(yōu)化控制方法》作者簡介

圖書目錄

目錄
“博士后文庫”序言
前言
符號說明
第1章緒論 1
1.1 優(yōu)控制理論 1
1.1.1 離散時間動態(tài)系統(tǒng)的*優(yōu)控制 1
1.1.2 連續(xù)時間動態(tài)系統(tǒng)的*優(yōu)控制 2
1.2 強化學習與自適應動態(tài)規(guī)劃 3
1.2.1 自適應動態(tài)規(guī)劃理論基本原理 3
1.2.2 自適應動態(tài)規(guī)劃理論發(fā)展現(xiàn)狀 5
1.3 微分博弈理論 7
1.4 多智能體系統(tǒng)的協(xié)同控制 9
1.5 事件觸發(fā)機制 10
第2章離散時間不確定線性系統(tǒng)的數(shù)據(jù)驅(qū)動魯棒控制設計方法 13
2.1 引言 13
2.2 問題描述 14
2.3 基于代數(shù)里卡蒂方程的魯棒控制器設計方法 16
2.4 同軌策略強化學習算法 21
2.4.1 基于模型的同軌策略強化學習 21
2.4.2 帶有探測噪聲的同軌策略強化學習 22
2.5 異軌策略強化學習 24
2.5.1 基于模型的異軌策略強化學習 24
2.5.2 帶有探測噪聲的異軌策略強化學習 26
2.5.3 無模型的異軌策略強化學習 27
2.6 仿真研究 29
2.7 小結(jié) 35
第3章基于數(shù)據(jù)驅(qū)動的離散系統(tǒng)非零和博弈問題求解方法 37
3.1 引言 37
3.2 問題描述 38
3.2.1 非零和博弈問題 38
3.2.2 耦合代數(shù)里卡蒂方程 39
3.3 基于模型的自適應動態(tài)規(guī)劃 44
3.3.1 同軌策略強化學習算法 44
3.3.2 異軌策略強化學習算法 46
3.4 無模型自適應動態(tài)規(guī)劃 51
3.5 仿真研究 54
3.5.1 案例一：離線迭代強化學習算法 55
3.5.2 案例二：同軌策略強化學習算法 56
3.5.3 實例三：異軌策略強化學習算法 57
3.6 小結(jié) 61
第4章連續(xù)時間動態(tài)系統(tǒng)非零和博弈問題的數(shù)據(jù)驅(qū)動積分型強化學習方法 62
4.1 引言 62
4.2 問題描述 63
4.2.1 帶衰減系數(shù)的非零和博弈的耦合代數(shù)里卡蒂方程 64
4.2.2 離線策略迭代算法 65
4.3 積分值迭代算法 66
4.3.1 積分值迭代算法 66
4.3.2 具有衰減系數(shù)的等價積分值迭代 69
4.4 理論分析 70
4.4.1 積分值迭代算法的正定性分析 70
4.4.2 積分值迭代算法的穩(wěn)定性分析 71
4.4.3 積分值迭代算法的收斂性分析 73
4.5 仿真研究 76
4.6 小結(jié) 80
第5章基于Q 學習的數(shù)據(jù)驅(qū)動間歇反饋控制器設計方法 81
5.1 引言 81
5.2 問題描述 82
5.2.1 時間觸發(fā)*優(yōu)控制 82
5.2.2 間歇反饋控制 83
5.3 靜態(tài)間歇反饋設計 84
5.3.1 基于模型的靜態(tài)事件觸發(fā)控制 84
5.3.2 基于數(shù)據(jù)的靜態(tài)事件觸發(fā)控制 85
5.4 基于Q 學習的數(shù)據(jù)驅(qū)動間歇反饋控制 89
5.5 仿真研究 94
5.6 小結(jié) 95
第6章一類異構多智能體系統(tǒng)的數(shù)據(jù)驅(qū)動模型參考分布式包含控制設計方法 96
6.1 引言 96
6.2 問題描述 98
6.3 分布式自適應觀測器設計 99
6.4 分布式*優(yōu)模型參考包含控制 105
6.4.1 問題描述 105
6.4.2 非齊次貝爾曼方程 105
6.4.3 非齊次代數(shù)里卡蒂方程和*優(yōu)性討論 107
6.4.4 非齊次代數(shù)里卡蒂方程的求解與穩(wěn)定性分析 108
6.5 完全分布式*優(yōu)模型參考自適應包含控制 109
6.6 基于強化學習的完全分布式自適應*優(yōu)包含控制設計 110
6.6.1 基于模型的強化學習設計方案 110
6.6.2 基于數(shù)據(jù)的強化學習設計方案 111
6.7 仿真研究 114
6.8 小結(jié) 118
第7章數(shù)據(jù)驅(qū)動多智能體系統(tǒng)的事件觸發(fā)包含控制設計方法 119
7.1 引言 119
7.2 問題描述 120
7.3 時間觸發(fā)包含控制設計 121
7.4 事件觸發(fā)分布式包含控制設計 122
7.4.1 事件觸發(fā)方案設計 122
7.4.2 事件觸發(fā)機制的可行性分析 125
7.5 異軌策略強化學習 129
7.6 仿真研究 131
7.7 小結(jié) 133
參考文獻 134
編后記 153
彩圖