注冊(cè) | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁(yè)出版圖書科學(xué)技術(shù)計(jì)算機(jī)/網(wǎng)絡(luò)行業(yè)軟件及應(yīng)用基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制方法

基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制方法

基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制方法

定 價(jià):¥98.00

作 者: 楊永亮 著
出版社: 科學(xué)出版社
叢編項(xiàng): 博士后文庫(kù)
標(biāo) 簽: 暫缺

ISBN: 9787030728692 出版時(shí)間: 2022-09-01 包裝: 平裝
開本: 16開 頁(yè)數(shù): 151 字?jǐn)?shù):  

內(nèi)容簡(jiǎn)介

  《基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制方法》結(jié)合作者近年來(lái)在優(yōu)化理論、采樣理論和控制理論方面的研究工作,系統(tǒng)地介紹了自適應(yīng)優(yōu)化控制問(wèn)題中的強(qiáng)化學(xué)習(xí)設(shè)計(jì)方法,充分考慮了學(xué)習(xí)算法的收斂性和學(xué)習(xí)過(guò)程中閉環(huán)系統(tǒng)的穩(wěn)定性,重點(diǎn)闡述了基于數(shù)據(jù)驅(qū)動(dòng)的優(yōu)化設(shè)計(jì)方案。針對(duì)魯棒控制問(wèn)題、多玩家非零和博弈問(wèn)題、多智能體分布式協(xié)同控制問(wèn)題、事件觸發(fā)采樣機(jī)制設(shè)計(jì)與間歇反饋控制優(yōu)化問(wèn)題,建立了系統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制設(shè)計(jì)與分析方法。

作者簡(jiǎn)介

暫缺《基于強(qiáng)化學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)優(yōu)化控制方法》作者簡(jiǎn)介

圖書目錄

目錄
“博士后文庫(kù)”序言
前言
符號(hào)說(shuō)明
第1章 緒論 1
1.1 優(yōu)控制理論 1
1.1.1 離散時(shí)間動(dòng)態(tài)系統(tǒng)的*優(yōu)控制 1
1.1.2 連續(xù)時(shí)間動(dòng)態(tài)系統(tǒng)的*優(yōu)控制 2
1.2 強(qiáng)化學(xué)習(xí)與自適應(yīng)動(dòng)態(tài)規(guī)劃 3
1.2.1 自適應(yīng)動(dòng)態(tài)規(guī)劃理論基本原理 3
1.2.2 自適應(yīng)動(dòng)態(tài)規(guī)劃理論發(fā)展現(xiàn)狀 5
1.3 微分博弈理論 7
1.4 多智能體系統(tǒng)的協(xié)同控制 9
1.5 事件觸發(fā)機(jī)制 10
第2章 離散時(shí)間不確定線性系統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)魯棒控制設(shè)計(jì)方法 13
2.1 引言 13
2.2 問(wèn)題描述 14
2.3 基于代數(shù)里卡蒂方程的魯棒控制器設(shè)計(jì)方法 16
2.4 同軌策略強(qiáng)化學(xué)習(xí)算法 21
2.4.1 基于模型的同軌策略強(qiáng)化學(xué)習(xí) 21
2.4.2 帶有探測(cè)噪聲的同軌策略強(qiáng)化學(xué)習(xí) 22
2.5 異軌策略強(qiáng)化學(xué)習(xí) 24
2.5.1 基于模型的異軌策略強(qiáng)化學(xué)習(xí) 24
2.5.2 帶有探測(cè)噪聲的異軌策略強(qiáng)化學(xué)習(xí) 26
2.5.3 無(wú)模型的異軌策略強(qiáng)化學(xué)習(xí) 27
2.6 仿真研究 29
2.7 小結(jié) 35
第3章 基于數(shù)據(jù)驅(qū)動(dòng)的離散系統(tǒng)非零和博弈問(wèn)題求解方法 37
3.1 引言 37
3.2 問(wèn)題描述 38
3.2.1 非零和博弈問(wèn)題 38
3.2.2 耦合代數(shù)里卡蒂方程 39
3.3 基于模型的自適應(yīng)動(dòng)態(tài)規(guī)劃 44
3.3.1 同軌策略強(qiáng)化學(xué)習(xí)算法 44
3.3.2 異軌策略強(qiáng)化學(xué)習(xí)算法 46
3.4 無(wú)模型自適應(yīng)動(dòng)態(tài)規(guī)劃 51
3.5 仿真研究 54
3.5.1 案例一:離線迭代強(qiáng)化學(xué)習(xí)算法 55
3.5.2 案例二:同軌策略強(qiáng)化學(xué)習(xí)算法 56
3.5.3 實(shí)例三:異軌策略強(qiáng)化學(xué)習(xí)算法 57
3.6 小結(jié) 61
第4章 連續(xù)時(shí)間動(dòng)態(tài)系統(tǒng)非零和博弈問(wèn)題的數(shù)據(jù)驅(qū)動(dòng)積分型強(qiáng)化學(xué)習(xí)方法 62
4.1 引言 62
4.2 問(wèn)題描述 63
4.2.1 帶衰減系數(shù)的非零和博弈的耦合代數(shù)里卡蒂方程 64
4.2.2 離線策略迭代算法 65
4.3 積分值迭代算法 66
4.3.1 積分值迭代算法 66
4.3.2 具有衰減系數(shù)的等價(jià)積分值迭代 69
4.4 理論分析 70
4.4.1 積分值迭代算法的正定性分析 70
4.4.2 積分值迭代算法的穩(wěn)定性分析 71
4.4.3 積分值迭代算法的收斂性分析 73
4.5 仿真研究 76
4.6 小結(jié) 80
第5章 基于Q 學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)間歇反饋控制器設(shè)計(jì)方法 81
5.1 引言 81
5.2 問(wèn)題描述 82
5.2.1 時(shí)間觸發(fā)*優(yōu)控制 82
5.2.2 間歇反饋控制 83
5.3 靜態(tài)間歇反饋設(shè)計(jì) 84
5.3.1 基于模型的靜態(tài)事件觸發(fā)控制 84
5.3.2 基于數(shù)據(jù)的靜態(tài)事件觸發(fā)控制 85
5.4 基于Q 學(xué)習(xí)的數(shù)據(jù)驅(qū)動(dòng)間歇反饋控制 89
5.5 仿真研究 94
5.6 小結(jié) 95
第6章 一類異構(gòu)多智能體系統(tǒng)的數(shù)據(jù)驅(qū)動(dòng)模型參考分布式包含控制設(shè)計(jì)方法 96
6.1 引言 96
6.2 問(wèn)題描述 98
6.3 分布式自適應(yīng)觀測(cè)器設(shè)計(jì) 99
6.4 分布式*優(yōu)模型參考包含控制 105
6.4.1 問(wèn)題描述 105
6.4.2 非齊次貝爾曼方程 105
6.4.3 非齊次代數(shù)里卡蒂方程和*優(yōu)性討論 107
6.4.4 非齊次代數(shù)里卡蒂方程的求解與穩(wěn)定性分析 108
6.5 完全分布式*優(yōu)模型參考自適應(yīng)包含控制 109
6.6 基于強(qiáng)化學(xué)習(xí)的完全分布式自適應(yīng)*優(yōu)包含控制設(shè)計(jì) 110
6.6.1 基于模型的強(qiáng)化學(xué)習(xí)設(shè)計(jì)方案 110
6.6.2 基于數(shù)據(jù)的強(qiáng)化學(xué)習(xí)設(shè)計(jì)方案 111
6.7 仿真研究 114
6.8 小結(jié) 118
第7章 數(shù)據(jù)驅(qū)動(dòng)多智能體系統(tǒng)的事件觸發(fā)包含控制設(shè)計(jì)方法 119
7.1 引言 119
7.2 問(wèn)題描述 120
7.3 時(shí)間觸發(fā)包含控制設(shè)計(jì) 121
7.4 事件觸發(fā)分布式包含控制設(shè)計(jì) 122
7.4.1 事件觸發(fā)方案設(shè)計(jì) 122
7.4.2 事件觸發(fā)機(jī)制的可行性分析 125
7.5 異軌策略強(qiáng)化學(xué)習(xí) 129
7.6 仿真研究 131
7.7 小結(jié) 133
參考文獻(xiàn) 134
編后記 153
彩圖

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)