注冊 | 登錄讀書好,好讀書,讀好書!
讀書網(wǎng)-DuShu.com
當(dāng)前位置: 首頁出版圖書科學(xué)技術(shù)工業(yè)技術(shù)自動(dòng)化技術(shù)、計(jì)算技術(shù)動(dòng)態(tài)規(guī)劃與最優(yōu)控制:近似動(dòng)態(tài)規(guī)劃(第Ⅱ卷)

動(dòng)態(tài)規(guī)劃與最優(yōu)控制:近似動(dòng)態(tài)規(guī)劃(第Ⅱ卷)

動(dòng)態(tài)規(guī)劃與最優(yōu)控制:近似動(dòng)態(tài)規(guī)劃(第Ⅱ卷)

定 價(jià):¥129.00

作 者: [美] 德梅萃·P.博塞克斯 著,賈慶山 譯
出版社: 清華大學(xué)出版社
叢編項(xiàng): 信息技術(shù)和電氣工程學(xué)科國際知名教材中譯本系列
標(biāo) 簽: 暫缺

購買這本書可以去


ISBN: 9787302561460 出版時(shí)間: 2021-02-01 包裝: 平裝
開本: 16開 頁數(shù): 491 字?jǐn)?shù):  

內(nèi)容簡介

  《動(dòng)態(tài)規(guī)劃與最優(yōu)控制:近似動(dòng)態(tài)規(guī)劃(第Ⅱ卷)》系統(tǒng)性介紹動(dòng)態(tài)規(guī)劃,特別是近似動(dòng)態(tài)規(guī)劃,包括折扣問題的理論與計(jì)算方法、隨機(jī)最短路問題、無折扣問題、平均費(fèi)用問題、折扣與無折扣問題的近似動(dòng)態(tài)規(guī)劃等。

作者簡介

  德梅萃·P.博塞克斯 Dimitri Bertsekas曾在希臘國立雅典技術(shù)大學(xué)學(xué)習(xí)機(jī)械與電機(jī)工程,之后從麻省理工學(xué)院獲得系統(tǒng)科學(xué)博士學(xué)位。曾先后在斯坦福大學(xué)工程與經(jīng)濟(jì)系統(tǒng)系和伊利諾伊大學(xué)香檳分校的電機(jī)工程系任教。1979年以來,他一直在麻省理工學(xué)院電機(jī)工程與計(jì)算機(jī)科學(xué)系任教,現(xiàn)任麥卡菲工程教授。其研究涉及多個(gè)領(lǐng)域,包括優(yōu)化、控制、大規(guī)模計(jì)算和數(shù)據(jù)通信網(wǎng)絡(luò),并與其教學(xué)和著書工作聯(lián)系緊密。他已撰寫14本著作以及眾多論文,其中數(shù)本著作在麻省理工學(xué)院被用作教材。他與動(dòng)態(tài)規(guī)劃之緣始于博士論文的研究,并通過學(xué)術(shù)論文、多本教材和學(xué)術(shù)專著一直延續(xù)至今。Bertsekas 教授因其著作《神經(jīng)元?jiǎng)討B(tài)規(guī)劃》(與John Tsitsiklis合著)榮獲1997年INFORMS 授予的運(yùn)籌學(xué)與計(jì)算機(jī)科學(xué)交叉領(lǐng)域的杰出研究成果獎(jiǎng)、2000年希臘運(yùn)籌學(xué)國家獎(jiǎng)、2001年美國控制會(huì)議John R.Ragazzini獎(jiǎng)以及2009年INFORMS Expository寫作獎(jiǎng)。2001年,他因?yàn)椤盎A(chǔ)性研究、實(shí)踐并教育優(yōu)化/控制理論,特別是在數(shù)據(jù)通信網(wǎng)絡(luò)中的應(yīng)用”當(dāng)選美國工程院院士。Bertsekas博士近些年出版的書包括《概率導(dǎo)論》第二版(2008年與John Tsitsiklis合著)和《凸優(yōu)化理論》(2009),均由雅典娜科學(xué)出版社出版。

圖書目錄

第1章 折扣問題——理論
1.1 總費(fèi)用最小化——介紹
1.1.1 有限階段動(dòng)態(tài)規(guī)劃算法
1.1.2 符號(hào)簡寫與單調(diào)性
1.1.3 無窮階段結(jié)果的預(yù)覽
1.1.4 隨機(jī)的和依賴歷史的策略
1.2 折扣問題——各階段費(fèi)用有界
1.3 調(diào)度與多柄老虎機(jī)問題
1.3.1 項(xiàng)目的指標(biāo)
1.3.2 項(xiàng)目逐個(gè)退出策略
1.4 折扣連續(xù)時(shí)間問題
1.5 壓縮映射的作用
1.5.1 極大模壓縮
1.5.2 折扣問題——單階段費(fèi)用無界
1.6 折扣動(dòng)態(tài)規(guī)劃的一般形式
1.6.1 壓縮與單調(diào)性的基本結(jié)論
1.6.2 折扣動(dòng)態(tài)博弈
1.7 注釋、參考文獻(xiàn)及習(xí)題
習(xí)題
第2章 折扣問題——計(jì)算方法
2.1 馬爾可夫決策問題
2.2 值迭代
2.2.1 值迭代的單調(diào)誤差界
2.2.2 值迭代的變形
2.2.3 Q-學(xué)習(xí)
2.3 策略迭代
2.3.1 針對(duì)費(fèi)用的策略迭代
2.3.2 Q-因子的策略迭代
2.3.3 樂觀策略迭代
2.3.4 有限前瞻策略和滾動(dòng)
2.4 線性規(guī)劃方法
2.5 一般折扣問題的方法
2.5.1 采用近似的有限前瞻策略
2.5.2 推廣的值迭代
2.5.3 近似值迭代
2.5.4 推廣的策略迭代
2.5.5 推廣的樂觀策略迭代
2.5.6 近似策略迭代
2.5.7 數(shù)學(xué)規(guī)劃
2.6 異步方法
2.6.1 異步值迭代
2.6.2 異步策略迭代
2.6.3 具有均一不動(dòng)點(diǎn)的策略迭代
2.7 注釋、資源和習(xí)題
習(xí)題
第3章 隨機(jī)最短路問題
3.1 問題建模
3.2 主要結(jié)論
3.3 基本壓縮性質(zhì)
3.4 值迭代
3.4.1 有限步終止的條件
3.4.2 異步值迭代
3.5 策略迭代
3.5.1 樂觀策略迭代
3.5.2 近似策略迭代
3.5.3 具有不合適策略的策略迭代
3.5.4 具有均一不動(dòng)點(diǎn)的異步策略迭代
3.6 可數(shù)狀態(tài)問題
3.7 注釋、資源和習(xí)題
習(xí)題
第4章 無折扣問題
4.1 每階段的費(fèi)用無界
4.1.1 主要結(jié)論
4.1.2 值迭代
4.1.3 其他計(jì)算方法
4.2 線性系統(tǒng)和二次費(fèi)用
4.3 庫存控制
4.4 最優(yōu)停止
4.5 最優(yōu)博弈策略
4.6 連續(xù)時(shí)間問題——排隊(duì)的控制
4.7 非平穩(wěn)和周期性問題
4.8 注釋、資源和習(xí)題
習(xí)題
第5章 每階段平均費(fèi)用問題
5.1 有限空間平均費(fèi)用模型
5.1.1 與折扣費(fèi)用問題的關(guān)系
5.1.2 Blackwell 最優(yōu)策略
5.1.3 最優(yōu)性條件
5.2 所有初始狀態(tài)的平均費(fèi)用相等的條件
5.3 值迭代
5.3.1 單鏈值迭代
5.3.2 多鏈值迭代
5.4 策略迭代
5.4.1 單鏈策略迭代
5.4.2 多鏈策略迭代
5.5 線性規(guī)劃
5.6 無窮空間平均費(fèi)用模型
5.6.1 最優(yōu)性的充分條件
5.6.2 有限狀態(tài)空間和無限控制空間
5.6.3 可數(shù)狀態(tài)——消失的折扣方法
5.6.4 可數(shù)狀態(tài)——壓縮方法
5.6.5 具有二次費(fèi)用的線性系統(tǒng)
5.7 注釋、資源和習(xí)題
習(xí)題
第6章 近似動(dòng)態(tài)規(guī)劃:折扣模型
6.1 基于仿真的費(fèi)用近似的一般性問題
6.1.1 近似結(jié)構(gòu)
6.1.2 基于仿真的近似策略迭代
6.1.3 直接和間接近似
6.1.4 蒙特卡羅仿真
6.1.5 簡化
6.2 直接策略評(píng)價(jià)——梯度法
6.3 策略評(píng)價(jià)的投影方程方法
6.3.1 投影貝爾曼方程
6.3.2 投影方程的矩陣形式
6.3.3 基于仿真的估計(jì)方法
6.3.4 LSTD、LSPE 和TD(0) 方法
6.3.5 樂觀版本
6.3.6 多步基于仿真的方法
6.3.7 提要
6.4 策略迭代問題
6.4.1 基于幾何采樣的搜索增強(qiáng)
6.4.2 基于離線策略方法的搜索增強(qiáng)
6.4.3 策略振蕩——震顫
6.5 聚集方法
6.5.1 基于聚集問題的費(fèi)用近似
6.5.2 通過增廣問題的費(fèi)用近似
6.5.3 多步聚集
6.5.4 異步分布聚集
6.6 Q-學(xué)習(xí)
6.6.1 Q-學(xué)習(xí):隨機(jī)值迭代算法
6.6.2 Q-學(xué)習(xí)和策略迭代
6.6.3 Q-因子近似和投影方程
6.6.4 最優(yōu)停止問題的Q-學(xué)習(xí)
6.6.5 Q-學(xué)習(xí)和聚集
6.6.6 有限階段Q-學(xué)習(xí)
6.7 注釋、資源和習(xí)題
習(xí)題
第7章 近似動(dòng)態(tài)規(guī)劃:無折扣模型及推廣
7.1 隨機(jī)最短路問題
7.2 平均費(fèi)用問題
7.2.1 近似策略評(píng)價(jià)
7.2.2 近似策略迭代
7.2.3 平均費(fèi)用問題的Q-學(xué)習(xí)
7.3 一般問題和蒙特卡羅線性代數(shù)
7.3.1 投影方程
7.3.2 矩陣逆合迭代方法
7.3.3 多步方法
7.3.4 最優(yōu)停止的Q-學(xué)習(xí)的推廣
7.3.5 方程誤差方法
7.3.6 傾斜投影
7.3.7 推廣聚集
7.3.8 奇異線性系統(tǒng)的確定性方法
7.3.9 奇異線性系統(tǒng)的隨機(jī)方法
7.4 在策略空間的近似
7.4.1 梯度公式
7.4.2 通過仿真計(jì)算梯度
7.4.3 梯度評(píng)價(jià)的關(guān)鍵特征
7.4.4 策略和值空間的近似
7.5 注釋、資源和習(xí)題
習(xí)題
附錄A 動(dòng)態(tài)規(guī)劃中的測度論問題
A.1 兩階段例子
A.2 可測問題

本目錄推薦

掃描二維碼
Copyright ? 讀書網(wǎng) m.ranfinancial.com 2005-2020, All Rights Reserved.
鄂ICP備15019699號(hào) 鄂公網(wǎng)安備 42010302001612號(hào)