国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<optgroup id="8et5a"></optgroup>

強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記

1年前作者：onlyTonight分類：Toy博客閱讀(31)違法舉報

這篇具有很好參考價值的文章主要介紹了強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方，請大家不吝賜教，您也可以點擊"舉報違法"按鈕提交疑問。

RL

通用超參數(shù)

DQN改進

Duel Structure

強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記,強化學習,論文閱讀,機器學習

VS→該state在當前policy下的value

QSA→該state進行這個action在當前policy下的value

advantage = VS - QSA

裁剪區(qū)域的確定？

34194按行輸出min，33193min為90*90

Replay buffer

background knowledge

[bisect Module]
python自帶的二分查找的包

重要函數(shù)

基本使用

bisect.bisect_left(2)//返回2左端index
bisect.bisect()//與bisect_right()相同
bisect.bisect_right()//返回右端index

bisect with list

在一個increasing array插入一個元素并仍保持有序

def list_insert(arr,num):
	ind = bisect.bisect_left(arr,num)
	arr.insert(ind,num)

a = [0,1,2,2,2,3,4]
list_insert(a,2.1)

[Sum Tree]
概念

Sum Tree 線段樹，結(jié)構(gòu)是二叉樹，父節(jié)點是子節(jié)點的和，且只有度為0和2的情況。

可以認為葉結(jié)點表示一個相連的區(qū)間，每個葉節(jié)點的數(shù)值表示該區(qū)間長度，此時可以輕易找到任意值的對應區(qū)間的葉節(jié)點

Basic Replay Buffer

記錄新加入的transition→存儲在list中
忘記太久之前的transition→用deque數(shù)據(jù)自動遺忘，也可以覆蓋list中已存在的transition
從存儲的記憶中抽樣→用random.sample()抽樣

Proportion-based Replay Buffer

Sum Tree用于記錄和更新cumulative weight以進行快速采樣，時間復雜度為O（logn）新功能：

一個Sum Tree儲存和更新每個transition的weight
更新Sum Tree的方法

Rank-based Repley buffer

需要知道每個transition的td_error的rank1以調(diào)整weight，基于該rank需要計算和儲存分割點，從而進行抽樣，復雜度為o（n），新功能：

1.對于所有transition TD_error及對應rank的存儲
2.更新rank的方法

由于訓練過程中有大量TDerror變更，以及新加入的transition，快速更新rank需要一直維持記錄一個排好序的所有TD-error的序列，這樣才能在o（logn）的時間內(nèi)確定rank，否則每個新樣本加入時更新rank都需要O（n）的時間

快速抽樣的方法是在有序TD-error的序列上抽樣在對應到具體的transition，此處有倆種存儲方式

將transition與TD-error一起儲存在tuple中
將transition儲存在list中，將其index和TD-error一起存儲到tuple中

第一鐘方式缺點：當我們刪除transition時，會需要O（n）時間尋找應該刪除的rank和TD-error。選擇第二種存儲方式，locate時間復雜度為o（1），具體如下

與之前的方式類似，建立一個list存儲transition
建立另一個list存儲transition對應rank
建立第三個list儲存TD-error，transition index的tuple

刪改操作時間復雜度O（n）

gnn meets rl

https://github.com/knowledgedefinednetworking/DRL-GNN/blob/master/DQN/README.md
sp

OSPF：OSPF 即開路最短路徑優(yōu)先，依據(jù)該規(guī)則，網(wǎng)絡會把數(shù)據(jù)流轉(zhuǎn)發(fā)在長度最短的路徑上，

由于沒有考慮鏈路的傳輸能力，個別鏈路容易陷入擁塞。

MCFCSP：多物網(wǎng)絡流流約束最短路徑方案將鏈路的傳輸能力作為約束條件，在保證網(wǎng)絡不出現(xiàn)

擁塞的條件下傳輸數(shù)據(jù)流。

KSP：k 路最短路徑方案會在兩節(jié)點對間選擇前 k 條最短的路徑作為路由路徑對數(shù)據(jù)流完成轉(zhuǎn)發(fā)操作。

多路徑路由(ECMP)**：**在多個傳輸路徑上均勻地分配流量
rsir
牽引控制

DRL算法分類：基于下一跳控制的 DRL 路由方案、基于逐個數(shù)據(jù)流路徑調(diào)整的 DRL 路由方案和基于全網(wǎng)鏈路權(quán)重調(diào)整的路由方案

通過分析網(wǎng)絡拓撲特征，結(jié)合牽引控制理論，選取部分鏈路作為代表鏈路，DRL對代表鏈路生成控制信號，結(jié)合網(wǎng)絡路由算法擴展到全網(wǎng)路由。

優(yōu)點：避免輸出動作空間過大，解決DRL維度災難問題，策略更加健壯

牽引鏈路選?。河捎跔恳刂评碚撃壳吧形磳碗s網(wǎng)絡的具體牽引控制元素選擇做出選擇，設(shè)計啟發(fā)式算法選取牽引節(jié)點
- 在線路由策略部署階段主要分為 3 個環(huán)節(jié)：
  1. 網(wǎng)絡信息收集
    
    OpenFlow端口數(shù)據(jù)量統(tǒng)計字段結(jié)合采集間隔,近似計算相應端口的數(shù)據(jù)吞吐量,形成牽引鏈路的流量視圖,作為DRL 神經(jīng)網(wǎng)絡的輸入?yún)?shù)
  2. 智能策略生成：每個輸出層對應于一個牽引鏈路的權(quán)重
  3. 策略執(zhí)行
    
    默認將所有鏈路權(quán)重設(shè)置為 1，用DRL輸出更新相應鏈路權(quán)重，通過 Floyd-Warshall 算法計算路由。
DRL算法： TD3

state為網(wǎng)絡中鏈路的吞吐量信息

action對應于牽引鏈路的權(quán)重

reward綜合考慮路由策略在平均時延、負載均衡和抖動等
Scalable DRL

中心性的概念類似于描述一個頂點與其他頂點的關(guān)系的圖中的度的概念，該鏈路與其他鏈路共享更多的轉(zhuǎn)發(fā)路徑，即具有較高的中心性。

在ScaleDRL中，我們根據(jù)每個鏈路的中心性來選擇關(guān)鍵鏈路。根據(jù)所有鏈路的中心性值按降序排序，并從排序的鏈路列表中選擇中間的k個鏈路作為關(guān)鍵鏈路。
- DRL：ACKTR
  
  行為網(wǎng)絡以網(wǎng)絡狀態(tài)作為輸入，其輸出作為動作a
  
  批評網(wǎng)絡以網(wǎng)絡狀態(tài)和臨時動作a作為輸入，對臨時策略生成評價值。獎勵r用于更新批評者網(wǎng)絡。
  
  狀態(tài)：每個鏈路上的流量強度分布
  
  動作：a^|L|·d，表示關(guān)鍵鏈接的數(shù)量，其中|L|表示關(guān)鍵鏈接的數(shù)量，d表示每個流的候選路徑數(shù)。
  
  獎勵：使用平均端到端延遲作為評估TE策略的度量標準。
Scalable Routing

優(yōu)點：提高路由性能和對拓撲變化的彈性。

ScaleDeep將網(wǎng)絡的節(jié)點分為兩類：驅(qū)動節(jié)點和跟隨節(jié)點。驅(qū)動節(jié)點是可以模擬網(wǎng)絡運行的關(guān)鍵節(jié)點，采用釘扎控制理論進行選擇，其余節(jié)點為跟隨節(jié)點。

通過從驅(qū)動節(jié)點輪詢網(wǎng)絡信息，DRL代理可以有一個近似的網(wǎng)絡全局視圖。調(diào)整驅(qū)動節(jié)點的鏈路權(quán)值，以動態(tài)更新路由策略。

驅(qū)動節(jié)點選擇的啟發(fā)式算法：以不同的選擇概率分配不同程度的節(jié)點，然后根據(jù)選擇概率選擇驅(qū)動節(jié)點。根據(jù)節(jié)點的程度分配（分類？）不同概率的節(jié)點，然后根據(jù)其概率選擇驅(qū)動節(jié)點。

DRL：ddpg

DRL框架使用了兩種類型的神經(jīng)網(wǎng)絡：門控遞歸單元(GRU)和前饋神經(jīng)網(wǎng)絡。GRU是一種先進的遞歸神經(jīng)網(wǎng)絡(RNN)，善于從輸入數(shù)據(jù)中提取與時間相關(guān)的信息。

狀態(tài)：狀態(tài)是網(wǎng)絡狀態(tài)信息表示的吞吐量矩陣大小t×n，其中t表示時間步長的長度，d表示流類型的數(shù)量，和n表示總數(shù)的交通強度

獎勵r：網(wǎng)絡中所有流的平均流完成時間
基于深度強化學習的軟件定義網(wǎng)絡 QoS 優(yōu)化

優(yōu)點：保證了端到端傳輸時延和分組丟失率，而且提高了 22.7%的網(wǎng)絡負載均衡程度，增加了 8.2%的網(wǎng)絡吞吐率。

解決：基于啟發(fā)式算法的 QoS 優(yōu)化方案因參數(shù)與網(wǎng)絡場景不匹配出現(xiàn)性能下降的問題

方案：首先將網(wǎng)絡資源和狀態(tài)信息統(tǒng)一到網(wǎng)絡模型中，然后通過長短期記憶網(wǎng)絡提升算法的流量感知能力，最后基于深度強化學習生成滿足 QoS 目標的動態(tài)流量調(diào)度策略。

狀態(tài)：某一次網(wǎng)絡測量時網(wǎng)絡中的流請求信息和所有鏈路的時延和利用率信息

動作：各節(jié)點對之間可用轉(zhuǎn)發(fā)路徑的分流比重

獎賞：優(yōu)化目標是最小化網(wǎng)絡使用率U。r=-U。

LSTM 網(wǎng)絡負責對網(wǎng)絡狀態(tài)信息 s 進行預處理生成隱含狀態(tài) h，并將該隱含狀態(tài)傳輸給 Actor 和 Critic 架構(gòu)中的神經(jīng)網(wǎng)絡，提高神經(jīng)網(wǎng)絡的決策的效率和準確性；Actor 和 Critic 架構(gòu)中的神經(jīng)網(wǎng)絡依據(jù)LSTM網(wǎng)絡提供的網(wǎng)絡狀態(tài)數(shù)據(jù)生成動作，并更新內(nèi)部網(wǎng)絡參數(shù)。文章來源地址http://www.zghlxwxcb.cn/news/detail-849948.html

到了這里，關(guān)于強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容，請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點僅代表作者本人，不代表本站立場。本站僅提供信息存儲空間服務，不擁有所有權(quán)，不承擔相關(guān)法律責任。如若轉(zhuǎn)載，請注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符，請點擊違法舉報進行投訴反饋，一經(jīng)查實，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務器費用

【深度強化學習】(1) DQN 模型解析，附Pytorch完整代碼
大家好，今天和各位講解一下深度強化學習中的基礎(chǔ)模型 DQN，配合 OpenAI 的 gym 環(huán)境，訓練模型完成一個小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN（Deep Q Network）算法由 DeepMind 團隊提出，是深度神經(jīng)網(wǎng)絡和 Q-Learning 算
2023年04月08日
瀏覽(24)
【深度強化學習】(2) Double DQN 模型解析，附Pytorch完整代碼
大家好，今天和大家分享一個深度強化學習算法 DQN 的改進版 Double DQN，并基于 OpenAI 的 gym 環(huán)境庫完成一個小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN 算法的原理是指導機器人不斷與環(huán)境交互，理解最佳的行為方式，最
2024年02月03日
瀏覽(34)
【機器學習】強化學習（六）-DQN(Deep Q-Learning)訓練月球著陸器示例
概述 Deep Q-Learning（深度 Q 學習）是一種強化學習算法，用于解決決策問題，其中代理（agent）通過學習在不同環(huán)境中采取行動來最大化累積獎勵。Lunar Lander 是一個經(jīng)典的強化學習問題，其中代理的任務是控制一個著陸艙在月球表面著陸，最小化著陸過程中的燃料消耗。以下
2024年01月25日
瀏覽(25)
遷移強化學習論文筆記（一）（Successor Features）
M ≡ ( S , A , p , R , γ ) M equiv(mathcal{S}, mathcal{A}, p, R, gamma) M ≡ ( S , A , p , R , γ ) S cal S S :狀態(tài)空間 A cal A A ：行動空間 p p p : p ( ? ∣ s t , a t ) p(cdotmid s_t,a_t) p ( ? ∣ s t ? , a t ? ) 狀態(tài)轉(zhuǎn)移概率 R R R : R ( s t , a t , s t + 1 ) R(s_t,a_t,s_{t+1}) R ( s t ? , a t ? , s t + 1 ? ) 獎勵
2024年04月17日
瀏覽(20)
DQN,DDPG,PPO 等強化學習算法在人工智能中的未來發(fā)展方向：從大規(guī)模到小規(guī)模部署
作者：禪與計算機程序設(shè)計藝術(shù) 隨著近年來人工智能領(lǐng)域的蓬勃發(fā)展，強化學習（Reinforcement Learning, RL）被越來越多的人認可并應用于人工智能領(lǐng)域。如今，RL已經(jīng)可以處理許多復雜的問題，如自動駕駛、機器人控制等。在過去的一段時間里，我一直想和各位分享一下RL在人工
2024年02月09日
瀏覽(28)
深度生成模型之GAN優(yōu)化目標設(shè)計與改進 -＞（個人學習記錄筆記）
1. JS散度度量問題不合適的度量準則 2. 梯度問題梯度消失與不穩(wěn)定 1. 最小二乘損失GAN Least Squares GAN，懲罰生成器生成的遠離決策面的樣本，即可將樣本拉近決策面，從而可避免梯度消失問題 2. Energy-based GAN(EBGAN) 使用自編碼器學習樣本重建，生成器作為自編碼器的正則項，
2024年02月03日
瀏覽(22)
【論文筆記】IntelliLight智能交通燈：一種基于強化學習的智能交通信號燈控制方法
博客聲明：本文僅為個人論文閱讀筆記，大部分原文對照的中文為翻譯而來，只對其中錯誤明顯的部分作了修改。其他一些個人理解不到位或有誤的地方也盡請見諒。標題原文： IntelliLight：A Reinforcement Learning Approach for Intelligent Traffic Light Control 論文來源： Proceedings of the 24
2024年04月12日
瀏覽(94)
DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學習筆記
部分內(nèi)容與圖片摘自：JoyRL 、 EasyRL DQN (Deep Q-Network) 說明 DQN通過深度學習技術(shù)處理高維狀態(tài)空間，它的核心是使用深度神經(jīng)網(wǎng)絡來近似Q值函數(shù)。傳統(tǒng)Q-learning依賴于一個查找表（Q表）來存儲每個狀態(tài)-動作對的Q值，但這在高維空間中變得不可行。DQN通過訓練一個神經(jīng)網(wǎng)絡來學
2024年01月20日
瀏覽(51)
【多智能體強化學習】協(xié)作 + 值分解 + QMIX算法及其改進
將深度強化學習技術(shù)與多智能體協(xié)作相結(jié)合，可以幫助解決現(xiàn)代軍事決策、虛擬游戲等多個領(lǐng)域中的復雜任務場景。而值分解是平衡智能體可拓展性和環(huán)境平穩(wěn)性的重要思想。作為該思想的經(jīng)典算法，QMIX將聯(lián)合動作值函數(shù)近似為局部動作值函數(shù)的單調(diào)非線性組合，在StarC
2024年03月24日
瀏覽(22)
強化學習論文閱讀（二）SAC算法
原文傳遞：SAC算法原文作者指出深度強化學習樣本效率低下的原因是：策略學習，TRPO、PPO、A3C每次策略更新都需要收集樣本。學習有效的策略需要的步驟和樣本數(shù)量伴隨著任務的復雜性呈現(xiàn)增加的趨勢。Off-Policy為了重復使用過去產(chǎn)生的經(jīng)驗值，但是在傳統(tǒng)的策略公式當中不
2024年02月06日
瀏覽(21)