国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記

這篇具有很好參考價值的文章主要介紹了強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記。希望對大家有所幫助。如果存在錯誤或未考慮完全的地方,請大家不吝賜教,您也可以點擊"舉報違法"按鈕提交疑問。

RL

  • 通用超參數(shù)

DQN改進

Duel Structure

強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記,強化學習,論文閱讀,機器學習

VS→該state在當前policy下的value

QSA→該state進行這個action在當前policy下的value

advantage = VS - QSA

裁剪區(qū)域的確定?

34194按行輸出min,33193min為90*90

Replay buffer

background knowledge

[bisect Module]
python自帶的二分查找的包

重要函數(shù)

基本使用

bisect.bisect_left(2)//返回2左端index
bisect.bisect()//與bisect_right()相同
bisect.bisect_right()//返回右端index

bisect with list

在一個increasing array插入一個元素并仍保持有序

def list_insert(arr,num):
	ind = bisect.bisect_left(arr,num)
	arr.insert(ind,num)

a = [0,1,2,2,2,3,4]
list_insert(a,2.1)

[Sum Tree]
概念

Sum Tree 線段樹,結(jié)構(gòu)是二叉樹,父節(jié)點是子節(jié)點的和,且只有度為0和2的情況。

可以認為葉結(jié)點表示一個相連的區(qū)間,每個葉節(jié)點的數(shù)值表示該區(qū)間長度,此時可以輕易找到任意值的對應區(qū)間的葉節(jié)點

Basic Replay Buffer

  • 記錄新加入的transition→存儲在list中
  • 忘記太久之前的transition→用deque數(shù)據(jù)自動遺忘,也可以覆蓋list中已存在的transition
  • 從存儲的記憶中抽樣→用random.sample()抽樣

Proportion-based Replay Buffer

Sum Tree用于記錄和更新cumulative weight以進行快速采樣,時間復雜度為O(logn)新功能:

  • 一個Sum Tree儲存和更新每個transition的weight
  • 更新Sum Tree的方法

Rank-based Repley buffer

需要知道每個transition的td_error的rank1以調(diào)整weight,基于該rank需要計算和儲存分割點,從而進行抽樣,復雜度為o(n),新功能:

  • 1.對于所有transition TD_error及對應rank的存儲
  • 2.更新rank的方法

由于訓練過程中有大量TDerror變更,以及新加入的transition,快速更新rank需要一直維持記錄一個排好序的所有TD-error的序列,這樣才能在o(logn)的時間內(nèi)確定rank,否則每個新樣本加入時更新rank都需要O(n)的時間

快速抽樣的方法是在有序TD-error的序列上抽樣在對應到具體的transition,此處有倆種存儲方式

  • 將transition與TD-error一起儲存在tuple中
  • 將transition儲存在list中,將其index和TD-error一起存儲到tuple中

第一鐘方式缺點:當我們刪除transition時,會需要O(n)時間尋找應該刪除的rank和TD-error。選擇第二種存儲方式,locate時間復雜度為o(1),具體如下

  • 與之前的方式類似,建立一個list存儲transition
  • 建立另一個list存儲transition對應rank
  • 建立第三個list儲存TD-error,transition index的tuple

刪改操作時間復雜度O(n)

  • gnn meets rl

    https://github.com/knowledgedefinednetworking/DRL-GNN/blob/master/DQN/README.md

  • sp

    OSPF:OSPF 即開路最短路徑優(yōu)先,依據(jù)該規(guī)則,網(wǎng)絡會把數(shù)據(jù)流轉(zhuǎn)發(fā)在長度最短的路徑上,

    由于沒有考慮鏈路的傳輸能力,個別鏈路容易陷入擁塞。

    MCFCSP:多物網(wǎng)絡流流約束最短路徑方案將鏈路的傳輸能力作為約束條件,在保證網(wǎng)絡不出現(xiàn)

    擁塞的條件下傳輸數(shù)據(jù)流。

    KSP:k 路最短路徑方案會在兩節(jié)點對間選擇前 k 條最短的路徑作為路由路徑對數(shù)據(jù)流完成轉(zhuǎn)發(fā)操作。

    多路徑路由(ECMP)**:**在多個傳輸路徑上均勻地分配流量

  • rsir

    強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記,強化學習,論文閱讀,機器學習

  • 牽引控制

    DRL算法分類:基于下一跳控制的 DRL 路由方案、基于逐個數(shù)據(jù)流路徑調(diào)整的 DRL 路由方案和基于全網(wǎng)鏈路權(quán)重調(diào)整的路由方案

    通過分析網(wǎng)絡拓撲特征,結(jié)合牽引控制理論,選取部分鏈路作為代表鏈路,DRL對代表鏈路生成控制信號,結(jié)合網(wǎng)絡路由算法擴展到全網(wǎng)路由。

    優(yōu)點:避免輸出動作空間過大,解決DRL維度災難問題,策略更加健壯

    牽引鏈路選?。河捎跔恳刂评碚撃壳吧形磳碗s網(wǎng)絡的具體牽引控制元素選擇做出選擇,設(shè)計啟發(fā)式算法選取牽引節(jié)點

    • 在線路由策略部署階段主要分為 3 個環(huán)節(jié):

      1. 網(wǎng)絡信息收集

        OpenFlow端口數(shù)據(jù)量統(tǒng)計字段結(jié)合采集間隔,近似計算相應端口的數(shù)據(jù)吞吐量,形成牽引鏈路的流量視圖,作為DRL 神經(jīng)網(wǎng)絡的輸入?yún)?shù)

      2. 智能策略生成:每個輸出層對應于一個牽引鏈路的權(quán)重

      3. 策略執(zhí)行

        默認將所有鏈路權(quán)重設(shè)置為 1,用DRL輸出更新相應鏈路權(quán)重,通過 Floyd-Warshall 算法計算路由。

    DRL算法: TD3

    state為網(wǎng)絡中鏈路的吞吐量信息

    action對應于牽引鏈路的權(quán)重

    reward綜合考慮路由策略在平均時延、負載均衡和抖動等

  • Scalable DRL

    中心性的概念類似于描述一個頂點與其他頂點的關(guān)系的圖中的度的概念,該鏈路與其他鏈路共享更多的轉(zhuǎn)發(fā)路徑,即具有較高的中心性。

    在ScaleDRL中,我們根據(jù)每個鏈路的中心性來選擇關(guān)鍵鏈路。根據(jù)所有鏈路的中心性值按降序排序,并從排序的鏈路列表中選擇中間的k個鏈路作為關(guān)鍵鏈路。

    • DRL:ACKTR

      行為網(wǎng)絡以網(wǎng)絡狀態(tài)作為輸入,其輸出作為動作a

      批評網(wǎng)絡以網(wǎng)絡狀態(tài)和臨時動作a作為輸入,對臨時策略生成評價值。獎勵r用于更新批評者網(wǎng)絡。

      狀態(tài):每個鏈路上的流量強度分布

      動作:a^|L|·d,表示關(guān)鍵鏈接的數(shù)量,其中|L|表示關(guān)鍵鏈接的數(shù)量,d表示每個流的候選路徑數(shù)。

      獎勵:使用平均端到端延遲作為評估TE策略的度量標準。

  • Scalable Routing

    優(yōu)點:提高路由性能和對拓撲變化的彈性。

    ScaleDeep將網(wǎng)絡的節(jié)點分為兩類:驅(qū)動節(jié)點和跟隨節(jié)點。驅(qū)動節(jié)點是可以模擬網(wǎng)絡運行的關(guān)鍵節(jié)點,采用釘扎控制理論進行選擇,其余節(jié)點為跟隨節(jié)點。

    通過從驅(qū)動節(jié)點輪詢網(wǎng)絡信息,DRL代理可以有一個近似的網(wǎng)絡全局視圖。調(diào)整驅(qū)動節(jié)點的鏈路權(quán)值,以動態(tài)更新路由策略。

    驅(qū)動節(jié)點選擇的啟發(fā)式算法:以不同的選擇概率分配不同程度的節(jié)點,然后根據(jù)選擇概率選擇驅(qū)動節(jié)點。根據(jù)節(jié)點的程度分配(分類?)不同概率的節(jié)點,然后根據(jù)其概率選擇驅(qū)動節(jié)點。

    DRL:ddpg

    DRL框架使用了兩種類型的神經(jīng)網(wǎng)絡:門控遞歸單元(GRU)和前饋神經(jīng)網(wǎng)絡。GRU是一種先進的遞歸神經(jīng)網(wǎng)絡(RNN),善于從輸入數(shù)據(jù)中提取與時間相關(guān)的信息。

    狀態(tài):狀態(tài)是網(wǎng)絡狀態(tài)信息表示的吞吐量矩陣大小t×n,其中t表示時間步長的長度,d表示流類型的數(shù)量,和n表示總數(shù)的交通強度

    獎勵r:網(wǎng)絡中所有流的平均流完成時間

  • 基于深度強化學習的軟件定義網(wǎng)絡 QoS 優(yōu)化

    優(yōu)點:保證了端到端傳輸時延和分組丟失率,而且提高了 22.7%的網(wǎng)絡負載均衡程度,增加了 8.2%的網(wǎng)絡吞吐率。

    解決:基于啟發(fā)式算法的 QoS 優(yōu)化方案因參數(shù)與網(wǎng)絡場景不匹配出現(xiàn)性能下降的問題

    方案:首先將網(wǎng)絡資源和狀態(tài)信息統(tǒng)一到網(wǎng)絡模型中,然后通過長短期記憶網(wǎng)絡提升算法的流量感知能力,最后基于深度強化學習生成滿足 QoS 目標的動態(tài)流量調(diào)度策略。

    狀態(tài):某一次網(wǎng)絡測量時網(wǎng)絡中的流請求信息和所有鏈路的時延和利用率信息

    動作:各節(jié)點對之間可用轉(zhuǎn)發(fā)路徑的分流比重

    獎賞:優(yōu)化目標是最小化網(wǎng)絡使用率U。r=-U。

    LSTM 網(wǎng)絡負責對網(wǎng)絡狀態(tài)信息 s 進行預處理生成隱含狀態(tài) h,并將該隱含狀態(tài)傳輸給 Actor 和 Critic 架構(gòu)中的神經(jīng)網(wǎng)絡,提高神經(jīng)網(wǎng)絡的決策的效率和準確性;Actor 和 Critic 架構(gòu)中的神經(jīng)網(wǎng)絡依據(jù)LSTM網(wǎng)絡提供的網(wǎng)絡狀態(tài)數(shù)據(jù)生成動作,并更新內(nèi)部網(wǎng)絡參數(shù)。文章來源地址http://www.zghlxwxcb.cn/news/detail-849948.html

到了這里,關(guān)于強化學習-DQN改進及一些強化學習路由優(yōu)化論文筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務,不擁有所有權(quán),不承擔相關(guān)法律責任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實不符,請點擊違法舉報進行投訴反饋,一經(jīng)查實,立即刪除!

領(lǐng)支付寶紅包贊助服務器費用

相關(guān)文章

  • 【深度強化學習】(1) DQN 模型解析,附Pytorch完整代碼

    【深度強化學習】(1) DQN 模型解析,附Pytorch完整代碼

    大家好,今天和各位講解一下深度強化學習中的基礎(chǔ)模型 DQN,配合 OpenAI 的 gym 環(huán)境,訓練模型完成一個小游戲,完整代碼可以從我的 GitHub 中獲得: https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN(Deep Q Network) 算法由 DeepMind 團隊提出,是深度神經(jīng)網(wǎng)絡和 Q-Learning 算

    2023年04月08日
    瀏覽(24)
  • 【深度強化學習】(2) Double DQN 模型解析,附Pytorch完整代碼

    【深度強化學習】(2) Double DQN 模型解析,附Pytorch完整代碼

    大家好,今天和大家分享一個深度強化學習算法 DQN 的改進版 Double DQN,并基于 OpenAI 的 gym 環(huán)境庫完成一個小游戲,完整代碼可以從我的 GitHub 中獲得: https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN 算法的原理是指導機器人不斷與環(huán)境交互,理解最佳的行為方式,最

    2024年02月03日
    瀏覽(34)
  • 【機器學習】強化學習(六)-DQN(Deep Q-Learning)訓練月球著陸器示例

    【機器學習】強化學習(六)-DQN(Deep Q-Learning)訓練月球著陸器示例

    概述 Deep Q-Learning(深度 Q 學習)是一種強化學習算法,用于解決決策問題,其中代理(agent)通過學習在不同環(huán)境中采取行動來最大化累積獎勵。Lunar Lander 是一個經(jīng)典的強化學習問題,其中代理的任務是控制一個著陸艙在月球表面著陸,最小化著陸過程中的燃料消耗。 以下

    2024年01月25日
    瀏覽(25)
  • 遷移強化學習論文筆記(一)(Successor Features)

    M ≡ ( S , A , p , R , γ ) M equiv(mathcal{S}, mathcal{A}, p, R, gamma) M ≡ ( S , A , p , R , γ ) S cal S S :狀態(tài)空間 A cal A A :行動空間 p p p : p ( ? ∣ s t , a t ) p(cdotmid s_t,a_t) p ( ? ∣ s t ? , a t ? ) 狀態(tài)轉(zhuǎn)移概率 R R R : R ( s t , a t , s t + 1 ) R(s_t,a_t,s_{t+1}) R ( s t ? , a t ? , s t + 1 ? ) 獎勵

    2024年04月17日
    瀏覽(20)
  • DQN,DDPG,PPO 等強化學習算法在人工智能中的未來發(fā)展方向:從大規(guī)模到小規(guī)模部署

    作者:禪與計算機程序設(shè)計藝術(shù) 隨著近年來人工智能領(lǐng)域的蓬勃發(fā)展,強化學習(Reinforcement Learning, RL)被越來越多的人認可并應用于人工智能領(lǐng)域。如今,RL已經(jīng)可以處理許多復雜的問題,如自動駕駛、機器人控制等。在過去的一段時間里,我一直想和各位分享一下RL在人工

    2024年02月09日
    瀏覽(28)
  • 深度生成模型之GAN優(yōu)化目標設(shè)計與改進 ->(個人學習記錄筆記)

    深度生成模型之GAN優(yōu)化目標設(shè)計與改進 ->(個人學習記錄筆記)

    1. JS散度度量問題 不合適的度量準則 2. 梯度問題 梯度消失與不穩(wěn)定 1. 最小二乘損失GAN Least Squares GAN, 懲罰生成器生成的遠離決策面的樣本,即可將樣本拉近決策面,從而可避免梯度消失問題 2. Energy-based GAN(EBGAN) 使用自編碼器學習樣本重建,生成器作為自編碼器的正則項,

    2024年02月03日
    瀏覽(22)
  • 【論文筆記】IntelliLight智能交通燈:一種基于強化學習的智能交通信號燈控制方法

    【論文筆記】IntelliLight智能交通燈:一種基于強化學習的智能交通信號燈控制方法

    博客聲明:本文僅為個人論文閱讀筆記,大部分原文對照的中文為翻譯而來,只對其中錯誤明顯的部分作了修改。其他一些個人理解不到位或有誤的地方也盡請見諒。 標題原文: IntelliLight:A Reinforcement Learning Approach for Intelligent Traffic Light Control 論文來源: Proceedings of the 24

    2024年04月12日
    瀏覽(94)
  • DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學習筆記

    DQN、Double DQN、Dueling DQN、Per DQN、NoisyDQN 學習筆記

    部分內(nèi)容與圖片摘自:JoyRL 、 EasyRL DQN (Deep Q-Network) 說明 DQN通過深度學習技術(shù)處理高維狀態(tài)空間,它的核心是使用深度神經(jīng)網(wǎng)絡來近似Q值函數(shù)。傳統(tǒng)Q-learning依賴于一個查找表(Q表)來存儲每個狀態(tài)-動作對的Q值,但這在高維空間中變得不可行。DQN通過訓練一個神經(jīng)網(wǎng)絡來學

    2024年01月20日
    瀏覽(51)
  • 【多智能體強化學習】協(xié)作 + 值分解 + QMIX算法及其改進

    【多智能體強化學習】協(xié)作 + 值分解 + QMIX算法及其改進

    將深度強化學習技術(shù)與多智能體協(xié)作相結(jié)合,可以幫助解決現(xiàn)代軍事決策、虛擬游戲等多個領(lǐng)域中的復雜任務場景。而 值分解 是平衡智能體可拓展性和環(huán)境平穩(wěn)性的重要思想。 作為該思想的經(jīng)典算法,QMIX將聯(lián)合動作值函數(shù)近似為局部動作值函數(shù)的單調(diào)非線性組合,在StarC

    2024年03月24日
    瀏覽(22)
  • 強化學習論文閱讀(二)SAC算法

    強化學習論文閱讀(二)SAC算法

    原文傳遞:SAC算法原文 作者指出深度強化學習樣本效率低下的原因是:策略學習,TRPO、PPO、A3C每次策略更新都需要收集樣本。學習有效的策略需要的步驟和樣本數(shù)量伴隨著任務的復雜性呈現(xiàn)增加的趨勢。Off-Policy為了重復使用過去產(chǎn)生的經(jīng)驗值,但是在傳統(tǒng)的策略公式當中不

    2024年02月06日
    瀏覽(21)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包