Question
MEC使能的IoT能夠解決物聯(lián)網(wǎng)中時延敏感/計算敏感服務的需要
Contribution
- 提出cache-aided MEC卸載框架,允許用戶將計算任務卸載到邊緣服務器上。
- 該框架的目標是最小化計算卸載和資源分類配的系統(tǒng)時延,將系統(tǒng)建模為部分可觀測馬爾可夫過程的多智能體決策問題。
- 提出基于深度圖卷積強化學習(deep graph convolution reinforcement learning, DGRL)的方法解決問題。算法使用GNN抓取節(jié)點之間的相關性并輸入到深度Q網(wǎng)絡中進行資源分配決策優(yōu)化。
- 對比仿真,基于DGRL的CA-MEC卸載算法性能良好。
Related works
- Resource Allocation for Communication, Computing, and Caching
references | method |
[16] | 基于深度Q網(wǎng)絡的卸載算法 |
[27] | 雙邊匹配和凸優(yōu)化方法 |
[28] | 基于深度學習長短期記憶模型的計算卸載優(yōu)化算法 |
[29] | 基于基因模擬退火的粒子群算法 |
- Reinforcement Learning in Resource Management
references | category | method |
[18] | 單智能體 | 基于深度確定策略梯度(DDPG)的計算卸載、資源分配和服務緩存優(yōu)化方法 |
[17] | 基于asynchronous advantage actor–critic (A3C)的3C資源優(yōu)化方法 | |
[9] | 基于帶有回放記憶的DQN的資源優(yōu)化算法 | |
[31] | 基于DRL的聯(lián)合計算卸載與資源分配優(yōu)化算法 | |
[32] | 多智能體 | 基于MADDPG的任務調度與資源分配優(yōu)化算法 |
[33] | GAT輔助的MARL資源管理算法 | |
[34] | 基于帶有注意力機制的多智能體actor-critic方法 |
- Graph Neural Network in Resource Management
references | method |
[24] | GCN + counterfactual multiagent policy gradient (COMA)-based的通信架構 |
[39] | 使用GCN構建基于DRL信道分配算法 |
[40] | 使用GNN實現(xiàn)可擴展信道分配算法 |
[41] | 無人機中用于增加資源利用率的基于GCN的MARL方法 |
System model
network architecture
communication model
用有限馬爾可夫信道(FSMC)建模信道資源情況
信道數(shù)據(jù)傳輸率:
信道容量:
用Z來表示, Z=[Z1e, …, ZMe]
computing model
定義計算狀態(tài)al,i:表示i號任務是否在第l個MEC服務器上執(zhí)行。
本地計算時間Tl,0:
邊緣計算總時間Tl,1: 上行卸載傳輸時間+計算時間+下行返回結果傳輸時間
caching model
定義緩存狀態(tài)xi,j:表示編號為j的任務數(shù)據(jù)是否緩存到第i個服務器上,若為1表示緩存,否則不緩存。
定義用戶請求某個任務的概率ql,k:表示第l個用戶請求第k個任務的概率。用戶請求某個任務的概率服從Zipf分布:
一個任務可以被劃分成多任務,若一部分的任務數(shù)據(jù)被緩存到某個邊緣服務器上,那么該任務在卸載時只需要卸載部分數(shù)據(jù)即可,
β
\beta
β是比例系數(shù),代表需要卸載的數(shù)據(jù)比例,下式為計算卸載的時延:
此時系統(tǒng)的總時延T可以被表示為:
其中,先由計算決策變量a確定在本地還是MEC上執(zhí)行,若在MEC上執(zhí)行,再由緩存決策變量x決定是否緩存某個任務數(shù)據(jù),若不緩存則全部卸載,若緩存則部分卸載。
Problem formulation
Optimization Objective
J是對用戶請求任務的時延求期望
C1是對信道容量的限制
C2是對信道干擾的限制
C3是對計算能力的限制
C4是對緩存能力的限制
problem formulation
每個agent只能觀測到系統(tǒng)的部分信息,所以建模為POMDP。
- State: t 時刻的狀態(tài)向量為st = {hl,i, ql,k} 一個是信道增益,一個是用戶請求任務概率。
- Observation: oi,t代表網(wǎng)絡中節(jié)點i在t時刻觀測的信息。
- Action: t 時刻的動作向量為at={pl,i(t), al,i(t)},前者為傳輸功率決策,后者為計算卸載決策。
- State transition probability: t 時刻從狀態(tài)st轉移到st+1的概率為p(st+1|st,at)。
-
Reward:
文章使用deep Q-learning學習最大化未來累積獎勵G的最優(yōu)策略:
DGRL-Based Resource Allocation Algorithm
上圖為多智能體網(wǎng)絡架構,分為三部分:
-
Environment Observation Layer:
M個智能體的環(huán)境被建模成一個圖,在t 時刻,第i個節(jié)點觀測到動態(tài)環(huán)境的信息,生成觀測空間O(t)為
其中,Z為每個agent的空閑信道容量,F(xiàn)為每個agent的空閑計算資源,C為每個agent的空閑緩存空間,Q為當前時刻接收到的用戶請求,X為上一時刻緩存情況。
該觀測值O通過多層感知機MLP被編碼成特征向量hi,t: -
Topological Relationship Learning Layer
上一步編碼的特征向量hi,t作為輸入進入圖卷積網(wǎng)絡中,生成隱藏特征,再經(jīng)過一層卷積層擴大感受野,學習到其他智能體的信息。在該層中,經(jīng)過了多頭注意力機制抓取網(wǎng)絡拓撲信息,獲得節(jié)點相似度特征向量,再通過MLP將其編碼為狀態(tài),輸入到Q網(wǎng)絡中進行策略學習。 -
Deep Q-Network Layer:
Q值更新函數(shù)如下:
優(yōu)化損失函數(shù)如下:其中y代表目標網(wǎng)絡
算法流程如下圖:
Simulation results
-
參數(shù)表
RL網(wǎng)絡參數(shù):
仿真參數(shù): -
對比方法:
-
結果對比
- 不同折扣因子對收斂性能的影響
- 不同算法的收斂性能
- 不同算法下任務大小對總時延的影響
- 不同算法下計算能力大小對總時延的影響
- 不同算法下存儲能力大小對總時延的影響
- (可擴展分析)固定MEC服務器數(shù)量,查看不同數(shù)量的用戶對總時延的影響
7.(可擴展分析)固定用戶數(shù)量,查看不同數(shù)量的MEC server對總時延的影響
Conclusion
研究了聯(lián)合緩存、通信、計算資源分配的優(yōu)化問題,提出CA-MEC卸載框架,建模問題為POMDP并使用DGRL方法求解。文章來源:http://www.zghlxwxcb.cn/news/detail-788233.html
——————————————————————————————————————
參考文獻:
[1] D. Wang, Y. Bai, G. Huang, B. Song and F. R. Yu, “Cache-Aided MEC for IoT: Resource Allocation Using Deep Graph Reinforcement Learning,” in IEEE Internet of Things Journal, vol. 10, no. 13, pp. 11486-11496, 1 July1, 2023, doi: 10.1109/JIOT.2023.3244909.文章來源地址http://www.zghlxwxcb.cn/news/detail-788233.html
到了這里,關于《Cache-Aided MEC for IoT: Resource Allocation Using Deep Graph Reinforcement Learning》閱讀筆記的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關文章,希望大家以后多多支持TOY模板網(wǎng)!