国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<noscript id="kdht5"><dfn id="kdht5"><input id="kdht5"></input></dfn></noscript>

<noscript id="kdht5"><dfn id="kdht5"></dfn></noscript>

如何用深度強(qiáng)化學(xué)習(xí)做單元測(cè)試代碼生成

2年前作者：簡(jiǎn)單隨風(fēng)分類(lèi)：Toy博客閱讀(22)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了如何用深度強(qiáng)化學(xué)習(xí)做單元測(cè)試代碼生成。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

設(shè)計(jì)一個(gè)用強(qiáng)化學(xué)習(xí)來(lái)生成單元測(cè)試代碼的系統(tǒng)需要考慮以下幾個(gè)方面：

Agent：強(qiáng)化學(xué)習(xí)算法中的智能體，它需要接收當(dāng)前環(huán)境狀態(tài)，根據(jù)策略選擇相應(yīng)的動(dòng)作并執(zhí)行。
State：描述當(dāng)前環(huán)境狀態(tài)的特征。在這個(gè)問(wèn)題中，狀態(tài)可以包括待測(cè)試函數(shù)的輸入和輸出，以及已經(jīng)生成的測(cè)試用例和它們對(duì)應(yīng)的覆蓋率等信息。
Action：智能體可以采取的行為，比如在待測(cè)試函數(shù)輸入上添加新的測(cè)試用例或修改已有的測(cè)試用例。
Environment：整個(gè)系統(tǒng)的環(huán)境，包括待測(cè)試函數(shù)、測(cè)試框架、測(cè)試用例庫(kù)等。系統(tǒng)需要將當(dāng)前狀態(tài)傳遞給智能體，讓它進(jìn)行決策，并根據(jù)執(zhí)行結(jié)果更新?tīng)顟B(tài)。
Reward：強(qiáng)化學(xué)習(xí)算法中的獎(jiǎng)勵(lì)信號(hào)，用來(lái)指導(dǎo)智能體的決策。在這個(gè)問(wèn)題中，獎(jiǎng)勵(lì)可以是代碼覆蓋率的提升量，也可以是測(cè)試用例數(shù)量的增加量。

具體地，可以將狀態(tài)表示成一個(gè)向量，其中包括待測(cè)試函數(shù)的輸入和輸出，以及已生成的測(cè)試用例和它們對(duì)應(yīng)的覆蓋率等信息。智能體每次決策時(shí)會(huì)基于當(dāng)前狀態(tài) 選擇一個(gè)動(dòng)作 ?，比如在輸入上添加新的測(cè)試用例或者修改已有的測(cè)試用例。

執(zhí)行完動(dòng)作后，系統(tǒng)會(huì)返回一個(gè)新的狀態(tài)? $基于神經(jīng)網(wǎng)絡(luò)模型的測(cè)試用例生成,單元測(cè)試,深度強(qiáng)化學(xué)習(xí)$ 和相應(yīng)的獎(jiǎng)勵(lì) 。獎(jiǎng)勵(lì)可以根據(jù)覆蓋率的提升量進(jìn)行設(shè)計(jì)，比如引入一個(gè)目標(biāo)覆蓋率，獎(jiǎng)勵(lì)為當(dāng)前覆蓋率與目標(biāo)覆蓋率之間的差異。同時(shí)，還可以設(shè)置一些懲罰項(xiàng)，比如每次修改測(cè)試用例都會(huì)降低一定的分?jǐn)?shù)。

最后，可以使用基于模型的強(qiáng)化學(xué)習(xí)算法（如DQN）來(lái)訓(xùn)練智能體，優(yōu)化其策略，不斷改進(jìn)生成單元測(cè)試代碼的能力。

下面是一個(gè)簡(jiǎn)單的案例代碼，用強(qiáng)化學(xué)習(xí)的方法來(lái)生成加法函數(shù)的單元測(cè)試代碼。

首先，我們定義待測(cè)試的加法函數(shù)和測(cè)試框架。假設(shè)加法函數(shù)需要接受兩個(gè)整數(shù)作為輸入，并返回它們的和。測(cè)試框架可以是任何測(cè)試框架，這里我們選擇Python自帶的unittest框架。

def add(x, y):
    return x + y
    
import unittest

class TestAdd(unittest.TestCase):
    def test_add(self):
        self.assertEqual(add(1, 2), 3)

接下來(lái)，我們可以定義智能體的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)。

狀態(tài) 可以包含以下信息：?

待測(cè)試函數(shù)的輸入：由兩個(gè)整數(shù)?組成。
已有的測(cè)試用例及其覆蓋率：包括當(dāng)前唯一的測(cè)試用例 (1,2)?和它的覆蓋率（假設(shè)已經(jīng)執(zhí)行過(guò)該測(cè)試用例并計(jì)算出了它的覆蓋率）。

動(dòng)作 ?可以有以下兩種：?

增加新的測(cè)試用例：在輸入空間中隨機(jī)選擇一個(gè)點(diǎn)?，添加新的測(cè)試用例?并計(jì)算它的覆蓋率。
修改現(xiàn)有的測(cè)試用例：對(duì)于已有的測(cè)試用例?，在輸入空間中隨機(jī)選擇一個(gè)點(diǎn)?，將之前的測(cè)試用例?替換成新的測(cè)試用例?并計(jì)算它的覆蓋率。

獎(jiǎng)勵(lì) 可以基于測(cè)試用例的覆蓋率構(gòu)建，具體地，可以設(shè)置目標(biāo)覆蓋率?，然后獎(jiǎng)勵(lì)可以設(shè)計(jì)成：

$基于神經(jīng)網(wǎng)絡(luò)模型的測(cè)試用例生成,單元測(cè)試,深度強(qiáng)化學(xué)習(xí)$

其中 $基于神經(jīng)網(wǎng)絡(luò)模型的測(cè)試用例生成,單元測(cè)試,深度強(qiáng)化學(xué)習(xí)$ 是更新?tīng)顟B(tài)后得到的新的覆蓋率，?是上一次的覆蓋率。如果新的覆蓋率比舊的要高，則給予獎(jiǎng)勵(lì) 10 分；反之則懲罰 -10 分。

最后，我們可以使用 DQN 算法來(lái)訓(xùn)練智能體，優(yōu)化其策略，不斷改進(jìn)生成單元測(cè)試代碼的能力。具體來(lái)說(shuō)，我們可以使用 Keras 的深度神經(jīng)網(wǎng)絡(luò)模型來(lái)近似 Q 函數(shù)，使用均方誤差損失函數(shù)進(jìn)行訓(xùn)練。同時(shí)，也需要設(shè)置合適的超參數(shù)，例如貪心策略的初始值、學(xué)習(xí)率等等。

完整的代碼如下所示：

import random
import numpy as np
from keras.models import Sequential
from keras.layers.core import Dense
from keras.optimizers import Adam


# 加法函數(shù)
def add(x, y):
    return x + y


# 測(cè)試框架
import unittest


class TestAdd(unittest.TestCase):
    def test_add(self):
        self.assertEqual(add(1, 2), 3)


# 定義智能體的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)
class RLAgent:
    def __init__(self):
        self.state_dim = 3  # 輸入空間維度（x, y, coverage）
        self.action_dim = 2  # 動(dòng)作空間維度（add or modify）
        self.memory = []  # 記憶庫(kù)（用于存儲(chǔ)狀態(tài)序列、動(dòng)作序列、獎(jiǎng)勵(lì)序列、下一狀態(tài)序列）
        self.gamma = 0.95  # 折扣因子
        self.epsilon = 1.0  # 初始 epsilon 值
        self.epsilon_min = 0.01  # 最小 epsilon 值
        self.epsilon_decay = 0.999  # epsilon 衰減因子
        self.learning_rate = 0.001  # 學(xué)習(xí)率
        # 創(chuàng)建神經(jīng)網(wǎng)絡(luò)模型
        self.model = Sequential()
        self.model.add(Dense(24, input_dim=self.state_dim, activation='relu'))
        self.model.add(Dense(24, activation='relu'))
        self.model.add(Dense(self.action_dim, activation='linear'))
        self.model.compile(loss='mse', optimizer=Adam(lr=self.learning_rate))

    # 根據(jù)當(dāng)前狀態(tài)選取動(dòng)作（epsilon-greedy 策略）
    def act(self, state):
        if np.random.rand() <= self.epsilon:
            return random.randrange(self.action_dim)
        else:
            q_values = self.model.predict(state)
            return np.argmax(q_values[0])

    # 記憶當(dāng)前狀態(tài)、動(dòng)作、獎(jiǎng)勵(lì)和下一狀態(tài)
    def remember(self, state, action, reward, next_state):
        self.memory.append((state, action, reward, next_state))

    # 更新 Q 函數(shù)
    def replay(self, batch_size):
        if len(self.memory) < batch_size:
            return
        minibatch = random.sample(self.memory, batch_size)
        for state, action, reward, next_state in minibatch:
            target = reward + self.gamma * np.amax(self.model.predict(next_state)[0])
            target_f = self.model.predict(state)
            target_f[0][action] = target
            self.model.fit(state, target_f, epochs=1, verbose=0)
        if self.epsilon > self.epsilon_min:
            self.epsilon *= self.epsilon_decay

if __name__ == "__main__":
    env = TestAdd() # 環(huán)境
    agent = RLAgent() # 智能體
    state = np.array([[1, 2, 0.0]]) # 初始狀態(tài)
    batch_size = 32 # 批大小
    for e in range(100):  # 訓(xùn)練輪數(shù)
        action = agent.act(state)  # 獲取動(dòng)作
        if action == 0:  # 增加新的測(cè)試用例
            x_prime, y_prime = random.randint(0, 100), random.randint(0, 100)
            new_test_case = (x_prime, y_prime)
            coverage = 1.0 - abs(add(x_prime, y_prime) - add(1, 2)) / add(1, 2)
            reward = 10.0 if coverage > state[0][-1] else -10.0
            next_state = np.array([[x_prime, y_prime, coverage]])
            agent.remember(state, action, reward, next_state)
            state = next_state
        elif action == 1:  # 修改現(xiàn)有的測(cè)試用例
            x_prime, y_prime = random.randint(0, 100), random.randint(0, 100)
            modified_test_case = (x_prime, y_prime)
            coverage = 1.0 - abs(add(x_prime, y_prime) - add(1, 2)) / add(1, 2)
            reward = 10.0 if coverage > state[0][-1] else -10.0
            next_state = np.array([[x_prime, y_prime, coverage]])
            agent.remember(state, action, reward, next_state)
            state = next_state

        agent.replay(batch_size)  # 更新 Q 函數(shù)

在訓(xùn)練過(guò)程中，我們將初始狀態(tài)設(shè)置為 (1,2,0)，即輸入為 (1,2)，覆蓋率為 0。

每次執(zhí)行增加或修改操作后，會(huì)根據(jù)新的測(cè)試用例計(jì)算出相應(yīng)的覆蓋率，并基于覆蓋率的提升量給予獎(jiǎng)勵(lì)或懲罰。

在訓(xùn)練結(jié)束后，我們可以使用新生成的測(cè)試用例來(lái)驗(yàn)證加法函數(shù)的正確性。需要注意的是，這只是一個(gè)簡(jiǎn)單的案例代碼，實(shí)際情況下需要仔細(xì)設(shè)計(jì)Agent的狀態(tài)、動(dòng)作和獎(jiǎng)勵(lì)，并針對(duì)具體問(wèn)題進(jìn)行調(diào)參和優(yōu)化。同時(shí)，需要注意訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量，以及如何劃分訓(xùn)練集和測(cè)試集，以確保模型具有良好的泛化能力。

實(shí)際工程中使用時(shí)，針對(duì)參數(shù)的生成邏輯可能需要AST靜態(tài)分析的能力支撐才會(huì)有比較好的效果，另外在模型訓(xùn)練過(guò)程中，單測(cè)代碼的實(shí)時(shí)執(zhí)行+覆蓋率反饋也需要工程能力支撐。

另外因?yàn)樵趯?shí)際項(xiàng)目的單測(cè)代碼中，因?yàn)楹芏嘁蕾嚪?wù)、db、中間件等需要mock，結(jié)合精準(zhǔn)化測(cè)試工程可以準(zhǔn)確定位到需要mock的代碼行，mock的數(shù)據(jù)也可以作為state的特征之一。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-798620.html

到了這里，關(guān)于如何用深度強(qiáng)化學(xué)習(xí)做單元測(cè)試代碼生成的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

深度學(xué)習(xí)RNN,GRU,LSTM文本生成解碼器的訓(xùn)練損失講解（附代碼）
以下以GRU為例講解RNN作為解碼器時(shí)如何根據(jù)用戶、商品特征信息 hidden 生成評(píng)價(jià)。解碼器部分代碼如下：在訓(xùn)練時(shí)，解碼器會(huì)有兩個(gè)輸入：一是編碼器提取的用戶、商品特征，二是用戶對(duì)商品的評(píng)價(jià)。評(píng)價(jià)是文字，在訓(xùn)練開(kāi)始前已經(jīng)轉(zhuǎn)換成了Token ID, 比如 I love this item , 每個(gè)
2024年04月12日
瀏覽(16)
深度強(qiáng)化學(xué)習(xí)-DDPG算法原理與代碼
深度強(qiáng)化學(xué)習(xí)-DDPG算法原理與代碼引言 1 DDPG算法簡(jiǎn)介 2 DDPG算法原理 2.1 經(jīng)驗(yàn)回放 2.2 目標(biāo)網(wǎng)絡(luò) 2.2.1 算法更新過(guò)程 2.2.2 目標(biāo)網(wǎng)絡(luò)的更新 2.2.3 引入目標(biāo)網(wǎng)絡(luò)的目的 2.3 噪聲探索 3 DDPG算法偽代碼 ?4 代碼實(shí)現(xiàn) 5 實(shí)驗(yàn)結(jié)果 6 結(jié)論 Deep Deterministic Policy Gradient (DDPG)算法是DeepMind團(tuán)隊(duì)提出的
2024年02月03日
瀏覽(22)
【深度強(qiáng)化學(xué)習(xí)】(8) iPPO 模型解析，附Pytorch完整代碼
大家好，今天和各位分享一下多智能體深度強(qiáng)化學(xué)習(xí)算法 ippo，并基于 gym 環(huán)境完成一個(gè)小案例。完整代碼可以從我的 GitHub 中獲得：https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model 多智能體的情形相比于單智能體更加復(fù)雜，因?yàn)?每個(gè)智能體在和環(huán)境交互的同時(shí)也在和其他
2024年02月03日
瀏覽(174)
【深度強(qiáng)化學(xué)習(xí)】(6) PPO 模型解析，附Pytorch完整代碼
大家好，今天和各位分享一下深度強(qiáng)化學(xué)習(xí)中的近端策略優(yōu)化算法（proximal policy optimization， PPO ），并借助 OpenAI 的 gym 環(huán)境完成一個(gè)小案例，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model PPO 算法之所以被提出，根本原因在于 Polic
2023年04月08日
瀏覽(28)
【深度強(qiáng)化學(xué)習(xí)】(1) DQN 模型解析，附Pytorch完整代碼
大家好，今天和各位講解一下深度強(qiáng)化學(xué)習(xí)中的基礎(chǔ)模型 DQN，配合 OpenAI 的 gym 環(huán)境，訓(xùn)練模型完成一個(gè)小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN（Deep Q Network）算法由 DeepMind 團(tuán)隊(duì)提出，是深度神經(jīng)網(wǎng)絡(luò)和 Q-Learning 算
2023年04月08日
瀏覽(25)
【深度強(qiáng)化學(xué)習(xí)】(2) Double DQN 模型解析，附Pytorch完整代碼
大家好，今天和大家分享一個(gè)深度強(qiáng)化學(xué)習(xí)算法 DQN 的改進(jìn)版 Double DQN，并基于 OpenAI 的 gym 環(huán)境庫(kù)完成一個(gè)小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning/tree/main/Model DQN 算法的原理是指導(dǎo)機(jī)器人不斷與環(huán)境交互，理解最佳的行為方式，最
2024年02月03日
瀏覽(34)
計(jì)算機(jī)視覺(jué)與深度學(xué)習(xí) | Visual ChatGPT：微軟開(kāi)源視覺(jué)（圖文）聊天系統(tǒng)——圖像生成、遷移學(xué)習(xí)、邊緣檢測(cè)、顏色渲染等多功能（附代碼下載鏈接）
===================================================== github：https://github.com/MichaelBeechan CSDN：https://blog.csdn.net/u011344545 =====================================================
2024年02月06日
瀏覽(29)
【深度強(qiáng)化學(xué)習(xí)】(4) Actor-Critic 模型解析，附Pytorch完整代碼
大家好，今天和各位分享一下深度強(qiáng)化學(xué)習(xí)中的 Actor-Critic 演員評(píng)論家算法， Actor-Critic 算法是一種綜合了策略迭代和價(jià)值迭代的集成算法。我將使用該模型結(jié)合 OpenAI 中的 Gym 環(huán)境完成一個(gè)小游戲，完整代碼可以從我的 GitHub 中獲得： https://github.com/LiSir-HIT/Reinforcement-Learning
2024年02月03日
瀏覽(87)
【無(wú)人機(jī)路徑規(guī)劃】基于深度強(qiáng)化學(xué)習(xí)的多無(wú)人機(jī)輔助邊緣計(jì)算網(wǎng)絡(luò)路徑規(guī)劃（Matlab代碼實(shí)現(xiàn)）
???????? 歡迎來(lái)到本博客 ???????? ??博主優(yōu)勢(shì)： ?????? 博客內(nèi)容盡量做到思維縝密，邏輯清晰，為了方便讀者。 ?? 座右銘：行百里者，半于九十。 ?????? 本文目錄如下： ?????? 目錄 ??1 概述 ??2 運(yùn)行結(jié)果 ??3?文獻(xiàn)來(lái)源 ??4 Matlab代碼、數(shù)據(jù)、文章
2024年03月27日
瀏覽(28)
【深度學(xué)習(xí)&圖神經(jīng)網(wǎng)絡(luò)】Node2Vec +GAT 完成節(jié)點(diǎn)分類(lèi)任務(wù)（含代碼） | 附：其它生成節(jié)點(diǎn)特征向量的算法：DeepWalk、LINE（具體實(shí)現(xiàn)細(xì)節(jié)）、SDNE、MMDW
? “我從來(lái)沒(méi)有在哪次分離中流過(guò)眼淚，因?yàn)槲矣X(jué)得，與還健在的人的離別是世界上第二浪漫的事，因?yàn)槲覀儚拇穗x別以后每一次相遇都是重逢，而重逢是世界上第一浪漫的事情?！?? ? ??作者主頁(yè)：追光者♂?? ???????? ??個(gè)人簡(jiǎn)介： ? ??[1] 計(jì)算機(jī)專業(yè)碩士研究生
2024年02月07日
瀏覽(35)

<label id="1xus3"><strong id="1xus3"><input id="1xus3"></input></strong></label>

<noscript id="1xus3"></noscript>