国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

李宏毅2022機(jī)器學(xué)習(xí)HW12解析

這篇具有很好參考價(jià)值的文章主要介紹了李宏毅2022機(jī)器學(xué)習(xí)HW12解析。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

李宏毅2022機(jī)器學(xué)習(xí)HW12解析

準(zhǔn)備工作

作業(yè)十二是使用強(qiáng)化學(xué)習(xí),完成Lunar Lander(月球著陸)任務(wù),訓(xùn)練飛行器月球著陸,作業(yè)基于OpenAI的gym框架(只有l(wèi)inux系統(tǒng)可用)。作業(yè)過程需要助教代碼,關(guān)注本公眾號(hào),可獲得代碼(包括解析代碼,文末有方法)。

提交地址

https://ml.ee.ntu.edu.tw/hw12/,有想討論溝通的同學(xué)可進(jìn)QQ群:156013866。以下為作業(yè)解析。

Simple Baseline

方法:直接運(yùn)行助教代碼。助教代碼使用的方法是Policy Gradient,運(yùn)行代碼的時(shí)候,可能會(huì)出現(xiàn)版本不兼容的情況,下面代碼為我遇到的情況(老代碼被注釋)和修改方式。代碼運(yùn)行后,最后得到total rewards為:-71.65。

#torch.set_deterministic(True)
torch.use_deterministic_algorithms(True)

Medium Baseline

方法:Accumulate Reward。在simple baseline的基礎(chǔ)上,將rewards改為累積的形式,代碼如下。代碼運(yùn)行后,最后得到的total rewards為:8.49。

rate?=?0.99??
????? ......?
??????while?True:
????????????......
????????????seq_rewards.append(reward)
            ......
            if done:
                final_rewards.append(reward)
                total_rewards.append(total_reward)
                # calculate accumulative rewards
                for i in range(2, len(seq_rewards)+1):
                    seq_rewards[-i] += rate * (seq_rewards[-i+1])
                rewards += seq_rewards

李宏毅2022機(jī)器學(xué)習(xí)HW12解析

Strong?Baseline

方法:使用Actor to Critic。相比于Policy Gradient,Actor to Critic的模型后端有兩個(gè)分支,一個(gè)預(yù)測(cè)action,一個(gè)預(yù)測(cè)rewards,loss函數(shù)也需要加入了預(yù)測(cè)rewards的損失,詳細(xì)信息見答案代碼。代碼運(yùn)行后,得到了一個(gè)比較幸運(yùn)的的total rewards為:106.57。

李宏毅2022機(jī)器學(xué)習(xí)HW12解析

Boss?Baseline?

方法:使用Advantage Actor to Critic(A2C)。Actor to Critic的損失函數(shù)是老師課堂上說的3.5版本,以Critic的輸出結(jié)果為baseline,A2C則是4.0版本,也就是”平均減去平均“,這種方式更合理,但是損失函數(shù)比較復(fù)雜,模型難訓(xùn)練,需要做參數(shù)調(diào)試,詳細(xì)改動(dòng)見答案代碼。代碼運(yùn)行后,最后得到的total rewards為:128.11這個(gè)rewards是5次登陸的平均結(jié)果,提升不是很多,不過只看單個(gè)的話,發(fā)現(xiàn)經(jīng)常出現(xiàn)很好的rewards,只是浮動(dòng)比較大,跟模型不容易收斂有關(guān)。

李宏毅2022機(jī)器學(xué)習(xí)HW12解析

作業(yè)十二答案獲得方式:

  1. 關(guān)注微信公眾號(hào) “機(jī)器學(xué)習(xí)手藝人”?

  2. 后臺(tái)回復(fù)關(guān)鍵詞:202212文章來源地址http://www.zghlxwxcb.cn/news/detail-491781.html

到了這里,關(guān)于李宏毅2022機(jī)器學(xué)習(xí)HW12解析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • 李宏毅機(jī)器學(xué)習(xí) hw7 boss baseline分享

    李宏毅機(jī)器學(xué)習(xí) hw7 boss baseline分享

    使用bert來做問答任務(wù) 答案是都是可以在 Document 找到的,輸入 Document 和 Query 輸出兩個(gè)數(shù)字分別表示答案在Document中的開始和結(jié)束位置。 輸入格式如下: doc stride ,初始時(shí) Doc stride 等于 max_paragraph_len ,這樣會(huì)導(dǎo)致在測(cè)試時(shí)如果答案在邊界附近就會(huì)被切割到兩個(gè)不同的 window 中

    2024年02月06日
    瀏覽(17)
  • 2023李宏毅機(jī)器學(xué)習(xí)HW05樣例代碼中文注釋版

    2023李宏毅機(jī)器學(xué)習(xí)HW05樣例代碼中文注釋版

    這里只是 2023 李宏毅機(jī)器學(xué)習(xí) HW05 樣例代碼的中文注釋版的分享,下面的內(nèi)容絕大部分是樣例代碼,補(bǔ)充了小部分函數(shù)的功能解釋,沒有做函數(shù)功能上的修改,是 Simple baseline 版本。 notebook 代碼下載: [EN] [ZH] 進(jìn)階閱讀:李宏毅2023機(jī)器學(xué)習(xí)作業(yè)HW05解析和代碼分享 英譯中(繁體

    2024年02月05日
    瀏覽(27)
  • 【李宏毅】HW12

    【李宏毅】HW12

    在這個(gè)HW中,你可以自己實(shí)現(xiàn)一些深度強(qiáng)化學(xué)習(xí)方法: 1、策略梯度Policy Gradient 2、Actor-Critic 這個(gè)HW的環(huán)境是OpenAI gym的月球著陸器。希望這個(gè)月球著陸器落在兩個(gè)旗子中間。 什么是月球著陸器? “LunarLander-v2”是模擬飛行器在月球表面著陸時(shí)的情況。 這項(xiàng)任務(wù)是使飛機(jī)能夠“

    2024年02月10日
    瀏覽(17)
  • 李宏毅_機(jī)器學(xué)習(xí)_作業(yè)4(詳解)_HW4 Classify the speakers

    李宏毅_機(jī)器學(xué)習(xí)_作業(yè)4(詳解)_HW4 Classify the speakers

    本次作業(yè)需要學(xué)習(xí)完transformer后完成! 做語(yǔ)者辨識(shí)任務(wù),一共有600個(gè)語(yǔ)者,給了每一個(gè)語(yǔ)者的語(yǔ)音feature進(jìn)行訓(xùn)練,然后通過test_feature進(jìn)行語(yǔ)者辨識(shí)。(本質(zhì)上還是分類任務(wù)Classification) Simple(0.60824):run sample code and know how to use transformer Medium(0.70375):know how to adjust parameters of tra

    2024年02月01日
    瀏覽(20)
  • 李宏毅-機(jī)器學(xué)習(xí)hw4-self-attention結(jié)構(gòu)-辨別600個(gè)speaker的身份

    李宏毅-機(jī)器學(xué)習(xí)hw4-self-attention結(jié)構(gòu)-辨別600個(gè)speaker的身份

    一、慢慢分析+學(xué)習(xí)pytorch中的各個(gè)模塊的參數(shù)含義、使用方法、功能: 1.encoder編碼器中的nhead參數(shù): self.encoder_layer = nn.TransformerEncoderLayer( d_model=d_model, dim_feedforward=256, nhead=2) 所以說,這個(gè)nhead的意思,就是有window窗口的大小,也就是一個(gè)b由幾個(gè)a得到 2.tensor.permute改變維度的用

    2024年02月09日
    瀏覽(28)
  • 李宏毅-21-hw3:對(duì)11種食物進(jìn)行分類-CNN

    李宏毅-21-hw3:對(duì)11種食物進(jìn)行分類-CNN

    一、代碼慢慢閱讀理解+總結(jié)內(nèi)化: 1.關(guān)于torch.nn.covd2d()的參數(shù)含義、具體用法、功能: (1)參數(shù)含義: 注意,里面的“padding”參數(shù):《both》side所以是上下左右《四》邊都會(huì)加一個(gè)padding數(shù)量的0列: 證明如下: 運(yùn)行結(jié)果:torch.Size([3, 4, 5, 4] (2)具體用法: 輸入:x[ batch_size,

    2024年02月09日
    瀏覽(23)
  • 機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記39

    機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記39

    大模型+大資料 大模型的頓悟時(shí)刻 隨數(shù)據(jù)量增加,模型可以從量變達(dá)到質(zhì)變,從某一刻開始突然學(xué)會(huì)東西。 當(dāng)成為大模型時(shí),分?jǐn)?shù)會(huì)從0,0突然變成100,完成“頓悟”. 橫軸表示分布中產(chǎn)生答案的概率(信心分?jǐn)?shù)),縱軸表示答案正確的概率??梢园l(fā)現(xiàn)小模型的信心分?jǐn)?shù)跟答案

    2024年02月14日
    瀏覽(25)
  • 機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記33

    機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記33

    神經(jīng)網(wǎng)絡(luò)壓縮(一) 類神經(jīng)網(wǎng)絡(luò)剪枝(pruning) 簡(jiǎn)化模型,用比較少的參數(shù),但讓效能差不多,這就是network compression這件事。有些情況下需要把模型用在resource constrain(資源有限)的情況下,比如說跑在智能手表上、小型無人機(jī)上等等。只有比較少的內(nèi)存和計(jì)算能力,這時(shí)就

    2024年02月11日
    瀏覽(20)
  • 機(jī)器學(xué)習(xí)HW15元學(xué)習(xí)

    機(jī)器學(xué)習(xí)HW15元學(xué)習(xí)

    任務(wù)對(duì)象是Omniglot數(shù)據(jù)集上的few-shot classification任務(wù),內(nèi)容是利用元學(xué)習(xí)找到好的初始化參數(shù)。 The Omniglot dataset Omniglot數(shù)據(jù)集-背景集: 30個(gè)字母 -評(píng)估集: 20個(gè)字母 問題設(shè)置: 5-way 1-shot classification Training MAML on Omniglot classification task. Training / validation set:30 alphabets multiple charac

    2024年02月16日
    瀏覽(18)
  • 機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記37

    機(jī)器學(xué)習(xí)李宏毅學(xué)習(xí)筆記37

    ChatGPT簡(jiǎn)單原理介紹 Chatgpt以句子為輸入,輸出這個(gè)句子后面接的詞匯的概率分布,給每一個(gè)可能的符號(hào)一個(gè)概率,根據(jù)這個(gè)分布進(jìn)行sample,每次sample出來的詞匯可能都是不一樣的,所以答案每次也都不相同。把輸出的詞匯加在輸入給gpt的句子后面,重復(fù)上面的過程,直到最后

    2024年02月16日
    瀏覽(16)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包