国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

解決deepspeed框架的bug：不保存調(diào)度器狀態(tài)，模型訓(xùn)練重啟時(shí)學(xué)習(xí)率從頭開(kāi)始

2年前作者：不會(huì)卷積分類(lèi)：Toy博客閱讀(18)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了解決deepspeed框架的bug：不保存調(diào)度器狀態(tài)，模型訓(xùn)練重啟時(shí)學(xué)習(xí)率從頭開(kāi)始。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

deepspeed存在一個(gè)bug，即在訓(xùn)練時(shí)不保存調(diào)度器狀態(tài)，因此如果訓(xùn)練中斷后再重新開(kāi)始訓(xùn)練，調(diào)度器還是會(huì)從頭開(kāi)始而不是接著上一個(gè)checkpoint的調(diào)度器狀態(tài)來(lái)訓(xùn)練。這個(gè)bug在deepspeed的github中也有其他人提出：https://github.com/microsoft/DeepSpeed/issues/3875
因此我們需要寫(xiě)一個(gè)保存調(diào)度器狀態(tài)的代碼，才可以解決這個(gè)問(wèn)題。
具體方法是加一個(gè)callback類(lèi)，專(zhuān)門(mén)負(fù)責(zé)保存調(diào)度器的狀態(tài)以及在訓(xùn)練重新開(kāi)始時(shí)加載調(diào)度器的狀態(tài)：
先在訓(xùn)練文件中給trainer加一個(gè)callback

from smoe.callbacks.save_model import SchedulerStateCallback
trainer.add_callback(SchedulerStateCallback)

class SchedulerStateCallback(TrainerCallback):
    def on_save(self, args: TrainingArguments, state: TrainerState, control: TrainerControl, **kwargs):
        if os.environ.get("RANK", "0") == "0":
            #scheduler = kwargs['lr_scheduler']
            scheduler = kwargs.get("lr_scheduler")
            if scheduler is None:
                return 
            scheduler_state = scheduler.state_dict()
            #save_path = os.path.join(args.output_dir, SCHEDULER_NAME)
             # 使用 PREFIX_CHECKPOINT_DIR 和 global_step 創(chuàng)建檢查點(diǎn)目錄名
            checkpoint_folder = f"{PREFIX_CHECKPOINT_DIR}-{state.global_step}"
            # 完整的檢查點(diǎn)目錄路徑
            checkpoint_path = os.path.join(args.output_dir, checkpoint_folder)
            # 如果目錄不存在，則創(chuàng)建它
            if not os.path.exists(checkpoint_path):
                os.makedirs(checkpoint_path)
            # 完整的保存路徑
            save_path = os.path.join(checkpoint_path, SCHEDULER_NAME)
            # 保存scheduler狀態(tài)
            torch.save(scheduler_state, save_path)

    def on_train_begin(self, args: TrainingArguments, state: TrainerState, control: TrainerControl, **kwargs):
        # 如果resume_from_checkpoint設(shè)置了有效路徑
        if args.resume_from_checkpoint is not None:
            load_path = os.path.join(args.resume_from_checkpoint, SCHEDULER_NAME)
            # 如果該路徑下有保存的調(diào)度器狀態(tài)，則加載它
            if os.path.exists(load_path):
                #scheduler = kwargs['lr_scheduler']
                scheduler = kwargs.get("lr_scheduler")
                if scheduler is None:
                    return 
                scheduler_state = torch.load(load_path)
                scheduler.load_state_dict(scheduler_state)

解決效果如下，我們可以看到，在chaeckpoint10重新開(kāi)始訓(xùn)練的時(shí)候，學(xué)習(xí)率是接著之前的學(xué)習(xí)率開(kāi)始的（5.5e-7)，而不是從頭開(kāi)始(0.5e-7)：
解決deepspeed框架的bug：不保存調(diào)度器狀態(tài)，模型訓(xùn)練重啟時(shí)學(xué)習(xí)率從頭開(kāi)始,deepspeed 文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-704636.html

到了這里，關(guān)于解決deepspeed框架的bug：不保存調(diào)度器狀態(tài)，模型訓(xùn)練重啟時(shí)學(xué)習(xí)率從頭開(kāi)始的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

DeepSpeed Chat: 一鍵式RLHF訓(xùn)練，讓你的類(lèi)ChatGPT千億大模型提速省錢(qián)15倍
近日來(lái)，ChatGPT及類(lèi)似模型引發(fā)了人工智能（AI）領(lǐng)域的一場(chǎng)風(fēng)潮。這場(chǎng)風(fēng)潮對(duì)數(shù)字世界產(chǎn)生了革命性影響。ChatGPT類(lèi)模型具有驚人的泛用性，能夠執(zhí)行歸納、編程、翻譯等任務(wù)，其結(jié)果與人類(lèi)專(zhuān)家相當(dāng)甚至更優(yōu)。為了使ChatGPT等模型的訓(xùn)練和部署更輕松，AI 開(kāi)源社區(qū)進(jìn)行了各種
2023年04月19日
瀏覽(33)
AI：DeepSpeed Chat(一款幫用戶(hù)訓(xùn)練自己模型的工具且簡(jiǎn)單/低成本/快 RLHF 訓(xùn)練類(lèi)ChatGPT高質(zhì)量大模型)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略
AI：DeepSpeed Chat(一款幫用戶(hù)訓(xùn)練自己模型的工具且簡(jiǎn)單/低成本/快 RLHF 訓(xùn)練類(lèi)ChatGPT高質(zhì)量大模型)的簡(jiǎn)介、安裝、使用方法之詳細(xì)攻略目錄 DeepSpeed Chat的簡(jiǎn)介 DeepSpeed-Chat的產(chǎn)生背景 DeepSpeed-Chat的簡(jiǎn)介 DeepSpeed-Chat的三大功能 DeepSpeed-RLHF 系統(tǒng)三大優(yōu)勢(shì) DeepSpeed Chat的安裝和使用方法
2023年04月22日
瀏覽(37)
LLM-分布式訓(xùn)練工具（一）：DeepSpeed【微軟】【大模型分布式訓(xùn)練工具，實(shí)現(xiàn)ZeRO并行訓(xùn)練算法】【zero3配置將模型參數(shù)切分后分配到不同的顯卡中，突破單張顯卡容量不足以加載模型參數(shù)的限制】
DeepSpeed是微軟推出的大規(guī)模模型分布式訓(xùn)練的工具，主要實(shí)現(xiàn)了ZeRO并行訓(xùn)練算法。原始文檔鏈接： DeepSpeed Optimizer state partitioning (ZeRO stage 1) Gradient partitioning (ZeRO stage 2) Parameter partitioning (ZeRO stage 3) Custom mixed precision training handling A range of fast CUDA-extension-based optimizers ZeRO-Offlo
2024年02月16日
瀏覽(23)
解決容器內(nèi)deepspeed微調(diào)大模型報(bào)錯(cuò)
在容器中用deepspeed微調(diào)百川大模型2時(shí)，出現(xiàn)上述錯(cuò)誤，錯(cuò)誤是由于生成容器時(shí)，共享內(nèi)存沒(méi)有設(shè)置，采用默認(rèn)值引起的。終端輸入 ds_report ,可以查看shared_memory,（之前是默認(rèn)63M，現(xiàn)已調(diào)整50G） docker stop 容器名 docker rm 容器名重新生成容器時(shí)加上共享內(nèi)存參數(shù)：–shm-size=1g 例：
2024年02月07日
瀏覽(10)
字節(jié)跳動(dòng)正式開(kāi)源分布式訓(xùn)練調(diào)度框架 Primus
動(dòng)手點(diǎn)關(guān)注干貨不迷路項(xiàng)目地址：https://github.com/bytedance/primus 隨著機(jī)器學(xué)習(xí)的發(fā)展，模型及訓(xùn)練模型所需的數(shù)據(jù)量越來(lái)越大，也都趨向于通過(guò)分布式訓(xùn)練實(shí)現(xiàn)。而算法工程師通常需要對(duì)這些分布式框架涉及到的底層文件存儲(chǔ)和調(diào)度系統(tǒng)有較深的理解，才能夠快速批量開(kāi)啟模
2024年02月05日
瀏覽(19)
全套解決方案：基于pytorch、transformers的中文NLP訓(xùn)練框架，支持大模型訓(xùn)練和文本生成，快速上手，海量訓(xùn)練數(shù)據(jù)！
目標(biāo) ：基于 pytorch 、 transformers 做中文領(lǐng)域的nlp開(kāi)箱即用的訓(xùn)練框架，提供全套的訓(xùn)練、微調(diào)模型（包括大模型、文本轉(zhuǎn)向量、文本生成、多模態(tài)等模型）的解決方案；數(shù)據(jù) ：從開(kāi)源社區(qū)，整理了海量的訓(xùn)練數(shù)據(jù)，幫助用戶(hù)可以快速上手；同時(shí)也開(kāi)放訓(xùn)練數(shù)據(jù)模版，可以快
2024年02月11日
瀏覽(23)
【如何訓(xùn)練一個(gè)中英翻譯模型】LSTM機(jī)器翻譯模型訓(xùn)練與保存（二）
【如何訓(xùn)練一個(gè)中英翻譯模型】LSTM機(jī)器翻譯seq2seq字符編碼（一）【如何訓(xùn)練一個(gè)中英翻譯模型】LSTM機(jī)器翻譯模型訓(xùn)練與保存（二）【如何訓(xùn)練一個(gè)中英翻譯模型】LSTM機(jī)器翻譯模型部署（三）【如何訓(xùn)練一個(gè)中英翻譯模型】LSTM機(jī)器翻譯模型部署之onnx（python）（四）基于
2024年02月15日
瀏覽(20)
Tensorflow實(shí)現(xiàn)訓(xùn)練數(shù)據(jù)的加載—模型搭建訓(xùn)練保存—模型調(diào)用和加載全流程
?將tensorflow的訓(xùn)練數(shù)據(jù)數(shù)組（矩陣）保存為.npy的數(shù)據(jù)格式。為后續(xù)的模型訓(xùn)練提供便捷的方法。例如如下： ? 加載.npy訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)組（矩陣），加載后需要調(diào)整數(shù)據(jù)的形狀以滿(mǎn)足設(shè)計(jì)模型的輸入輸出需求，不然無(wú)法訓(xùn)練模型。這里可以采用自定義層和tensorflow的API搭建
2024年02月05日
瀏覽(23)
音頻數(shù)據(jù)處理＋模型訓(xùn)練保存+Android模型移植
音頻數(shù)據(jù)處理＋模型訓(xùn)練保存+Android模型移植一個(gè)epoch , 表示：所有的數(shù)據(jù)送入網(wǎng)絡(luò)中，完成了一次前向計(jì)算 + 反向傳播的過(guò)程把數(shù)據(jù)準(zhǔn)備好，開(kāi)始跑實(shí)驗(yàn) 1.分割數(shù)據(jù)集 scirpt.walk_file(path,out_path) BirdsSong-2s-20spec 2.生成csv（script.py) 3.將wav音頻文件中的音頻浮點(diǎn)序列特征提出出來(lái)
2024年01月21日
瀏覽(18)
集群服務(wù)器GPU深度模型訓(xùn)練筆記（PBS作用調(diào)度系統(tǒng)）
用戶(hù)手冊(cè)：https://hpc.sustech.edu.cn/ref/cluster_User_Manual.pdf 培訓(xùn)視頻：https://hpc.sustech.edu.cn/ref/meeting_20230810.mp4 啟明2.0使用手冊(cè)：https://hpc.sustech.edu.cn/ref/qiming_User_Manual_v3.0.pdf Anaconda官方教程：https://hpc.sustech.edu.cn/ref/anaconda-install-by-user.html FileZilla傳輸數(shù)據(jù) filezilla是一款用于與遠(yuǎn)程服
2024年01月16日
瀏覽(25)

<span id="vxtdh"><meter id="vxtdh"><font id="vxtdh"></font></meter></span>