国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【NLP，Huggingface，Colab】使用 Trainer 訓(xùn)練模型，并保存模型參數(shù)

2年前作者：溢流眼淚分類(lèi)：Toy博客閱讀(23)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【NLP，Huggingface，Colab】使用 Trainer 訓(xùn)練模型，并保存模型參數(shù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前置知識(shí)

Colab 的使用
Huggingface 官網(wǎng)和一些基礎(chǔ)API

上代碼

首先，建議保存代碼到 VSCode，這樣雙擊關(guān)鍵類(lèi)，F12可以進(jìn)入查看具體接口參數(shù)及其含義。
然后，建議代碼在 Colab 運(yùn)行，第一個(gè)是有默認(rèn) GPU 資源，第二個(gè)是否則會(huì)產(chǎn)生各種 ConnectionError, OSError 等錯(cuò)誤…
重點(diǎn)可以看注釋。自行摸索了一些額外的參數(shù)，大多數(shù)人都沒(méi)有講訓(xùn)練中/后需要保存模型參數(shù)…

"""
首先運(yùn)行如下代碼安裝庫(kù)
然后直接運(yùn)行改代碼即可
!pip install datasets transformers
!pip install accelerate -U
"""

from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    DataCollatorWithPadding,
    TrainingArguments,
    AutoModelForSequenceClassification,
    Trainer,
)

# 加載數(shù)據(jù)集，并加載對(duì)應(yīng)模型的分詞器
raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

# 數(shù)據(jù)集分詞并打包，傳給data_collator
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 設(shè)置訓(xùn)練參數(shù)，這里我選擇訓(xùn)練1poch，每處理20%steps就保存，注意最后100%時(shí)不保存。
training_args = TrainingArguments(
    "test-trainer",
    num_train_epochs=1,
    save_strategy="steps",
    save_steps=0.2,
)

# 設(shè)置模型
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# 設(shè)置訓(xùn)練器，提供各種必要參數(shù)。
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

# 訓(xùn)練，結(jié)束后保存模型
trainer.train()

model.save_pretrained("./output_model")

最后文件夾如下，test-trainer 保存訓(xùn)練斷點(diǎn)，output_model保存訓(xùn)練后參數(shù)模型。

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-544405.html

到了這里，關(guān)于【NLP，Huggingface，Colab】使用 Trainer 訓(xùn)練模型，并保存模型參數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

[NLP]Huggingface模型/數(shù)據(jù)文件下載方法
作為一名自然語(yǔ)言處理算法人員，hugging face開(kāi)源的transformers包在日常的使用十分頻繁。在使用過(guò)程中，每次使用新模型的時(shí)候都需要進(jìn)行下載。如果訓(xùn)練用的服務(wù)器有網(wǎng)，那么可以通過(guò)調(diào)用from_pretrained方法直接下載模型。但是就本人的體驗(yàn)來(lái)看，這種方式盡管方便，但還是會(huì)
2024年02月16日
瀏覽(23)
【NLP】哪些現(xiàn)成的“已預(yù)先訓(xùn)練的語(yǔ)言模型”可以使用
????????預(yù)先訓(xùn)練的通用語(yǔ)言表示模型有著如此悠久的歷史，具有巨大的影響，我們理所當(dāng)然地認(rèn)為它們是所有NLP任務(wù)的完全100%必要基礎(chǔ)。有兩個(gè)獨(dú)立的步進(jìn)函數(shù)創(chuàng)新推動(dòng)了所有NLP任務(wù)的準(zhǔn)確性：（1）統(tǒng)計(jì)語(yǔ)言模型，如Word2Vec和GloVe，以及最近的（2）神經(jīng)語(yǔ)言模型，如B
2024年02月13日
瀏覽(20)
GPT-LLM-Trainer：如何使用自己的數(shù)據(jù)輕松快速地微調(diào)和訓(xùn)練LLM
想要輕松快速地使用您自己的數(shù)據(jù)微調(diào)和培訓(xùn)大型語(yǔ)言模型（LLM）？我們知道訓(xùn)練大型語(yǔ)言模型具有挑戰(zhàn)性并需要耗費(fèi)大量計(jì)算資源，包括收集和優(yōu)化數(shù)據(jù)集、確定合適的模型及編寫(xiě)訓(xùn)練代碼等。今天我們將介紹一種實(shí)驗(yàn)性新方法，實(shí)現(xiàn)特定任務(wù)高性能模型的訓(xùn)練。我們的目
2024年02月11日
瀏覽(19)
【colab】谷歌colab免費(fèi)服務(wù)器訓(xùn)練自己的模型，本文以yolov5為例介紹流程
目錄一.前言二.準(zhǔn)備工作 1.注冊(cè)Google drive（谷歌云盤(pán)） Google Driver官網(wǎng)：https://drive.google.com/drive/ Colab官網(wǎng)：https://colab.research.google.com/ 2.上傳項(xiàng)目文件 3.安裝Colaboratory 4.colab相關(guān)操作和命令 5.項(xiàng)目相關(guān)操作? 三.異常處理 ????????本文介紹了在谷歌開(kāi)放平臺(tái)Google colab上租用免
2023年04月08日
瀏覽(23)
基于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練圖像分類(lèi)模型(上傳到colab中進(jìn)行運(yùn)算)
部署colab參考網(wǎng)站相關(guān)文件：提取碼：o2gn 在google drive中部署以上涉及的相關(guān)文件夾這個(gè)項(xiàng)目主要是對(duì)5類(lèi)花的圖像進(jìn)行分類(lèi) 采用遷移學(xué)習(xí)的方法，遷移學(xué)習(xí)resnet網(wǎng)絡(luò)，利用原來(lái)的權(quán)重作為預(yù)訓(xùn)練數(shù)據(jù)，只訓(xùn)練最后的全連接層的權(quán)重參數(shù) ###說(shuō)明讀取的凸顯的像素值是在0~255之
2024年02月16日
瀏覽(25)
如何將Python訓(xùn)練好的模型保存下來(lái)（可使用or繼續(xù)訓(xùn)練）
Python提供了許多機(jī)器學(xué)習(xí)框架，例如Scikit-learn、TensorFlow和PyTorch。這些框架是使用Python編寫(xiě)的，可以方便地訓(xùn)練模型。但是，模型訓(xùn)練是一項(xiàng)昂貴的任務(wù)，需要大量的計(jì)算資源和時(shí)間。一旦模型訓(xùn)練完成，將其保存以便以后使用是非常重要的。保存Python訓(xùn)練好的模型有多種方
2024年02月06日
瀏覽(58)
NLP（六十二）HuggingFace中的Datasets使用
?? Datasets 庫(kù)是 HuggingFace 生態(tài)系統(tǒng)中一個(gè)重要的數(shù)據(jù)集庫(kù)，可用于輕松地訪問(wèn)和共享數(shù)據(jù)集，這些數(shù)據(jù)集是關(guān)于音頻、計(jì)算機(jī)視覺(jué)、以及自然語(yǔ)言處理等領(lǐng)域。 Datasets 庫(kù)可以通過(guò)一行來(lái)加載一個(gè)數(shù)據(jù)集，并且可以使用 Hugging Face 強(qiáng)大的數(shù)據(jù)處理方法來(lái)快速準(zhǔn)備好你的數(shù)據(jù)集
2024年02月15日
瀏覽(17)
elasticsearch 內(nèi)網(wǎng)下如何以離線的方式上傳任意的huggingFace上的NLP模型（國(guó)內(nèi)避坑指南）
? ? ? ? es自2020年的8.x版本以來(lái)，就提供了機(jī)器學(xué)習(xí)的能力。我們可以使用es官方提供的工具eland，將hugging face上的NLP模型，上傳到es集群中。利用es的機(jī)器學(xué)習(xí)模塊，來(lái)運(yùn)維部署管理模型。配合es的管道處理，來(lái)更加便捷的處理數(shù)據(jù)。 ? ? ? ? 但是在國(guó)內(nèi)操作，根據(jù)官方文檔
2024年02月05日
瀏覽(18)
使用 Docker 和 HuggingFace 實(shí)現(xiàn) NLP 文本情感分析應(yīng)用
在繼續(xù)分享“干燥、有趣”的向量數(shù)據(jù)庫(kù)實(shí)戰(zhàn)內(nèi)容之前，我們來(lái)聊一篇簡(jiǎn)單有趣的內(nèi)容：如何使用 Docker 和 HuggingFace 現(xiàn)成的模型，快速實(shí)現(xiàn)一個(gè) NLP 文本情感分析應(yīng)用，支持中英文內(nèi)容的情感快速分析。在這篇文章里，我們不需要準(zhǔn)備顯卡和語(yǔ)料，也不需要耐心等待“煉丹”
2023年04月10日
瀏覽(24)
HuggingFace過(guò)去七天最流行的AI模型一覽——預(yù)訓(xùn)練大模型絕對(duì)王者
HuggingFace是目前最火熱的AI社區(qū)，很多人稱(chēng)之為AI模型的GitHub。包括Google、微軟等很多知名企業(yè)都在上面發(fā)布模型。 HuggingFace簡(jiǎn)介：https://www.datalearner.com/blog/1051636550099750 而HuggingFace上提供的流行的模型也是大家應(yīng)當(dāng)關(guān)注的內(nèi)容。本文簡(jiǎn)單介紹一下2023年4月初的七天（當(dāng)然包括
2024年02月06日
瀏覽(19)