国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【NLP,Huggingface,Colab】使用 Trainer 訓(xùn)練模型,并保存模型參數(shù)

這篇具有很好參考價(jià)值的文章主要介紹了【NLP,Huggingface,Colab】使用 Trainer 訓(xùn)練模型,并保存模型參數(shù)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

前置知識(shí)

  • Colab 的使用
  • Huggingface 官網(wǎng)和一些基礎(chǔ)API

上代碼

  • 首先,建議保存代碼到 VSCode,這樣雙擊關(guān)鍵類(lèi),F12可以進(jìn)入查看具體接口參數(shù)及其含義。
    然后,建議代碼在 Colab 運(yùn)行,第一個(gè)是有默認(rèn) GPU 資源,第二個(gè)是否則會(huì)產(chǎn)生各種 ConnectionError, OSError 等錯(cuò)誤…
  • 重點(diǎn)可以看注釋。自行摸索了一些額外的參數(shù),大多數(shù)人都沒(méi)有講訓(xùn)練中/后需要保存模型參數(shù)…
"""
首先運(yùn)行如下代碼安裝庫(kù)
然后直接運(yùn)行改代碼即可
!pip install datasets transformers
!pip install accelerate -U
"""

from datasets import load_dataset
from transformers import (
    AutoTokenizer,
    DataCollatorWithPadding,
    TrainingArguments,
    AutoModelForSequenceClassification,
    Trainer,
)

# 加載數(shù)據(jù)集,并加載對(duì)應(yīng)模型的分詞器
raw_datasets = load_dataset("glue", "mrpc")
checkpoint = "bert-base-uncased"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)


def tokenize_function(example):
    return tokenizer(example["sentence1"], example["sentence2"], truncation=True)

# 數(shù)據(jù)集分詞并打包,傳給data_collator
tokenized_datasets = raw_datasets.map(tokenize_function, batched=True)
data_collator = DataCollatorWithPadding(tokenizer=tokenizer)

# 設(shè)置訓(xùn)練參數(shù),這里我選擇訓(xùn)練1poch,每處理20%steps就保存,注意最后100%時(shí)不保存。
training_args = TrainingArguments(
    "test-trainer",
    num_train_epochs=1,
    save_strategy="steps",
    save_steps=0.2,
)

# 設(shè)置模型
model = AutoModelForSequenceClassification.from_pretrained(checkpoint, num_labels=2)

# 設(shè)置訓(xùn)練器,提供各種必要參數(shù)。
trainer = Trainer(
    model,
    training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    data_collator=data_collator,
    tokenizer=tokenizer,
)

# 訓(xùn)練,結(jié)束后保存模型
trainer.train()

model.save_pretrained("./output_model")
  • 最后文件夾如下,test-trainer 保存訓(xùn)練斷點(diǎn),output_model保存訓(xùn)練后參數(shù)模型。
    【NLP,Huggingface,Colab】使用 Trainer 訓(xùn)練模型,并保存模型參數(shù),NLP,自然語(yǔ)言處理,人工智能

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-544405.html

到了這里,關(guān)于【NLP,Huggingface,Colab】使用 Trainer 訓(xùn)練模型,并保存模型參數(shù)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • [NLP]Huggingface模型/數(shù)據(jù)文件下載方法

    [NLP]Huggingface模型/數(shù)據(jù)文件下載方法

    作為一名自然語(yǔ)言處理算法人員,hugging face開(kāi)源的transformers包在日常的使用十分頻繁。在使用過(guò)程中,每次使用新模型的時(shí)候都需要進(jìn)行下載。如果訓(xùn)練用的服務(wù)器有網(wǎng),那么可以通過(guò)調(diào)用from_pretrained方法直接下載模型。但是就本人的體驗(yàn)來(lái)看,這種方式盡管方便,但還是會(huì)

    2024年02月16日
    瀏覽(23)
  • 【NLP】哪些現(xiàn)成的“已預(yù)先訓(xùn)練的語(yǔ)言模型”可以使用

    ????????預(yù)先訓(xùn)練的通用語(yǔ)言表示模型有著如此悠久的歷史,具有巨大的影響,我們理所當(dāng)然地認(rèn)為它們是所有NLP任務(wù)的完全100%必要基礎(chǔ)。有兩個(gè)獨(dú)立的步進(jìn)函數(shù)創(chuàng)新推動(dòng)了所有NLP任務(wù)的準(zhǔn)確性:(1)統(tǒng)計(jì)語(yǔ)言模型,如Word2Vec和GloVe,以及最近的(2)神經(jīng)語(yǔ)言模型,如B

    2024年02月13日
    瀏覽(20)
  • GPT-LLM-Trainer:如何使用自己的數(shù)據(jù)輕松快速地微調(diào)和訓(xùn)練LLM

    想要輕松快速地使用您自己的數(shù)據(jù)微調(diào)和培訓(xùn)大型語(yǔ)言模型(LLM)?我們知道訓(xùn)練大型語(yǔ)言模型具有挑戰(zhàn)性并需要耗費(fèi)大量計(jì)算資源,包括收集和優(yōu)化數(shù)據(jù)集、確定合適的模型及編寫(xiě)訓(xùn)練代碼等。今天我們將介紹一種實(shí)驗(yàn)性新方法,實(shí)現(xiàn)特定任務(wù)高性能模型的訓(xùn)練。 我們的目

    2024年02月11日
    瀏覽(19)
  • 【colab】谷歌colab免費(fèi)服務(wù)器訓(xùn)練自己的模型,本文以yolov5為例介紹流程

    【colab】谷歌colab免費(fèi)服務(wù)器訓(xùn)練自己的模型,本文以yolov5為例介紹流程

    目錄 一.前言 二.準(zhǔn)備工作 1.注冊(cè)Google drive(谷歌云盤(pán)) Google Driver官網(wǎng):https://drive.google.com/drive/ Colab官網(wǎng):https://colab.research.google.com/ 2.上傳項(xiàng)目文件 3.安裝Colaboratory 4.colab相關(guān)操作和命令 5.項(xiàng)目相關(guān)操作? 三.異常處理 ????????本文介紹了在谷歌開(kāi)放平臺(tái)Google colab上租用免

    2023年04月08日
    瀏覽(23)
  • 基于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練圖像分類(lèi)模型(上傳到colab中進(jìn)行運(yùn)算)

    基于傳統(tǒng)網(wǎng)絡(luò)架構(gòu)訓(xùn)練圖像分類(lèi)模型(上傳到colab中進(jìn)行運(yùn)算)

    部署colab參考網(wǎng)站 相關(guān)文件:提取碼:o2gn 在google drive中部署以上涉及的相關(guān)文件夾 這個(gè)項(xiàng)目主要是對(duì)5類(lèi)花的圖像進(jìn)行分類(lèi) 采用遷移學(xué)習(xí)的方法,遷移學(xué)習(xí)resnet網(wǎng)絡(luò),利用原來(lái)的權(quán)重作為預(yù)訓(xùn)練數(shù)據(jù),只訓(xùn)練最后的全連接層的權(quán)重參數(shù) ###說(shuō)明讀取的凸顯的像素值是在0~255之

    2024年02月16日
    瀏覽(25)
  • 如何將Python訓(xùn)練好的模型保存下來(lái)(可使用or繼續(xù)訓(xùn)練)

    Python提供了許多機(jī)器學(xué)習(xí)框架,例如Scikit-learn、TensorFlow和PyTorch。這些框架是使用Python編寫(xiě)的,可以方便地訓(xùn)練模型。但是,模型訓(xùn)練是一項(xiàng)昂貴的任務(wù),需要大量的計(jì)算資源和時(shí)間。一旦模型訓(xùn)練完成,將其保存以便以后使用是非常重要的。 保存Python訓(xùn)練好的模型有多種方

    2024年02月06日
    瀏覽(58)
  • NLP(六十二)HuggingFace中的Datasets使用

    NLP(六十二)HuggingFace中的Datasets使用

    ?? Datasets 庫(kù)是 HuggingFace 生態(tài)系統(tǒng)中一個(gè)重要的數(shù)據(jù)集庫(kù),可用于輕松地訪問(wèn)和共享數(shù)據(jù)集,這些數(shù)據(jù)集是關(guān)于音頻、計(jì)算機(jī)視覺(jué)、以及自然語(yǔ)言處理等領(lǐng)域。 Datasets 庫(kù)可以通過(guò)一行來(lái)加載一個(gè)數(shù)據(jù)集,并且可以使用 Hugging Face 強(qiáng)大的數(shù)據(jù)處理方法來(lái)快速準(zhǔn)備好你的數(shù)據(jù)集

    2024年02月15日
    瀏覽(17)
  • elasticsearch 內(nèi)網(wǎng)下如何以離線的方式上傳任意的huggingFace上的NLP模型(國(guó)內(nèi)避坑指南)

    elasticsearch 內(nèi)網(wǎng)下如何以離線的方式上傳任意的huggingFace上的NLP模型(國(guó)內(nèi)避坑指南)

    ? ? ? ? es自2020年的8.x版本以來(lái),就提供了機(jī)器學(xué)習(xí)的能力。我們可以使用es官方提供的工具eland,將hugging face上的NLP模型,上傳到es集群中。利用es的機(jī)器學(xué)習(xí)模塊,來(lái)運(yùn)維部署管理模型。配合es的管道處理,來(lái)更加便捷的處理數(shù)據(jù)。 ? ? ? ? 但是在國(guó)內(nèi)操作,根據(jù)官方文檔

    2024年02月05日
    瀏覽(18)
  • 使用 Docker 和 HuggingFace 實(shí)現(xiàn) NLP 文本情感分析應(yīng)用

    使用 Docker 和 HuggingFace 實(shí)現(xiàn) NLP 文本情感分析應(yīng)用

    在繼續(xù)分享“干燥、有趣”的向量數(shù)據(jù)庫(kù)實(shí)戰(zhàn)內(nèi)容之前,我們來(lái)聊一篇簡(jiǎn)單有趣的內(nèi)容:如何使用 Docker 和 HuggingFace 現(xiàn)成的模型,快速實(shí)現(xiàn)一個(gè) NLP 文本情感分析應(yīng)用,支持中英文內(nèi)容的情感快速分析。 在這篇文章里,我們不需要準(zhǔn)備顯卡和語(yǔ)料,也不需要耐心等待“煉丹”

    2023年04月10日
    瀏覽(24)
  • HuggingFace過(guò)去七天最流行的AI模型一覽——預(yù)訓(xùn)練大模型絕對(duì)王者

    HuggingFace過(guò)去七天最流行的AI模型一覽——預(yù)訓(xùn)練大模型絕對(duì)王者

    HuggingFace是目前最火熱的AI社區(qū),很多人稱(chēng)之為AI模型的GitHub。包括Google、微軟等很多知名企業(yè)都在上面發(fā)布模型。 HuggingFace簡(jiǎn)介:https://www.datalearner.com/blog/1051636550099750 而HuggingFace上提供的流行的模型也是大家應(yīng)當(dāng)關(guān)注的內(nèi)容。本文簡(jiǎn)單介紹一下2023年4月初的七天(當(dāng)然包括

    2024年02月06日
    瀏覽(19)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包