【Python】科研代碼學(xué)習(xí)：十四 wandb (可視化AI工具)

1年前作者：溢流眼淚分類(lèi)：Toy博客閱讀(26)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【Python】科研代碼學(xué)習(xí)：十四 wandb (可視化AI工具)。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

wandb 介紹

【wandb官網(wǎng)】
wandb 是 Weights & Biases 的縮寫(xiě)（w and b）
核心作用：
- 可視化重要參數(shù)
- 云端存儲(chǔ)
- 提供各種工具
- 可以和其他工具配合使用，比如下面的 pytorch, HF transformers, tensorflow, keras 等等
可以在里面使用 matplotlib
貌似是 tensorboard 的上位替代

注冊(cè)賬號(hào)

首先我們需要去官網(wǎng)注冊(cè)賬號(hào)，貌似不能使用vpn
注冊(cè)號(hào)后，按照教程創(chuàng)建一個(gè)團(tuán)隊(duì)，然后來(lái)到這個(gè)界面
可以按照這個(gè) Quickstart 的樣例走一下。選擇 Track Runs，接下來(lái)可以選擇使用哪個(gè)工具訓(xùn)練的模型
然后需要 pip install wandb 導(dǎo)包，以及 wandb login 登錄

使用 HF Trainer + wandb 訓(xùn)練

我們調(diào)用官方給的樣例
我們發(fā)現(xiàn)其實(shí)新添了這幾個(gè)內(nèi)容：
WANDB_PROJECT 環(huán)境變量：項(xiàng)目名
WANDB_LOG_MODEL 環(huán)境變量：是否保存中繼到wandb
WANDB_WATCH環(huán)境變量
在 TrainingArguments 中，設(shè)置了 report_to="wandb"
最后調(diào)用 wandb.finish() ，整體變化不大

# This script needs these libraries to be installed: 
#   numpy, transformers, datasets

import wandb 

import os
import numpy as np
from datasets import load_dataset
from transformers import TrainingArguments, Trainer
from transformers import AutoTokenizer, AutoModelForSequenceClassification

# 設(shè)置GPU編號(hào)
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"
os.environ["CUDA_VISIBLE_DEVICES"] = "1,2"

def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return {"accuracy": np.mean(predictions == labels)}

print("Loading Dataset")
# download prepare the data
dataset = load_dataset("yelp_review_full")

print("Loading Tokenizer")

tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")

small_train_dataset = dataset["train"].shuffle(seed=42).select(range(1000))
small_eval_dataset = dataset["test"].shuffle(seed=42).select(range(300))

small_train_dataset = small_train_dataset.map(tokenize_function, batched=True)
small_eval_dataset = small_train_dataset.map(tokenize_function, batched=True)

print("Loading Model")

# download the model
model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=5)

# set the wandb project where this run will be logged
os.environ["WANDB_PROJECT"]="my-awesome-project"

# save your trained model checkpoint to wandb
os.environ["WANDB_LOG_MODEL"]="true"

# turn off watch to log faster
os.environ["WANDB_WATCH"]="false"

# pass "wandb" to the 'report_to' parameter to turn on wandb logging
training_args = TrainingArguments(
    output_dir='models',
    report_to="wandb",
    logging_steps=5, 
    per_device_train_batch_size=32,
    per_device_eval_batch_size=32,
    evaluation_strategy="steps",
    eval_steps=20,
    max_steps = 100,
    save_steps = 100
)

print("Loading Trainer")

# define the trainer and start training
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

print("Training")

trainer.train()

# [optional] finish the wandb run, necessary in notebooks
wandb.finish()

在 wandb 網(wǎng)站中
我們可以打開(kāi)該 project。每一次運(yùn)行相當(dāng)于一次 run，我這里跑了三次所以就有三條線。
這里主要是看 eval 驗(yàn)證集和 train 訓(xùn)練集的一些參數(shù)。
我們可以刪掉不關(guān)心的面板，或者增添一個(gè)想看的面板
但如果兩個(gè)參數(shù)的值域變化比較大的話，在一個(gè)圖里面比較難看清，所以比較相關(guān)的參數(shù)才建議放在一個(gè)圖里。

低級(jí) API

這上面是封裝比較高級(jí)的 API，一般我們也都配合 transformers 庫(kù)去用
如果想用比較原生的 API，一般用法如下：
首先調(diào)用 wandb.init() 方法
然后使用 wandb.log(dict) 輸出你要可視化的參數(shù)即可。

# train.py
import wandb
import random  # for demo script

wandb.login()

epochs = 10
lr = 0.01

run = wandb.init(
    # Set the project where this run will be logged
    project="my-awesome-project",
    # Track hyperparameters and run metadata
    config={
        "learning_rate": lr,
        "epochs": epochs,
    },
)

offset = random.random() / 5
print(f"lr: {lr}")

# simulating a training run
for epoch in range(2, epochs):
    acc = 1 - 2**-epoch - random.random() / epoch - offset
    loss = 2**-epoch + random.random() / epoch + offset
    print(f"epoch={epoch}, accuracy={acc}, loss={loss}")
    wandb.log({"accuracy": acc, "loss": loss})

# run.log_code()

文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-845933.html

到了這里，關(guān)于【Python】科研代碼學(xué)習(xí)：十四 wandb (可視化AI工具)的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

python數(shù)據(jù)分析及可視化（十四）數(shù)據(jù)分析可視化練習(xí)-上市公司可視化數(shù)據(jù)分析、黑色星期五案例分析
從中商情報(bào)網(wǎng)下載的數(shù)據(jù)，表格中會(huì)存在很多的問(wèn)題，查看數(shù)據(jù)的信息有無(wú)缺失，然后做數(shù)據(jù)的清晰，有無(wú)重復(fù)值，異常數(shù)據(jù)，省份和城市的列名稱(chēng)和數(shù)據(jù)是不對(duì)照的，刪除掉一些不需要的數(shù)據(jù)，省份不完整的數(shù)據(jù)，然后進(jìn)行數(shù)據(jù)分析以及可視化，如上市公司中的行業(yè)Top5，用
2024年02月03日
瀏覽(32)
YOLOv5系列(二十八) 本文(2萬(wàn)字) | 可視化工具 | Comet | ClearML | Wandb | Visdom |
點(diǎn)擊進(jìn)入專(zhuān)欄：《人工智能專(zhuān)欄》 Python與Python | 機(jī)器學(xué)習(xí) | 深度學(xué)習(xí) | 目標(biāo)檢測(cè) | YOLOv5及其改進(jìn) | YOLOv8及其改進(jìn) | 關(guān)鍵知識(shí)點(diǎn) | 各種工具教程
2024年02月03日
瀏覽(104)
【100天精通Python】Day76：Python機(jī)器學(xué)習(xí)-第一個(gè)機(jī)器學(xué)習(xí)小項(xiàng)目_鸞尾花分類(lèi)項(xiàng)目，預(yù)測(cè)與可視化完整代碼（下）
目錄 5 模型實(shí)現(xiàn) 5.1 分離出評(píng)估數(shù)據(jù)集 5.2 創(chuàng)建不同的模型來(lái)預(yù)測(cè)新數(shù)據(jù) 5.3 采用10折交叉驗(yàn)證來(lái)評(píng)估算法模型 5.4 生成最優(yōu)模型 6 實(shí)施預(yù)測(cè) 7 模型評(píng)估 8 完整代碼（1）鸞尾花分類(lèi)的完整代碼（2）可視化不同模型預(yù)測(cè)的評(píng)估結(jié)果 ? ?通過(guò)不同的算法來(lái)創(chuàng)建模型，并評(píng)估它們的
2024年02月05日
瀏覽(24)
python數(shù)據(jù)可視化顯示(附代碼)
Python是一種非常流行的編程語(yǔ)言，具有廣泛的應(yīng)用領(lǐng)域，包括數(shù)據(jù)可視化。在數(shù)據(jù)可視化中，Python提供了多種工具來(lái)幫助用戶(hù)創(chuàng)建各種類(lèi)型的圖表、圖形和可視化效果。本文將介紹Python數(shù)據(jù)可視化的基本概念、工具和技術(shù)，并提供代碼示例以說(shuō)明如何使用Python進(jìn)行數(shù)據(jù)可視化
2024年02月13日
瀏覽(36)
【100天精通Python】Day71：Python可視化_一文掌握Seaborn庫(kù)的使用《一》_數(shù)據(jù)分布可視化，數(shù)據(jù)關(guān)系可視化，示例+代碼
目錄 1. 數(shù)據(jù)分布的可視化 1.1 直方圖（Histograms） 1.2 核密度估計(jì)圖（Kernel Density Estimation Plot）
2024年02月06日
瀏覽(25)
幾個(gè)實(shí)用數(shù)據(jù)可視化圖表Python代碼!
可視化是一種方便的觀察數(shù)據(jù)的方式，可以一目了然地了解數(shù)據(jù)塊。我們經(jīng)常使用柱狀圖、直方圖、餅圖、箱圖、熱圖、散點(diǎn)圖、線狀圖等。這些典型的圖對(duì)于數(shù)據(jù)可視化是必不可少的。除了這些被廣泛使用的圖表外，還有許多很好的卻很少被使用的可視化方法，這些圖有助
2024年02月09日
瀏覽(27)
【100天精通Python】Day72：Python可視化_一文掌握Seaborn庫(kù)的使用《二》_分類(lèi)數(shù)據(jù)可視化，線性模型和參數(shù)擬合的可視化，示例+代碼
目錄 1. 分類(lèi)數(shù)據(jù)的可視化 1.1 類(lèi)別散點(diǎn)圖（Categorical Scatter Plot） 1.2 類(lèi)別分布圖（Categorical Distribution Plot）
2024年02月08日
瀏覽(31)
數(shù)據(jù)可視化python，繪制餅圖，代碼和解析
使用matplotlib.pyplot.pie繪制 (1)，該函數(shù)的定義如下： matplotlib.pyplot.pie(x, explode=None, labels=None, colors=None, autopct=None, pctdistance=0.6, shadow=False, labeldistance=1.1, startangle=None, radius=None, counterclock=True, wedgeprops=None, textprops=None, center=(0, 0), frame=False, rotatelabels=False, hold=None, data=None) 參數(shù)說(shuō)明：
2024年02月06日
瀏覽(21)
【Python學(xué)習(xí)】—Python數(shù)據(jù)可視化（八）
JSON是一種輕量級(jí)的數(shù)據(jù)交互格式，可以按照J(rèn)SON指定的格式去組織和封裝數(shù)據(jù) JSON本質(zhì)上是一個(gè)帶有特定格式的字符串 JSON就是一種在各個(gè)編程語(yǔ)言中流通的數(shù)據(jù)格式，負(fù)責(zé)不同編程語(yǔ)言中的數(shù)據(jù)傳遞和交互如果想要做出可視畫(huà)效果圖，可以借助pyecharts模塊來(lái)完成 Echarts 是一
2024年02月08日
瀏覽(36)
TOPSIS(優(yōu)劣解距離法)【附Python實(shí)現(xiàn)代碼及可視化代碼】
目錄一、指標(biāo)正向化 1.極小型指標(biāo)-極大型指標(biāo) 2.中間型指標(biāo)-極大型指標(biāo) 3.區(qū)間型指標(biāo)-極大型指標(biāo) 二、標(biāo)準(zhǔn)化處理三、計(jì)算得分并歸一化(不帶權(quán)重) 四、計(jì)算得分并歸一化(帶權(quán)重) 熵權(quán)法 1）判斷輸入的矩陣是否存在負(fù)數(shù) 2）計(jì)算第j項(xiàng)指標(biāo)下第i個(gè)樣本所占的比重，并將其看
2023年04月20日
瀏覽(20)