国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

<thead id="dtuq6"><code id="dtuq6"></code></thead>

【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析

1年前作者：異構(gòu)算力老群群分類(lèi)：Toy博客閱讀(28)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

摘要：本文將探討在Kubernetes容器環(huán)境下進(jìn)行大模型訓(xùn)練和推理的關(guān)鍵技術(shù)。我們將以英偉達(dá)顯卡為例，詳細(xì)介紹如何利用Kubernetes容器平臺(tái)來(lái)高效地進(jìn)行大規(guī)模深度學(xué)習(xí)任務(wù)。我們將討論容器化的優(yōu)勢(shì)，包括可擴(kuò)展性、資源管理和隔離性，并介紹與Kubernetes相關(guān)的關(guān)鍵技術(shù)，如GPU調(diào)度、分布式訓(xùn)練和推理優(yōu)化。最后，我們將通過(guò)一個(gè)實(shí)際的應(yīng)用案例來(lái)展示Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的潛力。

目? 錄?

1. 引言

2. Kubernetes容器平臺(tái)與大模型訓(xùn)練和推理的優(yōu)勢(shì)

3.?Kubernetes容器環(huán)境下的GPU調(diào)度

4. 分布式訓(xùn)練和推理優(yōu)化

4.1 分布式訓(xùn)練：

4.2 推理優(yōu)化：

5. 實(shí)例應(yīng)用案例：英偉達(dá)顯卡在Kubernetes容器環(huán)境下的大模型訓(xùn)練和推理

6. 結(jié)論

參考文獻(xiàn)：

1. 引言

隨著深度學(xué)習(xí)模型的不斷增大和復(fù)雜性的提高，對(duì)計(jì)算資源的需求也越來(lái)越高。在傳統(tǒng)的單機(jī)環(huán)境下進(jìn)行大規(guī)模模型訓(xùn)練和推理已經(jīng)變得困難，因?yàn)閱蝹€(gè)計(jì)算節(jié)點(diǎn)的資源限制和性能瓶頸。為了解決這個(gè)問(wèn)題，Kubernetes容器平臺(tái)可以提供一個(gè)靈活、可擴(kuò)展和高度可管理的環(huán)境，使得大模型訓(xùn)練和推理變得更加高效。

2. Kubernetes容器平臺(tái)與大模型訓(xùn)練和推理的優(yōu)勢(shì)

Kubernetes容器平臺(tái)在大模型訓(xùn)練和推理方面具有許多優(yōu)勢(shì)，這些優(yōu)勢(shì)使其成為處理大規(guī)模深度學(xué)習(xí)任務(wù)的理想選擇。以下是一些關(guān)鍵的優(yōu)勢(shì)：

可擴(kuò)展性：?Kubernetes提供了強(qiáng)大的可擴(kuò)展性，可以輕松地?cái)U(kuò)展計(jì)算資源以滿(mǎn)足大規(guī)模模型訓(xùn)練和推理的需求。通過(guò)調(diào)整Pod的數(shù)量和資源配額，可以根據(jù)任務(wù)的需求動(dòng)態(tài)調(diào)整集群的規(guī)模，實(shí)現(xiàn)高效的資源利用。

資源管理：?Kubernetes通過(guò)資源管理機(jī)制，如資源配額和調(diào)度器，可以有效地管理計(jì)算資源。對(duì)于大規(guī)模模型訓(xùn)練和推理，這意味著可以確保每個(gè)任務(wù)獲得足夠的計(jì)算資源，避免資源競(jìng)爭(zhēng)和爭(zhēng)用導(dǎo)致的性能下降。

隔離性：?在Kubernetes容器環(huán)境中，每個(gè)任務(wù)都運(yùn)行在獨(dú)立的容器中，相互之間具有隔離性。這種隔離性可以防止不同任務(wù)之間的相互干擾，確保模型訓(xùn)練和推理的穩(wěn)定性和可靠性。

靈活性：?Kubernetes容器平臺(tái)提供了靈活的部署和管理選項(xiàng)?？梢允褂寐暶餍缘呐渲梦募x任務(wù)的要求和依賴(lài)，通過(guò)簡(jiǎn)單的命令即可啟動(dòng)、停止或更新任務(wù)，簡(jiǎn)化了任務(wù)的管理和維護(hù)過(guò)程。

生態(tài)系統(tǒng)支持：?Kubernetes擁有龐大的生態(tài)系統(tǒng)和活躍的社區(qū)支持（這一點(diǎn)很重要）。有許多開(kāi)源工具和庫(kù)可用于在Kubernetes環(huán)境中進(jìn)行大規(guī)模模型訓(xùn)練和推理，并且可以從社區(qū)中獲取支持和經(jīng)驗(yàn)分享。

3.?Kubernetes容器環(huán)境下的GPU調(diào)度

在進(jìn)行大模型訓(xùn)練和推理時(shí)，充分利用GPU資源是至關(guān)重要的。Kubernetes提供了靈活的GPU調(diào)度機(jī)制，使得可以將任務(wù)調(diào)度到具有所需GPU能力的節(jié)點(diǎn)上。

節(jié)點(diǎn)標(biāo)記和選擇器：通過(guò)在節(jié)點(diǎn)上標(biāo)記GPU的類(lèi)型和數(shù)量，并使用選擇器將任務(wù)調(diào)度到相應(yīng)的節(jié)點(diǎn)上，可以確保任務(wù)在具備足夠GPU資源的節(jié)點(diǎn)上執(zhí)行。

GPU設(shè)備插件：Kubernetes的GPU設(shè)備插件（GPU Device Plugin）可以自動(dòng)檢測(cè)和管理節(jié)點(diǎn)上的GPU資源，提供給調(diào)度器用于調(diào)度任務(wù)。這樣，可以很方便地在容器中聲明對(duì)GPU的需求，并確保任務(wù)在滿(mǎn)足需求的節(jié)點(diǎn)上運(yùn)行。

4. 分布式訓(xùn)練和推理優(yōu)化

分布式訓(xùn)練和推理優(yōu)化是在大模型訓(xùn)練和推理中提高性能和效率的關(guān)鍵技術(shù)。在Kubernetes容器環(huán)境下，使用PyTorch框架進(jìn)行分布式訓(xùn)練和推理可以充分利用多個(gè)計(jì)算資源，并加速模型的訓(xùn)練和推理過(guò)程。

4.1 分布式訓(xùn)練：

分布式訓(xùn)練是指將大模型的訓(xùn)練任務(wù)分布到多個(gè)計(jì)算節(jié)點(diǎn)上并行處理，以加快訓(xùn)練速度和提高性能。PyTorch提供了torch.nn.DataParallel和torch.nn.DistributedDataParallel等工具來(lái)實(shí)現(xiàn)分布式訓(xùn)練。下面是一個(gè)使用PyTorch進(jìn)行分布式訓(xùn)練的示例代碼：

import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.nn.parallel import DistributedDataParallel

# 定義模型
class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        # 模型定義代碼...

    def forward(self, x):
        # 前向傳播代碼...
        return x

def train(rank, world_size):
    # 初始化分布式訓(xùn)練環(huán)境
    dist.init_process_group(backend='nccl', init_method='env://', rank=rank, world_size=world_size)

    # 創(chuàng)建模型和優(yōu)化器
    model = MyModel().cuda()
    model = DistributedDataParallel(model)
    optimizer = optim.SGD(model.parameters(), lr=0.01)

    # 加載數(shù)據(jù)并定義數(shù)據(jù)加載器
    train_dataset = ...
    train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)
    train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, sampler=train_sampler)

    # 訓(xùn)練循環(huán)
    for epoch in range(10):
        for batch_x, batch_y in train_loader:
            batch_x = batch_x.cuda()
            batch_y = batch_y.cuda()

            # 前向傳播
            output = model(batch_x)
            loss = nn.CrossEntropyLoss()(output, batch_y)

            # 反向傳播和優(yōu)化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

if __name__ == '__main__':
    # 設(shè)置分布式訓(xùn)練的參數(shù)
    world_size = 4
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)

在上述代碼中，我們通過(guò)torch.distributed.init_process_group初始化了分布式訓(xùn)練環(huán)境，并創(chuàng)建了DistributedDataParallel模型。使用torch.utils.data.distributed.DistributedSampler可以確保每個(gè)計(jì)算節(jié)點(diǎn)獲取不同的數(shù)據(jù)樣本。然后，我們?cè)谟?xùn)練循環(huán)中使用分布式數(shù)據(jù)并行進(jìn)行模型的訓(xùn)練。

4.2 推理優(yōu)化：

推理優(yōu)化旨在提高模型在推理階段的速度和效率。PyTorch提供了多種方法來(lái)優(yōu)化推理過(guò)程，例如模型量化、剪枝和使用TorchScript進(jìn)行模型轉(zhuǎn)換。以下是一個(gè)使用PyTorch進(jìn)行推理優(yōu)化的示例代碼，通過(guò)使用TorchScript將模型轉(zhuǎn)換為優(yōu)化的推理格式：

import torch
import torchvision.models as models

# 加載預(yù)訓(xùn)練模型
model = models.resnet50(pretrained=True)
model.eval()

# 示例輸入
example_input = torch.rand(1, 3, 224, 224)

# 轉(zhuǎn)換為T(mén)orchScript格式
traced_model = torch.jit.trace(model, example_input)

# 保存優(yōu)化的推理模型
traced_model.save("optimized_model.pt")

在上述代碼中，我們使用torch.jit.trace將預(yù)訓(xùn)練模型轉(zhuǎn)換為T(mén)orchScript格式，并使用示例輸入對(duì)模型進(jìn)行追蹤。然后，我們可以將優(yōu)化的推理模型保存到文件中，以便在推理過(guò)程中使用。

通過(guò)分布式訓(xùn)練和推理優(yōu)化，可以在Kubernetes容器環(huán)境中充分發(fā)揮PyTorch框架的功能和性能，加速大模分布式訓(xùn)練和推理優(yōu)化是在大規(guī)模模型訓(xùn)練和推理中提高性能和效率的關(guān)鍵技術(shù)。在Kubernetes容器環(huán)境下，使用PyTorch框架進(jìn)行分布式訓(xùn)練和推理可以充分利用多個(gè)計(jì)算資源，并加速模型的訓(xùn)練和推理過(guò)程。

5. 實(shí)例應(yīng)用案例：英偉達(dá)顯卡在Kubernetes容器環(huán)境下的大模型訓(xùn)練和推理

案例描述：假設(shè)我們有一個(gè)圖像分類(lèi)的大模型，使用PyTorch框架進(jìn)行訓(xùn)練和推理。我們希望在Kubernetes容器環(huán)境中利用英偉達(dá)顯卡進(jìn)行分布式訓(xùn)練和推理優(yōu)化。

步驟1：準(zhǔn)備容器鏡像

首先，我們需要準(zhǔn)備一個(gè)包含PyTorch和CUDA的容器鏡像，以便在Kubernetes環(huán)境中運(yùn)行。可以使用Docker來(lái)構(gòu)建和發(fā)布容器鏡像，確保鏡像中包含必要的Python依賴(lài)項(xiàng)和GPU驅(qū)動(dòng)。

步驟2：編寫(xiě)訓(xùn)練代碼

接下來(lái)，我們需要編寫(xiě)大模型的訓(xùn)練代碼，并將其封裝為可在容器中運(yùn)行的腳本。在腳本中，我們需要設(shè)置分布式訓(xùn)練環(huán)境，定義模型、優(yōu)化器和數(shù)據(jù)加載器，并編寫(xiě)訓(xùn)練循環(huán)。確保使用英偉達(dá)顯卡進(jìn)行模型訓(xùn)練，以充分利用其計(jì)算能力。

步驟3：編寫(xiě)推理代碼

除了訓(xùn)練代碼，我們還需要編寫(xiě)大模型的推理代碼，并將其封裝為可在容器中運(yùn)行的腳本。在推理腳本中，我們加載訓(xùn)練好的模型和優(yōu)化的推理格式，并編寫(xiě)推理循環(huán)。同樣地，確保使用英偉達(dá)顯卡進(jìn)行模型推理，以獲得高性能和效率。

步驟4：在Kubernetes上部署訓(xùn)練任務(wù)

使用Kubernetes的相關(guān)工具和命令，如kubectl，將容器鏡像部署到Kubernetes集群中。配置Kubernetes資源，如Pod、Deployment或Job，以指定訓(xùn)練任務(wù)的要求，包括使用的顯卡數(shù)量、資源限制等。通過(guò)調(diào)度器將任務(wù)分配到可用的英偉達(dá)顯卡上，并在容器內(nèi)運(yùn)行訓(xùn)練腳本。

步驟5：在Kubernetes上部署推理任務(wù)

類(lèi)似地，使用Kubernetes的工具和命令，在集群中部署包含推理代碼的容器鏡像。根據(jù)推理任務(wù)的要求配置資源和調(diào)度規(guī)則，確保推理任務(wù)能夠在英偉達(dá)顯卡上高效運(yùn)行。通過(guò)容器內(nèi)的推理腳本加載訓(xùn)練好的模型和優(yōu)化的推理格式，并執(zhí)行推理任務(wù)。

當(dāng)涉及到具體的大型模型時(shí)，鏡像的構(gòu)建可能會(huì)更加復(fù)雜。以下是一個(gè)使用英偉達(dá)顯卡在Kubernetes容器環(huán)境中進(jìn)行大模型訓(xùn)練和推理的鏡像構(gòu)建的實(shí)際代碼示例。

# 基礎(chǔ)鏡像
FROM nvcr.io/nvidia/pytorch:21.03-py3

# 安裝依賴(lài)項(xiàng)
RUN apt-get update && apt-get install -y --no-install-recommends \
    build-essential \
    cmake \
    git \
    && rm -rf /var/lib/apt/lists/*

# 克隆模型倉(cāng)庫(kù)并安裝依賴(lài)項(xiàng)
RUN git clone https://github.com/model-repo.git /app/model-repo
WORKDIR /app/model-repo

# 安裝Python依賴(lài)項(xiàng)
RUN pip install -r requirements.txt

# 設(shè)置環(huán)境變量
ENV CUDA_HOME=/usr/local/cuda
ENV LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/lib64:$CUDA_HOME/extras/CUPTI/lib64

# 構(gòu)建模型
RUN python setup.py build_ext --inplace

# 將訓(xùn)練代碼和推理代碼復(fù)制到容器中
COPY train.py /app/train.py
COPY inference.py /app/inference.py

WORKDIR /app

在示例中，我們使用了nvcr.io/nvidia/pytorch:21.03-py3作為基礎(chǔ)鏡像，該鏡像已經(jīng)包含了PyTorch和CUDA等必要的軟件依賴(lài)項(xiàng)。然后，我們使用apt-get安裝了其他需要的工具和庫(kù)。接下來(lái)，我們通過(guò)git clone將模型倉(cāng)庫(kù)克隆到容器中，并使用pip安裝了模型所需的Python依賴(lài)項(xiàng)。然后，我們?cè)O(shè)置了環(huán)境變量CUDA_HOME和LD_LIBRARY_PATH，確保CUDA和其相關(guān)的庫(kù)可以正確加載。最后，我們將訓(xùn)練代碼和推理代碼復(fù)制到容器中，并設(shè)置工作目錄。

Notice: 上述代碼僅為示例，實(shí)際的鏡像構(gòu)建過(guò)程可能因具體模型和依賴(lài)項(xiàng)而有所不同。需要根據(jù)你的模型和需求進(jìn)行適當(dāng)?shù)男薷暮驼{(diào)整，確保將所有必要的依賴(lài)項(xiàng)包含在鏡像中，并正確設(shè)置環(huán)境變量。此外，還要確保在構(gòu)建鏡像之前，已經(jīng)安裝了NVIDIA Docker Runtime，以便在Kubernetes集群中使用英偉達(dá)顯卡?？梢詤⒖糔VIDIA官方文檔以獲取更多關(guān)于NVIDIA Docker Runtime的信息和安裝步驟。

6. 結(jié)論

在Kubernetes容器環(huán)境下進(jìn)行大模型訓(xùn)練和推理涉及以下關(guān)鍵技術(shù)：

鏡像管理：使用Docker容器技術(shù)構(gòu)建和管理鏡像，確保環(huán)境的一致性和可重復(fù)性。通過(guò)定義Dockerfile來(lái)創(chuàng)建鏡像，包括所需的軟件依賴(lài)項(xiàng)、庫(kù)和代碼。

資源調(diào)度和管理：Kubernetes作為容器編排和管理系統(tǒng)，能夠有效地管理計(jì)算資源。使用Kubernetes調(diào)度器，可以根據(jù)資源需求和可用性，在集群中的節(jié)點(diǎn)上動(dòng)態(tài)分配GPU資源，并確保任務(wù)的高可用性和負(fù)載均衡。

GPU加速：通過(guò)安裝NVIDIA Docker Runtime，可以在Kubernetes集群中使用英偉達(dá)顯卡進(jìn)行GPU加速。這樣可以充分利用GPU的并行計(jì)算能力，加快大型模型的訓(xùn)練和推理速度。

分布式訓(xùn)練：如果需要進(jìn)行分布式訓(xùn)練，Kubernetes提供了容器間通信和協(xié)調(diào)的功能，可以輕松地將訓(xùn)練任務(wù)分發(fā)到多個(gè)容器或節(jié)點(diǎn)上，并實(shí)現(xiàn)參數(shù)同步和數(shù)據(jù)并行等分布式訓(xùn)練策略。

持久化存儲(chǔ)：對(duì)于大型模型訓(xùn)練任務(wù)，通常需要存儲(chǔ)大量的數(shù)據(jù)和模型檢查點(diǎn)。Kubernetes提供了各種持久化存儲(chǔ)選項(xiàng)，如使用云存儲(chǔ)卷或網(wǎng)絡(luò)存儲(chǔ)卷，以確保數(shù)據(jù)的持久性和可靠性。

監(jiān)控和日志：通過(guò)Kubernetes的監(jiān)控和日志功能，可以實(shí)時(shí)監(jiān)控訓(xùn)練和推理任務(wù)的狀態(tài)和性能指標(biāo)。這些指標(biāo)可以用于調(diào)整資源分配、優(yōu)化算法和及時(shí)發(fā)現(xiàn)問(wèn)題。

All in All，Kubernetes容器環(huán)境為大型模型訓(xùn)練和推理提供了強(qiáng)大的管理和調(diào)度能力，使得任務(wù)的部署、資源管理和監(jiān)控變得更加靈活和高效。通過(guò)合理配置GPU加速、分布式訓(xùn)練和持久化存儲(chǔ)等技術(shù)，可以加速模型訓(xùn)練過(guò)程，并提高推理性能，從而滿(mǎn)足對(duì)大規(guī)模深度學(xué)習(xí)任務(wù)的需求。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-852515.html

參考文獻(xiàn)：

Kubernetes官方文檔：Kubernetes Documentation | Kubernetes
NVIDIA官方文檔：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/
Kubernetes Blog：Kubernetes Blog | Kubernetes
NVIDIA Developer Blog：https://developer.nvidia.com/blog/
Medium上的Kubernetes和深度學(xué)習(xí)相關(guān)文章：https://medium.com/tag/kubernetes
Towards Data Science上的Kubernetes和深度學(xué)習(xí)相關(guān)文章：https://towardsdatascience.com/tagged/kubernetes

到了這里，關(guān)于【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

PTM：大模型加速方法或框架(預(yù)訓(xùn)練階段/推理階段)的簡(jiǎn)介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等，F(xiàn)asterTransformer/FastLLM/vLLM
PTM：大模型加速方法或框架(預(yù)訓(xùn)練階段/推理階段)的簡(jiǎn)介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等，F(xiàn)asterTransformer/FastLLM/vLLM/TurboTransformers等)、案例應(yīng)用之詳細(xì)攻略導(dǎo)讀：不同訓(xùn)練框架實(shí)現(xiàn)參數(shù)高效微調(diào)算法的效率會(huì)存在很大差異：比如使用Huggingface Transformers、DeepSpeed和Alpa訓(xùn)
2024年02月07日
瀏覽(24)
模型訓(xùn)練與優(yōu)化：AI大模型在云計(jì)算環(huán)境下的挑戰(zhàn)
隨著人工智能技術(shù)的發(fā)展，AI大模型在各個(gè)領(lǐng)域的應(yīng)用不斷拓展，如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)等。這些大模型通常具有高度復(fù)雜性和大規(guī)模性，需要在云計(jì)算環(huán)境下進(jìn)行訓(xùn)練和優(yōu)化。然而，在云計(jì)算環(huán)境下訓(xùn)練和優(yōu)化AI大模型面臨著諸多挑戰(zhàn)，如數(shù)據(jù)分布、計(jì)算資
2024年04月23日
瀏覽(26)
【云原生】Kubernetes臨時(shí)容器
特性狀態(tài)： Kubernetes v1.25 [stable] 本頁(yè)面概述了臨時(shí)容器：一種特殊的容器，該容器在現(xiàn)有 Pod 中臨時(shí)運(yùn)行，以便完成用戶(hù)發(fā)起的操作，例如故障排查。你會(huì)使用臨時(shí)容器來(lái)檢查服務(wù)，而不是用它來(lái)構(gòu)建應(yīng)用程序 Pod 是 Kubernetes 應(yīng)用程序的基本構(gòu)建塊。由于 Pod 是一次性且可替
2024年02月15日
瀏覽(56)
【云原生】容器編排工具Kubernetes
目錄一、 K8S介紹官網(wǎng)地址： 1.1docker編排與k8s編排相比 1.2特性 1.3功能二、K8S重要組件 2.1核心組件（1）Kube-apiserver （2）Kube-controller-manager （3）Kube-scheduler （4）Node ①kubelet ②kube-proxy ③docker （5）etcd 2.2Kubernetes工作原理三、Pod 3.1 Pod控制器（1）Deployment （2）ReplicaSet （3）
2024年02月09日
瀏覽(32)
【云原生】Kubernetes容器編排工具
目錄 1. K8S介紹 1.1 k8s的由來(lái) 下載地址 1.2 docker編排與k8s編排相比 1.3 傳統(tǒng)后端部署與k8s 的對(duì)比傳統(tǒng)部署 k8s部署? ?2. k8s的集群架構(gòu)與組件（1） Kube-apiserver （2）Kube-controller-manager? （3）Kube-scheduler?? 2.2?k8s的配置存儲(chǔ)中心 2.3? k8s的Node 組件? ?（1）Kubelet? ?（2）Kube-Proxy?
2024年02月10日
瀏覽(23)
什么是推理和訓(xùn)練AI芯片？
推理是指利用訓(xùn)練好的模型，使用新數(shù)據(jù)推理出各種結(jié)論。借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算，利用輸入的新數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。這也有叫做預(yù)測(cè)或推斷。訓(xùn)練是指通過(guò)大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型，通過(guò)大量標(biāo)記過(guò)的數(shù)據(jù)來(lái)訓(xùn)練相應(yīng)的系統(tǒng)，使其能夠
2024年02月06日
瀏覽(20)
云原生、容器化、Kubernetes、微服務(wù)
作者：禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 云原生（Cloud Native）是一個(gè)開(kāi)放且社區(qū)驅(qū)動(dòng)的項(xiàng)目，它定義了一組架構(gòu)原則、最佳實(shí)踐和工具集，這些原則、實(shí)踐和工具圍繞業(yè)務(wù)需求和工程實(shí)踐而設(shè)計(jì)，可用于開(kāi)發(fā)人員在構(gòu)建和運(yùn)行分布式系統(tǒng)時(shí)更加順暢地交付可靠的軟件。云原生可以幫助
2024年02月07日
瀏覽(27)
【云原生】kubernetes中容器的資源限制
目錄 1 metrics-server 2 指定內(nèi)存請(qǐng)求和限制 3 指定 CPU 請(qǐng)求和限制資源限制在k8s中對(duì)于容器資源限制主要分為以下兩類(lèi): 內(nèi)存資源限制: 內(nèi)存請(qǐng)求（request）和內(nèi)存限制（limit）分配給一個(gè)容器。我們保障容器擁有它請(qǐng)求數(shù)量的內(nèi)存，但不允許使用超過(guò)限制數(shù)量的內(nèi)存。官網(wǎng)參
2024年02月14日
瀏覽(24)
【LLM】chatglm-6B模型訓(xùn)練和推理
本篇文章記錄下 chatglm-6B 訓(xùn)練和推理過(guò)程環(huán)境：Ubuntu 20.04 + 1.13.0+cu116 chatglm-6B 源代碼倉(cāng)庫(kù)：鏈接 chatglm-6B 模型權(quán)重：鏈接這里使用的是 THUDM 在 hugging face 開(kāi)源的模型。因?yàn)槟Ｐ捅容^大，倉(cāng)庫(kù)保存模式使用的是 git lfs 模式，再 clone 之后再使用 git lfs pull 去 download 大文件。 c
2024年02月10日
瀏覽(49)
云原生Kubernetes:CRI 容器運(yùn)行時(shí)接口
目錄一、理論 1.?CRI 2.容器運(yùn)行時(shí)層級(jí) 3.容器運(yùn)行時(shí)比較二、總結(jié) （1）概念 ? ? ? Kubernetes Node (kubelet) 的主要功能就是啟動(dòng)和停止容器的組件，我們稱(chēng)之為容器運(yùn)行時(shí)（ Container Runtime) ，其中最知名的就是 Docker 。為了更具擴(kuò)展性， Kubernetes 1.5 版本開(kāi)始就加入了容器運(yùn)行
2024年02月09日
瀏覽(27)

<strike id="lnoom"></strike>

<rp id="lnoom"></rp>

<rt id="lnoom"></rt>

<rt id="lnoom"></rt>

<thead id="lnoom"><font id="lnoom"><noframes id="lnoom"><strike id="lnoom"><button id="lnoom"></button></strike>

<blockquote id="lnoom"></blockquote>