国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析

這篇具有很好參考價(jià)值的文章主要介紹了【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請(qǐng)大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問(wèn)。

摘要:本文將探討在Kubernetes容器環(huán)境下進(jìn)行大模型訓(xùn)練和推理的關(guān)鍵技術(shù)。我們將以英偉達(dá)顯卡為例,詳細(xì)介紹如何利用Kubernetes容器平臺(tái)來(lái)高效地進(jìn)行大規(guī)模深度學(xué)習(xí)任務(wù)。我們將討論容器化的優(yōu)勢(shì),包括可擴(kuò)展性、資源管理和隔離性,并介紹與Kubernetes相關(guān)的關(guān)鍵技術(shù),如GPU調(diào)度、分布式訓(xùn)練和推理優(yōu)化。最后,我們將通過(guò)一個(gè)實(shí)際的應(yīng)用案例來(lái)展示Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的潛力。

目? 錄?

1. 引言

2. Kubernetes容器平臺(tái)與大模型訓(xùn)練和推理的優(yōu)勢(shì)

3.?Kubernetes容器環(huán)境下的GPU調(diào)度

4. 分布式訓(xùn)練和推理優(yōu)化

4.1 分布式訓(xùn)練:

4.2 推理優(yōu)化:

5. 實(shí)例應(yīng)用案例:英偉達(dá)顯卡在Kubernetes容器環(huán)境下的大模型訓(xùn)練和推理

6. 結(jié)論

參考文獻(xiàn):

1. 引言

隨著深度學(xué)習(xí)模型的不斷增大和復(fù)雜性的提高,對(duì)計(jì)算資源的需求也越來(lái)越高。在傳統(tǒng)的單機(jī)環(huán)境下進(jìn)行大規(guī)模模型訓(xùn)練和推理已經(jīng)變得困難,因?yàn)閱蝹€(gè)計(jì)算節(jié)點(diǎn)的資源限制和性能瓶頸。為了解決這個(gè)問(wèn)題,Kubernetes容器平臺(tái)可以提供一個(gè)靈活、可擴(kuò)展和高度可管理的環(huán)境,使得大模型訓(xùn)練和推理變得更加高效。

2. Kubernetes容器平臺(tái)與大模型訓(xùn)練和推理的優(yōu)勢(shì)

Kubernetes容器平臺(tái)在大模型訓(xùn)練和推理方面具有許多優(yōu)勢(shì),這些優(yōu)勢(shì)使其成為處理大規(guī)模深度學(xué)習(xí)任務(wù)的理想選擇。以下是一些關(guān)鍵的優(yōu)勢(shì):

  1. 可擴(kuò)展性:?Kubernetes提供了強(qiáng)大的可擴(kuò)展性,可以輕松地?cái)U(kuò)展計(jì)算資源以滿(mǎn)足大規(guī)模模型訓(xùn)練和推理的需求。通過(guò)調(diào)整Pod的數(shù)量和資源配額,可以根據(jù)任務(wù)的需求動(dòng)態(tài)調(diào)整集群的規(guī)模,實(shí)現(xiàn)高效的資源利用。

  2. 資源管理:?Kubernetes通過(guò)資源管理機(jī)制,如資源配額和調(diào)度器,可以有效地管理計(jì)算資源。對(duì)于大規(guī)模模型訓(xùn)練和推理,這意味著可以確保每個(gè)任務(wù)獲得足夠的計(jì)算資源,避免資源競(jìng)爭(zhēng)和爭(zhēng)用導(dǎo)致的性能下降。

  3. 隔離性:?在Kubernetes容器環(huán)境中,每個(gè)任務(wù)都運(yùn)行在獨(dú)立的容器中,相互之間具有隔離性。這種隔離性可以防止不同任務(wù)之間的相互干擾,確保模型訓(xùn)練和推理的穩(wěn)定性和可靠性。

  4. 靈活性:?Kubernetes容器平臺(tái)提供了靈活的部署和管理選項(xiàng)??梢允褂寐暶餍缘呐渲梦募x任務(wù)的要求和依賴(lài),通過(guò)簡(jiǎn)單的命令即可啟動(dòng)、停止或更新任務(wù),簡(jiǎn)化了任務(wù)的管理和維護(hù)過(guò)程。

  5. 生態(tài)系統(tǒng)支持:?Kubernetes擁有龐大的生態(tài)系統(tǒng)和活躍的社區(qū)支持(這一點(diǎn)很重要)。有許多開(kāi)源工具和庫(kù)可用于在Kubernetes環(huán)境中進(jìn)行大規(guī)模模型訓(xùn)練和推理,并且可以從社區(qū)中獲取支持和經(jīng)驗(yàn)分享。

3.?Kubernetes容器環(huán)境下的GPU調(diào)度

在進(jìn)行大模型訓(xùn)練和推理時(shí),充分利用GPU資源是至關(guān)重要的。Kubernetes提供了靈活的GPU調(diào)度機(jī)制,使得可以將任務(wù)調(diào)度到具有所需GPU能力的節(jié)點(diǎn)上。

  • 節(jié)點(diǎn)標(biāo)記和選擇器:通過(guò)在節(jié)點(diǎn)上標(biāo)記GPU的類(lèi)型和數(shù)量,并使用選擇器將任務(wù)調(diào)度到相應(yīng)的節(jié)點(diǎn)上,可以確保任務(wù)在具備足夠GPU資源的節(jié)點(diǎn)上執(zhí)行。

  • GPU設(shè)備插件:Kubernetes的GPU設(shè)備插件(GPU Device Plugin)可以自動(dòng)檢測(cè)和管理節(jié)點(diǎn)上的GPU資源,提供給調(diào)度器用于調(diào)度任務(wù)。這樣,可以很方便地在容器中聲明對(duì)GPU的需求,并確保任務(wù)在滿(mǎn)足需求的節(jié)點(diǎn)上運(yùn)行。

4. 分布式訓(xùn)練和推理優(yōu)化

分布式訓(xùn)練和推理優(yōu)化是在大模型訓(xùn)練和推理中提高性能和效率的關(guān)鍵技術(shù)。在Kubernetes容器環(huán)境下,使用PyTorch框架進(jìn)行分布式訓(xùn)練和推理可以充分利用多個(gè)計(jì)算資源,并加速模型的訓(xùn)練和推理過(guò)程。

4.1 分布式訓(xùn)練:

分布式訓(xùn)練是指將大模型的訓(xùn)練任務(wù)分布到多個(gè)計(jì)算節(jié)點(diǎn)上并行處理,以加快訓(xùn)練速度和提高性能。PyTorch提供了torch.nn.DataParalleltorch.nn.DistributedDataParallel等工具來(lái)實(shí)現(xiàn)分布式訓(xùn)練。下面是一個(gè)使用PyTorch進(jìn)行分布式訓(xùn)練的示例代碼:

import torch
import torch.nn as nn
import torch.optim as optim
import torch.distributed as dist
import torch.multiprocessing as mp
from torch.nn.parallel import DistributedDataParallel

# 定義模型
class MyModel(nn.Module):
    def __init__(self):
        super(MyModel, self).__init__()
        # 模型定義代碼...

    def forward(self, x):
        # 前向傳播代碼...
        return x

def train(rank, world_size):
    # 初始化分布式訓(xùn)練環(huán)境
    dist.init_process_group(backend='nccl', init_method='env://', rank=rank, world_size=world_size)

    # 創(chuàng)建模型和優(yōu)化器
    model = MyModel().cuda()
    model = DistributedDataParallel(model)
    optimizer = optim.SGD(model.parameters(), lr=0.01)

    # 加載數(shù)據(jù)并定義數(shù)據(jù)加載器
    train_dataset = ...
    train_sampler = torch.utils.data.distributed.DistributedSampler(train_dataset)
    train_loader = torch.utils.data.DataLoader(train_dataset, batch_size=64, sampler=train_sampler)

    # 訓(xùn)練循環(huán)
    for epoch in range(10):
        for batch_x, batch_y in train_loader:
            batch_x = batch_x.cuda()
            batch_y = batch_y.cuda()

            # 前向傳播
            output = model(batch_x)
            loss = nn.CrossEntropyLoss()(output, batch_y)

            # 反向傳播和優(yōu)化
            optimizer.zero_grad()
            loss.backward()
            optimizer.step()

if __name__ == '__main__':
    # 設(shè)置分布式訓(xùn)練的參數(shù)
    world_size = 4
    mp.spawn(train, args=(world_size,), nprocs=world_size, join=True)

在上述代碼中,我們通過(guò)torch.distributed.init_process_group初始化了分布式訓(xùn)練環(huán)境,并創(chuàng)建了DistributedDataParallel模型。使用torch.utils.data.distributed.DistributedSampler可以確保每個(gè)計(jì)算節(jié)點(diǎn)獲取不同的數(shù)據(jù)樣本。然后,我們?cè)谟?xùn)練循環(huán)中使用分布式數(shù)據(jù)并行進(jìn)行模型的訓(xùn)練。

4.2 推理優(yōu)化:

推理優(yōu)化旨在提高模型在推理階段的速度和效率。PyTorch提供了多種方法來(lái)優(yōu)化推理過(guò)程,例如模型量化、剪枝和使用TorchScript進(jìn)行模型轉(zhuǎn)換。以下是一個(gè)使用PyTorch進(jìn)行推理優(yōu)化的示例代碼,通過(guò)使用TorchScript將模型轉(zhuǎn)換為優(yōu)化的推理格式:

import torch
import torchvision.models as models

# 加載預(yù)訓(xùn)練模型
model = models.resnet50(pretrained=True)
model.eval()

# 示例輸入
example_input = torch.rand(1, 3, 224, 224)

# 轉(zhuǎn)換為T(mén)orchScript格式
traced_model = torch.jit.trace(model, example_input)

# 保存優(yōu)化的推理模型
traced_model.save("optimized_model.pt")

在上述代碼中,我們使用torch.jit.trace將預(yù)訓(xùn)練模型轉(zhuǎn)換為T(mén)orchScript格式,并使用示例輸入對(duì)模型進(jìn)行追蹤。然后,我們可以將優(yōu)化的推理模型保存到文件中,以便在推理過(guò)程中使用。

通過(guò)分布式訓(xùn)練和推理優(yōu)化,可以在Kubernetes容器環(huán)境中充分發(fā)揮PyTorch框架的功能和性能,加速大模分布式訓(xùn)練和推理優(yōu)化是在大規(guī)模模型訓(xùn)練和推理中提高性能和效率的關(guān)鍵技術(shù)。在Kubernetes容器環(huán)境下,使用PyTorch框架進(jìn)行分布式訓(xùn)練和推理可以充分利用多個(gè)計(jì)算資源,并加速模型的訓(xùn)練和推理過(guò)程。

5. 實(shí)例應(yīng)用案例:英偉達(dá)顯卡在Kubernetes容器環(huán)境下的大模型訓(xùn)練和推理

案例描述:假設(shè)我們有一個(gè)圖像分類(lèi)的大模型,使用PyTorch框架進(jìn)行訓(xùn)練和推理。我們希望在Kubernetes容器環(huán)境中利用英偉達(dá)顯卡進(jìn)行分布式訓(xùn)練和推理優(yōu)化。

步驟1:準(zhǔn)備容器鏡像

首先,我們需要準(zhǔn)備一個(gè)包含PyTorch和CUDA的容器鏡像,以便在Kubernetes環(huán)境中運(yùn)行。可以使用Docker來(lái)構(gòu)建和發(fā)布容器鏡像,確保鏡像中包含必要的Python依賴(lài)項(xiàng)和GPU驅(qū)動(dòng)。

步驟2:編寫(xiě)訓(xùn)練代碼

接下來(lái),我們需要編寫(xiě)大模型的訓(xùn)練代碼,并將其封裝為可在容器中運(yùn)行的腳本。在腳本中,我們需要設(shè)置分布式訓(xùn)練環(huán)境,定義模型、優(yōu)化器和數(shù)據(jù)加載器,并編寫(xiě)訓(xùn)練循環(huán)。確保使用英偉達(dá)顯卡進(jìn)行模型訓(xùn)練,以充分利用其計(jì)算能力。

步驟3:編寫(xiě)推理代碼

除了訓(xùn)練代碼,我們還需要編寫(xiě)大模型的推理代碼,并將其封裝為可在容器中運(yùn)行的腳本。在推理腳本中,我們加載訓(xùn)練好的模型和優(yōu)化的推理格式,并編寫(xiě)推理循環(huán)。同樣地,確保使用英偉達(dá)顯卡進(jìn)行模型推理,以獲得高性能和效率。

步驟4:在Kubernetes上部署訓(xùn)練任務(wù)

使用Kubernetes的相關(guān)工具和命令,如kubectl,將容器鏡像部署到Kubernetes集群中。配置Kubernetes資源,如Pod、Deployment或Job,以指定訓(xùn)練任務(wù)的要求,包括使用的顯卡數(shù)量、資源限制等。通過(guò)調(diào)度器將任務(wù)分配到可用的英偉達(dá)顯卡上,并在容器內(nèi)運(yùn)行訓(xùn)練腳本。

步驟5:在Kubernetes上部署推理任務(wù)

類(lèi)似地,使用Kubernetes的工具和命令,在集群中部署包含推理代碼的容器鏡像。根據(jù)推理任務(wù)的要求配置資源和調(diào)度規(guī)則,確保推理任務(wù)能夠在英偉達(dá)顯卡上高效運(yùn)行。通過(guò)容器內(nèi)的推理腳本加載訓(xùn)練好的模型和優(yōu)化的推理格式,并執(zhí)行推理任務(wù)。

當(dāng)涉及到具體的大型模型時(shí),鏡像的構(gòu)建可能會(huì)更加復(fù)雜。以下是一個(gè)使用英偉達(dá)顯卡在Kubernetes容器環(huán)境中進(jìn)行大模型訓(xùn)練和推理的鏡像構(gòu)建的實(shí)際代碼示例。

# 基礎(chǔ)鏡像
FROM nvcr.io/nvidia/pytorch:21.03-py3

# 安裝依賴(lài)項(xiàng)
RUN apt-get update && apt-get install -y --no-install-recommends \
    build-essential \
    cmake \
    git \
    && rm -rf /var/lib/apt/lists/*

# 克隆模型倉(cāng)庫(kù)并安裝依賴(lài)項(xiàng)
RUN git clone https://github.com/model-repo.git /app/model-repo
WORKDIR /app/model-repo

# 安裝Python依賴(lài)項(xiàng)
RUN pip install -r requirements.txt

# 設(shè)置環(huán)境變量
ENV CUDA_HOME=/usr/local/cuda
ENV LD_LIBRARY_PATH=$LD_LIBRARY_PATH:$CUDA_HOME/lib64:$CUDA_HOME/extras/CUPTI/lib64

# 構(gòu)建模型
RUN python setup.py build_ext --inplace

# 將訓(xùn)練代碼和推理代碼復(fù)制到容器中
COPY train.py /app/train.py
COPY inference.py /app/inference.py

WORKDIR /app

在示例中,我們使用了nvcr.io/nvidia/pytorch:21.03-py3作為基礎(chǔ)鏡像,該鏡像已經(jīng)包含了PyTorch和CUDA等必要的軟件依賴(lài)項(xiàng)。然后,我們使用apt-get安裝了其他需要的工具和庫(kù)。接下來(lái),我們通過(guò)git clone將模型倉(cāng)庫(kù)克隆到容器中,并使用pip安裝了模型所需的Python依賴(lài)項(xiàng)。然后,我們?cè)O(shè)置了環(huán)境變量CUDA_HOMELD_LIBRARY_PATH,確保CUDA和其相關(guān)的庫(kù)可以正確加載。最后,我們將訓(xùn)練代碼和推理代碼復(fù)制到容器中,并設(shè)置工作目錄。

Notice: 上述代碼僅為示例,實(shí)際的鏡像構(gòu)建過(guò)程可能因具體模型和依賴(lài)項(xiàng)而有所不同。需要根據(jù)你的模型和需求進(jìn)行適當(dāng)?shù)男薷暮驼{(diào)整,確保將所有必要的依賴(lài)項(xiàng)包含在鏡像中,并正確設(shè)置環(huán)境變量。此外,還要確保在構(gòu)建鏡像之前,已經(jīng)安裝了NVIDIA Docker Runtime,以便在Kubernetes集群中使用英偉達(dá)顯卡??梢詤⒖糔VIDIA官方文檔以獲取更多關(guān)于NVIDIA Docker Runtime的信息和安裝步驟。

6. 結(jié)論

在Kubernetes容器環(huán)境下進(jìn)行大模型訓(xùn)練和推理涉及以下關(guān)鍵技術(shù):

  1. 鏡像管理:使用Docker容器技術(shù)構(gòu)建和管理鏡像,確保環(huán)境的一致性和可重復(fù)性。通過(guò)定義Dockerfile來(lái)創(chuàng)建鏡像,包括所需的軟件依賴(lài)項(xiàng)、庫(kù)和代碼。

  2. 資源調(diào)度和管理:Kubernetes作為容器編排和管理系統(tǒng),能夠有效地管理計(jì)算資源。使用Kubernetes調(diào)度器,可以根據(jù)資源需求和可用性,在集群中的節(jié)點(diǎn)上動(dòng)態(tài)分配GPU資源,并確保任務(wù)的高可用性和負(fù)載均衡。

  3. GPU加速:通過(guò)安裝NVIDIA Docker Runtime,可以在Kubernetes集群中使用英偉達(dá)顯卡進(jìn)行GPU加速。這樣可以充分利用GPU的并行計(jì)算能力,加快大型模型的訓(xùn)練和推理速度。

  4. 分布式訓(xùn)練:如果需要進(jìn)行分布式訓(xùn)練,Kubernetes提供了容器間通信和協(xié)調(diào)的功能,可以輕松地將訓(xùn)練任務(wù)分發(fā)到多個(gè)容器或節(jié)點(diǎn)上,并實(shí)現(xiàn)參數(shù)同步和數(shù)據(jù)并行等分布式訓(xùn)練策略。

  5. 持久化存儲(chǔ):對(duì)于大型模型訓(xùn)練任務(wù),通常需要存儲(chǔ)大量的數(shù)據(jù)和模型檢查點(diǎn)。Kubernetes提供了各種持久化存儲(chǔ)選項(xiàng),如使用云存儲(chǔ)卷或網(wǎng)絡(luò)存儲(chǔ)卷,以確保數(shù)據(jù)的持久性和可靠性。

  6. 監(jiān)控和日志:通過(guò)Kubernetes的監(jiān)控和日志功能,可以實(shí)時(shí)監(jiān)控訓(xùn)練和推理任務(wù)的狀態(tài)和性能指標(biāo)。這些指標(biāo)可以用于調(diào)整資源分配、優(yōu)化算法和及時(shí)發(fā)現(xiàn)問(wèn)題。

All in All,Kubernetes容器環(huán)境為大型模型訓(xùn)練和推理提供了強(qiáng)大的管理和調(diào)度能力,使得任務(wù)的部署、資源管理和監(jiān)控變得更加靈活和高效。通過(guò)合理配置GPU加速、分布式訓(xùn)練和持久化存儲(chǔ)等技術(shù),可以加速模型訓(xùn)練過(guò)程,并提高推理性能,從而滿(mǎn)足對(duì)大規(guī)模深度學(xué)習(xí)任務(wù)的需求。文章來(lái)源地址http://www.zghlxwxcb.cn/news/detail-852515.html

參考文獻(xiàn):

  1. Kubernetes官方文檔:Kubernetes Documentation | Kubernetes
  2. NVIDIA官方文檔:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/
  3. Kubernetes Blog:Kubernetes Blog | Kubernetes
  4. NVIDIA Developer Blog:https://developer.nvidia.com/blog/
  5. Medium上的Kubernetes和深度學(xué)習(xí)相關(guān)文章:https://medium.com/tag/kubernetes
  6. Towards Data Science上的Kubernetes和深度學(xué)習(xí)相關(guān)文章:https://towardsdatascience.com/tagged/kubernetes

到了這里,關(guān)于【AI云原生】Kubernetes容器環(huán)境下大模型訓(xùn)練和推理的關(guān)鍵技術(shù)分析的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來(lái)自互聯(lián)網(wǎng)用戶(hù)投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請(qǐng)注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • PTM:大模型加速方法或框架(預(yù)訓(xùn)練階段/推理階段)的簡(jiǎn)介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等,F(xiàn)asterTransformer/FastLLM/vLLM

    PTM:大模型加速方法或框架(預(yù)訓(xùn)練階段/推理階段)的簡(jiǎn)介、常用框架(Megatron-LM/Colossal-AI/DeepSpeed等,F(xiàn)asterTransformer/FastLLM/vLLM/TurboTransformers等)、案例應(yīng)用之詳細(xì)攻略 導(dǎo)讀 :不同訓(xùn)練框架實(shí)現(xiàn)參數(shù)高效微調(diào)算法的效率會(huì)存在很大差異:比如使用Huggingface Transformers、DeepSpeed和Alpa訓(xùn)

    2024年02月07日
    瀏覽(24)
  • 模型訓(xùn)練與優(yōu)化:AI大模型在云計(jì)算環(huán)境下的挑戰(zhàn)

    隨著人工智能技術(shù)的發(fā)展,AI大模型在各個(gè)領(lǐng)域的應(yīng)用不斷拓展,如自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)、推薦系統(tǒng)等。這些大模型通常具有高度復(fù)雜性和大規(guī)模性,需要在云計(jì)算環(huán)境下進(jìn)行訓(xùn)練和優(yōu)化。然而,在云計(jì)算環(huán)境下訓(xùn)練和優(yōu)化AI大模型面臨著諸多挑戰(zhàn),如數(shù)據(jù)分布、計(jì)算資

    2024年04月23日
    瀏覽(26)
  • 【云原生】Kubernetes臨時(shí)容器

    特性狀態(tài): Kubernetes v1.25 [stable] 本頁(yè)面概述了臨時(shí)容器:一種特殊的容器,該容器在現(xiàn)有 Pod 中臨時(shí)運(yùn)行,以便完成用戶(hù)發(fā)起的操作,例如故障排查。 你會(huì)使用臨時(shí)容器來(lái)檢查服務(wù),而不是用它來(lái)構(gòu)建應(yīng)用程序 Pod 是 Kubernetes 應(yīng)用程序的基本構(gòu)建塊。 由于 Pod 是一次性且可替

    2024年02月15日
    瀏覽(56)
  • 【云原生】容器編排工具Kubernetes

    【云原生】容器編排工具Kubernetes

    目錄 一、 K8S介紹 官網(wǎng)地址: 1.1docker編排與k8s編排相比 1.2特性 1.3功能 二、K8S重要組件 2.1核心組件 (1)Kube-apiserver (2)Kube-controller-manager (3)Kube-scheduler (4)Node ①kubelet ②kube-proxy ③docker (5)etcd 2.2Kubernetes工作原理 三、Pod 3.1 Pod控制器 (1)Deployment (2)ReplicaSet (3)

    2024年02月09日
    瀏覽(32)
  • 【云原生】Kubernetes容器編排工具

    【云原生】Kubernetes容器編排工具

    目錄 1. K8S介紹 1.1 k8s的由來(lái) 下載地址 1.2 docker編排與k8s編排相比 1.3 傳統(tǒng)后端部署與k8s 的對(duì)比 傳統(tǒng)部署 k8s部署? ?2. k8s的集群架構(gòu)與組件 (1) Kube-apiserver (2)Kube-controller-manager? (3)Kube-scheduler?? 2.2?k8s的配置存儲(chǔ)中心 2.3? k8s的Node 組件? ?(1)Kubelet? ?(2)Kube-Proxy?

    2024年02月10日
    瀏覽(23)
  • 什么是推理和訓(xùn)練AI芯片?

    推理 是指利用訓(xùn)練好的模型,使用新數(shù)據(jù)推理出 各種結(jié)論 。借助神經(jīng)網(wǎng)絡(luò)模型進(jìn)行運(yùn)算,利用輸入的新數(shù)據(jù)來(lái)一次性獲得正確結(jié)論的過(guò)程。這也有叫做預(yù)測(cè)或推斷。 訓(xùn)練 是指通過(guò)大數(shù)據(jù)訓(xùn)練出一個(gè)復(fù)雜的 神經(jīng)網(wǎng)絡(luò)模型 ,通過(guò)大量標(biāo)記過(guò)的數(shù)據(jù)來(lái)訓(xùn)練相應(yīng)的系統(tǒng),使其能夠

    2024年02月06日
    瀏覽(20)
  • 云原生、容器化、Kubernetes、微服務(wù)

    作者:禪與計(jì)算機(jī)程序設(shè)計(jì)藝術(shù) 云原生(Cloud Native)是一個(gè)開(kāi)放且社區(qū)驅(qū)動(dòng)的項(xiàng)目,它定義了一組架構(gòu)原則、最佳實(shí)踐和工具集,這些原則、實(shí)踐和工具圍繞業(yè)務(wù)需求和工程實(shí)踐而設(shè)計(jì),可用于開(kāi)發(fā)人員在構(gòu)建和運(yùn)行分布式系統(tǒng)時(shí)更加順暢地交付可靠的軟件。云原生可以幫助

    2024年02月07日
    瀏覽(27)
  • 【云原生】kubernetes中容器的資源限制

    【云原生】kubernetes中容器的資源限制

    目錄 1 metrics-server 2 指定內(nèi)存請(qǐng)求和限制 3 指定 CPU 請(qǐng)求和限制 資源限制 在k8s中對(duì)于容器資源限制主要分為以下兩類(lèi): 內(nèi)存資源限制: 內(nèi)存 請(qǐng)求 (request)和內(nèi)存 限制 (limit)分配給一個(gè)容器。 我們保障容器擁有它請(qǐng)求數(shù)量的內(nèi)存,但不允許使用超過(guò)限制數(shù)量的內(nèi)存。 官網(wǎng)參

    2024年02月14日
    瀏覽(24)
  • 【LLM】chatglm-6B模型訓(xùn)練和推理

    【LLM】chatglm-6B模型訓(xùn)練和推理

    本篇文章記錄下 chatglm-6B 訓(xùn)練和推理過(guò)程 環(huán)境:Ubuntu 20.04 + 1.13.0+cu116 chatglm-6B 源代碼倉(cāng)庫(kù):鏈接 chatglm-6B 模型權(quán)重:鏈接 這里使用的是 THUDM 在 hugging face 開(kāi)源的模型。 因?yàn)槟P捅容^大,倉(cāng)庫(kù)保存模式使用的是 git lfs 模式,再 clone 之后再使用 git lfs pull 去 download 大文件。 c

    2024年02月10日
    瀏覽(49)
  • 云原生Kubernetes:CRI 容器運(yùn)行時(shí)接口

    云原生Kubernetes:CRI 容器運(yùn)行時(shí)接口

    目錄 一、理論 1.?CRI 2.容器運(yùn)行時(shí)層級(jí) 3.容器運(yùn)行時(shí)比較 二、總結(jié) (1)概念 ? ? ? Kubernetes Node (kubelet) 的主要功能就是啟動(dòng)和停止容器的組件,我們 稱(chēng)之為容器運(yùn)行時(shí)( Container Runtime) ,其中最知名的就是 Docker 。為了 更具擴(kuò)展性, Kubernetes 1.5 版本開(kāi)始就加入了容器運(yùn)行

    2024年02月09日
    瀏覽(27)

覺(jué)得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請(qǐng)作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包