国产无码综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南

1年前作者：尋道碼路分類：Toy博客閱讀(21)違法舉報(bào)

這篇具有很好參考價(jià)值的文章主要介紹了AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南。希望對(duì)大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方，請(qǐng)大家不吝賜教，您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

目錄

前言

一、概述

二、有哪些主流模型？

三、模型參數(shù)怎么選？

四、參數(shù)有什么作用？

五、CPU和GPU怎么選？

六、GPU和顯卡有什么關(guān)系？

七、GPU主流廠商有哪些？

1、NVIDIA芯片怎么選？

2、CUDA是什么？

3、AMD芯片怎么選？

4、NVIDIA和AMD兩者有什么區(qū)別？

八、GPU顯存怎么選？

1、模型參數(shù)？

2、量化處理？

九、什么是預(yù)訓(xùn)練和微調(diào)？

總結(jié)

前言

在打造企業(yè)AI大模型的路上，我們常常會(huì)遇到一系列的選型和概念挑戰(zhàn)。例如，如何選擇合適的模型，如何挑選GPU，以及什么是微調(diào)和監(jiān)督微調(diào)等。本文旨在深入剖析這些常見問題，為大家提供一個(gè)全面的概覽，幫助大家更好地理解和利用這些強(qiáng)大的工具。

一、概述

文章中我們將帶著問題去了解打造企業(yè)AI大模型中的關(guān)鍵實(shí)踐，包括模型選擇、參數(shù)理解、硬件選擇（CPU與GPU），以及訓(xùn)練技術(shù)（預(yù)訓(xùn)練和微調(diào)）。我們將探討如何在眾多開源模型和商業(yè)解決方案中做出選擇，并基于業(yè)務(wù)需求調(diào)整模型參數(shù)和訓(xùn)練方法。通過閱讀本文獲得構(gòu)建和部署高效AI大模型的知識(shí)和工具，為以后在此領(lǐng)域的旅程提供堅(jiān)實(shí)的基礎(chǔ)。

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

二、有哪些主流模型？

對(duì)于企業(yè)如果自己從零研發(fā)自己的大模型；它對(duì)算力、數(shù)據(jù)的要求非常高，研發(fā)投入非常大，

比如以O(shè)penAI的GPT-3模型為例來估算。假設(shè)：

模型訓(xùn)練需要1,000個(gè)NVIDIA A100 GPU。
每個(gè)GPU的價(jià)格為$10,000（這是A100 GPU的大致市場(chǎng)價(jià)格）。
GPU租用費(fèi)用為$8/小時(shí)（這是一個(gè)大致的市場(chǎng)價(jià)格）。
模型訓(xùn)練時(shí)間為2個(gè)月（60天）。
每天24小時(shí)不間斷訓(xùn)練。

計(jì)算：

GPU購買成本 =?1,000 × 10,000=10,000,000

GPU租用成本 = 1,000 ×?8/小時(shí)×24小時(shí)/天×60天=?11,520,000

因此對(duì)大多數(shù)企業(yè)而言，更多的是從目前以及開源或者閉源的大模型上進(jìn)行選擇；

由于篇幅有限，下面僅列了部分主流模型：

企業(yè)名稱	模型名稱	開源情況
OpenAI	GPT-3、GPT-3.5、GPT-4	不開源

Google	PaLM、PaLM 2	不開源
Google	Gemma 7B、Gemma 2B - It、CodeGemma-7B、CodeGemma-7B-IT、CodeGemma-2B、RecurrentGemma-2B	開源
Meta	OPT、LLaMA 7B、LLaMA 13B、LLaMA 33B、LLaMA 65B、LLaMA 65B	開源不可商用
Meta	LLaMA2 70B、LLaMA2 34B、LLaMA2 13B、LLaMA2 7B	開源
微軟	Phi-1、Phi-1.5	開源不可商用
	Phi-2	開源
智譜	ChatGLM-6B、ChatGLM2-6B、ChatGLM3-6B-Base	開源
智譜	ChatGLM2 12B、GLM-130B、GLM4	不開源
百川	Baichuan 7B、Baichuan 13B - Base、Baichuan 13B - Chat、Baichuan2-7B-Base、Baichuan2-13B-Base	開源
阿里巴巴	Qwen-7B、Qwen-1.8B、Qwen1.5-MoE-A2.7B、Qwen1.5-32B	開源
華為	盤古	不開源
百度	文心	不開源

三、模型參數(shù)怎么選？

在大模型名稱后面通常都帶有一個(gè)字母B，"7b"、"13b"、"70b"等，它通常指的是大型神經(jīng)網(wǎng)絡(luò)模型的參數(shù)數(shù)量。其中的 "b" 代表 "billion"，也就是十億。表示模型中的參數(shù)量，例如："7b" 指的是?70 億個(gè)參數(shù)；"13b"指的是?130 億個(gè)參數(shù)。

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

四、參數(shù)有什么作用？

大模型的參數(shù)是衡量模型能力的一個(gè)指標(biāo)，一般XXB越大，通常模型就更厲害；因?yàn)楦嗟膮?shù)通常意味著模型可以捕捉到更復(fù)雜的數(shù)據(jù)模式，從而有潛力執(zhí)行更多種類的任務(wù)和提供更準(zhǔn)確的預(yù)測(cè)或判斷；

但是實(shí)際選擇時(shí)我們要從多方面考慮：

成本資源：訓(xùn)練和部署大型模型需要更大的計(jì)算資源和存儲(chǔ)空間，同時(shí)也需要更長的訓(xùn)練時(shí)間。
調(diào)試與維護(hù)：小型模型通常更容易調(diào)試和維護(hù)，而大型模型可能因?yàn)閺?fù)雜性增加而難以管理
實(shí)時(shí)性要求：在模型的推理時(shí)間方面，大型模型可能因?yàn)槠鋸?fù)雜性而導(dǎo)致較慢的預(yù)測(cè)速度。
數(shù)據(jù)特性：某些模型可能比較適合處理特定類型的數(shù)據(jù)如圖像、文本、時(shí)間序列等
行業(yè)需求：不同行業(yè)可能有特定的需求和限制，例如在金融行業(yè)中，模型的解釋性和合規(guī)性尤為重要；而在醫(yī)療行業(yè)，模型的準(zhǔn)確性和可靠性至關(guān)重要

五、CPU和GPU怎么選？

1. 各自特點(diǎn)：

CPU是計(jì)算機(jī)的大腦，負(fù)責(zé)硬件資源調(diào)配、執(zhí)行通用運(yùn)算，像是一個(gè)資深數(shù)學(xué)家，擅長處理復(fù)雜的任務(wù)。

GPU是圖形和并行計(jì)算的專家；適合圖形渲染和科學(xué)計(jì)算；像是一個(gè)專門進(jìn)行數(shù)值計(jì)算的團(tuán)隊(duì)，其中每個(gè)成員都負(fù)責(zé)執(zhí)行簡(jiǎn)單的操作，但整個(gè)團(tuán)隊(duì)合起來可以同時(shí)處理大量的相似計(jì)算。

2. 使用場(chǎng)景：

CPU：適用于日常的辦公、軟件運(yùn)行、系統(tǒng)管理等需要復(fù)雜決策和邏輯處理的場(chǎng)景。
GPU：適用于視頻編輯、游戲、三維建模以及機(jī)器學(xué)習(xí)等需要大規(guī)模數(shù)據(jù)并行處理的場(chǎng)景。

3. 配置選擇

CPU在深度學(xué)習(xí)中至關(guān)重要，需提供足夠的數(shù)據(jù)處理能力以支持模型訓(xùn)練。例如，增加NVIDIA V100 GPU數(shù)量未能成比例提高DGX2服務(wù)器的吞吐量，表明CPU可能成為性能瓶頸。理想情況下，CPU核心數(shù)應(yīng)隨GPU數(shù)量線性增加，每塊GPU建議分配4~8個(gè)CPU核心以滿足數(shù)據(jù)讀取需求，但更多核心并不總是帶來顯著提升。

六、GPU和顯卡有什么關(guān)系？

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

GPU并不是一塊普通的顯卡。確切地說，GPU是顯卡中的核心組件，專門負(fù)責(zé)圖像處理任務(wù)。作為顯卡的關(guān)鍵芯片，GPU承擔(dān)了大部分圖形計(jì)算工作，從而減輕了中央處理單元（CPU）的負(fù)擔(dān)。

在3D圖形處理領(lǐng)域，GPU展現(xiàn)出其核心技術(shù)的威力，包括但不限于硬件T&L（Transform and Lighting，即幾何轉(zhuǎn)換和光照處理）、立方環(huán)境材質(zhì)映射、頂點(diǎn)混合技術(shù)、紋理壓縮以及凹凸映射貼圖等。這些技術(shù)的運(yùn)用，使得GPU能夠高效地執(zhí)行復(fù)雜的圖形渲染任務(wù)，極大地提升了視覺效果的真實(shí)性和細(xì)膩度。

其中，硬件T&L技術(shù)是GPU的代表性特征之一，它允許GPU在不依賴CPU的情況下，獨(dú)立完成物體在3D空間中的變換和光照計(jì)算，顯著提高了圖形處理的效率和質(zhì)量

七、GPU主流廠商有哪些？

全球知名的GPU芯片生產(chǎn)廠商主要有NVIDIA、AMD?，和Intel等。另外也有一些國產(chǎn)GPU公司，景嘉微、寒武紀(jì)、海光信息等公司。目前市場(chǎng)上還是以NVIDIA、AMD?為主；通常所說的A卡指的是使用AMD芯片的顯卡，而N卡則是使用NVIDIA芯片的顯卡。

1、NVIDIA芯片怎么選？

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

1）Tesla系列：Tesla系列芯片是英偉達(dá)針對(duì)高性能計(jì)算和并行計(jì)算而設(shè)計(jì)的GPU芯片，其特點(diǎn)是高度可編程性和高性能。Tesla系列芯片的應(yīng)用領(lǐng)域包括科學(xué)計(jì)算、石油勘探、氣象預(yù)報(bào)、深度學(xué)習(xí)等領(lǐng)域。例如，Tesla V100是一款擁有640個(gè)張量核心的GPU芯片，能夠?qū)崿F(xiàn)高性能的深度學(xué)習(xí)計(jì)算。

2）Quadro系列：Quadro系列芯片是英偉達(dá)為計(jì)算機(jī)圖形學(xué)和可視化而設(shè)計(jì)的GPU芯片，其特點(diǎn)是高度的圖形性能和精度。Quadro系列芯片的應(yīng)用領(lǐng)域包括建筑設(shè)計(jì)、影視制作、游戲開發(fā)等領(lǐng)域。例如，Quadro RTX 6000是一款擁有4864個(gè)CUDA核心的GPU芯片，能夠?qū)崿F(xiàn)高精度、高逼真的圖形渲染。

3）GeForce系列：GeForce系列芯片是英偉達(dá)面向游戲玩家和計(jì)算機(jī)愛好者而設(shè)計(jì)的GPU芯片，其特點(diǎn)是出色的圖形性能和較低的價(jià)格。GeForce系列芯片的應(yīng)用領(lǐng)域包括游戲開發(fā)、虛擬現(xiàn)實(shí)、數(shù)字內(nèi)容制作等領(lǐng)域。例如，GeForce RTX 2080 Ti是一款擁有4352個(gè)CUDA核心的GPU芯片，能夠?qū)崿F(xiàn)高速的游戲渲染和虛擬現(xiàn)實(shí)應(yīng)用。

4）Titan系列：Titan系列芯片是英偉達(dá)面向?qū)I(yè)用戶和高端游戲玩家而設(shè)計(jì)的GPU芯片，其特點(diǎn)是超高的圖形性能和精度。Titan系列芯片的應(yīng)用領(lǐng)域包括游戲開發(fā)、計(jì)算機(jī)輔助設(shè)計(jì)、數(shù)字內(nèi)容制作等領(lǐng)域。例如，Titan RTX是一款擁有4608個(gè)CUDA核心的GPU芯片，能夠?qū)崿F(xiàn)高精度、高逼真的圖形渲染。

2、CUDA是什么？

CUDA（Compute Unified Device Architecture）是由NVIDIA開發(fā)的一種并行計(jì)算平臺(tái)和編程模型。該平臺(tái)利用GPU（圖形處理器）的強(qiáng)大計(jì)算能力，使其更適用于高性能計(jì)算和數(shù)據(jù)并行計(jì)算任務(wù)。是一種專門為NVIDIA的圖形處理單元（GPU）設(shè)計(jì)的軟件框架（也兼容其他AMD、Intel等廠商的芯片）

1、性能提升：利用GPU的并行處理能力，顯著提高計(jì)算速度。

2、編程靈活：提供C語言的擴(kuò)展，降低開發(fā)難度。

3、工具豐富：提供編譯器、調(diào)試器和優(yōu)化工具，支持開發(fā)過程。

4、庫資源豐富：提供豐富的庫函數(shù)，方便開發(fā)者使用。

5、廣泛應(yīng)用：適用于多種領(lǐng)域，如圖形渲染、科學(xué)模擬和深度學(xué)習(xí)等。

6、統(tǒng)一架構(gòu)：提供統(tǒng)一的內(nèi)存管理和設(shè)備控制接口，簡(jiǎn)化代碼結(jié)構(gòu)。

3、AMD芯片怎么選？

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

1.RadeonVega系列：最新的系列，采用了先進(jìn)的HBM2高速內(nèi)存技術(shù)，能夠?yàn)橛螒蛲婕姨峁└恿鲿车挠螒蝮w驗(yàn)，支持實(shí)時(shí)運(yùn)行多項(xiàng)任務(wù)。

2.RadeonRX500系列：此系列包括了RX580、RX570等型號(hào)，性能強(qiáng)勁，能夠滿足廣大游戲愛好者的需求，同時(shí)還支持虛擬現(xiàn)實(shí)（VR）和高清視頻播放等功能。

3.RadeonRX400系列：此系列包括了RX480、RX470等，它們采用了全新的Polaris架構(gòu)，能夠提供更高效的性能和更低的功耗。

4、NVIDIA和AMD兩者有什么區(qū)別？

NVIDIA：

1）圖形處理能力：英偉達(dá)GPU以其卓越的圖形渲染和計(jì)算能力著稱，特別適合處理高負(fù)荷的圖形應(yīng)用。
2）視覺效果：英偉達(dá)GPU支持高清晰度、高質(zhì)量紋理、光線追蹤等先進(jìn)特性，提供生動(dòng)視覺體驗(yàn)。
3）機(jī)器學(xué)習(xí)能力：英偉達(dá)GPU擅長處理大數(shù)據(jù)集，其高度可并行的架構(gòu)能夠快速處理數(shù)百萬個(gè)數(shù)據(jù)點(diǎn)。

AMD：

1）性能優(yōu)異：在性能方面表現(xiàn)出色，可提供頂級(jí)游戲圖像質(zhì)量和流暢運(yùn)行體驗(yàn)。
2）價(jià)格親民：相較于競(jìng)爭(zhēng)對(duì)手，AMD獨(dú)顯的價(jià)格更為實(shí)惠，既能提供高性能，又不會(huì)使您的錢包肆虐。
3）兼容性強(qiáng)：可以與許多不同類型的計(jì)算機(jī)硬件兼容，從筆記本到臺(tái)式電腦，再到高端工作站。
4）能耗低：通常比其他同類產(chǎn)品消耗更少的能源，并且通常都提供了強(qiáng)大的節(jié)能選項(xiàng)。

八、GPU顯存怎么選？

1、模型參數(shù)？

1) 顯存的大小通常根據(jù)參數(shù)的精度來估算，不同的參數(shù)精度，需要的存儲(chǔ)空間不一樣；
2) 常見的參數(shù)精度有：雙精度（FP64）、單精度（FP32）、半精度（FP16）
3) 如果一個(gè)模型有70億（7B）個(gè)參數(shù)，精度為FP32（float32），32位占4個(gè)字節(jié)（1字節(jié)= 8位）
那么它大約需要的存儲(chǔ)空間可以按照以下方式估算：

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

再將字節(jié)轉(zhuǎn)為GB，所以：

AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南,AIGC-AI大模型探索之路,AIGC,人工智能,自然語言處理,AI編程

因此一個(gè)有70億參數(shù)的模型（精度為FP32），需要26G左右顯存；如果1024換為1000，簡(jiǎn)單粗暴計(jì)算（7*4=28）大約需要28GB的存左右儲(chǔ)空間來保存所有參數(shù)，13B則需要52G左右的顯存；

注意：這是簡(jiǎn)單換算，不考慮其他方面的影響；對(duì)于模型訓(xùn)練，GPU的選擇不僅取決于模型的大小，還取決于訓(xùn)練數(shù)據(jù)集的大小和期望的訓(xùn)練速度；訓(xùn)練通常需要的GPU顯存是推理的10倍以上。

2、量化處理？

量化處理（一種模型壓縮技術(shù)）：簡(jiǎn)單理解可以將模型的從高精度的浮點(diǎn)數(shù)，轉(zhuǎn)化為低精度的8位整數(shù)（int8）或者4位整數(shù)（int4），比如將32FP轉(zhuǎn)為為int8后，存儲(chǔ)空間縮減了四分之三(原來需要4個(gè)字節(jié)存儲(chǔ)，現(xiàn)在只需1個(gè)字節(jié))；
比如：ChatGLM3-6B 默認(rèn)情況, 以 FP16 精度加載，需要14G左右顯存，量化后需要的顯存更小。

量化等級(jí)	最低 GPU 顯存（推理）	最低 GPU 顯存（高效參數(shù)微調(diào)）
FP16（無量化）	13 GB	14 GB
INT8	8 GB	9 GB
INT4	6 GB	7 GB

注意：量化技術(shù)可以降低模型的計(jì)算和存儲(chǔ)成本，同時(shí)降低精度會(huì)導(dǎo)致信息丟失、模型的預(yù)測(cè)準(zhǔn)確性有所下降。

九、什么是預(yù)訓(xùn)練和微調(diào)？

1、預(yù)訓(xùn)練（Pre-training）

預(yù)訓(xùn)練是語言模型學(xué)習(xí)的初始階段；在預(yù)訓(xùn)練期間，模型會(huì)接觸到大量未標(biāo)記的文本數(shù)據(jù)，例如書籍、文章和網(wǎng)站。在大量未標(biāo)記文本數(shù)據(jù)上訓(xùn)練語言模型。比如說在包含數(shù)百萬本書、文章和網(wǎng)站的數(shù)據(jù)集上預(yù)訓(xùn)練像GPT-3這樣的語言模型。預(yù)訓(xùn)練目標(biāo)是捕獲文本語料庫中存在的底層模式、結(jié)構(gòu)和語義知識(shí)。（basemodel）

2、微調(diào)（Fine-Tuning）

微調(diào)是在特定任務(wù)或領(lǐng)域上進(jìn)一步訓(xùn)練大型語言模型(LLM)的過程。這可以通過使用預(yù)訓(xùn)練的LLM作為起點(diǎn)，然后在特定任務(wù)或領(lǐng)域的標(biāo)記數(shù)據(jù)集上訓(xùn)練它來完成。微調(diào)可以通過調(diào)整模型的權(quán)重來更好地?cái)M合數(shù)據(jù)，從而提高LLM在特定任務(wù)或領(lǐng)域上的性能。

3、監(jiān)督微調(diào)(SupervisedFine-Tuning)

人工介入，給出高質(zhì)量的文本問答例子。經(jīng)過問答式訓(xùn)練的Model叫做SFTmodel，就可以正?；卮鹑说膯栴}了。（SFTmodel）

4、基于人類反饋的強(qiáng)化學(xué)習(xí)(ReinforcementLearningfromHumanFeedback)

人工先介入，通過對(duì)同一個(gè)Prompt生成答案的排序來訓(xùn)練一個(gè)RewardModel。再用RewardModel去反饋給SFTModel，通過評(píng)價(jià)生成結(jié)果的好壞，讓模型更傾向于生成人們喜好的結(jié)果。RLHF是一種更復(fù)雜、更耗時(shí)的方法來微調(diào)LLM，但它比SFT更有效。（RLHFmodel）

總結(jié)

探索AI大模型的路上，我們不僅僅是在追逐技術(shù)的頂峰，更是在為具體的業(yè)務(wù)場(chǎng)景尋找最佳的匹配方案。面對(duì)層出不窮的技術(shù)細(xì)節(jié)和背景知識(shí)，我們通過不斷學(xué)習(xí)、梳理和實(shí)踐，逐步揭開其神秘的面紗。掌握了這些關(guān)鍵常識(shí)，我們就能夠更精準(zhǔn)地搭建起通向未來的橋梁，無論是在模型選擇、硬件配置還是訓(xùn)練技巧上，都將游刃有余。最終希望這些解讀不僅僅停留在理論探討上，更能在實(shí)際的開發(fā)和應(yīng)用中發(fā)光發(fā)熱，引領(lǐng)大家在AI的星辰大海中乘風(fēng)破浪。

文章若有瑕疵，懇請(qǐng)不吝賜教；若有所觸動(dòng)或助益，還望各位老鐵多多關(guān)注并給予支持。文章來源地址http://www.zghlxwxcb.cn/news/detail-854550.html

到了這里，關(guān)于AI大模型探索之路-應(yīng)用篇13：企業(yè)AI大模型選型指南的文章就介紹完了。如果您還想了解更多內(nèi)容，請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章，希望大家以后多多支持TOY模板網(wǎng)！

本文來自互聯(lián)網(wǎng)用戶投稿，該文觀點(diǎn)僅代表作者本人，不代表本站立場(chǎng)。本站僅提供信息存儲(chǔ)空間服務(wù)，不擁有所有權(quán)，不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載，請(qǐng)注明出處：如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符，請(qǐng)點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋，一經(jīng)查實(shí)，立即刪除！

分享到：

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

AI大模型探索之路-基礎(chǔ)篇2：掌握Chat Completions API的基礎(chǔ)與應(yīng)用
OpenAI 大模型提供了一些強(qiáng)大的 API，方便用戶與 OpenAI 的大語言模型進(jìn)行交互。除了上篇中講到的Embeddings中需要用到的embeddings接口，其核心接口主要是Completions 和Chat Completions接口。自動(dòng)文本補(bǔ)全、用于生成各類文本任務(wù)的模型，可以根據(jù)給定的提示(prompt)自動(dòng)生成和補(bǔ)全文本
2024年04月12日
瀏覽(33)
AI大模型探索之路-應(yīng)用篇2：Langchain框架ModelIO模塊—數(shù)據(jù)交互的秘密武器
目錄前言一、概述二、Model 三、Prompt 五、Output Parsers 總結(jié) 隨著人工智能技術(shù)的不斷進(jìn)步，大模型的應(yīng)用場(chǎng)景越來越廣泛。LangChain框架作為一個(gè)創(chuàng)新的解決方案，專為處理大型語言模型的輸入輸出而設(shè)計(jì)。其中，Model IO（輸入輸出）模塊扮演著至關(guān)重要的角色，負(fù)責(zé)構(gòu)建和管
2024年04月13日
瀏覽(20)
探索創(chuàng)意之路：穩(wěn)定擴(kuò)散AI繪畫指南
穩(wěn)定擴(kuò)散AI繪畫是一種基于人工智能技術(shù)的圖像生成方法，利用深度學(xué)習(xí)算法，特別是生成對(duì)抗網(wǎng)絡(luò)（GANs），來生成高質(zhì)量的繪畫作品。
2024年02月12日
瀏覽(21)
AI大模型探索之路-訓(xùn)練篇3：大語言模型全景解讀
大規(guī)模語言模型（Large Language Models，LLM），也稱大語言模型或大型語言模型，是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型，通常使用自監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注文本進(jìn)行訓(xùn)練。語言模型旨在對(duì)于人類語言的內(nèi)在規(guī)律進(jìn)行建模，從而準(zhǔn)確預(yù)測(cè)詞序列中未來
2024年04月26日
瀏覽(20)
AI大模型探索之路-認(rèn)知篇3：大語言模型微調(diào)基礎(chǔ)認(rèn)知
在人工智能的廣闊研究領(lǐng)域內(nèi)，大型預(yù)訓(xùn)練語言模型（Large Language Models, LLMs）已經(jīng)成為推動(dòng)技術(shù)革新的關(guān)鍵因素。這些模型通過在大規(guī)模數(shù)據(jù)集上的預(yù)訓(xùn)練過程獲得了強(qiáng)大的語言理解和生成能力，使其能夠在多種自然語言處理任務(wù)中表現(xiàn)出色。然而，由于預(yù)訓(xùn)練過程所產(chǎn)生的
2024年04月24日
瀏覽(23)
AI大模型探索之路-訓(xùn)練篇2：大語言模型預(yù)訓(xùn)練基礎(chǔ)認(rèn)知
在人工智能的宏偉藍(lán)圖中，大語言模型（LLM）的預(yù)訓(xùn)練是構(gòu)筑智慧之塔的基石。預(yù)訓(xùn)練過程通過調(diào)整龐大參數(shù)空間以吸納數(shù)據(jù)中蘊(yùn)含的知識(shí)，為模型賦予從語言理解到文本生成等多樣化能力。本文將深入探討預(yù)訓(xùn)練過程中的技術(shù)細(xì)節(jié)、所面臨的挑戰(zhàn)、通信機(jī)制、并行化策略以
2024年04月25日
瀏覽(34)
AI大模型探索之路-提升篇2：一文掌握AI大模型的核心-注意力機(jī)制
目錄前言一、注意力機(jī)制簡(jiǎn)介二、注意力機(jī)制的工作原理三、注意力機(jī)制的變體 1、自注意力（Self-Attention） 2、雙向注意力（Bidirectional Attention） 3、多頭注意力（Multi-Head Attention） ?4、無限注意力機(jī)制（Infini-attention）四、注意力機(jī)制在自然語言理解中的應(yīng)用五、未來展
2024年04月15日
瀏覽(35)
AI大模型探索之路-訓(xùn)練篇5：大語言模型預(yù)訓(xùn)練數(shù)據(jù)準(zhǔn)備-詞元化
AI大模型探索之路-訓(xùn)練篇1：大語言模型微調(diào)基礎(chǔ)認(rèn)知 AI大模型探索之路-訓(xùn)練篇2：大語言模型預(yù)訓(xùn)練基礎(chǔ)認(rèn)知 AI大模型探索之路-訓(xùn)練篇3：大語言模型全景解讀 AI大模型探索之路-訓(xùn)練篇4：大語言模型訓(xùn)練數(shù)據(jù)集概覽在自然語言處理領(lǐng)域，大語言模型預(yù)訓(xùn)練數(shù)據(jù)準(zhǔn)備是一個(gè)重
2024年04月28日
瀏覽(26)
AI大模型探索之路-實(shí)戰(zhàn)篇1：基于OpenAI智能翻譯助手實(shí)戰(zhàn)落地
在全球化的浪潮中，語言翻譯需求日益增長。市場(chǎng)上涌現(xiàn)出各式各樣的翻譯工具和平臺(tái)，然而，免費(fèi)的解決方案往往局限于簡(jiǎn)短文本的翻譯。面對(duì)長篇文檔，用戶通常不得不轉(zhuǎn)向付費(fèi)服務(wù)。鑒于大型預(yù)訓(xùn)練語言模型（LLMs）在自然語言翻譯上的顯著優(yōu)勢(shì)，利用這些模型打造一款
2024年04月26日
瀏覽(24)
構(gòu)建企業(yè)級(jí)大語言模型應(yīng)用的秘訣：GitHub Copilot 的實(shí)踐之路
GitHub Copilot 的開發(fā)團(tuán)隊(duì)分享了他們?cè)跇?gòu)建能夠同時(shí)為個(gè)人和企業(yè)用戶帶來價(jià)值的大語言模型（LLM）應(yīng)用的心得體會(huì)。本文經(jīng)授權(quán)轉(zhuǎn)載寶玉老師的個(gè)人博客（微博@寶玉xp），鏈接：https://baoyu.io/translations/llm/how-to-build-an-enterprise-llm-application-lessons-from-github-copilot 責(zé)編 | 夏萌出處
2024年02月04日
瀏覽(17)