推薦:使用 NSDT場景編輯器快速搭建3D應(yīng)用場景
世界被人工智能 (AI) 所吸引,尤其是自然語言處理 (NLP) 和生成 AI 的最新進(jìn)展,這是有充分理由的。這些突破性技術(shù)有可能提高各種任務(wù)的日常生產(chǎn)力。例如,GitHub Copilot幫助開發(fā)人員快速編寫整個算法,OtterPilot自動生成高管會議記錄,Mixo允許企業(yè)家快速啟動網(wǎng)站。
本文將簡要概述生成式 AI,包括相關(guān)的 AI 技術(shù)示例,然后通過生成式 AI 教程將理論付諸實踐,我們將使用 GPT 和擴(kuò)散模型創(chuàng)建藝術(shù)渲染。
作者的六張 AI 生成的圖像,使用本教程中的技術(shù)創(chuàng)建。
生成式 AI 的簡要概述
注意:熟悉生成式 AI 背后的技術(shù)概念的人可以跳過本節(jié)并繼續(xù)學(xué)習(xí)本教程。
2022 年,許多基礎(chǔ)模型實現(xiàn)進(jìn)入市場,加速了許多領(lǐng)域的人工智能進(jìn)步。在了解了幾個關(guān)鍵概念之后,我們可以更好地定義基礎(chǔ)模型:
- 人工智能是一個通用術(shù)語,描述任何可以智能地完成特定任務(wù)的軟件。
- 機(jī)器學(xué)習(xí)是人工智能的一個子集,它使用從數(shù)據(jù)中學(xué)習(xí)的算法。
- 神經(jīng)網(wǎng)絡(luò)是機(jī)器學(xué)習(xí)的一個子集,它使用以人腦為模型的分層節(jié)點。
- 深度神經(jīng)網(wǎng)絡(luò)是具有許多層和學(xué)習(xí)參數(shù)的神經(jīng)網(wǎng)絡(luò)。
基礎(chǔ)模型是在大量原始數(shù)據(jù)上訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)。在更實際的術(shù)語中,基礎(chǔ)模型是一種非常成功的人工智能類型,可以輕松適應(yīng)和完成各種任務(wù)?;A(chǔ)模型是生成式 AI 的核心:文本生成語言模型(如 GPT)和圖像生成擴(kuò)散模型都是基礎(chǔ)模型。
文本:自然語言處理模型
在生成式 AI 中,自然語言處理 (NLP) 模型經(jīng)過訓(xùn)練,可以生成讀起來好像由人類撰寫的文本。特別是,大型語言模型(LLM)與當(dāng)今的AI系統(tǒng)特別相關(guān)。LLM根據(jù)其對大量數(shù)據(jù)的使用進(jìn)行分類,可以識別和生成文本和其他內(nèi)容。
在實踐中,這些模型可以用作寫作甚至編碼助手。自然語言處理應(yīng)用程序包括簡單地重述復(fù)雜概念,翻譯文本,起草法律文件,甚至創(chuàng)建鍛煉計劃(盡管此類用途有一定的局限性)。
Lex 是具有許多功能的 NLP 寫作工具的一個例子:提出標(biāo)題、完成句子以及就給定主題撰寫整個段落。目前最容易識別的LLM是GPT。GPT 由 OpenAI 開發(fā),可以在幾秒鐘內(nèi)以高精度響應(yīng)幾乎任何問題或命令。OpenAI的各種模型都可以通過單個API獲得。與 Lex 不同,GPT 可以處理代碼、根據(jù)功能需求對解決方案進(jìn)行編程以及識別代碼內(nèi)問題,從而使開發(fā)人員的生活更加輕松。
圖像:AI 擴(kuò)散模型
擴(kuò)散模型是一種深度神經(jīng)網(wǎng)絡(luò),它包含潛在變量,能夠通過消除模糊(即噪聲)來學(xué)習(xí)給定圖像的結(jié)構(gòu)。在訓(xùn)練模型的網(wǎng)絡(luò)以“知道”圖像背后的概念抽象后,它可以創(chuàng)建該圖像的新變體。例如,通過消除貓圖像中的噪聲,擴(kuò)散模型“看到”貓的干凈圖像,了解貓的外觀,并應(yīng)用這些知識來創(chuàng)建新的貓圖像變體。
擴(kuò)散模型可用于去噪或銳化圖像(增強(qiáng)和完善它們),操縱面部表情或生成面部老化圖像,以暗示一個人隨著時間的推移可能會如何看待。您可以瀏覽 Lexica 搜索引擎,見證這些 AI 模型在生成新圖像方面的強(qiáng)大功能。
教程:擴(kuò)散模型和 GPT 實現(xiàn)
為了演示如何實現(xiàn)和使用這些技術(shù),讓我們練習(xí)使用 HuggingFace 擴(kuò)散模型和 GPT 生成動漫風(fēng)格的圖像,這兩者都不需要任何復(fù)雜的基礎(chǔ)設(shè)施或軟件。我們將從一個現(xiàn)成的模型(即已經(jīng)創(chuàng)建和預(yù)先訓(xùn)練的模型)開始,我們只需要對其進(jìn)行微調(diào)。
注意:本文介紹了如何使用生成式 AI 圖像和語言模型以有趣的風(fēng)格創(chuàng)建自己的高質(zhì)量圖像。本文中的信息不應(yīng)(誤)用于違反 Google Colab 使用條款創(chuàng)建深度偽造。
設(shè)置和照片要求
要準(zhǔn)備本教程,請在以下位置注冊:
谷歌 |
使用云端硬盤和 Colab。 |
開放人工智能 |
進(jìn)行 GPT API 調(diào)用。 |
您還需要將 20 張自己的照片(甚至更多照片)保存在您計劃用于本教程的設(shè)備上,以提高性能。為獲得最佳效果,照片應(yīng):
- 不小于 512 x 512 像素。
- 屬于你,也只屬于你。
- 具有相同的擴(kuò)展格式。
- 從各種角度拍攝。
- 至少包括三到五次全身鏡頭和兩到三次中身鏡頭;其余的應(yīng)該是面部照片。
也就是說,照片不需要完美——看看偏離這些要求如何影響輸出甚至?xí)苡袉l(fā)性。
使用擁抱人臉擴(kuò)散模型生成 AI 圖像
要開始使用,請打開本教程的配套 Google Colab 筆記本,其中包含所需的代碼。
- 運(yùn)行單元格 1 將 Colab 與您的 Google 云端硬盤連接,以存儲模型并在以后保存其生成的圖像。
- 運(yùn)行單元 2 以安裝所需的依賴項。
- 運(yùn)行單元格 3 以下載擁抱面模型。
- 在單元格 4 中,在字段中鍵入“我的外觀”,然后運(yùn)行該單元格。會話名稱通常標(biāo)識模型將學(xué)習(xí)的概念。
Session_Name
- 運(yùn)行單元格 5 并上傳您的照片。
- 轉(zhuǎn)到單元格 6 以訓(xùn)練模型。通過在運(yùn)行單元之前選中該選項,可以多次重新訓(xùn)練它。(此步驟可能需要大約一個小時才能完成。
Resume_Training
- 最后,運(yùn)行單元格 7 以測試模型并查看其運(yùn)行情況。系統(tǒng)將輸出一個URL,您可以在其中找到生成圖像的界面。輸入提示后,按“生成”按鈕以渲染圖像。
用于生成圖像的用戶界面
有了工作模型,我們現(xiàn)在可以嘗試各種提示,產(chǎn)生不同的視覺風(fēng)格(例如,“我作為一個動畫角色”或“我作為一個印象派繪畫”)。但是,將 GPT 用于字符提示是最佳的,因為與用戶生成的提示相比,它可以產(chǎn)生更多細(xì)節(jié),并最大限度地發(fā)揮模型的潛力。
使用 GPT 進(jìn)行有效擴(kuò)散模型提示
我們將通過 OpenAI 將 GPT 添加到我們的管道中,盡管 Cohere 和其他選項為我們的目的提供了類似的功能。首先,在 OpenAI 平臺上注冊并創(chuàng)建您的 API 密鑰。現(xiàn)在,在 Colab 筆記本的“生成良好的提示”部分,安裝 OpenAI 庫:
pip install openai
接下來,加載庫并設(shè)置 API 密鑰:
import openai
openai.api_key = "YOUR_API_KEY"
我們將從 GPT 生成優(yōu)化的提示,以動漫角色的風(fēng)格生成我們的圖像,替換為筆記本單元格 4 中設(shè)置的會話名稱“我的樣子”:YOUR_SESSION_NAME
ASKING_TO_GPT = 'Write a prompt to feed a diffusion model to generate beautiful images '\
'of YOUR_SESSION_NAME styled as an anime character.'
response = openai.Completion.create(model="text-davinci-003", prompt=ASKING_TO_GPT,
temperature=0, max_tokens=1000)
print(response["choices"][0].text)
該參數(shù)的范圍介于 0 和 2 之間,它確定模型是應(yīng)嚴(yán)格遵守其訓(xùn)練的數(shù)據(jù)(值接近 0),還是對其輸出更具創(chuàng)造性(值接近 2)。該參數(shù)設(shè)置要返回的文本量,四個標(biāo)記相當(dāng)于大約一個英語單詞。temperature
max_tokens
就我而言,GPT 模型輸出如下:
"Juan is styled as an anime character, with large, expressive eyes and a small, delicate mouth.
His hair is spiked up and back, and he wears a simple, yet stylish, outfit. He is the perfect
example of a hero, and he always manages to look his best, no matter the situation."
最后,通過將此文本作為輸入輸入到擴(kuò)散模型中,我們實現(xiàn)了最終輸出:

讓 GPT 編寫擴(kuò)散模型提示意味著您不必詳細(xì)考慮動漫角色外觀的細(xì)微差別——GPT 將為您生成適當(dāng)?shù)拿枋觥D梢噪S時根據(jù)口味進(jìn)一步調(diào)整提示。完成本教程后,您可以創(chuàng)建自己的復(fù)雜創(chuàng)意圖像或您想要的任何概念。
人工智能的優(yōu)勢觸手可及
GPT 和擴(kuò)散模型是兩個基本的現(xiàn)代 AI 實現(xiàn)。我們已經(jīng)看到了如何單獨應(yīng)用它們,并通過配對它們來乘以它們的功率,使用 GPT 輸出作為擴(kuò)散模型輸入。在此過程中,我們創(chuàng)建了一個由兩個大型語言模型組成的管道,這些模型能夠最大限度地提高它們自己的可用性。文章來源:http://www.zghlxwxcb.cn/news/detail-697286.html
原文鏈接:人工智能的優(yōu)勢:使用 GPT 和擴(kuò)散模型生成圖像 (mvrlink.com)文章來源地址http://www.zghlxwxcb.cn/news/detail-697286.html
到了這里,關(guān)于人工智能的優(yōu)勢:使用 GPT 和擴(kuò)散模型生成圖像的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!