關(guān)鍵字: [Amazon Web Services re:Invent 2023, Amazon Polly, Comic Video Generator, Story Script Generator, Image Generator, Character Inconsistency, Out Of Focus Images, Fine Tuning Stable Diffusion]
本文字?jǐn)?shù): 1800, 閱讀完需: 9 分鐘
視頻
如視頻不能正常播放,請前往bilibili觀看本視頻。>> https://www.bilibili.com/video/BV1mc411m7nB
導(dǎo)讀
了解 Amazon Machine Learning Hero Agustinus Nalwan 是如何創(chuàng)建一款由人工智能驅(qū)動的睡前故事機 Owly,來用于制作帶有音樂的個性化漫畫視頻。在本講座中,您將了解如何使用 Amazon Bedrock 大型語言模型生成漫畫腳本。了解如何在 Amazon SageMaker JumpStart 的幫助下對穩(wěn)定擴散模型進(jìn)行微調(diào),以消除角色的不一致性,并以孩子們心愛的玩具為主角制作個性化的漫畫視頻。深入學(xué)習(xí)提示工程技術(shù),學(xué)習(xí)如何使用穩(wěn)定擴散模型將兩幅圖像融合在一起。
演講精華
以下是小編為您整理的本次演講的精華,共1500字,閱讀時間大約是8分鐘。如果您想進(jìn)一步了解演講內(nèi)容或者觀看演講全文,請觀看演講完整視頻或者下面的演講原文。
演講者滿懷熱情地向觀眾介紹自己,作為一名熱衷于運用技術(shù)和人工智能創(chuàng)作出有趣項目的人。特別是在他的兒子Dexie身上,他投入了大量的時間和精力。這段旅程始于六年前,當(dāng)時他的妻子懷孕,他們根據(jù)各種跡象確信將要迎來一個女嬰。為此,他們花費了無數(shù)小時進(jìn)行頭腦風(fēng)暴,討論并爭論著心儀的女孩名字,最終列出了50多個選項,如Hayley、Sophie和Lucy。然而,令他們驚訝的是,20周時的一次超聲波檢查結(jié)果顯示,他們即將迎接的是一個男孩!這意味著他們不得不重新開始整個命名過程。
在一個寧靜的周六早晨,演講者決定嘗試使用AI來生成一個原創(chuàng)名字。他在網(wǎng)上查找了大量的日本和俄羅斯名字,并嘗試使用一個混合這些名字的模型。然而,生成的奇怪名字Vladiko Honda Petrov可能讓孩子在未來遭受欺凌,所以這個實驗并未成功。
直到2020年12月,Dexie出生,真正的歡樂開始了。演講者分享了如何享受與Dexie一起玩游戲的機會,盡管后者還無法掌控那些具有多個按鈕和搖桿的復(fù)雜控制器。為了給他的小兒子帶來游戲體驗,演講者決心研究出一個解決方案。這導(dǎo)致了一個名為“Project Ring”的項目誕生,該項目包含一個能夠?qū)崟r追蹤Dexie全身動作的相機,將其轉(zhuǎn)化為3D游戲世界中的飛鳥控制。演講者已經(jīng)將一個游戲引擎改造,并與他用簡單的網(wǎng)絡(luò)攝像頭和OpenCV自制的手勢捕捉系統(tǒng)集成了起來。如今,當(dāng)Dexie看到屏幕上準(zhǔn)確地模擬他自己的拍動翅膀動作的鳥時,他會完全沉浸其中,快樂地玩耍數(shù)小時。演講者在向他的兒子展示科技的奇跡和AI的魅力。
盡管演講者已經(jīng)取得了一定的成功,但他并未滿足于此。接下來,他設(shè)計了一個特別的項目,旨在幫助他的妻子Yi在早晨為上班做準(zhǔn)備。他描述了Yi是如何經(jīng)常站在滿柜子的襯衫、裙子、褲子和鞋子面前,向他提問“我今天應(yīng)該穿什么?”這個問題讓他感到困惑,因為他的簡約時尚觀念通常只包括簡單的T恤和牛仔褲。由于缺乏為妻子提供合適建議的風(fēng)格直覺(她有大量的職業(yè)服裝選擇),他知道他需要找到一個解決這個日常困境的方法。
為了解決這個問題,他開發(fā)了一個名為Project F的人工智能時尚助手。這個系統(tǒng)通過設(shè)置在面向門口攝像頭,捕捉到Y(jié)i每天早晨離開家的畫面。使用亞馬遜Rekognition構(gòu)建的定制面部識別軟件可以在圖像中識別她并記錄她的裝束的精確細(xì)節(jié)。同時,從外部API獲取的天氣數(shù)據(jù)被記錄在MySQL數(shù)據(jù)庫中。Yi然后可以通過演講者使用React Native構(gòu)建的移動應(yīng)用程序瀏覽這個數(shù)字時尚日歷。
通過一些聰明的AI算法分析天氣模式、服裝特點和顏色趨勢,該應(yīng)用程序?qū)嶋H上可以每天為Yi推薦最佳的服裝搭配。演講者使用TensorFlow訓(xùn)練著裝搭配模型,收集圖像、天氣數(shù)據(jù)和Yi的時尚偏好。
此外,演講者在2020年12月開始了他最近也是最雄心勃勃的項目,他將其稱為Project Ellie。在這個項目的背景下,他們的城市正處于COVID-19封鎖期間,封鎖已經(jīng)持續(xù)了264天,這是澳大利亞最長的封鎖時間。在這種情況下,人們感到沮喪和壓力重重,因為無處可去,幾乎沒有什么事情可做。
為了應(yīng)對這種困境,現(xiàn)在4歲的Dexie有一個最喜歡的玩具熊,一只名叫Ella的泰迪熊。演講者利用一個相同的備用熊,開始著手改造它,使其成為一個機器人AI伴侶。他在它的眼睛中安裝了一個攝像頭,在肚子中安裝了一個揚聲器和Raspberry Pi迷你計算機,并通過Arduino板驅(qū)動的4個伺服電機來移動頭部。但真正的核心是一個類似于GPT-3的大型語言模型,運行在Amazon EC2實例上,實現(xiàn)了非常自然的對話。
在德國的一次偶然相遇中,德西遇到了一只名叫艾莉的熊,令他驚訝的是,這只熊竟然能用流暢且類似人類的方式回應(yīng)他。演講者播放了一段德西與熊艾莉聊天的簡短視頻,展示了令人難以置信的效果。這個自然語言處理模型是通過在對話數(shù)據(jù)上進(jìn)行訓(xùn)練來提高其對話能力。
在回顧過去取得的成就之后,演講者進(jìn)入了他在2022年的最新追求——開發(fā)一個能自動生成2分鐘個性化漫畫視頻的AI系統(tǒng),專為5歲的德西講述有趣的睡前故事。他曾親自創(chuàng)作過包含道德教訓(xùn)的原創(chuàng)故事,但在連續(xù)即興講述故事約6個月后,他的創(chuàng)意枯竭了。
該項目的主要目標(biāo)是創(chuàng)建包含德西自己心愛的玩具照片的定制視頻,以展示故事情節(jié),同時還包括合成的音頻旁白、背景音樂和視覺效果。演講者展示了一個名為“會飛的烏龜”的示例視頻,這是艾莉根據(jù)給定的簡短文本提示自動生成的。視頻中包含了德西的海龜玩具在各種冒險中的畫面,以及AI生成的圖形。
演講者隨后提供了一份關(guān)于這個基于亞馬遜云科技的自動化視頻生成系統(tǒng)的簡要概述。該系統(tǒng)首先接收一個短文本提示,例如“編寫一個關(guān)于鮑勃企鵝歐洲之旅的2分鐘故事?!比缓髮⒋宋谋据斎氲揭粋€使用Anthropic的Claude(亞馬遜Bedrock ML服務(wù)中強大的大型語言模型)構(gòu)建的故事腳本生成器中,以創(chuàng)建一個完整的700字故事,分為5個部分。
這些段落被提取出來,每個段落都發(fā)送到一個專門的漫畫圖像生成器,即運行在亞馬遜SageMaker上的Stable Diffusion 2.1,以根據(jù)場景描述找到相關(guān)的圖像。同時,整個旁白通過Amazon Polly合成類似人類的音頻。Claude會根據(jù)故事中的關(guān)鍵詞從提供的列表中選擇適當(dāng)?shù)囊魳凤L(fēng)格,包括輕快、戲劇性、輕松等。最后,一切都被整合成一個連貫的MP4視頻文件,使用Python庫MoviePy并保存在一個S3存儲桶中。
盡管初步實施取得了一定的成果,但演講者面臨著兩個主要挑戰(zhàn):
在不同段落中,企鵝主角的存在一致性出現(xiàn)了矛盾。這是由于在生成圖像時,沒有考慮到之前的上下文,而是獨立地進(jìn)行生成。當(dāng)段落包含多種觀點時,圖像會變得模糊不清。為了解決這個問題,對圖像生成器進(jìn)行了改進(jìn),為每個段落提供一個簡短的概括語句,以便描述場景。這樣,圖像生成器只需使用這個聚焦的句子作為上下文,就能在所有五個場景中正確呈現(xiàn)企鵝形象。
針對模糊圖像的問題,采用了名為微調(diào)的技術(shù)。這包括將5-10張標(biāo)注為“鮑勃企鵝”(主角)的示例圖像提供給在SageMaker上運行的Stable Diffusion模型。將這些圖像識別為描繪角色“鮑勃企鵝”有效地教會了模型鮑勃獨特的視覺特征。因此,模型能夠可靠地生成任何場景中正確的企鵝的清晰、聚焦的圖像。
為了展示微調(diào)的強大功能,演示了一個例子,即僅在3張標(biāo)注為“小雞”的嬰兒圖像上訓(xùn)練Stable Diffusion模型,就能生成具有羽毛和喙等雛雞特征的貓圖像。這表明混合概念的潛力是無限的,只受想象力的限制。
演講者接著詳細(xì)介紹了如何使用亞馬遜云科技服務(wù),如S3、Bedrock、SageMaker、Polly和Batch來構(gòu)建端到端的復(fù)雜系統(tǒng),以實現(xiàn)自動整合一切。最后,演講者強調(diào)了新一代的生成性AI如何以前所未有的方式創(chuàng)造令人愉快的項目。亞馬遜云科技的最新的AI服務(wù)和模型使得即使對非工程師來說,構(gòu)建這些系統(tǒng)也變得出人意料地容易獲取。隨著自然語言處理、計算機視覺和云計算的快速發(fā)展,演講者鼓勵觀眾開始利用這些技術(shù),他們自己來構(gòu)建夢想中的生成性AI應(yīng)用!
下面是一些演講現(xiàn)場的精彩瞬間:
領(lǐng)導(dǎo)請求觀眾們舉手,以了解有多少人是從事數(shù)據(jù)科學(xué)、軟件開發(fā)和熟悉GPT等AI系統(tǒng)工作的專業(yè)人士。
領(lǐng)導(dǎo)要求AI助手為其創(chuàng)作的故事選擇合適的音樂風(fēng)格。
領(lǐng)導(dǎo)強調(diào)了Amazon Jumpstart如何使得用戶在沒有昂貴訓(xùn)練或深入數(shù)據(jù)科學(xué)知識的情況下,也能利用Stable Diffusion生成穩(wěn)定的圖像。
領(lǐng)導(dǎo)展示了如何通過Amazon SageMaker Studio運行用于圖像生成的Stable Diffusion模型的代碼。
領(lǐng)導(dǎo)指出了一段關(guān)于一只名叫Bob的企鵝的文字描述中,AI圖像生成的人物存在不一致的問題。
Bob這只企鵝夢想著去歐洲旅行并規(guī)劃行程,但在長段落中的多個焦點上,圖像生成器感到困惑。
領(lǐng)導(dǎo)鼓勵觀眾們積極參與提問,并提供麥克風(fēng)以便大家提問。
總結(jié)
演講者分享了他是如何利用人工智能為小兒子創(chuàng)造有趣和個性化體驗的。首先,他開始制作簡單的項目,如由身體動作控制的運動捕捉游戲。接著,他為妻子創(chuàng)建了一個基于天氣數(shù)據(jù)的AI時尚助手,用于推薦服裝。他的最具雄心的項目是將他兒子最喜歡的填充玩具改造成名為Ellie的機器人泰迪熊,它具有移動、觀看、聆聽和與AI進(jìn)行自然對話的能力。在封鎖期間,Ellie為他兒子提供了非常需要的娛樂。
在講了數(shù)月的睡前故事之后,演講者尋求一個更可持續(xù)的解決方案。他使用了亞馬遜的服務(wù),如Polly和SageMaker,構(gòu)建了一個AI漫畫視頻生成器。該生成器能根據(jù)給定的故事標(biāo)題和他的兒子的玩具照片,自動生成帶有旁白的音樂視頻來講述故事。
為了實現(xiàn)這一目標(biāo),他們使用了大型語言模型的故事腳本生成器和Stable Diffusion的圖像生成器。通過對特定玩具進(jìn)行微調(diào),圖像模型可以在整個故事中保持一致地生成相同的玩具角色。演講者展示了一些令人愉悅的艾麗奇幻視頻示例。
總的來說,演講者展示了當(dāng)今的AI技術(shù)使得任何人都能輕松地在家中創(chuàng)作創(chuàng)意和個性化的體驗。他鼓勵觀眾嘗試創(chuàng)建自己的AI項目。
演講原文
https://blog.csdn.net/just2gooo/article/details/135090542
想了解更多精彩完整內(nèi)容嗎?立即訪問re:Invent 官網(wǎng)中文網(wǎng)站!
2023亞馬遜云科技re:Invent全球大會 - 官方網(wǎng)站
點擊此處,一鍵查看 re:Invent 2023 所有熱門發(fā)布
即刻注冊亞馬遜云科技賬戶,開啟云端之旅!
【免費】亞馬遜云科技“100 余種核心云服務(wù)產(chǎn)品免費試用”
【免費】亞馬遜云科技中國區(qū)“40 余種核心云服務(wù)產(chǎn)品免費試用”
亞馬遜云科技是誰?
亞馬遜云科技(Amazon Web Services)是全球云計算的開創(chuàng)者和引領(lǐng)者,自 2006 年以來一直以不斷創(chuàng)新、技術(shù)領(lǐng)先、服務(wù)豐富、應(yīng)用廣泛而享譽業(yè)界。亞馬遜云科技可以支持幾乎云上任意工作負(fù)載。亞馬遜云科技目前提供超過 200 項全功能的服務(wù),涵蓋計算、存儲、網(wǎng)絡(luò)、數(shù)據(jù)庫、數(shù)據(jù)分析、機器人、機器學(xué)習(xí)與人工智能、物聯(lián)網(wǎng)、移動、安全、混合云、虛擬現(xiàn)實與增強現(xiàn)實、媒體,以及應(yīng)用開發(fā)、部署與管理等方面;基礎(chǔ)設(shè)施遍及 31 個地理區(qū)域的 99 個可用區(qū),并計劃新建 4 個區(qū)域和 12 個可用區(qū)。全球數(shù)百萬客戶,從初創(chuàng)公司、中小企業(yè),到大型企業(yè)和政府機構(gòu)都信賴亞馬遜云科技,通過亞馬遜云科技的服務(wù)強化其基礎(chǔ)設(shè)施,提高敏捷性,降低成本,加快創(chuàng)新,提升競爭力,實現(xiàn)業(yè)務(wù)成長和成功。文章來源:http://www.zghlxwxcb.cn/news/detail-765464.html
文章來源地址http://www.zghlxwxcb.cn/news/detail-765464.html
到了這里,關(guān)于借助 Amazon Bedrock 構(gòu)建 AI 漫畫視頻生成器的文章就介紹完了。如果您還想了解更多內(nèi)容,請在右上角搜索TOY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!