国产 无码 综合区,色欲AV无码国产永久播放,无码天堂亚洲国产AV,国产日韩欧美女同一区二区

AI看圖說話,MiniGPT-4已經(jīng)開源

這篇具有很好參考價(jià)值的文章主要介紹了AI看圖說話,MiniGPT-4已經(jīng)開源。希望對大家有所幫助。如果存在錯(cuò)誤或未考慮完全的地方,請大家不吝賜教,您也可以點(diǎn)擊"舉報(bào)違法"按鈕提交疑問。

MiniGPT-4 是一個(gè)人工智能工具,?最大的飛躍是增加了識圖能力,?并且回答準(zhǔn)確性也得到顯著提高。?它可以識別圖片并回答關(guān)于圖片的問題,?例如圖片內(nèi)容、?顏色等等。

?此外,?它還可以進(jìn)行圖像對話,?即通過圖片和文本進(jìn)行對話。

?MiniGPT-4 在多個(gè)專業(yè)和學(xué)術(shù)基準(zhǔn)測試中展現(xiàn)出令人印象深刻的表現(xiàn),?有時(shí)甚至達(dá)到了人類水平。?MiniGPT-4 是開源且免費(fèi)的,?支持中文。

?它可以根據(jù)給定的圖像創(chuàng)作故事和詩歌,?提供解決圖像中顯示的問題的解決方案,?根據(jù)食品照片教用戶如何烹飪等。

?它是一個(gè)華人團(tuán)隊(duì)開發(fā)的模型,?可以使用高級大型語言模型增強(qiáng)視覺語言理解。?MiniGPT-4 的訓(xùn)練過程包括兩個(gè)階段,?第一個(gè)階段使用大約5百萬對齊的圖像文本對進(jìn)行傳統(tǒng)的預(yù)訓(xùn)練,?第二個(gè)階段使用高級大型語言模型進(jìn)行微調(diào)。?

MiniGPT-4是一個(gè)高效的視覺-語言模型,?由視覺編碼器、?單個(gè)線性投影層和先進(jìn)的Vicuna大型語言模型組成。?該模型僅需要訓(xùn)練線性層以將視覺特征與Vicuna對齊,?使用約500萬對圖像和文本進(jìn)行訓(xùn)練。?MiniGPT-4的架構(gòu)基于預(yù)訓(xùn)練的ViTQ-Former,?可提高視覺-語言理解的整體可用性。

開源地址在github上。

更多的工具,可以參考 AiBard123

MiniGPT-4 上的例子有很多,比如這個(gè)是根據(jù)圖片生成詩歌。
AI看圖說話,MiniGPT-4已經(jīng)開源
真的看上去挺美的。

MiniGPT-4 還能在線免費(fèi)體驗(yàn),地址在https://c9cd51f7cae3c9fec1.gradio.live/,或者在github的官網(wǎng)上點(diǎn)demo進(jìn)去。

AI看圖說話,MiniGPT-4已經(jīng)開源
給了一張千與千尋的宣傳圖片,我們問MiniGPT-4 這是哪部電影,MiniGPT-4 答得非常的完美。

說吧說吧!最新的大模型語言GPT4是不是很???未來只要應(yīng)用基于這些大模型,圖像、聲音、視頻等領(lǐng)域的效果應(yīng)該都不會太差!別說我沒告訴你,這個(gè)項(xiàng)目還證明了大語言模型在圖像領(lǐng)域很?!下一步嘛,有很多想搭順風(fēng)車的開發(fā)者都拔腿瘋狂加入大模型陣營,把GPT4的能力擴(kuò)展至音頻、視頻等領(lǐng)域,讓我們再看到更多有趣、??的AI應(yīng)用程序吧!文章來源地址http://www.zghlxwxcb.cn/news/detail-425665.html

到了這里,關(guān)于AI看圖說話,MiniGPT-4已經(jīng)開源的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!

本文來自互聯(lián)網(wǎng)用戶投稿,該文觀點(diǎn)僅代表作者本人,不代表本站立場。本站僅提供信息存儲空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如若轉(zhuǎn)載,請注明出處: 如若內(nèi)容造成侵權(quán)/違法違規(guī)/事實(shí)不符,請點(diǎn)擊違法舉報(bào)進(jìn)行投訴反饋,一經(jīng)查實(shí),立即刪除!

領(lǐng)支付寶紅包贊助服務(wù)器費(fèi)用

相關(guān)文章

  • AI新工具 又一個(gè)開源大模型DBRX擊敗GPT3.5;根據(jù)音頻和圖像輸入生成會說話、唱歌的動態(tài)視頻

    AI新工具 又一個(gè)開源大模型DBRX擊敗GPT3.5;根據(jù)音頻和圖像輸入生成會說話、唱歌的動態(tài)視頻

    ? 1: AniPortrait 騰訊開源:根據(jù)音頻和圖像輸入生成會說話、唱歌的動態(tài)視頻 AniPortrait 是個(gè)先進(jìn)的框架,專門用來生成高質(zhì)量的、由音頻和參考肖像圖片驅(qū)動的動畫。如果你有視頻,也可以用來實(shí)現(xiàn)面部的再現(xiàn)(Face reenactment)。 地址:https://github.com/Zejun-Yang/AniPortrait ? 2: D

    2024年04月17日
    瀏覽(29)
  • suno有了新對手udio炸裂音樂圈;又一個(gè)開源AI Devin 程序員;完全開源輕量級的文本到語音可生成特定說話者的風(fēng)格

    suno有了新對手udio炸裂音樂圈;又一個(gè)開源AI Devin 程序員;完全開源輕量級的文本到語音可生成特定說話者的風(fēng)格

    ? 1: udio 由音樂和科技界重量級人物支持的強(qiáng)大 AI 音樂生成器,被稱為音樂界的另一個(gè) ChatGPT。 Udio 由前 Google DeepMind的研究院和工程師創(chuàng)立,得到了a16z的支持,總部在倫敦和紐約。 目前是一個(gè)免費(fèi)的V1測試版產(chǎn)品,每個(gè)人每個(gè)月可以生成最多 1200 首歌曲。 Udio是一個(gè)強(qiáng)大的

    2024年04月26日
    瀏覽(22)
  • MiniGPT4,開源了。

    MiniGPT4,開源了。

    大家好,我是 Jack。 ? 一個(gè)月前,我發(fā)布過一篇文章,講解了 GPT4 的發(fā)布會。 ChatGPT 的對話能力,想必大家也早已體驗(yàn)過了,無論是文本生成能力,還是寫代碼的能力,甚至是上下文的關(guān)聯(lián)對話能力,無不一次又一次地震撼著我們。 你還記不記得發(fā)布會上,GPT4 的多模態(tài)能力

    2023年04月26日
    瀏覽(32)
  • MiniGPT-4,開源了!

    MiniGPT-4,開源了!

    上個(gè)月GPT-4發(fā)布時(shí),我曾寫過一篇文章分享過有關(guān)GPT-4的幾個(gè)關(guān)鍵信息。 當(dāng)時(shí)的分享就提到了GPT-4的一個(gè)重要特性,那就是 多模態(tài)能力 。 比如發(fā)布會上演示的,輸入一幅圖(手套掉下去會怎么樣?)。 GPT-4可以理解并輸出給到:它會掉到木板上,并且球會被彈飛。 再比如給

    2024年02月01日
    瀏覽(18)
  • MiniGPT4,開源了

    MiniGPT4,開源了

    MiniGPT-4 旨在將來自預(yù)訓(xùn)練視覺編碼器的視覺信息與先進(jìn)的大型語言模型 (LLM) 對齊。 具體來說,在文本方面,作者利用 Vicuna 作為語言解碼器,在視覺感知方面,使用了與BLIP-2相同的視覺編碼器,并且語言和視覺模型都是開源的。本文的主要目標(biāo)就是使用線性映射層來彌合視

    2023年04月23日
    瀏覽(24)
  • GPT-4平替版:MiniGPT-4,支持圖像理解和對話,現(xiàn)已開源

    GPT-4平替版:MiniGPT-4,支持圖像理解和對話,現(xiàn)已開源

    項(xiàng)目地址 :https://minigpt-4.github.io/? 論文鏈接 :https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf 代碼 :https://github.com/Vision-CAIR/MiniGPT-4 視頻 :https://youtu.be/__tftoxpBAw 數(shù)據(jù)集 :https://drive.google.com/file/d/1nJXhoEcy3KTExr17I7BXqY5Y9Lx_-n-9/view Demo地址 :https://6b89c70eb5e14dca33.gradio.live/ Demo備

    2024年02月06日
    瀏覽(24)
  • GPT-4開源平替miniGPT-4來了,僅需23G顯存單機(jī)可run,附論文、項(xiàng)目代碼地址

    GPT-4開源平替miniGPT-4來了,僅需23G顯存單機(jī)可run,附論文、項(xiàng)目代碼地址

    來源?|?新智元? 微信號:AI-era 先是ChatGPT的發(fā)布給世界帶來了一點(diǎn)小小的NLP震撼,隨后發(fā)布的GPT-4更是破圈計(jì)算機(jī)視覺,展現(xiàn)了非凡的多模態(tài)能力。 不光能讀懂人類的梗,給個(gè)手繪草圖甚至可以直接寫出網(wǎng)站的代碼,徹底顛覆了對語言模型、視覺模型能力邊界的認(rèn)知。 GPT-

    2024年02月01日
    瀏覽(24)
  • 【文心一言】使用飛槳 AI Studio 快速搭建,看圖識猜成語應(yīng)用

    【文心一言】使用飛槳 AI Studio 快速搭建,看圖識猜成語應(yīng)用

    在大模型時(shí)代,人人都能成為大模型開發(fā)者! 飛槳星河社區(qū)是百度飛槳和文心大模型的生態(tài)社區(qū),為開發(fā)者和生態(tài)合作伙伴提供算力、模型、數(shù)據(jù)、工具鏈、社區(qū)交流等全方位服務(wù)。開發(fā)者可以通過星河社區(qū)提供的開發(fā)工具集ERNIE Bot SDK,調(diào)用領(lǐng)先的文心4.0大模型能力,高效

    2024年02月05日
    瀏覽(25)
  • AI數(shù)字人:sadtalker讓照片開口說話

    AI數(shù)字人:sadtalker讓照片開口說話

    ????????西安交通大學(xué)也開源了人工智能SadTalker模型,通過從音頻中學(xué)習(xí)生成3D運(yùn)動系數(shù),使用全新的3D面部渲染器來生成頭部運(yùn)動,可以實(shí)現(xiàn)圖片+音頻就能生成高質(zhì)量的視頻。 ??????? 論文地址:Learning Realistic 3D Motion Coefficients ?????? 通過人臉圖像和一段語音音頻

    2024年02月13日
    瀏覽(16)
  • 【AI工具】使用 Whisper ASR 和 Pyannote 進(jìn)行說話人分類

    目錄 前言 什么是說話人二值化? 什么是揚(yáng)聲器嵌入? 揚(yáng)聲器嵌入的關(guān)鍵作用 說話人分類系統(tǒng)的工作原理 執(zhí)行

    2024年02月02日
    瀏覽(17)

覺得文章有用就打賞一下文章作者

支付寶掃一掃打賞

博客贊助

微信掃一掃打賞

請作者喝杯咖啡吧~博客贊助

支付寶掃一掃領(lǐng)取紅包,優(yōu)惠每天領(lǐng)

二維碼1

領(lǐng)取紅包

二維碼2

領(lǐng)紅包