(做了多年視覺分析,謹(jǐn)以忐忑的心情寫下本文)
2023年9月25日,微軟發(fā)布ChatGPT-Vision的研究報(bào)告(文章末尾有下載地址),同日openai發(fā)布重要更新:聽,說,看。
2023年10月3日,openai發(fā)布Dall-E3.0。距離ChatGPT獲得全部人類技能,還差觸覺,嗅覺和味覺。
聽,說基于文本,Dall-E有Midjounery大家已經(jīng)熟悉了。今天重點(diǎn)說下Vision,視覺。大家可能低估了這個(gè)更新帶來的颶風(fēng)。
vision是識(shí)別圖片,將圖片化為數(shù)據(jù)(1和0)?;诖竽P停梢岳斫鈭D片中的內(nèi)容,再結(jié)合ChatGPT自身的數(shù)據(jù)集(所有互聯(lián)網(wǎng)上的人類知識(shí))。能完成人類做得到和做不到的事??梢暂敵鑫谋荆Z音和修改后的圖(Dall-E)。
這段時(shí)間,國外網(wǎng)友腦洞大開,嘗試了無數(shù)場景,結(jié)合微軟的報(bào)告。給大家舉例,看看我是不是標(biāo)題黨。
1、教學(xué)
網(wǎng)友Peteryang 使用ChatGPT Vison給學(xué)生演示人體結(jié)構(gòu),從大腦到心臟都逐一講解。只需要一句話提問:“我現(xiàn)在一年級(jí)。給我解釋一下?!?
?
2、停車
在國外停車牌,有時(shí)候異常復(fù)雜。需要停下來看清楚,才知道自己停去哪里。同樣是Peteryang,拿出手機(jī)拍照,一句話解決:「請(qǐng)一句話告訴我:現(xiàn)在周三下午4點(diǎn), 我能在這停車嗎?」
?
3、飲食健康
網(wǎng)友Mckay Wrigley拍照,要求分析食物中的熱量,蛋白,脂肪等等。再結(jié)合食譜建議,就可以管理起來自己的健康。Mckay Wrigley還要求輸出Json數(shù)據(jù),可以用來編程。
?
4、故事腳本分析
網(wǎng)友Mckay Wrigley,還讓Vison分析《盜夢空間》的設(shè)計(jì)圖標(biāo),ChatGPT對(duì)圖表的結(jié)構(gòu)和流程,有深入的理解,可以連貫的拼湊在一起。
?
5、圖片對(duì)照
網(wǎng)友Andrew Morgan,用Vision做圖片對(duì)比,也就是【找不同】的玩法。
?
6、學(xué)術(shù)研究
教授Ethon Mollick 讓Vision識(shí)別手稿,識(shí)別率 很高,并且還進(jìn)行了文本推理。
?
7、室內(nèi)設(shè)計(jì)
網(wǎng)友Pietro Schirano拍照,要求Vision 給出設(shè)計(jì)上的建議。發(fā)現(xiàn)其從顏色到觸感都非常出色。
?
8、攝影建議
還是Pietro,要求Vision對(duì)一張照片,給出建議?;貜?fù)看來很專業(yè),還給出參數(shù)建議。
?
9、看照片說位置
將測試照片的GPS信息去掉,讓VIsion憑一張照片找出位置。
?
?
?
?
10、醫(yī)療-看X片
?
?
?
?
還有很多其他的案例。充分的展示了ChatGPT Vision的能力。我們回答上面的問題,Vision能價(jià)值萬億嗎?隨意展開2個(gè)例子吧。
1、監(jiān)控
所有裝有監(jiān)控的地方,都有識(shí)別的需求。傳統(tǒng)的方式是,先訓(xùn)練,再識(shí)別。標(biāo)注了的能識(shí)別,未標(biāo)注的識(shí)別不了?,F(xiàn)在完全不同了。人類能識(shí)別的,都能識(shí)別。還能推理。
比如,公安系統(tǒng)。小偷進(jìn)去時(shí)候空手,出來多了個(gè)包。在人群里找出來,就是一句話的事情了。
或者一張照片找出嫌犯的位置,就可以不用麻煩水哥了。
交通系統(tǒng),更具現(xiàn)有人流,車流預(yù)測堵車。識(shí)別安全頭盔等等。做過相關(guān)項(xiàng)目的公司,就明白這里面帶來的沖擊。
2、醫(yī)療
人眼有時(shí)候,受視力和光線的影響,看不清微小的細(xì)節(jié)。同時(shí),知識(shí)儲(chǔ)備無法和AI相比。用vision看x片,給出所有的細(xì)節(jié)和建議??赡苁俏磥硭嗅t(yī)生每天都要做的事。
另外,會(huì)診,醫(yī)療事故判定,醫(yī)學(xué)科研,藥物研究,都是不可或缺的。
其他的比如,設(shè)計(jì),教學(xué),編程,導(dǎo)游。無法想象它到底可以顛覆多少行業(yè)。
本質(zhì)上,ChatGPT Vision和這么多年來的視覺分析有本質(zhì)的不同。他不需要預(yù)先標(biāo)注訓(xùn)練。其次,他有海量的知識(shí)背景。這讓他無比強(qiáng)大。仿佛上帝視角。
我們拭目以待把。技術(shù)背后的價(jià)值,投資人應(yīng)該更加清楚,萬億是夸張,但誰也無法否定。因?yàn)椴豢晒懒俊?/p>
目前ChatGPT Vision只有北美地區(qū)開放。國內(nèi)想試用ChatGPT的話,給大家推薦我在用的這個(gè)吧。http://www.ppword.cn
手機(jī)上使用,搜索ppword,也可以點(diǎn)擊下方公眾號(hào)。(有個(gè)細(xì)小的行業(yè),能馬上被顛覆,有興趣的加ppword網(wǎng)站上的群)文章來源:http://www.zghlxwxcb.cn/news/detail-711367.html
微軟測評(píng)報(bào)告下載地址:https://arxiv.org/pdf/2309.17421.pdf?文章來源地址http://www.zghlxwxcb.cn/news/detail-711367.html
到了這里,關(guān)于ChatGPT-4 Vision 催生萬億產(chǎn)業(yè)的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!