計(jì)算機(jī)視覺為什么重要?
人的大腦皮層, 有差不多 70% 都是在處理視覺信息。 是人類獲取信息最主要的渠道,沒有之一。
在網(wǎng)絡(luò)世界,照片和視頻(圖像的集合)也正在發(fā)生爆炸式的增長!
下圖是網(wǎng)絡(luò)上新增數(shù)據(jù)的占比趨勢圖?;疑墙Y(jié)構(gòu)化數(shù)據(jù),藍(lán)色是非結(jié)構(gòu)化數(shù)據(jù)(大部分都是圖像和視頻)??梢院苊黠@的發(fā)現(xiàn),圖片和視頻正在以指數(shù)級的速度在增長。
而在計(jì)算機(jī)視覺出現(xiàn)之前,圖像對于計(jì)算機(jī)來說是黑盒的狀態(tài)。
一張圖片對于機(jī)器只是一個(gè)文件。機(jī)器并不知道圖片里的內(nèi)容到底是什么,只知道這張圖片是什么尺寸,多少M(fèi)B,什么格式的。
?
如果計(jì)算機(jī)、人工智能想要在現(xiàn)實(shí)世界發(fā)揮重要作用,就必須看懂圖片!這就是計(jì)算機(jī)視覺要解決的問題。
什么是計(jì)算機(jī)視覺 – CV?
計(jì)算機(jī)視覺是人工智能的一個(gè)重要分支,它要解決的問題就是:看懂圖像里的內(nèi)容。
比如:
- 圖片里的寵物是貓還是狗?
- 圖片里的人是老張還是老王?
- 這張照片里,桌子上放了哪些物品?
?
計(jì)算機(jī)視覺的原理是什么?
目前主流的基于深度學(xué)習(xí)的機(jī)器視覺方法,其原理跟人類大腦工作的原理比較相似。
人類的視覺原理如下:從原始信號攝入開始(瞳孔攝入像素 Pixels),接著做初步處理(大腦皮層某些細(xì)胞發(fā)現(xiàn)邊緣和方向),然后抽象(大腦判定,眼前的物體的形狀,是圓形的),然后進(jìn)一步抽象(大腦進(jìn)一步判定該物體是只氣球)。
機(jī)器的方法也是類似:構(gòu)造多層的神經(jīng)網(wǎng)絡(luò),較低層的識別初級的圖像特征,若干底層特征組成更上一層特征,最終通過多個(gè)層級的組合,最終在頂層做出分類。
?
計(jì)算機(jī)視覺的2大挑戰(zhàn)
對于人類來說看懂圖片是一件很簡單的事情,但是對于機(jī)器來說這是一個(gè)非常難的事情,說 2 個(gè)典型的難點(diǎn):
特征難以提取
同一只貓?jiān)诓煌慕嵌龋煌墓饩€,不同的動(dòng)作下。像素差異是非常大的。就算是同一張照片,旋轉(zhuǎn)90度后,其像素差異也非常大!
所以圖片里的內(nèi)容相似甚至相同,但是在像素層面,其變化會(huì)非常大。這對于特征提取是一大挑戰(zhàn)。
需要計(jì)算的數(shù)據(jù)量巨大
手機(jī)上隨便拍一張照片就是1000*2000像素的。每個(gè)像素 RGB 3個(gè)參數(shù),一共有1000 X 2000 X 3=6,000,000。隨便一張照片就要處理 600萬 個(gè)參數(shù),再算算現(xiàn)在越來越流行的 4K 視頻。就知道這個(gè)計(jì)算量級有多恐怖了。
CNN ?解決了上面的兩大難題
CNN 屬于深度學(xué)習(xí)的范疇,它很好的解決了上面所說的2大難點(diǎn):
- CNN 可以有效的提取圖像里的特征
- CNN 可以將海量的數(shù)據(jù)(不影響特征提取的前提下)進(jìn)行有效的降維,大大減少了對算力的要求
計(jì)算機(jī)視覺的 8 大任務(wù)
?
圖像分類
圖像分類是計(jì)算機(jī)視覺中重要的基礎(chǔ)問題。后面提到的其他任務(wù)也是以它為基礎(chǔ)的。
舉幾個(gè)典型的例子:人臉識別、圖片鑒黃、相冊根據(jù)人物自動(dòng)分類等。
目標(biāo)檢測
目標(biāo)檢測任務(wù)的目標(biāo)是給定一張圖像或是一個(gè)視頻幀,讓計(jì)算機(jī)找出其中所有目標(biāo)的位置,并給出每個(gè)目標(biāo)的具體類別。
語義分割
它將整個(gè)圖像分成像素組,然后對像素組進(jìn)行標(biāo)記和分類。語義分割試圖在語義上理解圖像中每個(gè)像素是什么(人、車、狗、樹…)。
如下圖,除了識別人、道路、汽車、樹木等之外,我們還必須確定每個(gè)物體的邊界。
實(shí)例分割
除了語義分割之外,實(shí)例分割將不同類型的實(shí)例進(jìn)行分類,比如用 5 種不同顏色來標(biāo)記 5 輛汽車。我們會(huì)看到多個(gè)重疊物體和不同背景的復(fù)雜景象,我們不僅需要將這些不同的對象進(jìn)行分類,而且還要確定對象的邊界、差異和彼此之間的關(guān)系!
視頻分類
與圖像分類不同的是,分類的對象不再是靜止的圖像,而是一個(gè)由多幀圖像構(gòu)成的、包含語音數(shù)據(jù)、包含運(yùn)動(dòng)信息等的視頻對象,因此理解視頻需要獲得更多的上下文信息,不僅要理解每幀圖像是什么、包含什么,還需要結(jié)合不同幀,知道上下文的關(guān)聯(lián)信息。
人體關(guān)鍵點(diǎn)檢測
體關(guān)鍵點(diǎn)檢測,通過人體關(guān)鍵節(jié)點(diǎn)的組合和追蹤來識別人的運(yùn)動(dòng)和行為,對于描述人體姿態(tài),預(yù)測人體行為至關(guān)重要。
在 Xbox 中就有利用到這個(gè)技術(shù)。
場景文字識別
很多照片中都有一些文字信息,這對理解圖像有重要的作用。
場景文字識別是在圖像背景復(fù)雜、分辨率低下、字體多樣、分布隨意等情況下,將圖像信息轉(zhuǎn)化為文字序列的過程。
停車場、收費(fèi)站的車牌識別就是典型的應(yīng)用場景。
目標(biāo)跟蹤
目標(biāo)跟蹤,是指在特定場景跟蹤某一個(gè)或多個(gè)特定感興趣對象的過程。傳統(tǒng)的應(yīng)用就是視頻和真實(shí)世界的交互,在檢測到初始對象之后進(jìn)行觀察。
無人駕駛里就會(huì)用到這個(gè)技術(shù)。
CV 在日常生活中的應(yīng)用場景
計(jì)算機(jī)視覺的應(yīng)用場景非常廣泛,下面列舉幾個(gè)生活中常見的應(yīng)用場景。
- 門禁、支付寶上的人臉識別
- 停車場、收費(fèi)站的車牌識別
- 上傳圖片或視頻到網(wǎng)站時(shí)的風(fēng)險(xiǎn)識別
- 抖音上的各種道具(需要先識別出人臉的位置)
這里需要說明一下,條形碼和二維碼的掃描不算是計(jì)算機(jī)視覺。
這種對圖像的識別,還是基于固定規(guī)則的,并不需要處理復(fù)雜的圖像,完全用不到 AI 技術(shù)。
計(jì)算機(jī)視覺
是一門研究如何使機(jī)器“看”的科學(xué),更進(jìn)一步的說,就是是指用攝影機(jī)和電腦代替人眼對目標(biāo)進(jìn)行識別、跟蹤和測量等機(jī)器視覺,并進(jìn)一步做圖形處理,使電腦處理成為更適合人眼觀察或傳送給儀器檢測的圖像。作為一個(gè)科學(xué)學(xué)科,計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取‘信息’的人工智能系統(tǒng)。這里所 指的信息指Shannon定義的,可以用來幫助做一個(gè)“決定”的信息。因?yàn)楦兄梢钥醋魇菑母泄傩盘栔刑?取信息,所以計(jì)算機(jī)視覺也可以看作是研究如何使人工系統(tǒng)從圖像或多維數(shù)據(jù)中“感知”的科學(xué)。
計(jì)算機(jī)視覺是一個(gè)跨學(xué)科的科學(xué)領(lǐng)域,涉及如何制作計(jì)算機(jī)以從數(shù)字圖像或視頻中獲得高層次的理解。從工程的角度來看,它尋求自動(dòng)化人類視覺系統(tǒng)可以完成的任務(wù)。
計(jì)算機(jī)視覺任務(wù)包括用于獲取,處理,分析和理解數(shù)字圖像的方法,以及從現(xiàn)實(shí)世界中提取高維數(shù)據(jù)以便例如以決策的形式產(chǎn)生數(shù)字或符號信息。
在這種情況下理解意味著將視覺圖像(視網(wǎng)膜的輸入)轉(zhuǎn)換為可以與其他思維過程交互并引出適當(dāng)行動(dòng)的世界描述。這種圖像理解可以看作是利用幾何學(xué),物理學(xué),統(tǒng)計(jì)學(xué)和學(xué)習(xí)理論構(gòu)建的模型從圖像數(shù)據(jù)中解開符號信息。文章來源:http://www.zghlxwxcb.cn/news/detail-677224.html
作為一門科學(xué)學(xué)科,計(jì)算機(jī)視覺關(guān)注從圖像中提取信息的人工系統(tǒng)背后的理論。圖像數(shù)據(jù)可以采用多種形式,例如視頻序列,來自多個(gè)相機(jī)的視圖或來自醫(yī)學(xué)掃描儀的多維數(shù)據(jù)。作為一門技術(shù)學(xué)科,計(jì)算機(jī)視覺試圖將其理論和模型應(yīng)用于計(jì)算機(jī)視覺系統(tǒng)的構(gòu)建。 計(jì)算機(jī)視覺的子域包括場景重建,事件檢測,視頻跟蹤,對象識別,3D姿態(tài)估計(jì),學(xué)習(xí),索引,運(yùn)動(dòng)估計(jì)和圖像恢復(fù)。文章來源地址http://www.zghlxwxcb.cn/news/detail-677224.html
到了這里,關(guān)于計(jì)算機(jī)視覺 – Computer Vision | CV的文章就介紹完了。如果您還想了解更多內(nèi)容,請?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!