人的眼睛有600萬(wàn)到700萬(wàn)個(gè)錐體細(xì)胞,其中包含三種被稱(chēng)為視蛋白的對(duì)顏色敏感的蛋白質(zhì)之一。當(dāng)光子擊中這些視蛋白時(shí),它們會(huì)改變形狀,引發(fā)級(jí)聯(lián)反應(yīng),產(chǎn)生電信號(hào),進(jìn)而將信息傳遞給大腦進(jìn)行解讀。
整個(gè)過(guò)程是一個(gè)非常復(fù)雜的現(xiàn)象,并且使機(jī)器在人類(lèi)層面上解釋這一點(diǎn)一直是一個(gè)挑戰(zhàn)?,F(xiàn)代機(jī)器視覺(jué)系統(tǒng)背后的的核心動(dòng)機(jī)在于模擬人類(lèi)視覺(jué),用于識(shí)別圖案,面部以及將將2D圖像轉(zhuǎn)化為3D模型等。
在概念層面,圖像處理和計(jì)算機(jī)視覺(jué)之間存在很多重疊,并且經(jīng)常被誤解的術(shù)語(yǔ)可以互換使用。在這里,我們簡(jiǎn)要概述了這些技術(shù),并解釋了它們?cè)诨A(chǔ)層面上的不同之處。
一、圖像處理:
數(shù)字圖像處理技術(shù)于20世紀(jì)60年代末在美國(guó)國(guó)家航空航天局噴氣推進(jìn)實(shí)驗(yàn)室(Jet Propulsion Laboratory)首創(chuàng),通過(guò)計(jì)算機(jī)增強(qiáng),將Ranger航天器的模擬信號(hào)轉(zhuǎn)換為數(shù)字圖像?,F(xiàn)在,數(shù)字成像有著廣泛的應(yīng)用,尤其是在醫(yī)學(xué)上。眾所周知的應(yīng)用包括計(jì)算機(jī)輔助斷層掃描(CAT)和超聲波。
圖像處理主要與數(shù)學(xué)函數(shù)和圖像變換的使用和應(yīng)用有關(guān),而不考慮對(duì)圖像本身進(jìn)行任何智能推理。它僅僅意味著算法對(duì)圖像進(jìn)行一些轉(zhuǎn)換,如平滑、銳化、對(duì)比度、拉伸。
對(duì)于計(jì)算機(jī)來(lái)說(shuō),圖像是一個(gè)二維信號(hào),由像素的行和列組成。一種形式的輸入有時(shí)可以轉(zhuǎn)換成另一種形式。例如,磁共振成像(MRI),記錄下離子的激發(fā)并將其轉(zhuǎn)換成視覺(jué)圖像。
這里有一個(gè)用Python平滑圖像的例子:
對(duì)于一維信號(hào),圖像還可以使用各種低通濾波器(LPF)、高通濾波器(HPF)等進(jìn)行濾波。HPF濾波器有助于在圖像中找到邊緣。
這種使用矩陣的變換在卷積神經(jīng)網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法中非常普遍。在圖像(像素值的另一個(gè)矩陣)上卷積濾波器,用于檢測(cè)邊緣或顏色強(qiáng)度。
在數(shù)字圖像處理中使用的一些技術(shù)包括:
1)隱馬爾可夫模型
2)圖像編輯與恢復(fù)
3)線性濾波和雙邊濾波
4)神經(jīng)網(wǎng)絡(luò)
二、計(jì)算機(jī)視覺(jué):
計(jì)算機(jī)視覺(jué)來(lái)自使用機(jī)器學(xué)習(xí)技術(shù)建模圖像處理。計(jì)算機(jī)視覺(jué)應(yīng)用機(jī)器學(xué)習(xí)來(lái)識(shí)別用于解釋圖像的模式。就像人類(lèi)視覺(jué)的視覺(jué)推理過(guò)程一樣;我們可以區(qū)分對(duì)象,對(duì)它們進(jìn)行分類(lèi),根據(jù)它們的大小對(duì)它們進(jìn)行排序等等。計(jì)算機(jī)視覺(jué),如圖像處理,將圖像作為輸入,并以大小,顏色強(qiáng)度等信息的形式提供輸出。
特斯拉的無(wú)人駕駛系統(tǒng)通過(guò)Source檢測(cè)有霧情景中的物體
以下是標(biāo)準(zhǔn)機(jī)器視覺(jué)系統(tǒng)的組件:
1)相機(jī)
2)照明設(shè)備
3)鏡頭
4)抓幀器
5)圖像處理軟件
6)用于模式識(shí)別的機(jī)器學(xué)習(xí)算法
7)顯示屏或機(jī)械臂執(zhí)行從圖像解釋中獲得的指令。
例如,安裝在無(wú)人駕駛汽車(chē)上的攝像機(jī)必須檢測(cè)到前面的人,并將他們與車(chē)輛和其他特征區(qū)分開(kāi)來(lái)?;蛘撸覀兛梢詼y(cè)量網(wǎng)球運(yùn)動(dòng)員在比賽中所走的距離。
球員運(yùn)動(dòng)的熱圖
因此,時(shí)間信息在計(jì)算機(jī)視覺(jué)中起著重要作用,就像我們自己理解世界的方式一樣。
這里的最終目標(biāo)是使用計(jì)算機(jī)來(lái)模擬人類(lèi)視覺(jué),包括學(xué)習(xí)和能夠根據(jù)視覺(jué)輸入進(jìn)行推理和采取行動(dòng)。
三、結(jié)論:
圖像處理是計(jì)算機(jī)視覺(jué)的一個(gè)子集。計(jì)算機(jī)視覺(jué)系統(tǒng)利用圖像處理算法對(duì)人體視覺(jué)進(jìn)行仿真。例如,如果目標(biāo)是增強(qiáng)圖像以便以后使用,那么這可以稱(chēng)為圖像處理。如果目標(biāo)是識(shí)別物體、汽車(chē)自動(dòng)駕駛,那么它可以被稱(chēng)為計(jì)算機(jī)視覺(jué)。