下面是一些由DeepMask繪制,并由SharpMask提煉的一些例子。為了使這些可視化結果簡單易懂,我們只展示了其中極好地匹配了實際物體的一些預測掩碼圖像(人工注解)。請注意,這個系統(tǒng)還不是完美的,圖中具有紅色邊界的物體正是那些由人工標注,但被DeepMask忽視掉了的物體。
物體分類
DeepMask對某個特定的物體類別一無所知,因此它雖然能勾畫出一只狗和一只羊,但無法區(qū)分它們。而且,DeepMask也不會精挑細選,對無關緊要的局部也會生成掩碼圖像。因此,我們怎么縮小相關掩碼圖像范圍,識別實際呈現(xiàn)之物?
正如你所期待的,我們再一次求助于深度神經網絡(deep neural network)。給定一個由DeepMask產生的掩碼圖像,我們訓練了另外一個深度神經網絡來對物體的掩碼圖像進行分類(“無法分類”也是一個有效答案。)。
這里,我們遵循了一個基本的模式叫做 Rigion-CNN,或者縮寫為RCNN,(這個領域的開路先鋒Ross Girshick現(xiàn)在也是FAIR的一員了。)RCNN分兩個階段:第一個階段是將注意力吸引到某些特定的圖像區(qū),第二個階段使用一個深度網絡來確認呈現(xiàn)的物體。
開發(fā)RCNN時,第一階段的處理還非常原始,通過使用DeepMask來作為RCNN的第一階段,同時開發(fā)深度神經網絡的能力,我們在檢測的準確性上獲得了顯著的提升,也獲得了對物體進行分割的能力。
為了進一步提高性能,我們把精力集中在一個特別的神經網絡構架上來對掩碼圖像進行分類(RCNN的第二個階段)。如我們所討論的,真實世界的圖片里包含了物體的各種尺度,各種背景,各種雜亂,各種隱藏。標準的深度網絡在這種情況下就有困難了。為了解決這個問題,我們搭建了一個改良的神經網絡,叫做MultiPathNet(多路徑網絡)。
就像它的名字,MultiPathNet允許信息從網絡的多個路徑流通,使得它可以在不同的尺度和不同的環(huán)境背景下找到信息。
總而言之,我們的物體檢測系統(tǒng)遵循三步走程序:DeepMask產生最初的物體掩碼圖像,SharpMask 細化這些掩碼圖像,最終MultiPathNet 確認由各個掩碼圖像勾畫的物體。
以下是幾個我們整套系統(tǒng)產生的輸出例子:
不完美也不寒磣。要知道,幾年前實現(xiàn)這些功能的技術根本不存在!
相關評論