哦哇資訊網

一種用於目標檢測的雙加權標籤分配方案

由 小小cv筆記 發表于 美食2023-01-30

論文收錄於CVPR2022,現有標籤分類方案計算出正樣本的權重後,負樣本權重直接1-正樣本權重,本文認為應該重新計算負樣本權重,體現正負樣本的差異性

論文題目:

A Dual Weighting Label Assignment Scheme for Object Detection

論文地址:

https://arxiv。org/abs/2203。09730

摘要

標籤分配(LA)是為每個訓練樣本分配一個正的(pos)和一個負的(neg)損失權重,在目標檢測中起著重要的作用,現有的LA方法多關注於pos權重函式的設計,而負權直接由pos權重推導而來,這種機制限制了檢測器的學習能力,在本文中,我們探索了一種新的加權正規化,稱為雙重加權(DW),以分別指定正權和負權,首先透過對目標檢測評價指標的分析,找出影響目標檢測正負權重的關鍵因素,然後根據這些指標設計正負權重函式。

具體而言,樣本的pos權重由其分類評分與定位評分的一致性程度決定,而neg權重則被分解為兩個術語:它是否定樣本的機率和它的重要性以其為否定樣本為條件,這種加權策略為區分重要和不重要的樣本提供了更大的靈活性,從而產生更有效的物件檢測器,採用所提出的DW方法,單個FCOS-ResNet-50探測器在1×訓練下可在COCO上達到41。5%的mAP,優於其他現有的LA方法,它在不帶附加功能的各種主幹下持續地大大改進了COCO的基線。

1. 簡介

目標檢測作為一項基本的視覺任務,幾十年來一直受到研究人員的重視,近年來,隨著卷積神經網路(CNNs)和視覺transformer(ViTs)的發展,檢測器的發展迅速,目前最先進的檢測器大多透過使用一組預定義的錨點預測類標籤和迴歸偏移量來執行密集檢測。

作為檢測器訓練的基本單元,需要對錨點進行適當的分配分類(cls)和迴歸(reg)標籤來監督訓練過程,這樣的標籤分配(LA)過程可以看作是為每個錨點分配損失權重的任務,錨點的cls損失(reg損失可以用類似的方式定義)一般可以表示為:

式中,wpos和wneg分別為正(pos)和負(neg)權重,s為預測分類評分,根據wpos和wneg設計的不同,可將LA方法大致分為硬LA和軟LA兩大類。

硬LA假設每個錨點不是pos就是neg,這意味著wpos, wneg∈{0,1},wneg + wpos = 1,該策略的核心思想是找到一個合適的劃分邊界,將錨分為正集和負集,這一研究方向的劃分規則可進一步分為靜態和動態兩類。

靜態規則採用預先定義的度量,如IoU或錨點中心到真實(GT)中心的距離來匹配物件或背景的錨,這種靜態分配規則忽略了一個事實,即不同大小和形狀的物件的劃分邊界可能不同,最近,許多動態分配規則被提出,例如,ATSS根據物件的IoU分佈分割其訓練錨,預測感知分配策略將預測的置信度分數作為評估質量的可靠指標,靜態和動態分配方法都忽略了樣本不是同等重要的事實,目標檢測中的評價指標表明,最優預測不僅要有較高的分類分數,而且要有準確的定位,這意味著在訓練中,cls頭部和reg頭部之間的一致性越高的錨點應該更重要。

基於上述動機,研究人員選擇了給錨分配軟權重,GFL和VFL是兩種典型的基於iou定義軟標籤目標,然後透過乘以調製因子將其轉換為損失權重的方法,還有一些研究透過聯合考慮reg評分和cls評分計算樣本權重,現有的方法主要集中在pos權函式的設計上,而負權是簡單地由pos權推匯出來的,由於負權提供的監督資訊很少,可能會限制檢測器的學習能力。

我們認為,這種耦合加權機制不能在更細的水平上區分每個訓練樣本,圖1顯示了一個例子,四個錨有不同的預測結果,然而,GFL和VFL分別給(B, D)和(C, D)分配了幾乎相同的(pos, neg)權重對,GFL還將零pos和負權重分配給錨點A和C,因為每個錨點都具有相同的cls評分和IoU,在現有的軟LA方法中,由於neg權重函式與pos權重函式高度相關,不同屬性的錨點有時會被分配幾乎相同的(pos, neg)權重,這可能會影響訓練過的檢測器的有效性。

為了給檢測器提供更具鑑別性的監督訊號,我們提出了一種新的LA方案,稱為雙重加權(dual weighted, DW),從不同的角度指定正負權重,使其相互補充,具體地說,pos權重是由置信分數(從cls頭部獲得)和reg分數(從reg頭部獲得)的組合動態確定的,每個錨點的負權重被分解為兩個項:它是一個負樣本的機率和它作為一個負樣本的重要性,pos權值反映cls頭和reg頭的一致性程度,將一致性較高的錨推到錨列表中前移,neg權值反映不一致性程度,將不一致的錨推到列表的後面,透過這種方法,可以推斷出cls分數較高的邊界框越是精確的位置,NMS後的生存機會就越好,那些位置不精確的邊界框就會落後,被過濾掉。如圖所示,DW透過分配不同的(pos, neg)權重對來區分4個不同的錨點,可以為檢測器提供更細粒度的監督訓練訊號。

為了給我們的加權函式提供更精確的reg分數,我們進一步提出了一個框細化操作,具體而言,我們設計了一個學習預測模組,根據粗迴歸圖生成4個邊界位置,然後聚合它們的預測結果,得到當前錨點的更新邊界框,這個輕量級模組使我們能夠透過只引入適度的計算開銷為DW提供更準確的reg分數。

透過在MS COCO上的綜合實驗證明了我們提出的DW方法的優點,特別是,該方法將具有ResNet50骨幹的FCOS檢測器在常見的1×訓練方案下,在COCO驗證集上提高到41。5/42。2 AP w/wo框改進,超過了其他LA方法。

將每個錨點標記為陽性或陰性樣本是訓練檢測器的關鍵步驟,經典的基於錨的物件檢測器透過用GT物件測量錨的IoU來設定錨的標籤,近年來,無錨探測器因其簡潔的設計和可比擬的效能而備受關注。

FCOS和Foveabox都透過中心取樣策略選擇pos樣本:在訓練過程中,靠近GT中心的錨點被取樣為陽性,其他錨點被取樣為陰性或忽略,上述LA方法對於不同形狀和大小的GT箱採用固定規則,是次優的。

已經提出了一些先進的LA策略,用於為每個GT動態選擇pos樣本,ATSS從特徵金字塔的每一級選擇top-k錨點,並採用這些頂級錨點的平均值+標準IoU作為pos/neg劃分閾值,PAA根據cls和reg損失的聯合狀態,以機率方式自適應地將錨分為pos/neg,OTA從全域性角度處理LA問題,將分配過程制定為最優運輸問題,基於transformer的檢測器採用一對一分配方案,為每個GT尋找最佳pos樣本,硬LA對所有樣本一視同仁,但與目標檢測中的評價指標不太相容。

軟標籤分配

由於預測框的質量不同,因此在訓練過程中對樣本的處理應有所不同,許多研究已經提出解決不平等問題的訓練樣本,Focal Loss在交叉熵損失上添加了一個調製因子,以降低分配給分類良好的樣本的損失的權重,這推動檢測器聚焦於困難樣本,Generalized focal loss 聯合考慮cls評分和定位質量,為每個錨點分配一個軟權重,V arifocal loss利用iou感知的cls標籤來訓練cls頭,上面提到的大多數方法都專注於計算pos權值,並簡單地將負權值定義為1 - wpos的函式。

在本文中,我們將這一過程解耦,並分別為每個錨點分配pos和neg損失權值,大多數軟LA方法對損失分配權重,有一種特殊情況是為評分分配權重,它可以表述為Lcls=−ln(wpos×s)−ln(1−wneg×s),典型的方法包括FreeAnchor和Autoassign,應該指出,我們的方法不同於他們,為了以完全不同的方式匹配錨點,自動分配中的wpos和wneg仍然接受梯度,然而,在我們的方法中,損失權值經過精心設計並完全脫離網路,這是加權損失的常見做法。

3.提出的方法

3.1. 動機和框架

為了與NMS相容,一個好的密集檢測器應該能夠預測具有高分類分數和精確位置的一致邊界框,然而,如果所有的訓練樣本都被同等對待,則會出現兩個頭部之間的不對齊:類別得分最高的位置通常不是迴歸物件邊界的最佳位置,這種不對齊會降低檢測器的效能,特別是在iou度量下,Soft LA是一種透過減權的軟方式處理訓練樣本的方法,它試圖增強cls和reg頭之間的一致性,對於軟LA,錨的損失可以表示為:

其中s為預測的cls評分,b和b’分別為預測的邊界框和GT物件的位置,ℓreg為迴歸損失,如Smooth L1 loss [32], IoU loss和GIoU loss,透過將較大的wpos和wreg分配給具有較高一致性的錨點,可以緩解cls和reg頭之間的不一致問題,這些訓練有素的錨因此能夠預測高cls分數和推理時的精確位置。

現有的研究通常將wreg與wpos等同,主要關注如何定義一致性並將其整合到損失權重中,表1總結了最近有代表性的pos錨的wpos和wneg公式,可以看到,目前的方法通常定義一個度量t來表示錨點級別上兩個頭之間的一致性程度,然後將不一致度量設計為1−t的函式,最後透過新增一個縮放因子((s−t)2, s2或t),將一致和不一致的度量整合到pos和neg損失權重中。

與上述wpos和wneg高度相關的方法不同,我們建議以預測感知的方式分別設定pos和neg的權重,pos權重函式以預測的cls評分s和預測框與GT物件之間的IoU為輸入,透過估計cls與reg頭部之間的一致性程度來設定pos權重,負權重函式的輸入與pos權函式相同,但將負權重表示為兩個項的乘法:錨為負的機率,其重要性以其為負為條件,透過這種方法,具有相似pos權值的模糊錨點可以接收到更細粒度且具有不同負權值的監督訊號,這是現有方法所不能做到的。

我們的DW框架的管道如圖2所示,作為一種常見的做法,我們首先為每個GT物件構造一個候選陽性包,方法是在GT中心(中心先驗)附近選擇錨點,將候選袋外的錨視為負樣本,在訓練初期,由於其統計資料(如IoU、cls評分)噪聲很大,因此不參與權重函式的設計過程,候選包內的錨將被分配到三個權重,包括wpos, wneg和wreg,以更有效地監督訓練過程。

一種用於目標檢測的雙加權標籤分配方案

3.2. 正樣本的權重函式

樣本的pos權重應反映其在分類和定位中對目標準確檢測的重要性,透過對目標檢測評價指標的分析,找出影響目標檢測重要性的因素,在COCO的測試中,對一個類別的所有預測都應該根據一個排名指標進行適當的排名,現有方法通常使用cls評分或結合cls評分和預測IoU作為排名指標,每個邊界框的正確性將從排名列表的開始進行檢查,當且僅當:

a。預測邊界框與其最近的GT物件之間的IoU大於閾值θ;

b。沒有滿足上述條件的方框排在當前方框的前面。

綜上所述,在預測列表中,只有第一個IoU大於θ的邊界框被定義為pos檢測,而其他所有邊界框都被認為是同一GT的假陽性,可見,高排名得分和高IoU是pos預測的充要條件,這意味著同時滿足這兩個條件的錨點在測試中更有可能被定義為pos預測。

因此在訓練中它們應該具有更高的重要性,從這個角度來看,pos權重wpos應該與IoU和排名分數正相關,即wpos∝ IoU和wpos∝ s,為了指定pos函式,我們首先定義一個一致性度量,記為t,用來衡量兩種條件之間的對齊程度:

一種用於目標檢測的雙加權標籤分配方案

其中β用於平衡兩種情況,為了鼓勵不同錨點之間的pos權重存在較大差異,我們添加了一個指數調製因子:

一種用於目標檢測的雙加權標籤分配方案

其中,µ是一個超引數,用於控制不同pos權重的相對間隙,最後,每個例項的每個錨的pos權值由候選包內所有pos權值的總和歸一化。

3.3. 負樣本權重函式

雖然pos權重可以強制一致錨點同時具有高cls分數和iou,但pos權重不能區分不一致錨點的重要性,由圖1可知,錨點D位置較好(IoU較θ大),但cls評分較低,而錨B具有較粗的位置(IoU比θ小),但cls評分較高,它們可能具有相同的一致性度t,因此會以相同的pos強度向前推,這並不能反映它們的差異,為了給檢測器提供更有鑑別性的監督資訊,我們建議透過給它們分配更多不同的否定權來忠實地表明它們的重要性,否定權定義為以下兩個項的乘法。

負樣本的機率

根據COCO的評價指標,IoU小於θ是錯誤預測的充分條件,這意味著不滿足IoU度量的預測邊界框將被視為陰性檢測,即使它具有很高的cls評分,也就是說,IoU是決定成為負樣本機率的唯一因素,用Pneg表示,由於COCO在估算AP時採用了介於0。5 ~ 0。95之間的IoU區間,因此邊界框的機率Pneg應滿足以下規則:

一種用於目標檢測的雙加權標籤分配方案

在區間[0。5,0。95]內定義的任何單調遞減函式都限定為Pneg,為了簡單起見,我們將Pneg例項化為如下函式:

一種用於目標檢測的雙加權標籤分配方案

它經過點(0。5,1)和(0。95,0)一旦確定了γ1,就可以用待定係數法得到引數k和b,圖3繪製了不同γ1值下的Pneg與IoU的曲線。

一種用於目標檢測的雙加權標籤分配方案

以負樣本為條件

在推理時,排序表中的負面預測不會影響召回率,但會降低準確率,為了延遲這個過程,負邊界框應該排在後面,他們的排名分數應該儘可能小,基於這一點,排名分數大的否定預測比排名分數小的否定預測更重要,因為它們是網路最佳化的更難的例子,因此,用Ineg表示的陰性樣本的重要性應該是排名得分的函式,為簡單起見,我們將其設為

一種用於目標檢測的雙加權標籤分配方案

其中,γ2是一個因子,表示應該給予重要陰性樣本多少優先權,最後,負權wneg = Pneg × Ineg變成

一種用於目標檢測的雙加權標籤分配方案

與IoU負相關,與s正相關,可以看出,對於兩個pos權重相同的錨點,IoU越小的錨點負權重越大,wneg的定義與推理過程很好地相容,可以進一步區分具有幾乎相同pos權值的模糊錨點,詳見圖1。

3.4. 框細化

由於pos和negative加權函式都以IoU作為輸入,所以更準確的IoU可以誘匯出更高質量的樣本,有利於學習更強的特徵,我們基於預測偏移圖O∈RH×W ×4,提出一種框細化操作,對邊界框進行細化,其中O(j, i) ={∆l,∆t,∆r,∆b}分別表示當前錨點中心到GT物件最左l、最上t、最右r和最下b的預測距離,如圖4所示,

一種用於目標檢測的雙加權標籤分配方案

基於物體邊界附近的點更有可能預測精確位置的事實,我們設計了一個可學習的預測模組,為每邊生成一個邊界點基於粗邊界框,根據圖4,定義四個邊界點座標為:

一種用於目標檢測的雙加權標籤分配方案

3.5. 損失函式

所提出的DW方案可以應用於大多數現有的密集檢測器,本文采用具有代表性的高密度檢測器FCOS來實現DW,如圖2所示,整個網路結構由骨幹網、FPN和檢測頭組成,按照慣例,我們將中心度分支和分類分支的輸出相乘作為最終的cls分數,我們網路的最終損失是

一種用於目標檢測的雙加權標籤分配方案

其中β是一個平衡因子,與公式3中的相同,且

一種用於目標檢測的雙加權標籤分配方案

其中N和M分別為候選袋內外錨的總數,FL為Focal Loss , GIoU為迴歸損失,s為預測cls評分,b和b’分別為預測框和GT物件的位置。

4.1. 消融研究

正權重的超引數

pos權值有兩個超引數:β和µ,在一致性度量t中,β平衡了cls評分和IoU之間的貢獻,隨著β的增大,IoU的貢獻程度也增大,µ控制著pos權重的相對尺度,與一致性較差的樣本相比,較大的樣本µ能夠使最一致的樣本具有相對較大的pos權重,在表2中,我們透過改變β從3到7和μ從3到8來展示DW的效能,可以看出,當β為5,µ是5時,得到的效果最好,

β和µ組合可使AP效能從0。1降至0。7,因此,在其餘的實驗中,我們將β和µ設為5。

一種用於目標檢測的雙加權標籤分配方案

負樣本權重超引數

我們還進行了幾個實驗來研究DW對超引數γ1和γ2的魯棒性,這些超引數被用來調節負樣本權重的相對尺度,使用不同組合的γ1和γ2的AP結果在41到41。5之間,如表3所示,這意味著DW的效能對這兩個超引數並不敏感,我們所有的實驗都採用γ1=2, γ2=2。

一種用於目標檢測的雙加權標籤分配方案

候選包的構造

作為目標檢測的常用做法,軟LA只應用於候選包內的錨,我們測試了三種候選包構造方法,它們都是基於從錨點到相應GT中心的距離r(由特徵步幅歸一化),第一種方法是選擇距離小於閾值的錨,第二是從每一級FPN中選擇最接近的前k個錨點,第三種方法是賦予每個錨一個軟中心權值e−r2,並將其與wpos相乘,結果如表4所示,可以看出AP的效能在41。1和41。5之間有輕微波動,這說明我們的DW對候選袋的分離方法具有魯棒性。

一種用於目標檢測的雙加權標籤分配方案

負加權函式的設計

我們透過用其他替代方法來研究負權函式的影響,如表5所示,可以看到,僅使用pos權重將效能降低到39。5,這表明對於一些低質量的錨,僅為它們分配小wpos不足以降低它們的排名分數,他們可以被迫排在更大的wneg後面,導致在測試期間AP更高,在不使用Ineg或Pneg的情況下,我們分別得到了40。5 AP和40。0 AP,驗證了這兩個項都是必要的,與現有方法一樣,我們嘗試用1−wpos替換wneg,但獲得了40。7 AP的效能,比標準DW低0。8分。

一種用於目標檢測的雙加權標籤分配方案

框細化 在沒有框細化的情況下,我們的DW方法達到了41。5 AP,據我們所知,這是第一個在COCO上實現了超過41 AP的效能,而不增加任何引數和訓練成本的FCOS-ResNet-50方法,透過細化框,DW可以達到42。2 AP,如表6所示,表7還顯示,框最佳化可以持續提高具有不同主幹的DW的效能。

一種用於目標檢測的雙加權標籤分配方案

權重策略

為了證明我們的DW策略的有效性,我們將其與使用不同加權策略的其他LA方法進行比較,結果如表6所示,前五行是硬LA方法,而其他是軟LA方法。硬LA的最佳表現是OTA, 40。7 AP,由於OTA將LA表述為一個最優運輸問題,它將增加20%以上的訓練時間,GFLv2利用一個特別複雜的分支來估計定位質量,在軟LA方法中取得了41。1 AP的第二好的效能。

與將權重分配給損失的主流方法不同,Autoassign將權重分配給cls評分,並在訓練過程中根據其梯度更新它們,我們嘗試在Autoassign中分離權重並將其分配給loss,但得到的AP分別為39。8和36。6,分別比原始效能低0。6和3。8分,這意味著自動分配中的權重方案不能工作當它適應主流實踐時。

4.2. 與最先進的比較

我們在表7中將DW與test-dev 2017上的其他一級檢測器進行了比較,在前人的基礎上,在訓練過程中採用多尺度訓練策略和2× 24訓練計劃,報告了所有方法的單模型單尺度測試結果,其他設定與一致。

一種用於目標檢測的雙加權標籤分配方案

除了LA策略,一些作品還利用額外的特徵學習模組來增強它們的檢測器,為了進行公平的比較,在表7中,我們透過報告使用這個輔助模組的效能來與它們進行比較,可以看出,我們的基於ResNet101的DW方法達到了46。2 AP,優於所有具有相同主幹的競爭方法,包括VFL (44。9 AP)、GFL (45。0 AP)和OTA (45。3 AP),當使用更強大的骨幹如ResNet-101-DCN和ResNeXt-10164x4d時,DW達到49。3和48。2 AP,分別超過GFL 2和2。2分,我們還可以看到,在不同的主幹下,框最佳化操作可以持續提高DW,值得一提的是,當我們用TOOD,中提出的檢測頭替換FCOS中的檢測頭時,DW達到49。8 AP,比TOOD提高了1。5分,這表明我們的DW策略對其他檢測頭具有良好的泛化能力。

4.3. 討論

DW的視覺化

為了進一步瞭解DW與現有方法的區別,我們在圖5中展示了DW和兩種代表性方法GFL和VFL的cls評分、IoU、pos和neg權重的視覺化圖,可以看出,DW中的pos和negative權重主要集中在GT的中心區域,而GFL和VFL分配的權重範圍要大得多,這種差異意味著DW可以更關注重要的樣本,而減少容易的樣本的貢獻,例如靠近物體邊界的樣本,這就是為什麼DW對候選包的選擇更具魯棒性。

一種用於目標檢測的雙加權標籤分配方案

我們還可以看到,中心區域的錨在DW中有明顯的(pos, neg)權重對,相反,GFL和VFL的陰性權重與陽性權重高度相關,橙色圓圈突出顯示的錨點在GFL和VFL中pos權值和負權值幾乎相同,而DW可以透過分配不同的權值來區分它們,為網路提供了更高的學習能力。

DW侷限性

DW雖然可以很好地區分不同錨點對一個物件的重要性,但同時會減少訓練樣本的數量,如圖5所示。這可能會影響對小物體的訓練效果,如表7所示,在小物件上DW的改進不如在大物件上的改進高,為了緩解這個問題,我們可以根據物件大小動態地設定不同的wpos超引數在大小物件之間平衡訓練樣本。

5. 結論

我們提出了一種自適應標籤分配方案,稱為雙加權(DW),以訓練精確的密集物體檢測器,DW打破了以往密集檢測器耦合賦權的慣例,透過從不同方面估計一致性和不一致性指標,為每個錨點動態分配單個pos和neg權重,還開發了一種新的框細化操作,可以直接細化迴歸圖上的框,DW與評價指標高度相容,在MS COCO基準測試上的實驗驗證了DW在不同主幹下的有效性,使用和不使用框細化,ResNet-50的DW分別達到了41。5 AP和42。2 AP,作為一種新的標籤分配策略,DW對不同的檢測頭也表現出良好的泛化效能。

物體檢測的負面社會影響主要來自於對軍事應用的濫用和隱私問題,在將該技術應用於現實生活之前需要慎重考慮。

TAG: POSDW權重錨點CLS