EfficientDet: Smerom K škálovateľnej A Efektívnej Detekcii Objektov

Obsah:

EfficientDet: Smerom K škálovateľnej A Efektívnej Detekcii Objektov
EfficientDet: Smerom K škálovateľnej A Efektívnej Detekcii Objektov
Anonim

Ako jedna z hlavných aplikácií v počítačovom videní je detekcia objektov čoraz dôležitejšia v scenároch, ktoré si vyžadujú vysokú presnosť, ale majú obmedzené výpočtové zdroje, ako sú robotika a automobily bez vodiča. Mnoho moderných vysoko presných detektorov, bohužiaľ, tieto obmedzenia nespĺňa. Dôležitejšie je, že aplikácie na detekciu objektov v reálnom svete bežia na rôznych platformách, ktoré často vyžadujú rôzne zdroje.

Škálovateľná a efektívna detekcia objektov
Škálovateľná a efektívna detekcia objektov

Prirodzenou otázkou teda je, ako navrhnúť presné a efektívne detektory objektov, ktoré sa dokážu prispôsobiť aj širokej škále obmedzení zdrojov?

EfficientDet: Škálovateľná a efektívna detekcia objektov, prijatá na konferencii CVPR 2020, predstavuje novú rodinu škálovateľných a efektívnych detektorov objektov. V nadväznosti na predchádzajúcu prácu na škálovaní neurónových sietí (EfficientNet) a začlenení novej obojsmernej funkčnej siete (BiFPN) a nových pravidiel škálovania dosahuje EfficientDet modernú presnosť, ktorá je 9-krát menšia a využíva podstatne menej výpočtov ako známe moderné detektory. Nasledujúci obrázok ukazuje všeobecnú sieťovú architektúru modelov.

Obrázok
Obrázok

Optimalizácia architektúry modelu

Myšlienka EfficientDet vychádza zo snahy nájsť riešenie na zlepšenie výpočtovej efektívnosti systematickým skúmaním predchádzajúcich najmodernejších detekčných modelov. Detektory objektov majú vo všeobecnosti tri hlavné komponenty: chrbticu, ktorá extrahuje prvky z daného obrázka; sieť objektov, ktorá z chrbtovej kosti preberá viac úrovní funkcií ako vstup a výstup zoznam kombinovaných funkcií, ktoré predstavujú charakteristické vlastnosti obrazu; a konečná sieť triedy / skrinky, ktorá pomocou kombinovaných funkcií predpovedá triedu a umiestnenie každého objektu.

Po preskúmaní možností návrhu týchto komponentov sme identifikovali niekoľko kľúčových optimalizácií na zlepšenie výkonu a efektívnosti. Predchádzajúce detektory väčšinou používajú ako chrbticové siete ResNets, ResNeXt alebo AmoebaNet, ktoré sú buď menej výkonné, alebo majú nižšiu účinnosť ako EfficientNets. Počiatočnou implementáciou chrbticovej siete EfficientNet je možné dosiahnuť oveľa vyššiu efektivitu. Napríklad, počnúc základnou úrovňou RetinaNet, ktorá používa chrbticovú sieť ResNet-50, naša ablačná štúdia ukazuje, že jednoduchá výmena ResNet-50 za EfficientNet-B3 môže zlepšiť presnosť o 3% a zároveň znížiť výpočet o 20%. Ďalšou optimalizáciou je zlepšenie efektívnosti funkčných sietí. Zatiaľ čo väčšina z predchádzajúcich detektorov jednoducho používa zostupnú pyramídovú sieť (FPN), zistíme, že následná FPN je inherentne obmedzená na jednosmerný tok informácií. Alternatívne FPN, ako napríklad PANet, pridávajú ďalšie upstream za cenu ďalších výpočtov.

Posledné pokusy o použitie technológie Neural Architecture Search (NAS) objavili zložitejšiu architektúru NAS-FPN. Aj keď je táto sieťová štruktúra efektívna, je tiež nepravidelná a vysoko optimalizovaná pre konkrétnu úlohu, čo sťažuje jej prispôsobenie iným úlohám. Na riešenie týchto problémov navrhujeme novú sieť obojsmerných funkcií BiFPN, ktorá implementuje myšlienku kombinovania viacvrstvových funkcií z FPN / PANet / NAS-FPN, ktorá umožňuje prenos informácií zhora nadol a zdola nahor. pomocou pravidelných a efektívnych spojení.

Obrázok
Obrázok

Na ďalšie zlepšenie účinnosti navrhujeme novú techniku rýchlej normalizovanej syntézy. Tradičné prístupy zvyčajne zaobchádzajú so všetkými vstupmi do FPN rovnako, a to aj v rôznych rozlíšeniach. Pozorujeme však, že vstupné funkcie s rôznymi rozlíšeniami často nerovnomerne prispievajú k výstupným funkciám. Každej vstupnej funkcii teda pridáme ďalšiu váhu a necháme sieť naučiť sa dôležitosť každej z nich. Rovnako nahradíme všetky bežné zákruty lacnejšími, hlboko oddeliteľnými zákrutami. Vďaka tejto optimalizácii náš BiFPN ďalej zvyšuje presnosť o 4% a zároveň znižuje výpočtové náklady o 50%.

Tretia optimalizácia spočíva v dosiahnutí najlepšieho kompromisu medzi presnosťou a účinnosťou pri rôznych obmedzeniach zdrojov. Naša predchádzajúca práca ukázala, že spoločné škálovanie hĺbky, šírky a rozlíšenia siete môže výrazne zlepšiť výkon rozpoznávania obrazu. Inšpirovaný touto myšlienkou navrhujeme novú metódu kompozitného škálovania pre detektory objektov, ktorá kolektívne zvyšuje rozlíšenie / hĺbku / šírku. Každá sieťová súčasť, tj chrbticová, objektová a prediktívna sieť bloku / triedy, bude mať jeden komplexný faktor mierky, ktorý riadi všetky dimenzie mierky pomocou heuristických pravidiel. Tento prístup uľahčuje určenie spôsobu zmenšovania modelu výpočtom faktora mierky pre dané obmedzenie cieľového zdroja.

Kombináciou nového základného reťazca a BiFPN najskôr navrhneme malú základnú čiaru EfficientDet-D0 a potom použijeme zložené škálovanie, aby sme dostali EfficientDet-D1 až D7. Každý sériový model má vyššie výpočtové náklady a pokrýva široké spektrum obmedzení zdrojov od 3 miliárd FLOP do 300 miliárd FLOPS a poskytuje vyššiu presnosť.

Výkonový model

Vyhodnocovanie EfficientDet na množine údajov COCO, široko používanom súbore referenčných údajov na detekciu objektov. EfficientDet-D7 dosahuje priemernú priemernú presnosť (mAP) 52,2, čo je o 1,5 bodu viac ako v predchádzajúcom modernom modeli, pričom používa 4-krát menej parametrov a 9,4-krát menej výpočtov

Obrázok
Obrázok

Tiež sme porovnali veľkosť parametrov a latenciu CPU / GPU medzi EfficientDet a predchádzajúcimi modelmi. S podobnými obmedzeniami presnosti fungujú modely EfficientDet 2–4krát rýchlejšie na GPU a 5–11krát rýchlejšie na procesore ako iné detektory. Zatiaľ čo modely EfficientDet sú primárne určené na detekciu objektov, ich účinnosť testujeme aj v iných úlohách, ako je sémantická segmentácia. Aby sme mohli vykonať segmentačné úlohy, mierne upravíme EfficientDet-D4 tak, že nahradíme detekčnú hlavu a stratu a stratu hlavy pri zachovaní rovnakej zmenšenej chrbtovej kosti a BiFPN. Tento model porovnávame s predchádzajúcimi modernými segmentačnými modelmi pre Pascal VOC 2012, široko používaný súbor údajov o testovaní segmentácie.

Obrázok
Obrázok

Vzhľadom na ich mimoriadny výkon sa očakáva, že EfficientDet poslúži ako nový základ pre budúci výskum detekcie objektov a potenciálne urobí vysoko presné modely detekcie objektov užitočnými v mnohých aplikáciách v reálnom svete. Takže som otvoril všetky body prerušenia kódu a pretrénovaný model na Github.com.

Odporúča: