Úvod do Super-Rozlišení pomocí Hluboké Učení

propracované diskuse na různých Komponentů, Ztrátě Funkce a Metriky použité pro Super-Rozlišení pomocí Hluboké Učení.

Foto Jeremy Thomas na Unsplash

Úvod

Super Rozlišení je proces obnovení Vysokého Rozlišení (HR) obraz z dané Nízkým Rozlišením (LR) obrazu. Obraz může mít „nižší rozlišení“ kvůli menšímu prostorovému rozlišení (tj. Můžeme se týkají HR a LR obrázky pomocí následující rovnice: LR = degradation(HR)

nízké rozlišení obrazu stále vedle jeho vysoké rozlišení verze. (Foto Jarrad Horne na Unsplash)

Jasně, na použití degradaci funkce, získáme LR obrázek z HR obrazu. Ale můžeme udělat inverzní? V ideálním případě Ano! Pokud známe přesnou degradační funkci, můžeme pomocí inverzní funkce k LR obrazu obnovit HR obraz.

ale tam leží problém. Obvykle neznáme degradační funkci před rukou. Přímý odhad inverzní degradační funkce je špatně položený problém. Přesto se techniky hlubokého učení ukázaly jako účinné pro Super rozlišení.

Tento blog se primárně zaměřuje na poskytování úvodu k provádění Super rozlišení pomocí hlubokého učení pomocí metod pod dohledem. Diskutovány jsou také některé důležité ztrátové funkce a metriky. Mnoho obsahu je odvozeno z tohoto přehledu literatury, na který se čtenář může obrátit.

kontrolované metody

jak již bylo zmíněno dříve, deep learning lze použít k odhadu obrazu s vysokým rozlišením (HR) vzhledem k obrazu s nízkým rozlišením (LR). Použitím obrazu HR jako cíle (nebo pozemní pravdy) a obrazu LR jako vstupu to můžeme považovat za problém s učením pod dohledem.

v této části seskupujeme různé přístupy hlubokého učení způsobem, jakým jsou konvoluční vrstvy organizovány. Než přejdeme ke skupinám, je představen základní nátěr na přípravu dat a typy konvolucí. Ztrátové funkce používané k optimalizaci modelu jsou prezentovány samostatně ke konci tohoto blogu.

Příprava Dat

Jeden jednoduchý způsob získání LR dat je snížit PERSONÁLNÍ data. To se často provádí rozmazáním nebo přidáním šumu. Obrazy s nižším prostorovým rozlišením lze také škálovat klasickou metodou převzorkování, jako je bilineární nebo Bikubická interpolace. JPEG a kvantizační artefakty mohou být také zavedeny pro degradaci obrazu.

Ponižující obraz s vysokým rozlišením pro získání nízké rozlišení verze. (Foto Jarrad Horne na Unsplash)

Jedna důležitá věc k poznámce je, že je doporučeno ukládat HR obraz v nekomprimované (nebo lossless compressed) formátu. To má zabránit degradaci kvality obrazu HR v důsledku ztrátové komprese, což může poskytnout suboptimální výkon.

typy konvolucí

kromě klasických 2D konvolucí lze v sítích použít několik zajímavých variant pro lepší výsledky. Dilatační (Atrous) konvoluce mohou poskytnout efektivnější zorné pole, a proto používají informace, které jsou odděleny velkou vzdáleností. Přeskočit připojení, prostorové pyramidové sdružování a husté bloky motivují kombinování funkcí nízké i vysoké úrovně pro zvýšení výkonu.

strategie návrhu sítě. (Zdroj)

výše uvedený obrázek zmiňuje řadu strategií návrhu sítě. Další informace naleznete v tomto článku. Pro základní nátěr na různé typy konvolucí běžně používaných v hlubokém učení, můžete odkazovat na tento blog.

Skupina 1-Pre-Upsampling

v této metodě jsou obrazy s nízkým rozlišením nejprve interpolovány, aby se získal „hrubý“ obraz s vysokým rozlišením. Nyní, CNNs jsou použity se učit end-to-end mapování z interpolované obrázků s nízkým rozlišením na obrázky s vysokým rozlišením. Intuice byla, že to může být jednodušší nejprve upsample low-rozlišení obrazu pomocí tradičních metod (např. Bilineární interpolace) a pak vylepšit výsledný než učit přímé mapování z low-dimenzionální prostor pro high-dimenzionální prostor.

typická pre-převzorkování sítě. (Zdroj)

můžete viz strana 5 tohoto dokumentu pro některé modely pomocí této techniky. Výhodou je, že vzhledem k tomu, že převzorkování je řešeno tradičními metodami, CNN se musí pouze naučit, jak vylepšit hrubý obraz, což je jednodušší. Navíc, protože zde nepoužíváme transponované konvoluce, šachovnicové artefakty možná obcházely. Nevýhodou však je, že předdefinované metody převzorkování mohou zesílit šum a způsobit rozmazání.

Skupina 2-následné převzorkování

v tomto případě jsou obrázky s nízkým rozlišením předávány do CNN jako takové. Převzorkování se provádí v poslední vrstvě pomocí učitelné vrstvy.

typický post-převzorkování sítě. (Zdroj)

výhodou této metody je, že funkce extrakce se provádí v dolní rozměrném prostoru (před převzorkování), a tím i výpočetní náročnost je snížena. Dále, pomocí učitelné převzorkovací vrstvy, model může být vyškolen end-to-end.

Skupina 3— Progresivní Převzorkování

Ve výše uvedené skupině, i když výpočetní složitost byla snížena, pouze jeden převzorkování byla použita konvoluce. To ztěžuje proces učení pro velké faktory měřítka. K řešení tohoto nedostatku, progresivní převzorkování rámec byl přijat funguje jako Laplacián Pyramida SR Sítě (LapSRN) a Progresivní SR (ProSR). Modely v tomto případě používají kaskádu CNN k postupné rekonstrukci obrázků s vysokým rozlišením při menších měřítkových faktorech v každém kroku.

typický progresivní-převzorkování sítě. (Zdroj)

rozložením obtížného úkolu na jednodušší úkoly se obtížnost učení výrazně sníží a lze dosáhnout lepšího výkonu. Strategie učení, jako je učení osnov, mohou být navíc integrovány, aby se dále snížily potíže s učením a zlepšil konečný výkon.

Skupina 4-iterativní vzorkování nahoru a dolů

Další populární modelovou architekturou je struktura přesýpacích hodin (nebo u-Net). Některé varianty, jako je skládaná síť přesýpacích hodin, používají několik struktur přesýpacích hodin v sérii, účinně střídající se mezi procesem převzorkování a převzorkování.

typická iterační vzorkovací síť nahoru a dolů. (Zdroj)

modely v tomto rámci mohou lépe moje hluboké vztahy mezi LR-a HR obrázek dvojice, a tedy poskytují vyšší kvalitu rekonstrukci výsledky.

Ztráta Funkce

Ztráta funkce se používají k měření rozdílu mezi generovány Vysoké Rozlišení obrazu a zem, pravda, s Vysokým Rozlišením obrazu. Tento rozdíl (chyba) se pak používá k optimalizaci modelu učení pod dohledem. Existuje několik tříd ztrátových funkcí, z nichž každá penalizuje jiný aspekt generovaného obrazu.

často se používá více než jedna ztrátová funkce vážením a sčítáním chyb získaných z každé ztrátové funkce jednotlivě. To umožňuje modelu zaměřit se na aspekty přispívající více ztrátovými funkcemi současně.

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

v této části prozkoumáme některé populární třídy ztrátových funkcí používaných pro trénink modelů.

ztráta Pixelů

ztráta Pixelů je nejjednodušší třída ztrátových funkcí, kde je každý pixel v generovaném obrazu přímo porovnáván s každým pixelem v obrazu pravdy. Používají se populární ztrátové funkce, jako je ztráta L1 nebo L2 nebo pokročilé varianty, jako je hladká ztráta L1.

Plot hladké ztráty L1. (Zdroj)

PSNR metriky (popsány níže), je vysoce koreluje s pixel-moudrý rozdíl, a tudíž se minimalizuje pixel ztráty přímo maximalizuje PSNR metriky hodnota (což naznačuje, dobrý výkon). Ztráta Pixelů však nezohledňuje kvalitu obrazu a model často vydává perceptuálně neuspokojivé výsledky(často chybí vysokofrekvenční detaily).

ztráta obsahu

tato ztráta vyhodnocuje kvalitu obrazu na základě jeho percepční kvality. Zajímavým způsobem, jak toho dosáhnout, je porovnání funkcí na vysoké úrovni generovaného obrazu a obrazu pravdy země. Tyto funkce na vysoké úrovni můžeme získat předáním obou těchto obrázků prostřednictvím předem vyškolené sítě pro klasifikaci obrázků(například VGG-Net nebo ResNet).

Obsah ztrátu mezi pozemní pravdu obrázek a vygenerovaný obraz. (Zdroj)

výše uvedené rovnice vypočítá obsah ztrátu mezi pozemní pravdu obrázek a vygenerovaný obraz, vzhledem k tomu, pre-vyškoleni sítě (Φ) a vrstvy (l) tento pre-vyškoleni, sítě, na které ztráta je vypočítána. Tato ztráta povzbuzuje generovaný obraz, aby byl vnímavě podobný obrazu země-pravdy. Z tohoto důvodu je také známá jako percepční ztráta.

ztráta textury

aby generovaný obraz měl stejný styl (textura, barva, kontrast atd.) jako obraz pravdy země se používá ztráta textury (nebo ztráta rekonstrukce stylu). Textura obrazu, jak je popsáno Gatys et. al, je definována jako korelace mezi různými kanály funkcí. Kanály funkcí jsou obvykle získávány z mapy funkcí extrahované pomocí předem vyškolené sítě klasifikace obrázků (Φ).

výpočet gramové matice. (Zdroj)

korelace mezi funkce mapy je reprezentován Gram matrix (G), což je skalární součin mezi vectorized funkce mapy ij na vrstvu l(viz výše). Jakmile Gram matice je vypočítána pro oba obrazy, výpočet textury ztráta je rovný-dopředu, jak je uvedeno níže:

Výpočetní Textury Ztráty. (Zdroj)

Použitím této ztráty je model motivován k vytváření realistických textur a vizuálně uspokojivějších výsledků.

celková ztráta variace

celková ztráta variace (TV) se používá k potlačení šumu ve generovaných obrazech. Vezme součet absolutních rozdílů mezi sousedními pixely a měří, kolik šumu je na obrázku. Pro generovaný obraz, TELEVIZNÍ ztráta se vypočítá, jak je uvedeno níže:

Celková Odchylka Ztráta použit na generovány Vysoké Rozlišení obrazu. (Zdroj)

, i,j,k iteruje přes výšku, šířku a kanály, resp.

Kontradiktorní Ztráty

Generativní Sporné Sítí (GANs), byly stále více využívány pro několik image založené aplikace, včetně Super Rozlišení. GANs obvykle sestává ze systému dvou neuronových sítí — Generátor a Diskriminující — souboje navzájem.

vzhledem k sadě cílových vzorků se generátor snaží vyrobit vzorky, které mohou oklamat Diskriminátora, aby věřil, že jsou skutečné. Diskriminátor se snaží vyřešit skutečné (cílové) vzorky z falešných (generovaných) vzorků. Pomocí tohoto iterativního tréninkového přístupu nakonec skončíme s generátorem, který je opravdu dobrý při generování vzorků podobných cílovým vzorkům. Následující obrázek ukazuje strukturu typického GAN.

GANs v akci. (Zdroj)

byly zavedeny pokroky v základní architektuře GAN pro lepší výkon. Například Park et. Ala. používá se diskriminátor na úrovni funkcí k zachycení smysluplnějších potenciálních atributů skutečných obrázků s vysokým rozlišením. Tento blog si můžete prohlédnout pro propracovanější průzkum o pokroku v GANs.

typicky mají modely vyškolené s kontradiktorní ztrátou lepší percepční kvalitu, i když by mohly ztratit na PSNR ve srovnání s modely vyškolenými na ztrátu Pixelů. Jednou menší nevýhodou je, že tréninkový proces GANs je trochu obtížný a nestabilní. Aktivně se však pracuje na metodách stabilizace výcviku GAN.

metriky

jednou velkou otázkou je, jak kvantitativně vyhodnotíme výkon našeho modelu. Pro totéž se používá řada technik hodnocení kvality obrazu (IQA) (nebo metrik). Tyto metriky lze obecně rozdělit do dvou kategorií-Subjektivní metriky a objektivní metriky.

Subjektivní metriky jsou založeny na percepčním hodnocení lidského pozorovatele, zatímco objektivní metriky jsou založeny na výpočetních modelech, které se snaží posoudit kvalitu obrazu. Subjektivní metriky jsou často více „vjemově přesné“, nicméně některé z těchto metrik jsou nepohodlné, časově náročné nebo nákladné pro výpočet. Dalším problémem je, že tyto dvě kategorie metrik nemusí být vzájemně konzistentní. Proto vědci často zobrazují výsledky pomocí metrik z obou kategorií.

v této části stručně prozkoumáme několik široce používaných metrik k vyhodnocení výkonu našeho modelu super rozlišení.

PSNR

Peak Signal-to-Noise Ratio (PSNR) je běžně používaná objektivní metrika pro měření kvality rekonstrukce ztrátové transformace. PSNR je nepřímo úměrná logaritmu střední kvadratické chyby (MSE) mezi pozemním obrazem pravdy a generovaným obrazem.

Výpočet PSNR. (Zdroj)

ve výše uvedeném vzorci je L maximální možná hodnota pixelu (pro 8bitové RGB obrazy je to 255). Není překvapením, že protože PSNR se stará pouze o rozdíl mezi hodnotami Pixelů, nepředstavuje tak dobře percepční kvalitu.

SSIM

strukturální podobnost (SSIM) je subjektivní metrika používaná pro měření strukturní podobnosti mezi obrazy na základě tří relativně nezávislých srovnání, jmenovitě jasu, kontrastu a struktury. Abstraktně lze vzorec SSIM zobrazit jako vážený produkt srovnání jasu, kontrastu a struktury vypočtené nezávisle.

SSIM je vážený produkt srovnání, jak je popsáno výše. (Zdroj)

Ve výše uvedeném vzorci, alfa, beta a gama jsou váhy jas, kontrast a strukturu, porovnávací funkce, resp. Běžně používané reprezentace SSIM vzorce je, jak je uvedeno níže:

Běžně používané reprezentace SSIM vzorce. (Zdroj)

výše uvedený vzorec μ(I)představuje na mysli konkrétní obrázek, σ(I)představuje směrodatnou odchylku určitého obrazu,σ(I,I’)představuje kovariance mezi dvěma obrázky, a C1, C2 jsou konstanty stanovené pro zabránění nestability. Pro stručnost, význam pojmů a přesné odvození není vysvětleno v tomto blogu a zainteresovaný čtenář může pokladna oddíl 2.3.2 v tomto článku.

Vzhledem k možné nerovnoměrně rozložení obrazu, statistické funkce nebo narušení, hodnocení kvality obrazu lokálně je spolehlivější než použití po celém světě. Tím SSIM (MSSIM), která rozděluje obraz do více oken a průměry SSIM získat na každé okno, je jeden takový způsob posuzování kvality lokálně.

v každém případě, protože SSIM hodnotí kvalitu rekonstrukce z pohledu lidského vizuálního systému, lépe splňuje požadavky percepčního hodnocení.

Ostatní skóre IQA

bez vysvětlení jsou některé další metody hodnocení kvality obrazu uvedeny níže. Zainteresovaný čtenář může odkazovat na tento dokument pro více informací.

  • Stanovisko Score (MOS)
  • Úkol-na základě Hodnocení
  • Informace Fidelity Kritérium (IFC)
  • Vizuální Informace Fidelity (VIF)

Závěr

Tento blog článek se vztahuje některé úvodní materiál a postupy pro školení hluboké učení modely za Super Rozlišení. Existují skutečně pokročilejší techniky zavedené nejmodernější výzkum, který může přinést lepší výkon. Dále, výzkum cest, jako je bez dozoru super rozlišení, lepší normalizační techniky a lepší reprezentativní metriky, by mohl tuto oblast výrazně rozšířit. Zainteresovaný čtenář je povzbuzován k experimentování se svými inovativními nápady účastí na výzvách, jako je PIRM Challenge.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.