An Introduction to Super-Resolution using Deep Learning

an explanate discussion on the various Components, Loss Functions and Metrics used for Super Resolution using Deep Learning.

Photo by Jeremy Thomas on Unsplash

Introduction

Super Resolution is the process of recovering a High Resolution (HR) image from a given Low Resolution (Lr) image. Kuva voi olla ”pienempi resoluutio” johtuen pienemmästä avaruudellisesta erottelukyvystä (eli koosta) tai johtuen hajoamisesta (kuten sumentumisesta). HR-ja LR-kuvia voidaan suhteuttaa seuraavan yhtälön kautta: LR = degradation(HR)

korkean resoluution version lisäksi säilytetty matalaresoluutioinen kuva. (Jarrad Horne on Unsplash)

selvästi hajoamisfunktiota sovellettaessa saadaan LR-kuva HR-kuvasta. Mutta voimmeko tehdä päinvastoin? Ihanteellisessa tapauksessa kyllä! Jos tiedämme tarkan hajoamisfunktion, soveltamalla sen käänteisfunktiota LR-kuvaan, voimme palauttaa HR-kuvan.

mutta siinä piilee ongelma. Emme yleensä tiedä hajoamisfunktiota ennen kättä. Käänteisen hajoamisfunktion suora arviointi on huonosti aiheutettu ongelma. Tästä huolimatta Syväoppimistekniikat ovat osoittautuneet tehokkaiksi Superresoluutioon.

Tämä blogi keskittyy ensisijaisesti tarjoamaan johdannon Superresoluution suorittamiseen syväoppimisen avulla ohjatuilla harjoitusmenetelmillä. Joitakin tärkeitä tappio toiminnot ja mittarit ovat myös keskusteltu. Suuri osa sisällöstä on peräisin tästä kirjallisuuskatsauksesta, johon lukija voi viitata.

valvotut menetelmät

kuten aiemmin mainittiin, syväoppimista voidaan käyttää korkean resoluution (HR) kuvan estimointiin, kun annetaan matalan resoluution (Lr) kuva. Käyttämällä HR-kuvaa maalitauluna (tai maa-totuutena) ja LR-kuvaa syötteenä voimme käsitellä tätä valvotun oppimisen ongelmana.

tässä osiossa ryhmitellään erilaisia syväoppimisen lähestymistapoja konvoluutiokerrosten järjestämistavan mukaan. Ennen kuin siirrymme ryhmiin, esitämme pohjustuksen tietojen valmistelusta ja konvolutioiden tyypeistä. Mallin optimointiin käytetyt Loss-toiminnot esitellään erikseen tämän blogin loppupuolella.

tietojen valmistelu

yksi helppo tapa saada LR-tietoja on HR-tietojen heikentäminen. Tämä tapahtuu usein sumentamalla tai lisäämällä melua. Pienemmän spatiaalisen erottelukyvyn kuvia voidaan skaalata myös klassisella ylänäytteenottomenetelmällä, kuten Bilineaarisella tai Bikubisella interpoloinnilla. Kuvan heikentämiseksi voidaan ottaa käyttöön myös JPEG-ja kvantisointiesineitä.

halventaa korkean resoluution kuvaa saadakseen siitä matalaresoluutioisen version. (Jarrad Horne Unsplashilla)

yksi tärkeä huomioonottava asia on, että on suositeltavaa tallentaa HR-kuva pakkaamattomassa (tai häviöttömässä pakatussa) muodossa. Tällä pyritään estämään HR-kuvan laadun heikkeneminen häviöllisen puristuksen vuoksi, mikä voi antaa alioptimaalisen suorituskyvyn.

Konvolutioiden tyypit

klassisten 2D-Konvolutioiden lisäksi verkoissa voidaan käyttää useita mielenkiintoisia variaatioita parempien tulosten saavuttamiseksi. Dilated (Atrous) convolutions voi tarjota suuremman tehokkaan näkökentän, joten käyttämällä tietoa, jotka on erotettu suuri etäisyys. Skip-yhteydet, spatiaalinen pyramidin yhdistäminen ja tiheät lohkot motivoivat yhdistämään sekä matalan että korkean tason ominaisuuksia suorituskyvyn parantamiseksi.

verkon suunnittelustrategiat. (Lähde)

yllä olevassa kuvassa mainitaan useita verkon suunnittelustrategioita. Lue lisää tästä lehdestä. Jotta pohjamaali eri convolutions yleisesti käytetty syvä oppiminen, voit viitata tähän blogiin.

Ryhmä 1 — esikuva

tässä menetelmässä matalaresoluutioiset kuvat interpoloidaan ensin ”karkean” korkean resoluution kuvan saamiseksi. Nyt, CNNs käytetään oppia päästä päähän kartoitus interpoloitu matalan resoluution kuvia korkean resoluution kuvia. Intuitio oli, että se voi olla helpompi ensin upsample matalaresoluutioisia kuvia perinteisin menetelmin (kuten Bilineaarinen interpolointi) ja sitten tarkentaa tuloksena kuin oppia suora kartoitus matalan ulotteinen tila korkea-ulotteinen tila.

tyypillinen esikuvaverkosto. (Source)

joidenkin tätä tekniikkaa käyttävien mallien kohdalla voi viitata tämän paperin sivulle 5. Etuna on, että koska upsampling hoidetaan perinteisin menetelmin, CNN: n tarvitsee vain opetella tarkentamaan karkeaa kuvaa, joka on yksinkertaisempaa. Lisäksi, koska emme käytä transponoituja convolutions täällä, shakkilauta esineitä ehkä kiertää. Haittapuolena on kuitenkin se, että ennalta määritellyt upsampling-menetelmät voivat vahvistaa melua ja aiheuttaa sumentumista.

ryhmä 2— Upsampling

tässä tapauksessa matalaresoluutioiset kuvat siirtyvät CNNs: ään sellaisenaan. Upsampling suoritetaan viimeisessä kerroksessa käyttäen opetettavissa kerros.

tyypillinen jälkinäyteverkko. (Source)

tämän menetelmän etuna on se, että piirteiden poiminta suoritetaan alempiulotteisessa avaruudessa (ennen upsamplingia) ja siten laskennallinen monimutkaisuus vähenee. Lisäksi mallia voidaan kouluttaa päästä päähän käyttämällä opeteltavaa upsampling-kerrosta.

ryhmä 3— Progressive Upsampling

edellä mainitussa ryhmässä käytettiin vain yhtä upsampling konvoluutiota, vaikka laskennallinen monimutkaisuus pienenikin. Tämä vaikeuttaa oppimisprosessia suurille skaalaustekijöille. Tämän haittapuolen korjaamiseksi otettiin käyttöön progressiivisen näytteenottokehyksen sellaiset teokset kuin Laplacian Pyramid Sr Network (LapSRN) ja Progressive Sr (ProSR). Tässä tapauksessa mallit käyttävät cnns-kaskadia suuriresoluutioisten kuvien asteittaiseen rekonstruointiin pienemmillä skaalauskertoimilla jokaisessa vaiheessa.

tyypillinen progressive-upsampling-verkosto. (Source)

hajottamalla vaikean tehtävän yksinkertaisemmiksi tehtäviksi oppimisvaikeus vähenee huomattavasti ja suorituskykyä voidaan parantaa. Lisäksi opetussuunnitelmaoppimisen kaltaisia oppimisstrategioita voidaan integroida oppimisvaikeuksien vähentämiseksi ja lopullisen suorituskyvyn parantamiseksi.

ryhmä 4 — iteratiivinen ylös ja alas-otanta

toinen suosittu malli-arkkitehtuuri on tiimalasi (tai U-Net) – rakenne. Jotkut vaihtoehdot, kuten Pinottu tiimalasi verkko, käyttävät useita tiimalasi rakenteita sarjassa, tehokkaasti vuorotellen prosessin upsampling ja downsampling.

tyypillinen iteratiivinen ylös-ja alas-näytteenottoverkko. (Source)

tämän kehyksen mallit voivat paremmin louhia syviä suhteita LR-HR-kuvaparien välillä ja siten tuottaa laadukkaampia rekonstruktiotuloksia.

Häviöfunktioita

Häviöfunktioita käytetään mittaamaan tuotetun korkean resoluution kuvan ja maanpinnan totuuden korkean resoluution kuvan eroa. Tätä eroa (virhettä) käytetään sitten valvotun oppimismallin optimointiin. Useita luokkia menetys toimintoja on olemassa, joista jokainen rankaisee eri osa luotu kuva.

usein käytetään useampaa kuin yhtä tappiofunktiota painottamalla ja laskemalla yhteen kustakin tappiofunktiosta saadut virheet erikseen. Näin malli pystyy keskittymään useiden tappiollisten toimintojen vaikutuksiin samanaikaisesti.

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

tässä jaksossa tutustutaan muutamiin suosittuihin lossifunktioluokkiin, joita käytetään mallien kouluttamiseen.

Pikselihäviö

Pikselihäviö on yksinkertaisin häviöfunktioiden luokka, jossa jokaista tuotetun kuvan pikseliä verrataan suoraan jokaiseen maanpinnan totuuskuvan pikseliin. Suosittuja tappio toimintoja, kuten L1 tai L2 menetys tai kehittyneitä muunnelmia, kuten sileä L1 menetys käytetään.

plot of Smooth L1 Loss. (Source)

PSNR-metriikka (käsitelty alla) korreloi suuresti pikseliviisauden kanssa, ja siten pikselihäviön minimointi maksimoi suoraan PSNR-metrisen arvon (osoittaa hyvää suorituskykyä). Pikselihäviö ei kuitenkaan ota huomioon kuvanlaatua ja malli tuottaa usein havainnollisesti epätyydyttäviä tuloksia (usein puuttuu suurtaajuustiedot).

Sisällönhäviö

tämä häviö arvioi kuvanlaatua sen havaintolaadun perusteella. Mielenkiintoinen tapa tehdä tämä on vertaamalla luodun kuvan Korkean tason ominaisuuksia ja maanpäällistä totuuskuvaa. Voimme saada nämä korkean tason ominaisuudet välittämällä molemmat kuvat ennalta koulutetun kuvanluokitusverkon (kuten VGG-Net tai ResNet) kautta.

sisällönhäviö maanpäällisen totuuskuvan ja luodun kuvan välillä. (Source)

yllä oleva yhtälö laskee pohjatotuuskuvan ja luodun kuvan välisen sisältöhäviön, kun otetaan huomioon ennalta koulutettu verkko (Φ) ja tämän ennalta koulutetun verkon kerros (l), jolla häviö lasketaan. Tämä menetys kannustaa syntynyttä kuvaa havainnollisesti samanlaiseksi kuin maa-totuuskuvaa. Tästä syystä se tunnetaan myös nimellä Aistihäviö.

Tekstuurihäviö

, jotta syntyvällä kuvalla on sama tyyli (tekstuuri, väri, kontrasti jne.) kuten ground truth kuva, tekstuuri tappio (tai tyyli rekonstruktio tappio) käytetään. Gatys et: n kuvaama kuvan rakenne. al, määritellään korrelaatioksi eri ominaisuuskanavien välillä. Ominaisuuskanavat saadaan yleensä piirtokartasta, joka on poimittu valmiiksi koulutetun kuvanluokitusverkoston (Φ) avulla.

Computing the Gram Matrix. (Source)

ominaisuuskarttojen välistä korrelaatiota edustaa Gram-matriisi (G), joka on vektoroitujen ominaisuuskarttojen sisäinen tulo i ja j on layer l(yllä). Kun Grammamatriisi on laskettu molemmille kuville, tekstuurihäviön laskeminen on suoraviivaista, kuten alla on esitetty:

Tekstuurihäviön laskenta. (Source)

käyttämällä tätä häviötä mallia motivoidaan luomaan realistisia kuvioita ja visuaalisesti tyydyttävämpiä tuloksia.

Kokonaisvariaatiohäviö

Kokonaisvariaatiohäviötä (TV) käytetään syntyneiden kuvien kohinan vaimentamiseen. Se vie naapuripikselien absoluuttisten erojen summan ja mittaa, kuinka paljon kohinaa kuvassa on. Luodulle kuvalle TV-häviö lasketaan alla olevalla tavalla:

Kokonaisvaihteluhäviö, jota käytetään luodussa korkean resoluution kuvassa. (Lähde)

täällä i,j,k iteroi korkeuden, leveyden ja kanavien yli.

kontradiktorista tappiota

generatiivisia Kontradiktorisia verkkoja (GANs) on käytetty yhä enemmän useissa kuvapohjaisissa sovelluksissa, kuten Superresoluutiossa. Ganit koostuvat tyypillisesti kahden hermoverkon — generaattorin ja Erottelijan — järjestelmästä, joka kaksintaistelee toisiaan.

Kohdenäytteiden joukosta generaattori yrittää tuottaa näytteitä, jotka voivat huijata Erottelijaa uskomaan, että ne ovat todellisia. Erottelija yrittää ratkaista todelliset (kohde) näytteet väärennetyistä (luotu) näytteistä. Käyttämällä tätä iteratiivista koulutusmallia päädymme lopulta generaattoriin, joka on todella hyvä tuottamaan näytteitä, jotka ovat samanlaisia kuin kohdenäytteet. Seuraavassa kuvassa näkyy tyypillisen Ganin rakenne.

GANs in action. (Source)

edistysaskeleet gan-perusarkkitehtuuriin otettiin käyttöön suorituskyvyn parantamiseksi. Esimerkiksi Park et. al. käytti ominaisuustason erottelijaa kuvaamaan mielekkäämpiä potentiaalisia ominaisuuksia todellisista korkearesoluutioisista kuvista. Voit kassalle tämän blogin tarkempaa tutkimusta edistysaskeleista GANs.

tyypillisesti kontradiktorisen tappion kanssa koulutetuilla malleilla on parempi havaintokyky, vaikka ne saattavatkin hävitä PSNR: ssä verrattuna pikselihäviöön koulutettuihin. Yksi pieni haittapuoli on, että, koulutus prosessi GANs on hieman vaikea ja epävakaa. Gan-koulutuksen vakauttamiseen tähtääviä menetelmiä kuitenkin työstetään aktiivisesti.

Mittarit

yksi iso kysymys on, miten me kvantitatiivisesti arvioimme mallimme suorituskykyä. Samaan käytetään useita kuvanlaadun arviointitekniikoita (IQA) (tai mittareita). Nämä mittarit voidaan jakaa karkeasti kahteen luokkaan — subjektiivisiin mittareihin ja objektiivisiin mittareihin.

subjektiiviset metriikat perustuvat ihmisen havaitsijan havaintoarviointiin, kun taas objektiiviset metriikat perustuvat laskennallisiin malleihin, jotka pyrkivät arvioimaan kuvanlaatua. Subjektiiviset mittarit ovat usein ”tarkkanäköisempiä”, mutta jotkut näistä mittareista ovat hankalia, aikaa vieviä tai kalliita laskea. Toinen ongelma on se, että nämä kaksi mittariluokkaa eivät välttämättä ole yhdenmukaisia keskenään. Siksi tutkijat usein näyttävät tuloksia käyttämällä mittareita molemmista luokista.

tässä osiossa tutustumme lyhyesti pariin laajalti käytettyyn mittariin superresoluutiomallimme suorituskyvyn arvioimiseksi.

PSNR

Huippusignaali-kohinasuhde (Psnr) on yleisesti käytetty objektiivinen metriikka, jolla mitataan häviöllisen muunnoksen rekonstruktiolaatua. PSNR on kääntäen verrannollinen maanpinnan totuuskuvan ja luodun kuvan välisen keskimääräisen Neliövirheen (MSE) logaritmiin.

Psnr: n laskeminen. (Source)

yllä olevassa kaavassa l on suurin mahdollinen pikseliarvo (8-bittisissä RGB-kuvissa se on 255). Ei ole yllättävää, koska PSNR välittää vain pikseliarvojen eroista, se ei edusta havainnollista laatua kovin hyvin.

SSIM

rakenteellinen samankaltaisuus (SSIM) on kuvien rakenteellisen samankaltaisuuden mittaamiseen käytetty Subjektiivinen metriikka, joka perustuu kolmeen suhteellisen riippumattomaan vertailuun eli luminanssiin, kontrastiin ja rakenteeseen. Abstraktisti SSIM-kaava voidaan esittää painotettuna tulona luminanssin, kontrastin ja rakenteen vertailusta, joka lasketaan itsenäisesti.

SSIM on edellä kuvattujen vertailujen painotettu tulo. (Source)

yllä olevassa kaavassa alfa, beeta ja gamma ovat vastaavasti Luminanssi -, kontrasti-ja rakennevertailufunktioiden painot. SSIM-kaavan yleisesti käytetty esitys on alla:

yleisesti käytetty esitys SSIM-kaavasta. (Lähde)

yllä olevalla kaavalla μ(I)edustaa tietyn kuvan keskiarvoa, σ(I)edustaa tietyn kuvan keskihajontaa,σ(I,I’)edustaa kovarianssi kahden kuvan välillä ja C1, C2 ovat vakioita, jotka on asetettu epävakauden välttämiseksi. Lyhyys, merkitys termien ja tarkka johtaminen ei selitetä tässä blogissa ja kiinnostunut lukija voi kassalle kohdassa 2.3.2 tässä paperissa.

kuvan tilastollisten ominaisuuksien mahdollisen epätasaisen jakautumisen tai vääristymien vuoksi kuvanlaadun arviointi paikallisesti on luotettavampaa kuin sen soveltaminen maailmanlaajuisesti. Mean SSIM (MSSIM), joka jakaa kuvan useisiin ikkunoihin ja keskiarvottaa kunkin ikkunan kohdalla saadun SSIM: n, on yksi tällainen menetelmä laadun arvioimiseksi paikallisesti.

joka tapauksessa, koska SSIM arvioi rekonstruktion laatua ihmisen näköjärjestelmän näkökulmasta, se täyttää paremmin havaintoarvioinnin vaatimukset.

muut IQA-pisteet

ilman selityksiä alla on lueteltu joitakin muita kuvanlaadun arviointimenetelmiä. Kiinnostunut lukija voi viitata tämän paperin lisätietoja.

  • Mean Opinion Score (Mos)
  • Task-based Evaluation
  • Information Fidelity Criterion (IFC)
  • Visual Information Fidelity (VIF)

Conclusion

tämä blogiartikkeli käsitteli perusteluaineistoa ja menetelmiä Syväoppimismallien kouluttamiseksi Superresoluutiota varten. On todellakin kehittyneempiä tekniikoita käyttöön uusinta tutkimusta, joka voi tuottaa parempaa suorituskykyä. Lisäksi, tutkia keinoja, kuten valvomaton super resoluutio, parempi normalisointi tekniikoita ja paremmin edustavia mittareita voisi suuresti edistää tällä alalla. Kiinnostunutta lukijaa kannustetaan kokeilemaan innovatiivisia ideoitaan osallistumalla pirm-haasteen kaltaisiin haasteisiin.

Jaa nyt

Vastaa

Sähköpostiosoitettasi ei julkaista.