En introduktion til Superopløsning ved hjælp af dyb læring

en detaljeret diskussion om de forskellige komponenter, Tabsfunktioner og målinger, der bruges til Superopløsning ved hjælp af dyb læring.

foto af Jeremy Thomas på Unsplash

introduktion

Superopløsning er processen med at gendanne et billede med høj opløsning (HR) fra en given lav opløsning (LR) billede. Et billede kan have en” lavere opløsning ” på grund af en mindre rumlig opløsning (dvs.størrelse) eller på grund af et resultat af nedbrydning (såsom sløring). Vi kan relatere HR-og LR-billederne gennem følgende ligning: LR = degradation(HR)

et billede med lav opløsning holdt udover sin version med høj opløsning. (Foto af Jarrad Horne på Unsplash)

Når vi anvender en nedbrydningsfunktion, får vi klart LR-billedet fra HR-billedet. Men kan vi gøre det omvendte? I det ideelle tilfælde, ja! Hvis vi kender den nøjagtige nedbrydningsfunktion ved at anvende dens inverse til LR-billedet, kan vi gendanne HR-billedet.

men der ligger problemet. Vi kender normalt ikke nedbrydningsfunktionen før hånden. Direkte estimering af den inverse nedbrydningsfunktion er et dårligt stillet problem. På trods af dette har dybe læringsteknikker vist sig at være effektive til Superopløsning.

denne blog fokuserer primært på at give en introduktion til at udføre Superopløsning ved hjælp af dyb læring ved hjælp af overvågede træningsmetoder. Nogle vigtige tabsfunktioner og målinger diskuteres også. Meget af indholdet stammer fra denne litteraturanmeldelse, som læseren kan henvise til.

overvågede metoder

som nævnt før kan dyb læring bruges til at estimere billedet med høj opløsning (HR) givet et billede med lav opløsning (LR). Ved at bruge HR-billedet som et mål (eller ground-truth) og lr-billedet som input, kan vi behandle dette som et overvåget læringsproblem.

i dette afsnit grupperer vi forskellige dybe læringsmetoder på den måde, som konvolutionslagene er organiseret. Før vi går videre til grupperne, præsenteres en primer på data forberedelse og typer af vindinger. Tabsfunktioner, der bruges til at optimere modellen, præsenteres separat mod slutningen af denne blog.

forberedelse af dataene

en nem metode til at opnå LR-data er at nedbryde HR-data. Dette gøres ofte ved at sløre eller tilføje støj. Billeder med lavere rumlig opløsning kan også skaleres ved hjælp af en klassisk upsampling metode såsom Bilinear eller Bicubic interpolation. JPEG-og kvantiseringsartefakter kan også introduceres for at nedbryde billedet.

nedbrydning af et højopløsningsbillede for at opnå en lavopløsningsversion af det. (Foto af Jarrad Horne på Unsplash)

en vigtig ting at bemærke er, at det anbefales at gemme HR-billedet i et ukomprimeret (eller tabsfri komprimeret) format. Dette er for at forhindre forringelse af kvaliteten af HR-billedet på grund af tabsfri kompression, hvilket kan give suboptimal ydelse.

typer af svingninger

udover klassiske 2D-svingninger kan flere interessante varianter bruges i netværk til forbedrede resultater. Udvidede (Atrous) svingninger kan give et større effektivt synsfelt og dermed bruge information, der er adskilt af en stor afstand. Spring forbindelser, rumlig pyramide Pooling og tætte blokke motivere kombinere både lavt niveau og højt niveau funktioner til at forbedre ydeevnen.

netværk design strategier. (Kilde)

ovenstående billede nævner en række netværksdesignstrategier. Du kan henvise til dette papir for mere information. For en primer på de forskellige typer af vindinger almindeligt anvendt i dyb læring, Du kan henvise til denne blog.

gruppe 1 — Pre-Upsampling

i denne metode interpoleres billederne med lav opløsning først for at opnå et “groft” højopløsningsbillede. Nu bruges CNN ‘ er til at lære en ende-til-ende-kortlægning fra de interpolerede billeder med lav opløsning til billederne med høj opløsning. Intuitionen var, at det kan være lettere at først prøve billederne med lav opløsning ved hjælp af traditionelle metoder (såsom bilinær interpolation) og derefter forfine det resulterende end at lære en direkte kortlægning fra et lavdimensionelt rum til et højdimensionelt rum.

et typisk pre-upsampling netværk. (Kilde)

Du kan henvise til side 5 i dette papir for nogle modeller ved hjælp af denne teknik. Fordelen er, at da opsamplingen håndteres af traditionelle metoder, behøver CNN kun at lære at forfine det grove billede, hvilket er enklere. Desuden, da vi ikke bruger transponerede konvolutter her, skakbræt artefakter måske omgået. Ulempen er imidlertid, at de foruddefinerede upsampling metoder kan forstærke støj og forårsage sløring.

gruppe 2— Post-Upsampling

i dette tilfælde overføres billederne med lav opløsning til CNNs som sådan. Upsampling udføres i det sidste lag ved hjælp af et lærbart lag.

et typisk post-upsampling netværk. (Kilde)

fordelen ved denne metode er, at funktionsekstraktion udføres i det nedre dimensionelle rum (før opsampling), og dermed reduceres beregningskompleksiteten. Desuden kan Modellen trænes ende-til-ende ved hjælp af et lærbart upsampling-lag.

gruppe 3— progressiv Upsampling

i ovenstående gruppe, selvom beregningskompleksiteten blev reduceret, blev der kun brugt en enkelt upsampling-konvolution. Dette gør læringsprocessen sværere for store skaleringsfaktorer. For at imødegå denne ulempe blev en progressiv upsampling ramme vedtaget af værker som Laplacian Pyramid SR netværk (LapSRN) og progressiv sr (ProSR). Modellerne bruger i dette tilfælde en kaskade af CNN ‘ er til gradvist at rekonstruere billeder i høj opløsning ved mindre skaleringsfaktorer ved hvert trin.

et typisk progressivt upsampling netværk. (Kilde)

Ved at nedbryde en vanskelig opgave til enklere opgaver reduceres indlæringsvanskeligheden kraftigt, og bedre ydeevne kan opnås. Desuden kan læringsstrategier som læseplanindlæring integreres for yderligere at reducere indlæringsvanskeligheder og forbedre den endelige præstation.

gruppe 4 — iterativ op og ned Sampling

en anden populær modelarkitektur er hourglass (eller U-Net) struktur. Nogle varianter, såsom det stablede Timeglasnetværk, bruger flere timeglasstrukturer i serie og skifter effektivt mellem processen med opsampling og nedsampling.

et typisk iterativt op-og-ned samplingsnetværk. (Kilde)

modellerne under denne ramme kan bedre minde de dybe forhold mellem LR-HR-billedparene og dermed give rekonstruktionsresultater af højere kvalitet.

Tabsfunktioner

Tabsfunktioner bruges til at måle forskellen mellem det genererede højopløsningsbillede og det jordlige sandhedsbillede med høj opløsning. Denne forskel (fejl) bruges derefter til at optimere den overvågede læringsmodel. Der findes flere klasser af tabsfunktioner, hvor hver især straffer et andet aspekt af det genererede billede.

ofte bruges mere end en tabsfunktion ved at vægte og opsummere de fejl, der er opnået fra hver tabsfunktion individuelt. Dette gør det muligt for modellen at fokusere på aspekter, der bidrager med flere tabsfunktioner samtidigt.

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

i dette afsnit vil vi undersøge nogle populære klasser af tabsfunktioner, der bruges til træning af modellerne.

Billedtab

Billedtab er den enkleste klasse af tabsfunktioner, hvor hvert billedtab i det genererede billede sammenlignes direkte med hvert billedtab i jord-sandhedsbilledet. Populære tabsfunktioner såsom L1-eller L2-tab eller avancerede varianter såsom det glatte L1-tab bruges.

Plot af glat L1 tab. (Kilde)

PSNR-metrikken (diskuteret nedenfor) er stærkt korreleret med den billedvise forskel, og dermed minimerer billedtabet direkte den PSNR-metriske værdi (indikerer god ydeevne). Imidlertid tager billedtab ikke højde for billedkvaliteten, og modellen udsender ofte perceptuelt utilfredsstillende resultater (mangler ofte detaljer med høj frekvens).

indholdstab

dette tab evaluerer billedkvaliteten baseret på dens perceptuelle kvalitet. En interessant måde at gøre dette på er ved at sammenligne funktionerne på højt niveau i det genererede billede og jorden sandhedsbillede. Vi kan få disse funktioner på højt niveau ved at føre begge disse billeder gennem et forududdannet billedklassificeringsnetværk (såsom et VGG-Net eller et ResNet).

indholdstab mellem et jord sandhedsbillede og et genereret billede. (Kilde)

ligningen ovenfor beregner indholdstabet mellem et jord-sandhedsbillede og et genereret billede, givet et forududdannet netværk (Kurt) og et lag (l) af dette forududdannede netværk, hvor tabet beregnes. Dette tab tilskynder det genererede billede til at være perceptuelt ligner jord-sandhedsbilledet. Af denne grund er det også kendt som det perceptuelle tab.

Teksturtab

for at aktivere det genererede billede for at have samme stil (tekstur, farve, kontrast osv.) som jorden sandhed billede, tekstur tab (eller stil genopbygning tab) anvendes. Teksturen af et billede, som beskrevet af Gatys et. al, er defineret som sammenhængen mellem forskellige funktionskanaler. Funktionskanalerne fås normalt fra et funktionskort, der er ekstraheret ved hjælp af et forududdannet billedklassificeringsnetværk (Kurt).

beregning af Grammatricen. (Kilde)

sammenhængen mellem funktionskortene er repræsenteret af Grammatricen (G), som er det indre produkt mellem de vektoriserede funktionskort i og j på lag l(vist ovenfor). Når Grammatricen er beregnet for begge billeder, beregnes teksturtabet lige fremad, som vist nedenfor:

beregning af Teksturtabet. (Kilde)

Ved at bruge dette tab er modellen motiveret til at skabe realistiske teksturer og visuelt mere tilfredsstillende resultater.

Total Variationstab

tab af total Variation (TV) bruges til at undertrykke støj i de genererede billeder. Det tager summen af de absolutte forskelle mellem nabobillederne og måler, hvor meget støj der er i billedet. For et genereret billede beregnes TV-tabet som vist nedenfor:

samlet Variationstab brugt på et genereret højopløsningsbillede. (Kilde)

Her, i,j,k gentager henholdsvis højden, bredden og kanalerne.

kontradiktorisk tab

Generative kontradiktoriske netværk (Gan ‘ er) er i stigende grad blevet brugt til flere billedbaserede applikationer, herunder Superopløsning. Gan ‘ er består typisk af et system af to neurale netværk — generatoren og Diskriminatoren — duellerer hinanden.

givet et sæt målprøver forsøger generatoren at producere prøver, der kan narre Diskriminatoren til at tro, at de er virkelige. Diskriminatoren forsøger at løse reelle (mål) prøver fra falske (genererede) prøver. Ved hjælp af denne iterative træningsmetode ender vi til sidst med en Generator, der er rigtig god til at generere prøver svarende til målprøverne. Følgende billede viser strukturen af en typisk GAN.

GANs i aktion. (Kilde)

fremskridt til den grundlæggende Gan-arkitektur blev introduceret for forbedret ydeevne. For eksempel, Park et. al. brugte en funktionsniveau-diskriminator til at fange mere meningsfulde potentielle attributter af ægte billeder i høj opløsning. Du kan tjekke denne blog for en mere detaljeret undersøgelse om fremskridtene i GANs.

typisk har modeller, der er trænet med kontradiktorisk tab, bedre perceptuel kvalitet, selvom de måske mister PSNR sammenlignet med dem, der er trænet i billedtab. En mindre ulempe er, at træningsprocessen for GANs er lidt vanskelig og ustabil. Imidlertid arbejdes der aktivt på metoder til stabilisering af GAN-træning.

Metrics

et stort spørgsmål er, hvordan vurderer vi kvantitativt udførelsen af vores model. En række billedkvalitetsvurderingsteknikker (eller metrics) bruges til det samme. Disse målinger kan bredt klassificeres i to kategorier — subjektive målinger og objektive målinger.

subjektive målinger er baseret på den menneskelige observatørs perceptuelle evaluering, mens objektive målinger er baseret på beregningsmodeller, der forsøger at vurdere billedkvaliteten. Subjektive målinger er ofte mere” perceptuelt nøjagtige”, men nogle af disse målinger er ubelejlige, tidskrævende eller dyre at beregne. Et andet problem er, at disse to kategorier af målinger muligvis ikke er i overensstemmelse med hinanden. Derfor viser forskere ofte resultater ved hjælp af målinger fra begge kategorier.

i dette afsnit vil vi kort undersøge et par af de meget anvendte målinger til at evaluere ydeevnen for vores superopløsningsmodel.

PSNR

Peak Signal-to-Noise Ratio (PSNR) er almindeligt anvendt objektiv metrisk til at måle genopbygningskvaliteten af en tabsfri transformation. PSNR er omvendt proportional med logaritmen for den gennemsnitlige kvadrerede fejl (MSE) mellem jorden sandhedsbillede og det genererede billede.

beregning af PSNR. (Kilde)

i ovenstående formel er L den maksimale mulige billedværdi (for 8-bit RGB-billeder er det 255). Ikke overraskende, da PSNR kun bekymrer sig om forskellen mellem billedværdierne, repræsenterer det ikke perceptuel kvalitet så godt.

SSIM

strukturel lighed (SSIM) er en subjektiv måling, der anvendes til måling af strukturel lighed mellem billeder, baseret på tre relativt uafhængige sammenligninger, nemlig luminans, kontrast og struktur. Abstrakt kan SSIM-formlen vises som et vægtet produkt af sammenligningen af luminans, kontrast og struktur beregnet uafhængigt.

SSIM er et vægtet produkt af sammenligninger som beskrevet ovenfor. (Kilde)

i ovenstående formel er alfa, beta og gamma vægten af henholdsvis luminans -, kontrast-og struktursammenligningsfunktionerne. Den almindeligt anvendte repræsentation af SSIM-formlen er som vist nedenfor:

almindeligt anvendt repræsentation af SSIM-formlen. (Kilde)

i ovenstående formel μ(I)repræsenterer gennemsnittet af et bestemt billede, σ(I)repræsenterer standardafvigelsen for et bestemt billede,σ(I,I’)repræsenterer standardafvigelsen for et bestemt billede, σ(I,I’) repræsenterer kovarians mellem to billeder og C1, C2 er konstanter indstillet til at undgå ustabilitet. For korthed er betydningen af udtrykkene og den nøjagtige afledning ikke forklaret i denne blog, og den interesserede læser kan tjekke afsnit 2.3.2 i dette papir.

på grund af den mulige ujævne fordeling af billedstatistiske funktioner eller forvrængninger er det mere pålideligt at vurdere billedkvaliteten lokalt end at anvende den globalt. Gennemsnitlig SSIM (MSSIM), der opdeler billedet i flere vinduer og gennemsnit SSIM opnået ved hvert vindue, er en sådan metode til vurdering af kvalitet lokalt.

under alle omstændigheder, da SSIM evaluerer genopbygningskvaliteten ud fra det menneskelige visuelle systems perspektiv, opfylder det bedre kravene til den perceptuelle vurdering.

andre IKA-scoringer

uden forklaring er nogle andre metoder til vurdering af billedkvalitet angivet nedenfor. Den interesserede læser kan henvise til dette papir for flere detaljer.

  • Mean Opinion Score (MOS)
  • opgavebaseret evaluering
  • information Fidelity Criterion (IFC)
  • Visual Information Fidelity (Vif)

konklusion

denne blogartikel dækkede noget introduktionsmateriale og procedurer til træning af dybe læringsmodeller til Superopløsning. Der er faktisk mere avancerede teknikker introduceret af state of the art forskning, som kan give bedre ydeevne. Desuden kan forskning på veje som uovervåget superopløsning, bedre normaliseringsteknikker og bedre repræsentative målinger i høj grad fremme dette felt. Den interesserede læser opfordres til at eksperimentere med deres innovative ideer ved at deltage i udfordringer som PIRM Challenge.

Del Nu

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.