En utførlig diskusjon om de ulike Komponentene, Tapsfunksjonene og Beregningene som brukes Til Superoppløsning ved Hjelp Av Dyp Læring.
- Introduksjon
- Veiledet Metoder
- Forbereder Dataene
- Typer Convolutions
- Gruppe 1-Pre-Upsampling
- Gruppe 2-Post-Upsampling
- Gruppe 3-Progressiv Upsampling
- Gruppe 4-Iterativ Opp og Ned Sampling
- Tapsfunksjoner
- Pikseltap
- Tap av Innhold
- Teksturtap
- Totalt Variasjonstap
- Adversarial Loss
- Metrics
- PSNR
- Andre Iqa-Poeng
- Konklusjon
Introduksjon
Superoppløsning er prosessen med å gjenopprette ET HØYOPPLØSELIG (HR) bilde fra en Gitt Lav Oppløsning (Lr) bilde. Et bilde kan ha en «lavere oppløsning» på grunn av en mindre romlig oppløsning (dvs.størrelse) eller på grunn av nedbrytning (for eksempel uskarphet). VI kan relatere HR-og LR-bildene gjennom følgende ligning: LR = degradation(HR)
Klart, når vi bruker en nedbrytningsfunksjon, får VI LR-bildet fra HR-bildet. Men kan vi gjøre det omvendte? I det ideelle tilfellet, ja! Hvis vi vet nøyaktig degraderingsfunksjonen, ved å bruke den inverse TIL LR-bildet, kan VI gjenopprette HR-bildet.
Men det ligger i problemet. Vi vet vanligvis ikke degraderingsfunksjonen før hånden. Direkte estimering av den inverse nedbrytningsfunksjonen er et dårlig problem. Til tross for Dette Har Dype Læringsteknikker vist seg å være effektive For Superoppløsning.
denne bloggen fokuserer primært på å gi En introduksjon til å utføre Superoppløsning ved Hjelp Av Dyp Læring ved Hjelp Av Veiledede treningsmetoder. Noen viktige tap funksjoner og beregninger er også diskutert. Mye av innholdet er avledet fra denne litteraturvurderingen som leseren kan referere til.
Veiledet Metoder
som nevnt tidligere, kan dyp læring brukes til å estimere Høy Oppløsning (HR) bilde gitt En Lav Oppløsning (Lr) bilde. VED å bruke HR-bildet som et mål (eller grunnsannhet) og LR-bildet som en inngang, kan vi behandle dette som et veiledet læringsproblem.
i denne delen grupperer vi ulike dype læringsmetoder på den måten konvolusjonslagene er organisert. Før vi går videre til gruppene, presenteres en primer på data forberedelse og typer konvolutter. Tap funksjoner som brukes til å optimalisere modellen presenteres separat mot slutten av denne bloggen.
Forbereder Dataene
en enkel metode for å skaffe LR-data er å nedbryte HR-data. Dette gjøres ofte ved å sløre eller legge til støy. Bilder med lavere romlig oppløsning kan også skaleres med en klassisk oppsamplingsmetode som Bilinær eller Bikubisk interpolering. JPEG og kvantisering artefakter kan også bli introdusert for å degradere bildet.
en viktig ting å merke seg er at DET anbefales å lagre HR-bildet i et ukomprimert (eller lossless komprimert) format. Dette er for å forhindre forringelse av KVALITETEN PÅ HR-bildet på grunn av lossy komprimering, noe som kan gi suboptimal ytelse.
Typer Convolutions
Foruten klassiske 2d Convolutions, flere interessante varianter kan brukes i nettverk for bedre resultater. Dilaterte (Atrous) viklinger kan gi et større effektivt synsfelt, og dermed bruke informasjon som er adskilt av stor avstand. Hopp over tilkoblinger, Romlig Pyramide Pooling og Tette Blokker motivere kombinere både lavt nivå og høyt nivå funksjoner for å forbedre ytelsen.
bildet ovenfor nevner en rekke nettverksdesignstrategier. Du kan referere til dette papiret for mer informasjon. For en primer på de ulike typer konvolutter som vanligvis brukes i dyp læring, kan du referere til denne bloggen.
Gruppe 1-Pre-Upsampling
i denne metoden blir bildene med lav oppløsning først interpolert for å oppnå et «grovt» høyoppløselig bilde. Nå Er CNNs vant til å lære en ende-til-ende-kartlegging fra de interpolerte lavoppløselige bildene til høyoppløselige bildene. Intuisjonen var at det kan være lettere å først oppprøve de lavoppløselige bildene ved hjelp av tradisjonelle metoder (For Eksempel Bilinær interpolering) og deretter forfine resultatet enn å lære en direkte kartlegging fra et lavdimensjonalt rom til et høydimensjonalt rom.
du kan referere til side 5 i denne artikkelen for noen modeller som bruker denne teknikken. Fordelen er at SIDEN oppsampling håndteres av tradisjonelle metoder, TRENGER CNN bare å lære å forfine det grove bildet, noe som er enklere. Dessuten, siden vi ikke bruker transponerte konvolutter her, kan sjakkbrettartefakter kanskje omgå. Men ulempen er at de forhåndsdefinerte upsampling metoder kan forsterke støy og forårsake uskarphet.
Gruppe 2-Post-Upsampling
i dette tilfellet sendes bildene med lav oppløsning til Cnn-ene som sådan. Upsampling utføres i det siste laget ved hjelp av et lærbart lag.
fordelen med denne metoden er at funksjonsutvinning utføres i det nedre dimensjonale rommet (før upsampling) og dermed reduseres beregningskompleksiteten. Videre, ved hjelp av en learnable upsampling lag, modellen kan trenes ende-til-ende.
Gruppe 3-Progressiv Upsampling
i gruppen ovenfor, selv om beregningskompleksiteten ble redusert, ble bare en enkelt upsampling-konvolusjon brukt. Dette gjør læringsprosessen vanskeligere for store skaleringsfaktorer. For å løse denne ulempen ble et progressivt upsampling rammeverk vedtatt av verk som Lapslacian Pyramid Sr Network (LapSRN) og Progressive Sr (ProSR). Modellene bruker i dette tilfellet en kaskade Av CNNs for gradvis å rekonstruere høyoppløselige bilder ved mindre skaleringsfaktorer ved hvert trinn.
ved å dekomponere en vanskelig oppgave i enklere oppgaver, blir læringsproblemet sterkt redusert og bedre ytelse kan oppnås. Videre kan læringsstrategier som læreplanlæring integreres for ytterligere å redusere læringsproblemer og forbedre sluttytelsen.
Gruppe 4-Iterativ Opp og Ned Sampling
En annen populær modellarkitektur er timeglasset (Eller U-Net) struktur. Noen varianter som Det Stablede Timeglassnettverket bruker flere timeglassstrukturer i serie, som effektivt veksler mellom prosessen med oppsampling og nedsampling.
modellene under dette rammeverket kan bedre utvinne de dype relasjoner MELLOM lr-HR bilde parene og dermed gi høyere kvalitet rekonstruksjon resultater.
Tapsfunksjoner
Tapsfunksjoner brukes til å måle forskjellen mellom det genererte Høyoppløselige bildet og ground truth høyoppløselige bildet. Denne forskjellen (feilen) brukes da til å optimalisere den overvåkede læringsmodellen. Det finnes flere klasser av tapsfunksjoner der hver av dem straffer et annet aspekt av det genererte bildet.
ofte brukes mer enn en tapsfunksjon ved å veie og oppsummere feilene som er oppnådd fra hver tapsfunksjon individuelt. Dette gjør det mulig for modellen å fokusere på aspekter bidratt av flere tapsfunksjoner samtidig.
total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3
i denne delen vil vi utforske noen populære klasser av tap funksjoner som brukes til å trene modellene.
Pikseltap
Pikselvis tap Er den enkleste klassen av tapsfunksjoner der hver piksel i det genererte bildet er direkte sammenlignet med hver piksel i bakken-sannhetsbildet. Populære tapsfunksjoner som L1 eller L2 tap eller avanserte varianter som Glatt L1 tap brukes.
psnr-metriske (omtalt nedenfor) er sterkt korrelert med pixel-messig forskjellen, og dermed minimere piksel tap direkte maksimerer PSNR metriske verdien (indikerer god ytelse). Pikseltap tar imidlertid ikke hensyn til bildekvaliteten, og modellen gir ofte perceptuelt utilfredsstillende resultater (ofte mangler høyfrekvente detaljer).
Tap av Innhold
dette tapet evaluerer bildekvaliteten basert på perseptuell kvalitet. En interessant måte å gjøre dette på er å sammenligne de høye egenskapene til det genererte bildet og bakken sannhetsbildet. Vi kan få disse høyt nivå funksjoner ved å sende begge disse bildene gjennom en pre-trent bilde klassifisering nettverk (FOR EKSEMPEL EN VGG-Net eller En ResNet).
ligningen ovenfor beregner innholdstapet mellom et bakkenettbilde og et generert bilde, gitt et forhåndstrenetett (Φ) og et lag (l) av dette forhåndstrenede nettverket der tapet beregnes. Dette tapet oppfordrer det genererte bildet til å være perceptually lik bakken-sannhetsbildet. Av denne grunn er det også kjent som Det Perceptuelle tapet.
Teksturtap
for å aktivere det genererte bildet for å ha samme stil(tekstur, farge, kontrast etc.) som bakken sannhetsbildet brukes teksturtap (eller stilrekonstruksjonstap). Teksturen av et bilde, som beskrevet Av Gatys et. al, er definert som korrelasjonen mellom ulike funksjonskanaler. Funksjonskanalene hentes vanligvis fra et funksjonskart hentet ved hjelp av et forhåndsopplært bildeklassifiseringsnettverk (Φ).
korrelasjonen mellom funksjonskartene er representert Av Grammatrisen (G), som er det indre produktet mellom de vektoriserte funksjonskartene i
og j
på lag l
(vist ovenfor). Når Grammatrisen er beregnet for begge bildene, beregnes teksturtapet rett frem, som vist nedenfor:
ved å bruke dette tapet er modellen motivert for å skape realistiske teksturer og visuelt mer tilfredsstillende resultater.
Totalt Variasjonstap
DET TOTALE Variasjonstapet (TV) brukes til å undertrykke støy i de genererte bildene. Det tar summen av de absolutte forskjellene mellom nabopiksler og måler hvor mye støy som er i bildet. FOR et generert bilde beregnes tv-tapet som vist nedenfor:
Her, i,j,k
går over henholdsvis høyde, bredde og kanaler.
Adversarial Loss
Generative Adversarial Networks (GANs) har i økende grad blitt brukt til flere bildebaserte applikasjoner, inkludert Superoppløsning. GANs består vanligvis av et system av to nevrale nettverk-Generatoren og Diskriminatoren — dueller hverandre.Gitt et sett med målprøver, Prøver Generatoren å produsere prøver som kan lure Diskriminatoren til å tro at de er ekte. Diskriminatoren prøver å løse ekte (mål) prøver fra falske (genererte) prøver. Ved å bruke denne iterative treningsmetoden, ender vi til slutt med En Generator som er veldig god til å generere prøver som ligner på målprøvene. Følgende bilde viser strukturen til en typisk GAN.
Fremskritt til den grunnleggende gan-arkitekturen ble introdusert for forbedret ytelse. For Eksempel, Park et. al. brukt en funksjonsnivå diskriminator å fange mer meningsfulle potensielle attributter av ekte Høyoppløselige bilder. Du kan sjekke denne bloggen for en mer utførlig undersøkelse om fremskrittene I GANs.
vanligvis har modeller trent med motsatt tap bedre perceptuell kvalitet, selv om DE kan miste UT PÅ PSNR sammenlignet med de som er trent på pikseltap. En mindre ulempe er at treningsprosessen Til GANs er litt vanskelig og ustabil. Imidlertid er metoder for å stabilisere GAN-trening aktivt arbeidet med.
Metrics
Et stort spørsmål er hvordan vurderer vi kvantitativt ytelsen til modellen vår. En rekke Bildekvalitetsvurdering (Iqa) teknikker (eller beregninger) brukes til det samme. Disse beregningene kan grovt klassifiseres i to kategorier-Subjektive beregninger og Objektive beregninger.Subjektive beregninger er basert på den menneskelige observatørens perceptuelle evaluering, mens objektive beregninger er basert på beregningsmodeller som prøver å vurdere bildekvaliteten. Subjektive beregninger er ofte mer «perceptually nøyaktig» , men noen av disse beregningene er upraktisk, tidkrevende eller dyrt å beregne. Et annet problem er at disse to kategoriene av beregninger kanskje ikke stemmer overens med hverandre. Derfor viser forskere ofte resultater ved hjelp av beregninger fra begge kategorier.
i denne delen vil vi kort utforske et par av de mye brukte beregningene for å evaluere ytelsen til vår superoppløsningsmodell.
PSNR
Peak Signal-Til-Støy-Forhold (PSNR) er ofte brukt objektiv beregning for å måle rekonstruksjon kvaliteten på en lossy transformasjon. PSNR er omvendt proporsjonal med logaritmen Til Den Gjennomsnittlige Kvadrerte Feilen (MSE) mellom bakken sannhetsbildet og det genererte bildet.
i formelen Ovenfor er L den maksimale mulige pikselverdien(for 8-biters RGB-bilder er den 255). Ikke overraskende, SIDEN PSNR bare bryr seg om forskjellen mellom pikselverdiene, representerer DEN ikke perceptuell kvalitet så bra.Strukturell Likhet (Ssim) Er en subjektiv beregning som brukes til å måle den strukturelle likheten mellom bilder, basert på tre relativt uavhengige sammenligninger, nemlig luminans, kontrast og struktur. Abstrakt KAN ssim-formelen vises som et vektet produkt av sammenligningen av luminans, kontrast og struktur beregnet uavhengig.
i formelen ovenfor er alfa, beta og gamma vektene for henholdsvis luminans -, kontrast-og struktursammenligningsfunksjonene. Den vanlige representasjonen AV ssim-formelen er som vist nedenfor:
i formelen ovenfor μ(I)
representerer gjennomsnittet av et bestemt bilde, σ(I)
representerer standardavviket for et bestemt bilde,σ(I,I’)
representerer kovarians mellom to bilder, og C1, C2
er konstanter satt for å unngå ustabilitet. For korthet er betydningen av vilkårene og den nøyaktige avledningen ikke forklart i denne bloggen, og den interesserte leseren kan sjekke Seksjon 2.3.2 i dette papiret.
på grunn av den mulige ujevne fordelingen av bildestatistikkfunksjoner eller forvrengninger, er det mer pålitelig å vurdere bildekvaliteten lokalt enn å bruke den globalt. Mean SSIM (MSSIM), som deler bildet i flere vinduer og gjennomsnitt SSIM oppnådd ved hvert vindu, er en slik metode for å vurdere kvalitet lokalt.i alle fall, SIDEN SSIM vurderer rekonstruksjonskvaliteten fra perspektivet Til Det Menneskelige Visuelle Systemet, oppfyller det bedre kravene til perceptuell vurdering.
Andre Iqa-Poeng
uten forklaring er noen andre metoder for å vurdere bildekvalitet oppført nedenfor. Den interesserte leseren kan referere til dette papiret for flere detaljer.
- MEAN Opinion Score (MOS)
- Oppgavebasert Evaluering
- INFORMATION Fidelity Criterion (IFC)
- Visual Information Fidelity (VIF)
Konklusjon
denne bloggartikkelen dekket noe introduksjonsmateriale og prosedyrer for opplæring av dyplæringsmodeller for Superoppløsning. Det er faktisk mer avanserte teknikker introdusert av toppmoderne forskning som kan gi bedre ytelse. Videre kan forskning på veier som uovervåket superoppløsning, bedre normaliseringsteknikker og bedre representative beregninger i stor grad fremme dette feltet. Den interesserte leseren oppfordres til å eksperimentere med sine innovative ideer ved å delta i utfordringer som PIRM Challenge.