An Introduction to Super-Resolution using Deep Learning-BeyondMinds

részletes megbeszélés a különböző komponensekről, Veszteségfüggvényekről és Metrikákról, amelyeket a Szuperfelbontáshoz használnak a Deep Learning használatával.

Bevezetés
felügyelt módszerek
az adatok előkészítése
A Konvolúciók típusai
1.csoport — előzetes mintavétel
2.csoport— Upsampling után
3. csoport-progresszív Upsampling
4. csoport-iteratív fel-le mintavétel
Veszteségfüggvények
Pixelveszteség
Tartalomvesztés
textúra veszteség
teljes variációs veszteség
kontradiktórius veszteség
metrikák
PSNR
SSIM
Egyéb IQA pontszámok
következtetés

Bevezetés

a szuper felbontás a nagy felbontású (HR) kép helyreállításának folyamata egy adott alacsony felbontású (LR) képből. A kép “kisebb felbontású” lehet kisebb térbeli felbontás (azaz méret) vagy degradáció (például elmosódás) miatt. A HR és lr képeket a következő egyenlet segítségével kapcsolhatjuk össze: LR = degradation(HR)

alacsony felbontású kép, amelyet a nagy felbontású verziója mellett tartanak. (Fotó: Jarrad Horne az Unsplash-en)

nyilvánvaló, hogy a lebomlási funkció alkalmazásakor az LR képet a HR képből kapjuk. De meg tudjuk-e csinálni az inverzét? Ideális esetben igen! Ha tudjuk a pontos degradációs funkciót, inverzét alkalmazva az LR képre, helyreállíthatjuk a HR képet.

de, ott rejlik a probléma. Általában nem ismerjük a lebomlási funkciót kéz előtt. Az inverz lebomlási funkció közvetlen becslése rosszul felvetett probléma. Ennek ellenére a mély tanulási technikák hatékonynak bizonyultak a szuper felbontásban.

Ez a blog elsősorban arra összpontosít, hogy bevezetést nyújtson a szuper felbontás végrehajtásához mély tanulás segítségével felügyelt képzési módszerek alkalmazásával. Néhány fontos veszteségfunkciót és mutatót is tárgyalunk. A tartalom nagy része ebből az irodalmi áttekintésből származik, amelyre az olvasó hivatkozhat.

felügyelt módszerek

mint korábban említettük, a mély tanulás felhasználható a nagy felbontású (HR) kép becslésére alacsony felbontású (LR) kép esetén. Ha a HR képet célként (vagy alapigazságként), az LR képet bemenetként használjuk, ezt felügyelt tanulási problémaként kezelhetjük.

ebben a szakaszban különböző mély tanulási megközelítéseket csoportosítunk a konvolúciós rétegek szervezésének módjára. Mielőtt továbblépnénk a csoportokra, bemutatunk egy alapozót az adatok előkészítéséről és a konvolúciók típusairól. A modell optimalizálásához használt veszteségfunkciókat külön mutatjuk be a blog vége felé.

az adatok előkészítése

az LR-adatok megszerzésének egyik egyszerű módja a HR-adatok lebontása. Ez gyakran elmosódással vagy zaj hozzáadásával történik. Az alacsonyabb térbeli felbontású képeket klasszikus mintavételi módszerrel is skálázhatjuk, például bilineáris vagy Bicubic interpolációval. JPEG és kvantálási leletek is bevezethetők a kép lebontására.

nagy felbontású kép lealacsonyítása annak alacsony felbontású változatához. (Fotó: Jarrad Horne az Unsplash-en)

fontos megjegyezni, hogy ajánlott a HR-képet tömörítetlen (vagy veszteségmentes tömörített) formátumban tárolni. Ennek célja, hogy megakadályozza a HR kép minőségének romlását a veszteséges tömörítés miatt, ami nem optimális teljesítményt nyújthat.

A Konvolúciók típusai

a klasszikus 2D Konvolúciók mellett számos érdekes változat használható a hálózatokban a jobb eredmények érdekében. A kitágult (Atrous) konvolúciók nagyobb hatékony látómezőt biztosíthatnak, ezért olyan információkat használnak, amelyeket nagy távolság választ el egymástól. A kapcsolatok kihagyása, a térbeli piramis egyesítése és a sűrű blokkok motiválják az alacsony és a magas szintű funkciók kombinálását a teljesítmény növelése érdekében.

a fenti kép számos hálózati tervezési stratégiát említ. Akkor olvassa el ezt a papírt további információkért. Egy alapozó a különböző típusú konvolúciók általánosan használt mély tanulás, akkor olvassa el ezt a blogot.

1.csoport — előzetes mintavétel

ebben a módszerben az alacsony felbontású képeket először interpoláljuk, hogy “durva” nagy felbontású képet kapjunk. Most a CNN-eket arra használják, hogy megtanulják a végpontok közötti leképezést az interpolált alacsony felbontású képektől a nagy felbontású képekig. Az intuíció az volt, hogy könnyebb lehet először az alacsony felbontású képeket újramintázni hagyományos módszerekkel (például bilineáris interpoláció), majd finomítani az eredményt, mint megtanulni egy közvetlen leképezést egy alacsony dimenziós térből egy magas dimenziós térbe.

egy tipikus pre-upsampling hálózat. (Source)

néhány, ezt a technikát használó modell esetében a cikk 5.oldalán olvashat. Előnye, hogy mivel a mintavételt hagyományos módszerekkel kezelik, a CNN-nek csak meg kell tanulnia a durva kép finomítását, ami egyszerűbb. Ráadásul, mivel itt nem transzponált konvolúciókat használunk, a kockás tárgyak talán megkerülhetők. Hátránya azonban, hogy az előre definiált mintavételi módszerek felerősíthetik a zajt és elmosódást okozhatnak.

2.csoport— Upsampling után

ebben az esetben az alacsony felbontású képek a CNN-ekhez kerülnek. Az Upsampling az utolsó rétegben tanulható réteg használatával történik.

egy tipikus post-upsampling hálózat. (Source)

ennek a módszernek az az előnye, hogy a jellemzők kibontása az alsó dimenziós térben történik (a mintavételezés előtt), így a számítási komplexitás csökken. Ezenkívül egy tanulható mintavételi réteg használatával a modell végponttól végpontig kiképezhető.

3. csoport-progresszív Upsampling

a fenti csoportban, annak ellenére, hogy a számítási komplexitás csökkent, csak egyetlen upsampling konvolúciót használtunk. Ez megnehezíti a tanulási folyamatot a nagy méretezési tényezők esetében. Ennek a hátránynak a kezelésére progresszív mintavételi keretet fogadtak el olyan művek, mint a Laplacian Pyramid Sr Network (LapSRN) és a Progressive Sr (ProSR). A modellek ebben az esetben a CNN-ek kaszkádját használják a nagy felbontású képek fokozatos rekonstruálására kisebb méretezési tényezőkkel minden lépésben.

tipikus progresszív mintavételi hálózat. (Forrás)

egy nehéz feladat egyszerűbb feladatokra bontásával a tanulási nehézség jelentősen csökken, és jobb teljesítmény érhető el. Ezenkívül a tanulási stratégiák, például a tantervi tanulás integrálhatók a tanulási nehézségek további csökkentése és a végső teljesítmény javítása érdekében.

4. csoport-iteratív fel-le mintavétel

egy másik népszerű modell architektúra a homokóra (vagy U-Net) szerkezet. Egyes változatok, mint például a halmozott homokóra hálózat több homokóra struktúrát használ sorozatban, hatékonyan váltakozva a fel-és a Le-mintavétel folyamata között.

tipikus iteratív fel-le mintavételi hálózat. (Forrás)

Az ebben a keretben szereplő modellek jobban ki tudják aknázni az LR-HR Képpárok közötti mély kapcsolatokat, így jobb minőségű rekonstrukciós eredményeket nyújtanak.

Veszteségfüggvények

Veszteségfüggvények a generált nagy felbontású kép és a földi igazság nagy felbontású kép közötti különbség mérésére szolgálnak. Ezt a különbséget (hibát) használják a felügyelt tanulási modell optimalizálására. A veszteségfüggvények több osztálya létezik, amelyek mindegyike a generált kép más aspektusát bünteti.

gyakran egynél több veszteségfüggvényt használnak az egyes veszteségfüggvények hibáinak külön-külön történő súlyozásával és összegzésével. Ez lehetővé teszi a modell számára, hogy egyszerre több veszteségfüggvény által hozzájáruló szempontokra összpontosítson.

total_loss = weight_1 * loss_1 + weight_ 2 * loss_2 + weight_3 * loss_3

ebben a részben a modellek képzéséhez használt veszteségfüggvények néhány népszerű osztályát tárjuk fel.

Pixelveszteség

a Pixelveszteség a veszteségfüggvények legegyszerűbb osztálya, ahol a generált kép minden pixelét közvetlenül összehasonlítják a föld-igazság kép minden pixelével. Népszerű veszteségfunkciókat, például az L1 vagy az L2 veszteséget vagy a fejlett változatokat, például a sima L1 veszteséget használják.

a PSNR mutató (az alábbiakban tárgyaljuk) erősen korrelál a pixelenkénti különbséggel, így a pixelveszteség minimalizálása közvetlenül maximalizálja a PSNR metrikus értéket (jó teljesítményt jelezve). A képpontvesztés azonban nem veszi figyelembe a képminőséget, és a modell gyakran érzékelhetően nem kielégítő eredményeket ad ki (gyakran hiányoznak a magas frekvenciájú részletek).

Tartalomvesztés

Ez a veszteség az észlelési minőség alapján értékeli a képminőséget. Érdekes módja ennek, ha összehasonlítjuk a generált kép magas szintű jellemzőit a földi igazság képével. Ezeket a magas szintű funkciókat úgy kaphatjuk meg, hogy mindkét képet előre kiképzett képosztályozási hálózaton (például VGG-Net vagy ResNet) továbbítjuk.

a fenti egyenlet kiszámítja a tartalomveszteséget egy alapigazság-kép és egy generált kép között, adott egy előre betanított hálózatnak (Xhamsternek) és ennek az előre betanított hálózatnak egy rétegének (l), amelyen a veszteség kiszámításra kerül. Ez a veszteség arra ösztönzi a generált képet, hogy érzékelhetően hasonló legyen a földi igazság képéhez. Emiatt az Észlelési veszteség néven is ismert.

textúra veszteség

a létrehozott kép azonos stílusának engedélyezése (textúra, szín, kontraszt stb.), mint a földi igazság kép, textúra veszteség (vagy stílus rekonstrukció veszteség) használják. A textúra egy kép, által leírt Gatys et. al, a különböző funkciócsatornák közötti korreláció. A funkciócsatornákat általában egy előre betanított képosztályozási hálózat segítségével kinyert funkciótérképből nyerik (Adapterek).

a funkciótérképek közötti összefüggést a Gram mátrix (G) képviseli, amely a vektorizált funkciótérképek közötti belső termék i és j rétegen l(fent látható). Miután a Gram-mátrix kiszámításra került mindkét kép esetében, a textúraveszteség kiszámítása egyenesen előre történik, az alábbiak szerint:

a Textúraveszteség kiszámítása. (Source)

ennek a veszteségnek a felhasználásával a modell arra törekszik, hogy valósághű textúrákat és vizuálisan kielégítőbb eredményeket hozzon létre.

teljes variációs veszteség

a teljes variációs (TV) veszteség a generált képek zajának elnyomására szolgál. A szomszédos pixelek közötti abszolút különbségek összegét veszi figyelembe, és méri, hogy mennyi zaj van a képen. Generált kép esetén a TV-veszteség kiszámítása az alábbiak szerint történik:

a generált nagy felbontású képen használt összes variációs veszteség. (Source)

itt i,j,k ismétlődik a magasság, szélesség, illetve a csatornák felett.

kontradiktórius veszteség

a generatív kontradiktórius hálózatokat (Gan) egyre inkább használják számos képalapú alkalmazáshoz, beleértve a Szuperfelbontást is. A gan-ok általában két neurális hálózatból álló rendszerből állnak — a generátorból és a Diszkriminátorból—, amelyek egymással párbajoznak.

adott egy sor célmintát, a generátor megpróbál olyan mintákat előállítani, amelyek becsaphatják a Diszkriminátort, hogy azt higgyék, hogy valódiak. A Diszkriminátor megpróbálja feloldani a valós (cél) mintákat a hamis (generált) mintákból. Ezzel az iteratív képzési megközelítéssel végül olyan generátort kapunk, amely nagyon jól képes a célmintákhoz hasonló minták előállítására. A következő kép egy tipikus GAN szerkezetét mutatja.

Az alapvető Gan architektúra továbbfejlesztése került bevezetésre a jobb teljesítmény érdekében. Például a Park et. al. funkciószintű diszkriminátort használt a valódi nagy felbontású képek értelmesebb potenciális tulajdonságainak rögzítésére. Akkor pénztár ezt a blogot egy bonyolultabb felmérést az előlegek GANs.

általában a kontradiktórius veszteséggel képzett modellek jobb észlelési minőséggel rendelkeznek, annak ellenére, hogy elveszíthetik a PSNR-t, mint a pixel veszteséggel képzett modellek. Egy kisebb hátránya, hogy a Gans képzési folyamata egy kicsit nehéz és instabil. A GAN képzés stabilizálásának módszerein azonban aktívan dolgoznak.

metrikák

az egyik nagy kérdés az, hogyan kvantitatív módon értékeljük modellünk teljesítményét. Számos képminőség-értékelési (IQA) technikát (vagy mutatót) használnak ugyanarra. Ezek a mutatók nagyjából két kategóriába sorolhatók-szubjektív és objektív mutatók.

a szubjektív mutatók az emberi megfigyelő észlelési értékelésén alapulnak, míg az objektív mutatók számítási modelleken alapulnak, amelyek megpróbálják felmérni a képminőséget. A szubjektív mutatók gyakran “észlelésileg pontosabbak”, azonban ezeknek a mutatóknak egy része kényelmetlen, időigényes vagy költséges. Más kérdés, hogy a mutatók e két kategóriája nem biztos, hogy összhangban van egymással. Ezért a kutatók gyakran mindkét kategória mutatóinak felhasználásával jelenítik meg az eredményeket.

ebben a szakaszban röviden feltárunk néhány széles körben használt mutatót a szuper felbontású modellünk teljesítményének értékeléséhez.

PSNR

csúcs jel-zaj arány (PSNR) általánosan használt objektív metrika a veszteséges transzformáció rekonstrukciós minőségének mérésére. A PSNR fordítottan arányos az MSE (Mean Squared Error) logaritmusával az alapigazságkép és a generált kép között.

a fenti képletben L a lehető legnagyobb pixelérték (8 bites RGB képek esetén ez 255). Nem meglepő, hogy mivel a PSNR csak a pixelértékek közötti különbséggel törődik, ez nem képviseli olyan jól az észlelési minőséget.

SSIM

a strukturális hasonlóság (SSIM) egy szubjektív mutató, amelyet a képek közötti szerkezeti hasonlóság mérésére használnak, három viszonylag független összehasonlításon alapul, nevezetesen a fényerő, a kontraszt és a szerkezet. Absztrakt módon az SSIM-képlet a fényerő, a kontraszt és a szerkezet egymástól függetlenül kiszámított összehasonlításának súlyozott szorzataként mutatható ki.

a fenti képletben az alfa, a béta és a gamma a fénysűrűség, a kontraszt és a szerkezet-összehasonlító függvények súlya. Az SSIM képlet általánosan használt ábrázolása az alábbiakban látható:

az SSIM képlet általánosan használt ábrázolása. (Forrás)

a fenti képletben μ(I)egy adott kép átlagát képviseli, σ(I)egy adott kép szórását képviseli,σ(I,I’)egy adott kép szórását képviseli, σ(I,I’) egy adott kép a két kép közötti kovariancia és a C1, C2 állandók az instabilitás elkerülésére. A rövidség szempontjából a kifejezések jelentősége és a pontos levezetés nem magyarázható ebben a blogban,és az érdeklődő olvasó a jelen cikk 2.3.2 szakaszát fizetheti.

a képstatisztikai jellemzők vagy torzulások lehetséges egyenlőtlen eloszlása miatt a képminőség helyi értékelése megbízhatóbb, mint a globális alkalmazás. Az átlagos SSIM (mssim), amely a képet több ablakra osztja, és átlagolja az egyes ablakoknál kapott SSIM-et, az egyik ilyen módszer a minőség helyi értékelésére.

mindenesetre, mivel az SSIM az emberi látórendszer szempontjából értékeli a rekonstrukció minőségét, jobban megfelel az észlelési értékelés követelményeinek.

Egyéb IQA pontszámok

magyarázat nélkül az alábbiakban felsorolunk néhány más képminőség-értékelési módszert. Az érdeklődő olvasó további részletekért olvassa el ezt a cikket.

átlagos vélemény pontszám (MOS)
feladat alapú értékelés
információ hűség kritérium (IFC)
vizuális információ hűség (VIF)

következtetés

Ez a blogcikk néhány bevezető anyagot és eljárást tartalmazott a mély tanulási modellek szuper felbontású képzéséhez. Valóban vannak fejlettebb technikák által bevezetett korszerű kutatás, amely így jobb teljesítményt. Ezenkívül az olyan utak kutatása, mint a felügyelet nélküli szuperfelbontás, a jobb normalizálási technikák és a jobb reprezentatív mutatók, nagyban elősegíthetik ezt a területet. Az érdeklődő olvasót arra ösztönzik, hogy kísérletezzen innovatív ötleteivel azáltal, hogy részt vesz olyan kihívásokban, mint a PIRM Challenge.

ossza meg most