Az elmúlt években a mély tanulás megváltoztatta a számítógépes látás területét, lehetővé téve a számítógépek számára, hogy szokatlan szinteken érzékeljék és kitalálják a vizuális információkat. A konvolúciós neurális hálózatok (CNN-ek) játéka döntő hatást gyakorolt erre a változásra, néhány úttörő terv vezetésével. A két legbefolyásosabb CNN-struktúra az AlexNet és a GoogleNet (InceptionNet). A két modell összességében hozzájárult a képosztályozási feladatok előrehaladásához, struktúrájukban és tervezési elveikben mégis ellentétesek. Ebben a cikkben az AlexNet és a GoogleNet közötti kritikus különbségekbe fogunk belemerülni, feltárva a szerkezetüket, a tervezési döntéseiket és a végrehajtásukat.
Főbb különbségek az AlexNet és a GoogleNet között
Funkció | AlexNet | GoogleNet (InceptionV3) |
---|---|---|
Megjelenés / Bevezetés éve | 2012 | 2014 |
Rétegek száma a modellben | 8 (5 Convolution, 3 FC) | 159 (kiegészítővel együtt) |
Építészet | Egymás utáni | Több ágú (kezdet) |
Konvolúció mérete | Nagyobb szűrők (11x11, 5x5) | Kisebb szűrők (1x1, 3x3, 5x5) |
Rétegek összevonása | Max Pooling | Maximális és átlagos összevonás |
Aktiválási funkció | önéletrajz | ReLU és egyéb variációk |
Helyi válasz normalizálás (LRN) | Használt | Nem használt |
Kezdő modulok | Nem használt | Sok több ággal használják |
Számítási hatékonyság | Mérsékelt | Magasabb |
Modell összetettsége | Alacsony | Magas |
Legjobb pontosság (ImageNet) | 0,571 | 0,739 |
Mi az az AlexNet?
Az AlexNet egy figyelemre méltó konvolúciós neurális hálózat (CNN) architektúra, amelyet Alex Krizhevsky, Ilya Sutskever és Geoffrey Hinton hozott létre. 2012-ben vezették be, és jelentős előrelépést tett az ImageNet Large Scope Visual Recognition Challenge (ILSVRC) területén, lényegében felülmúlva a különböző módszereket. Az AlexNet volt a fő CNN, amely megmutatta a mély tanulás életképességét képsorrendi feladatokhoz, ami egy meghatározó pillanatot jelez a számítógépes látás területén.
1. Építészet
A 2012-ben kiadott AlexNet a CNN éllovasa volt, amely kritikus tévedési lehetőséggel megnyerte az ImageNet Large Scope Visual Recognition Challenge (ILSVRC) versenyt. Öt konvolúciós rétegből áll, amelyet három teljesen kapcsolódó réteg követ. A ReLU (Redressed Direct Unit) működtetés és a szomszédsági reakció szabványosítás (LRN) alkalmazása növelte a jólétet. Az AlexNet emellett bemutatta a GPU-k bevonásának ötletét is, ami teljesen felgyorsította a növekvő élményt.
2. Hálózati mélység:
Nyolc rétegével (öt konvolúciós és három teljesen kapcsolódó réteggel) az AlexNet a bemutató órájában mélynek tűnt. Ennek ellenére a jelenlegi tervekkel ellentétben általában sekély, korlátozva a képességét, hogy elképesztő elemeket és példákat fogjon meg rendkívül összetett adatkészletekben.
3. Számítási termelékenység:
Míg az AlexNet bemutatása a GPU-felkészítésről felgyorsította az oktatási tapasztalatokat, még mindig számításigényes volt a mélyebb, teljesen asszociált rétegei és a párhuzamosítás korlátozott kihasználása miatt.
4. Túlszerelés:
Mérsékelten sekély kialakítása és hatalmas számú határvonala miatt az AlexNet hajlamosabb volt a túlillesztésre, különösen a szerényebb adatkészleteknél. Az olyan stratégiákat, mint a lemorzsolódás, később megismerték a probléma mérséklésére.
10 a 100-ból
5. Képzés:
Az AlexNet képzéséhez az alkotók az ImageNet adatkészletet használták, amely több mint 1 000 000 elnevezett képet tartalmaz 1000 osztályozásból. A sztochasztikus szögesést (SGD) használták energiával a javulás számításaként. A betanítás során olyan információbővítési módszereket alkalmaztak, mint az önkényes szerkesztés és lapozás a betanítási adatkészlet méretének bővítésére és az általánosítás továbbfejlesztésére.
A képzési rendszert számítástechnikailag igényelték, és az AlexNet GPU-k egyenlő kezelésre való felhasználása végül elengedhetetlen volt. Az AlexNet dupla GPU-keretrendszeren való betanítása körülbelül hét napot vett igénybe, ami kritikus előrelépés volt a szokásos számítógépes processzor alapú képzési időkkel szemben.
6. Eredmények:
A 2012-es ImageNet rivalizálásában az AlexNet figyelemre méltó, 15,3%-os hibatempót ért el a top 5-ben, túlnyomórészt legyőzve a különböző módszereket.
Az AlexNet eredménye a mély tanulás és a CNN-ek iránti érdeklődés özönét indította el, ami megváltoztatta a számítógépes látás helyi koncentrációját a további bonyolult és mélyebb neurális hálózatok felé.
7. Konvolúciós réteg beállítása:
Az AlexNet konvolúciós rétegei alapvető egymásutánban vannak, periodikus max-pooling rétegekkel a lemintavételhez. Ez az egyértelmű tervezés akkori jelentőséggel bírt, de korlátozta a szervezet azon képességét, hogy összetett progresszív elemeket fogjon fel.
string formátum java-ban
8. Dimenziócsökkentés:
Az AlexNet max-pooling rétegeket foglal magában a mintavételezéshez, csökkentve az elemtérképek térbeli összetevőit. Ez segít a számítási súly csökkentésében és a túlillesztés szabályozásában.
9. A modell mérete és összetettsége:
Míg az AlexNet-et akkoriban mélyrehatónak tekintették, valamivel szerényebb és kevésbé bonyolult ellentétben áll a későbbi tervekkel. Ez az egyenesség nyilvánvalóbbá és kivitelezhetőbbé tette.
10. Az asszisztens osztályozók használata:
Az előkészítés során felmerülő párolgási szögek problémájának megoldására az AlexNet bemutatta a segítő osztályozók ötletét. Ezeket az extra osztályozókat mérsékelt rétegekhez kapcsoltuk, és a visszaszaporítás során szögjeleket adtak az előző rétegekhez.
11. Hatás a kutatási irányra:
Az AlexNet eredménye hatalmas változást jelentett a PC látás területén. Arra ösztönözte a tudósokat, hogy vizsgálják meg a különböző képekkel kapcsolatos feladatok mélyreható tanulási képességét, ami a továbbfejlesztett CNN-tervek gyors fejlesztését ösztönözte.
Mi az a GoogleNet?
A GoogleNet, más néven Inception v1, egy CNN-architektúra, amelyet a Google Brain csoport hozott létre, különösen Christian Szegedy, Wei Liu és mások. 2014-ben mutatták be, és elnyerte az ILSVRC-t a továbbfejlesztett pontossággal és számítási termelékenységgel. A GoogleNet architektúráját a mély kialakítás jellemzi, amely 22 rétegből áll, így az egyik első „kivételesen mély” CNN-ek közé tartozik.
bash az 1-10. ciklushoz
1. Építészet
GoogleNet (Inception v1): A 2014-ben bemutatott GoogleNet elengedhetetlen a CNN-ek Inception csoportja számára. Mély kialakításáról ismert, amely 22 rétegből áll (kezdő modulok). A GoogleNet létfontosságú fejlesztése a kezdő modul, amely egy hasonló rétegen belül különböző méretű csatornák egyenlő konvolúcióit veszi figyelembe. Ez csökkentette a számítási bonyolultságot, miközben lépést tartott a pontossággal, így a GoogleNet hatékonyabb lett, mint az AlexNet.
2. Hálózati mélység:
A GoogleNet kezdeti moduljait alapvetően mélyebb tervezésnek tekintik, a számítási költségek növekedése nélkül. 22 rétegével a GoogleNet volt az egyik fő CNN-hálózat, amely megmutatta a kiterjesztett hálózati mélység előnyeit, ami a pontosság és a teljesítmény továbbfejlesztését ösztönözte.
3. Számítási termelékenység:
A GoogleNet kezdő moduljai a számítási eszközök hatékonyabb felhasználásának tekinthetők. Azáltal, hogy minden kezdeti blokkon belül egyenlő konvolúciókat használt, a GoogleNet csökkentette a határok és a számítások számát, így elérhetőbbé tette a folyamatos alkalmazásokhoz és az eszközigényes modulokon történő továbbításhoz.
4. Túlszerelés:
A GoogleNet mély, de hatékony kialakítása lényegében csökkentette a túlillesztést, lehetővé téve, hogy jobban teljesítsen szerényebb adatkészleteken és mozgó tanulási helyzetekben.
5. Képzés:
bináris fa típusai
A GoogleNet képzése ezen túlmenően az ImageNet adathalmaz hasznosítására is kitér, és összehasonlítható információbővítési eljárásokat alkalmaztak az általánosítás korszerűsítésére. Bárhogy is legyen, mélyebb architektúrája miatt a GoogleNet több számítási eszközt igényelt, mint az AlexNet a képzés során.
A kezdeti modulok fejlesztése lehetővé tette a GoogleNet számára, hogy megtalálja valamiféle harmóniát a mélység és a számítási hatékonyság között. Az egyes kezdőblokkon belüli egyenlő konvolúciók teljesen csökkentették a számítások és a határok számát, így az edzés elérhetőbbé és hatékonyabbá vált.
6. Eredmények:
A GoogleNet nagyszerű, 6,67%-os baklövést ért el a legjobb öt között az ImageNet 2014 versenyen, felülmúlva az AlexNet prezentációját.
A GoogleNet mély, de mégis profi architektúrája a mélyebb neurális hálózatok képességét mutatta, miközben lépést tartott a számítási megvalósíthatósággal, így vonzóbbá tette a valódi alkalmazások számára.
7. Konvolúciós réteg beállítása:
A GoogleNet bemutatta a kezdő modulok ötletét, amelyek számos, különböző méretű, azonos konvolúciós rétegből állnak. Ez a terv lehetővé teszi a GoogleNet számára, hogy különböző léptékű csúcspontokat fogjon fel, és összességében azon dolgozik, hogy a szervezet képes-e eltávolítani a fontos elemeket a mérlegelés különböző fokaiból.
8. Dimenziócsökkentés:
java olvassa el a csv-t
a szokásos max-pooling ellenére a GoogleNet olyan dimenziócsökkentési módszereket használ, mint az 1x1 konvolúció. Ezek a szerényebb konvolúciók számításilag kevésbé eszkaláltak, és segítik az elemek számának csökkentését, miközben megőrzik az alapvető adatokat.
9. A modell mérete és összetettsége:
A GoogleNet eredetmoduljai mélyrehatóbb kialakítást hoznak létre, alapvetően több réteggel és határvonallal. Ez a bonyolultság, miközben továbbfejlesztett precizitást kínál, szintén több tesztelést tehet a szervezet számára az előkészítéshez és a kalibráláshoz.
10. Az asszisztens osztályozók használata:
A GoogleNet finomította az asszisztens osztályozók ötletét azáltal, hogy beépítette őket a kezdeményezési modulokba. Ezek az asszisztens osztályozók elősegítik a mélyebb rétegek elkészítését és javítják a szögfolyamot, ami egyenletesebb és hatékonyabb előkészítést tesz lehetővé.
11. Hatás a kutatási irányra:
A GoogleNet kezdő moduljai a hatékony komponens-kinyerés lehetőségét mutatták be különböző léptékekben. Ez az ötlet hatással volt az eredményül kapott tervek tervére, lehetővé téve az elemzők számára, hogy nullára törekedjenek a szervezet elmélyültségének és számítási termelékenységének növelésében, miközben lépést tartanak a pontossággal vagy tovább fejlesztik.
Következtetés
Mind az AlexNet, mind a GoogleNet tartós hatással van a számítógépes látás és a mély tanulás területére. Az AlexNet bemutatta a CNN-ek képfelismerési feladatokra való képességét és a jövőbeli fejlesztésekhez való beállítását. A GoogleNet ismét bemutatta az eredetmodulok ötletét, így készen áll a hatékonyabb és mélyebb CNN-struktúrákra.
Míg az AlexNetnek és a GoogleNetnek megvannak a sajátos tulajdonságai, a mély tanulás területe alapvetően fejlődött az előadásaik óta. A jelenlegi tervek, mint például a ResNet, a DenseNet és az EfficientNet, emellett a pontosság, a termelékenység és az általánosítás határait is kitágították. Ahogy az elemzők továbbfejlesztik és bővítik ezeket az alapvető modelleket, a számítógépes látás sorsa sokkal figyelemre méltóbb elkötelezettséget és további érdekes kilátásokat tartogat.