A gépi tanulási modell a képzési folyamat kimenetének matematikai ábrázolása. A gépi tanulás különböző algoritmusok tanulmányozása, amelyek a tapasztalatok és a régi adatok révén automatikusan fejlődhetnek, és felállíthatják a modellt. A gépi tanulási modell hasonló a számítógépes szoftverhez, amelyet arra terveztek, hogy felismerje a mintákat vagy viselkedéseket korábbi tapasztalatok vagy adatok alapján. A tanuló algoritmus mintákat fedez fel a betanítási adatokon belül, és egy ML modellt ad ki, amely rögzíti ezeket a mintákat, és előrejelzéseket készít az új adatokról.
Nézzünk meg egy példát az ML modellre, ahol egy alkalmazást hozunk létre a felhasználó érzelmeinek arckifejezések alapján történő felismerésére. Tehát egy ilyen alkalmazás létrehozása a gépi tanulási modellek segítségével lehetséges, ahol a modellt úgy képezzük ki, hogy különböző érzelmeket tartalmazó arcképeket táplálunk be. Amikor ezt az alkalmazást a felhasználó hangulatának meghatározására használják, beolvassa az összes betáplált adatot, majd meghatározza a felhasználó hangulatát.
Ezért egyszerű szavakkal azt mondhatjuk, hogy a A gépi tanulási modell valaminek vagy folyamatnak leegyszerűsített ábrázolása. Ebben a témában a különböző gépi tanulási modelleket és azok technikáit és algoritmusait tárgyaljuk .
Mi az a gépi tanulási modell?
A gépi tanulási modellek olyan programként értelmezhetők, amelyet arra tanítottak, hogy megtalálja az új adatokon belüli mintákat és előrejelzéseket készítsen. Ezeket a modelleket matematikai függvényként ábrázolják, amely bemeneti adatok formájában fogadja a kéréseket, előrejelzéseket készít a bemeneti adatokról, majd válaszul kimenetet ad. Először ezeket a modelleket egy adathalmazra betanítják, majd egy algoritmust kapnak az adatok feletti érveléshez, a minta kinyeréséhez a feedadatokból, és tanulnak ezekből az adatokból. Amint ezek a modellek betanításra kerülnek, felhasználhatók a nem látott adatkészlet előrejelzésére.
Különféle típusú gépi tanulási modellek állnak rendelkezésre a különböző üzleti célok és adatkészletek alapján.
A gépi tanulási modellek osztályozása:
A különböző üzleti célok és adatkészletek alapján három tanulási modell létezik az algoritmusokhoz. Mindegyik gépi tanulási algoritmus a három modell egyikébe illeszkedik:
- Felügyelt tanulás
- Felügyelet nélküli tanulás
- Megerősítő tanulás
A felügyelt tanulás további két kategóriába sorolható:
- Osztályozás
- Regresszió
A felügyelet nélküli tanulás az alábbi kategóriákra is fel van osztva:
- Klaszterezés
- Társulási Szabály
- Dimenziócsökkentés
1. Felügyelt gépi tanulási modellek
A felügyelt tanulás a legegyszerűbb gépi tanulási modell annak megértéséhez, hogy mely bemeneti adatokat nevezzük betanítási adatoknak, és amelyek kimeneteként ismert címkét vagy eredményt tartalmaznak. Tehát az input-output párok elvén működik. Ehhez létre kell hozni egy függvényt, amely betanítható egy betanítási adatkészlettel, majd ismeretlen adatokra alkalmazza, és bizonyos prediktív teljesítményt nyújt. A felügyelt tanulás feladatalapú, és címkézett adatkészleteken tesztelik.
Megvalósíthatunk egy felügyelt tanulási modellt egyszerű valós problémákra. Például van egy adatkészletünk, amely életkorból és magasságból áll; majd felállíthatunk egy felügyelt tanulási modellt, amellyel megjósolhatjuk a személy magasságát az életkor alapján.
A felügyelt tanulási modelleket további két kategóriába sorolják:
Regresszió
Regressziós problémák esetén a kimenet folytonos változó. Néhány gyakran használt regressziós modell a következő:
a) Lineáris regresszió
A lineáris regresszió a legegyszerűbb gépi tanulási modell, amelyben egy kimeneti változót egy vagy több bemeneti változó segítségével próbálunk megjósolni. A lineáris regresszió ábrázolása egy lineáris egyenlet, amely egyesíti a bemeneti értékeket (x) és a becsült kimenetet (y) ezen bemeneti értékek halmazához. Ez egy vonal formájában van ábrázolva:
Y = bx + c.
A lineáris regressziós modell fő célja az adatpontokhoz legjobban illeszkedő egyenes megtalálása.
A lineáris regressziót kiterjesztjük többszörös lineáris regresszióra (keresse meg a legjobb illeszkedési síkot) és polinomiális regresszióra (keresse meg a legjobb illeszkedési görbét).
b) Döntési fa
hogyan ellenőrizheti a monitor képernyőméretét
A döntési fák a népszerű gépi tanulási modellek, amelyek regressziós és osztályozási problémákhoz egyaránt használhatók.
A döntési fa a döntések faszerű struktúráját használja, azok lehetséges következményeivel és eredményeivel együtt. Ebben minden belső csomópont egy attribútum tesztjének megjelenítésére szolgál; minden ág a teszt eredményének ábrázolására szolgál. Minél több csomópontja van egy döntési fának, annál pontosabb lesz az eredmény.
A döntési fák előnye, hogy intuitívak és könnyen megvalósíthatók, de hiányzik belőlük a pontosság.
A döntési fákat széles körben használják műveletek kutatása, különösen a döntéselemzés, stratégiai tervezés terén és főleg a gépi tanulásban.
c) Random Forest
A Random Forest az együttes tanulási módszer, amely nagyszámú döntési fából áll. Egy véletlenszerű erdőben minden döntési fa megjósol egy eredményt, és a szavazattöbbséggel kapott előrejelzést tekintjük eredménynek.
A véletlenszerű erdőmodell regressziós és osztályozási problémák esetén egyaránt használható.
Az osztályozási feladathoz a véletlenszerű erdő eredményét a szavazatok többségéből veszik. Míg a regressziós feladatban az eredményt az egyes fák által generált előrejelzések átlagából vagy átlagából veszik.
d) Neurális hálózatok
A neurális hálózatok a gépi tanulás részhalmazai, és mesterséges neurális hálózatokként is ismertek. A neurális hálózatok mesterséges neuronokból állnak, és úgy vannak megtervezve, hogy az hasonlítson az emberi agy szerkezetére és működésére. Minden mesterséges neuron sok más neuronhoz kapcsolódik egy neurális hálózatban, és az összekapcsolt neuronok milliói kifinomult kognitív struktúrát hoznak létre.
A neurális hálózatok többrétegű struktúrából állnak, amely egy bemeneti réteget, egy vagy több rejtett réteget és egy kimeneti réteget tartalmaz. Mivel minden egyes neuron egy másik neuronhoz kapcsolódik, adatokat továbbít az egyik rétegből a következő rétegek másik neuronjába. Végül az adatok elérik a neurális hálózat utolsó rétegét vagy kimeneti rétegét, és kimenetet generálnak.
A neurális hálózatok a képzési adatoktól függenek a tanuláshoz és a pontosságuk javításához. Egy tökéletesen betanított és pontos neurális hálózat azonban gyorsan csoportosíthatja az adatokat, és hatékony gépi tanulási és mesterséges intelligencia eszközzé válhat. Az egyik legismertebb neurális hálózat az A Google keresési algoritmusa.
Osztályozás
Az osztályozási modellek a felügyelt tanulási technikák második típusa, amelyeket arra használnak, hogy következtetéseket vonjanak le a kategorikus formában megfigyelt értékekből. Például az osztályozási modell képes azonosítani, hogy az e-mail spam-e vagy sem; a vevő megvásárolja-e a terméket vagy sem, stb. Az osztályozási algoritmusokat két osztály előrejelzésére és a kimenetek különböző csoportokba sorolására használják.
Az osztályozás során egy osztályozó modellt terveznek, amely az adatkészletet különböző kategóriákba sorolja, és minden kategóriához hozzárendelnek egy címkét.
A gépi tanulásban kétféle osztályozás létezik:
Néhány népszerű osztályozási algoritmus a következő:
a) Logisztikai regresszió
A logisztikai regressziót a gépi tanulás osztályozási problémáinak megoldására használják. Hasonlóak a lineáris regresszióhoz, de a kategorikus változók előrejelzésére használják. Megjósolhatja a kimenetet igen vagy nem, 0 vagy 1, igaz vagy hamis stb. esetén. A pontos értékek megadása helyett azonban a 0 és 1 közötti valószínűségi értékeket adja meg.
b) Támogassa a vektorgépet
A támogatási vektorgép vagy az SVM a népszerű gépi tanulási algoritmus, amelyet széles körben használnak osztályozási és regressziós feladatokhoz. Konkrétan azonban osztályozási problémák megoldására használják. Az SVM fő célja, hogy megtalálja a legjobb döntési határokat egy N-dimenziós térben, amely képes az adatpontokat osztályokba bontani, és a legjobb döntési határt Hyperplane néven ismerjük. Az SVM kiválasztja a szélső vektort a hipersík megtalálásához, és ezeket a vektorokat támogató vektoroknak nevezzük.
c) Naív Bayes
A Naive Bayes egy másik népszerű osztályozási algoritmus, amelyet a gépi tanulásban használnak. Úgy hívják, mert Bayes-tételen alapul, és a naiv (független) feltevést követi a jellemzők között, amelyet a következőképpen adunk meg:
Minden naiv Bayes-osztályozó azt feltételezi, hogy egy adott változó értéke független minden más változótól/jellemzőtől. Például, ha egy gyümölcsöt szín, forma és íz alapján kell osztályozni. Tehát a sárga, az ovális és az édes mangónak minősül. Itt minden funkció független a többi jellemzőtől.
2. Felügyelet nélküli gépi tanulási modellek
A nem felügyelt gépi tanulási modellek a felügyelt tanulással ellentétes tanulási folyamatot valósítanak meg, ami azt jelenti, hogy lehetővé teszi a modell számára, hogy tanuljon a címkézetlen tanítási adatkészletből. A címkézetlen adatkészlet alapján a modell előrejelzi a kimenetet. Felügyelet nélküli tanulással a modell saját maga, felügyelet nélkül tanulja meg a rejtett mintákat az adatkészletből.
A nem felügyelt tanulási modelleket főként három feladat elvégzésére használják, amelyek a következők:
A klaszterezés egy nem felügyelt tanulási technika, amely magában foglalja az adatpontok különböző klaszterekbe történő csoportosítását vagy tapogatását hasonlóságok és különbségek alapján. A legtöbb hasonlóságot mutató objektumok ugyanabban a csoportban maradnak, és nincs, vagy nagyon kevés hasonlóságuk van más csoportoktól.
A klaszterező algoritmusok széles körben használhatók különböző feladatokban, mint pl Képszegmentálás, Statisztikai adatelemzés, Piacszegmentálás stb.
Néhány gyakran használt klaszterezési algoritmus K-means Clustering, hierarchális klaszterezés, DBSCAN stb.
Az asszociációs szabályok tanulása egy nem felügyelt tanulási technika, amely érdekes kapcsolatokat talál a változók között egy nagy adathalmazon belül. Ennek a tanulási algoritmusnak az a fő célja, hogy megtalálja egy adatelem függőségét egy másik adatelemtől, és ennek megfelelően leképezi ezeket a változókat, hogy maximális profitot termelhessen. Ezt az algoritmust főleg azokban alkalmazzák Piackosár elemzés, Webhasználat bányászat, folyamatos gyártás stb.
Az asszociációs szabályok tanulásának néhány népszerű algoritmusa Apriori algoritmus, Eclat, FP-növekedési algoritmus.
Az adatkészletben jelenlévő jellemzők/változók számát az adatkészlet dimenziójának, a dimenzionalitás csökkentésére használt technikát pedig dimenziócsökkentési technikának nevezzük.
Bár több adat pontosabb eredményt ad, ez is befolyásolhatja a modell/algoritmus teljesítményét, például túlillesztési problémákat. Ilyen esetekben méretcsökkentési technikákat alkalmaznak.
' Ez egy olyan folyamat, amelynek során a magasabb dimenziójú adatkészletet kisebb dimenziójú adatkészletekké alakítják, biztosítva, hogy hasonló információkat nyújtsanak .'
Különböző dimenziócsökkentési módszerek, mint pl mint PCA (Principal Component Analysis), Singular Value Decomposition stb.
Megerősítő tanulás
A megerősítő tanulás során az algoritmus olyan műveleteket tanul meg egy adott állapothalmazhoz, amelyek egy célállapothoz vezetnek. Ez egy visszacsatoláson alapuló tanulási modell, amely minden egyes állapot vagy cselekvés után visszacsatolási jeleket vesz a környezettel való interakció révén. Ez a visszajelzés jutalomként működik (pozitív minden jó cselekedetnél, negatív pedig minden rossz cselekedetnél), és az ügynök célja a pozitív jutalmak maximalizálása teljesítményének javítása érdekében.
A modell viselkedése a megerősítő tanulásban hasonló az emberi tanuláshoz, mivel az emberek tapasztalatokból tanulnak meg dolgokat visszacsatolásként, és kölcsönhatásba lépnek a környezettel.
Az alábbiakban felsorolunk néhány népszerű algoritmust, amelyek a megerősítő tanulás alá tartoznak:
Célja, hogy elsajátítsa azt a szabályzatot, amely segíthet az AI-ügynöknek abban, hogy a legjobb lépést tegye meg a jutalom maximalizálása érdekében egy adott körülmények között. Minden állapot-művelet párhoz Q értékeket tartalmaz, amelyek jelzik az adott állapotút követésének jutalmát, és megpróbálja maximalizálni a Q-értéket.
Gépi tanulási modellek képzése
A gépi tanulási modell felépítése után a megfelelő eredmények elérése érdekében betanítják. A gépi tanulási modell betanításához hatalmas mennyiségű előre feldolgozott adatra van szükség. Az előfeldolgozott adatok itt strukturált formában, csökkentett nullértékekkel stb. lévő adatokat jelentenek. Ha nem adunk előre feldolgozott adatokat, akkor óriási az esély arra, hogy a modellünk borzasztóan teljesít.
Hogyan válasszuk ki a legjobb modellt?
A fenti részben különböző gépi tanulási modelleket és algoritmusokat tárgyaltunk. De egy nagyon zavaró kérdés, amely minden kezdőben felmerülhet, hogy 'melyik modellt válasszam?'. Tehát a válasz az, hogy ez elsősorban az üzleti vagy a projekt követelményétől függ. Ezen kívül függ a kapcsolódó attribútumoktól, a rendelkezésre álló adatkészlet mennyiségétől, a jellemzők számától, összetettségétől stb. A gyakorlatban azonban azt javasoljuk, hogy mindig a legegyszerűbb modellel kezdjük, amely alkalmazható az adott adott területen. probléma, majd fokozatosan fokozza a komplexitást és tesztelje a pontosságot a paraméterhangolás és a keresztellenőrzés segítségével.
Különbség a gépi tanulási modell és az algoritmusok között
Az egyik legzavaróbb kérdés a kezdők körében, hogy vajon a gépi tanulási modellek és az algoritmusok ugyanazok? Mert a gépi tanulásban és az adattudományban különböző esetekben ezt a két kifejezést felcserélhetően használják.
A válasz erre a kérdésre nem, és a gépi tanulási modell nem azonos egy algoritmussal. Egyszerű módon egy Az ML algoritmus olyan, mint egy eljárás vagy metódus, amely adatokon fut, hogy mintákat fedezzen fel azokból és generálja a modellt. Ugyanakkor a A gépi tanulási modell olyan, mint egy számítógépes program, amely kimenetet generál vagy előrejelzéseket készít . Pontosabban, amikor egy algoritmust adatokkal betanítunk, az modell lesz.
Machine Learning Model = Model Data + Prediction Algorithm