logo

Gini-index a gépi tanulásban

Bevezetés

A gépi tanulás megreformálta az adatok feldolgozásának és vizsgálatának módját, és a döntési fa algoritmusai az osztályozási és regressziós feladatok híres döntései. A Gini-index, más néven Gini-szennyeződés vagy Gini-együttható, egy jelentős szennyeződési mérőszám, amelyet a döntési fa algoritmusaiban használnak. Ebben a cikkben kimerítően megvizsgáljuk a Gini Index ötletét, numerikus képletét és alkalmazásait a gépi tanulásban. Hasonlóképpen szembeállítjuk a Gini-indexet és más szennyeződési mérőszámokat, beszélünk korlátairól és előnyeiről, és megvizsgáljuk valós alkalmazásainak kontextuális elemzését. Végre bemutatjuk a jövőbeli csapágyakat a kutatáshoz.

Mi az a Gini Index?

A Gini-index a szennyezettség vagy egyenlőtlenség aránya statisztikai és monetáris környezetben. A gépi tanulásban szennyeződés mértékeként használják az osztályozási feladatok döntési fa-algoritmusaiban. A Gini-index annak valószínűségét méri, hogy egy döntési fa-algoritmus tévesen minősíti a véletlenül kiválasztott tesztet, és értéke 0-tól (tökéletesen tiszta) 1-ig (tökéletesen tisztátalan) változik.

Gini Index Formula

A Gini-index a cirkuláció szennyezettségének vagy egyenlőtlenségének aránya, amelyet rendszeresen használnak szennyeződési mérőszámként a döntési fa algoritmusaiban. Ami a döntési fákat illeti, a Gini-indexet használják annak meghatározására, hogy a fa minden csomópontján melyik a legjobb tulajdonság az adatok felosztásához.

A Gini-index képlete a következő:

Gini-index a gépi tanulásban

ahol a pi annak a valószínűsége, hogy egy dolognak van egy adott osztályú helye.

Például meg kell fontolnunk egy bináris osztályozási kérdést két An és B osztályú. Ha nincs esély arra, hogy az An osztály valószínűsége p és a B osztály valószínűsége (1-p), akkor a Gini-index a következőképpen számítható ki. :

A Gini-index értéke 0,0-ról 0,5-re változik bináris osztályozási problémák esetén, ahol a 0,0 egy tökéletesen tiszta csomópontot (minden példának van egy hasonló osztályú helye), a 0,5 pedig egy tökéletesen tisztátalan csomópontot (a tesztek egyenlően oszlanak meg a két osztály között ).

A Gini-index használata az osztályozási problémákban

A Gini-indexet általában szennyeződési mérőszámként használják a döntési fa algoritmusaiban osztályozási problémák esetén. A döntési fákban minden csomópont megcímez egy elemet, és a cél az, hogy az adatokat olyan részhalmazokra ossza fel, amelyek lényegében olyan tisztaak, mint az elvárható. A szennyeződés mértékét (mint például a Gini-indexet) a rendszer minden csomópontnál a legjobb felosztás meghatározására használja.

Ennek szemléltetésére meg kell fontolnunk egy példát egy bináris osztályozási probléma döntési fára. A fának két eleme van: az életkor és a jövedelem, és a cél az előrejelzés, függetlenül attól, hogy az egyén valószínűleg vásárolni fog-e egy terméket. A fa a Gini-index felhasználásával készült szennyeződés mértékeként.

A gyökércsomópontnál a Gini-index kiszámítása annak a valószínűsége alapján történik, hogy a példák 0-s vagy 1-es osztályúak lesznek. A csomópont fel van osztva annak a komponensnek a figyelembevételével, amely a Gini-index legnagyobb csökkenését eredményezi. Ezt a ciklust minden részhalmaznál rekurzívan újraírják, amíg a leállítási intézkedés teljesül.

Döntési fák

A döntési fa egy jól ismert gépi tanulási algoritmus, amelyet mind osztályozási, mind regressziós feladatokhoz használnak. A modellt úgy dolgozzák fel, hogy az adatkészletet rekurzívan szerényebb részhalmazokra bontják az információs kiemelések értékei fényében, amelyek célja a következő részhalmazok szennyeződésének korlátozása.

A fa minden csomópontján az egyik info-kiemelés értékei alapján születik döntés, azzal a végcéllal, hogy a következő részhalmazok alapvetően olyan tiszták legyenek, amennyire valóban elvárható. Egy részhalmaz tisztaságát rendszeresen megbecsülik egy szennyeződés mértékével, például a Gini-indexszel vagy az entrópiával.

A döntési fa algoritmus bináris és többosztályos osztályozási feladatokhoz, valamint regressziós feladatokhoz egyaránt használható. A bináris osztályozási feladatokban a döntési fa két részhalmazra osztja az adatkészletet egy bináris jellemző értékének fényében, például igen vagy nem. A többosztályos osztályozási feladatoknál a döntési fa az adatkészletet számos részhalmazra osztja fel egy egyenes jellemző (például piros, zöld vagy kék) értékei alapján.

Gini-index vs egyéb szennyeződési mérések

A Gini-indexen kívül vannak más szennyezési mértékek is, amelyeket általában a döntési fa algoritmusaiban használnak, például az entrópia és az információszerzés.

Entrópia:

A gépi tanulásban az entrópia egy csomó adat szabálytalanságának vagy sebezhetőségének egy része. Általában szennyeződés mértékeként használják a döntési fa algoritmusokban, a Gini-index mellett.

A döntési fa algoritmusaiban az entrópiát arra használják, hogy eldöntsék, melyik a legjobb komponens az adatok felosztásához a fa minden csomópontján. A cél az, hogy megtaláljuk azt az elemet, amely a legnagyobb entrópiacsökkenést eredményezi, ami ahhoz az összetevőhöz kapcsolódik, amely a legtöbb információt ad az osztályozási problémáról.

Gini-index a gépi tanulásban

Míg az entrópiát és a Gini-indexet általában szennyező mértékként használják a döntési fa-algoritmusokban, különböző tulajdonságokkal rendelkeznek. Az entrópia kényesebb az osztálynevek körforgásában, és általában jobban kiigazított fákat ad, míg a Gini-index kevésbé érinti az osztályjelek kisajátítását, és általában korlátozottabb fákat hoz létre, kevesebb hasadással. A szennyezettségi intézkedés döntése az adott kérdéstől és az adatok jellemzőitől függ.

Információszerzés:

Az információszerzés egy olyan művelet, amellyel a döntési fa felépítése során felmérjük a felosztás természetét. A döntési fa célja, hogy az adatokat olyan részhalmazokra bontsa, amelyek alapvetően olyan homogének, mint az objektív változó esetében, így az ezt követő fa felhasználható az új adatokkal kapcsolatos pontos elvárásokra. Az információnyereség méri az entrópia vagy a szennyeződés csökkenést, amelyet a felosztás okoz. A legfigyelemreméltóbb információnyereséggel rendelkező jellemzőt választották a legjobb jellemzőnek a döntési fa minden csomópontján történő felosztásra.

Az információnyerés általában egy mérce a döntési fák felosztásának természetének értékeléséhez, de nem erre kell összpontosítani. Különböző mérőszámok, például a Gini-index vagy a téves besorolási arány szintén használhatók. A felosztási alap döntése a fő kérdéstől és a felhasznált adatkészlet attribútumaitól függ.

Példa a Gini indexre

Meg kell fontolnunk egy bináris osztályozási problémát, ahol van egy 10 példából álló adatkészletünk két osztályú: „Pozitív” és „Negatív”. A 10 példából 6-nak a „Pozitív” osztályú, 4-nek a „Negatív” osztályú a helye.

Az adatkészlet Gini-indexének kiszámításához először kiszámítjuk az egyes osztályok valószínűségét:

p_1 = 6/10 = 0,6 (pozitív)

p_2 = 4/10 = 0,4 (negatív)

Ezután ezen a ponton a Gini-index képletet használjuk az adatkészlet szennyezettségének kiszámításához:

Gini(S) = 1 - (p_1^2 + p_2^2)

= 1 - (0,6^2 + 0,4^2)

= 0,48

Tehát az adatkészlet Gini-indexe 0,48.

Jelenleg tegyük fel, hogy fel kell osztanunk az adatkészletet egy „X” elemre, amelynek két potenciális értéke van: „A” és „B”. Az adatkészletet két részhalmazra bontjuk az összetevő szempontjából:

1. részhalmaz (X = A): 4 pozitív, 1 negatív

2. részhalmaz (X = B): 2 pozitív, 3 negatív

A Gini-index csökkenésének kiszámításához ehhez a felosztáshoz először minden részhalmaz Gini-indexét számítjuk ki:

Gini(S_1) = 1 - (4/5)^2 - (1/5)^2 = 0,32

Gini(S_2) = 1 - (2/5)^2 - (3/5)^2 = 0,48

Ezután az információnyerési képletet használjuk a Gini-index csökkenésének kiszámításához:

IG(S, X) = Gini(S) - ((5/10 * Gini(S_1)) + (5/10 * Gini(S_2)))

= 0,48 - ((0,5 * 0,32) + (0,5 * 0,48))

= 0,08

Tehát az információnyereség (azaz a Gini-index csökkenése) az adatkészlet felosztásához az „X” kiemelésnél 0,08.

Ebben a helyzetben abban az esetben, ha kiszámítjuk az összes elem információnyereségét, és kiválasztjuk azt, amelyik a leginkább figyelemre méltó információnyereséggel rendelkezik, akkor azt a komponenst választjuk a legjobban a döntési fa gyökércsomópontjában való felosztásra.

Előnyök:

A Gini-index egy széles körben alkalmazott mérőszám a döntési fák felosztásának értékelésére, és néhány mutatót élvez a különböző mérőszámok, például az entrópia vagy a téves besorolási arány felett. Íme egy rész a Gini-index használatának fő előnyeiből:

különbség cég és cég között

Számításilag hatékony: A Gini-index egy kevésbé bonyolult és számításilag gyorsabb mérőszám, szemben a különböző mértékekkel, például az entrópiával, amely logaritmusok kiszámítását foglalja magában.

Intuitív értelmezés: A Gini-index egyértelmű és értelmezhető. Méri annak valószínűségét, hogy egy halmazból véletlenül kiválasztott példa hibásan kerül besorolásra abban az esetben, ha véletlenül jelölték meg a halmazban az osztálytovábbítás szerint.

Bináris osztályozáshoz jó: A Gini-index különösen hatékony bináris osztályozási problémák esetén, ahol az objektív változónak csak két osztálya van. Ilyen esetekben a Gini-indexről ismert, hogy stabilabb, mint a különböző mérőszámoknál.

Robusztus osztálykiegyensúlyozatlanság: A Gini-index kevésbé érzékeny az osztályok kiegyensúlyozatlanságára, szemben a különböző mérőszámokkal, például a pontosság vagy a téves besorolás arányával. Ennek az az oka, hogy a Gini-index az egyes osztályok példáinak általános terjedelmétől függ, szemben az egyenes számokkal.

Kevésbé hajlamos a túlillesztésre: A Gini-index általában szerényebb döntési fákat hoz a különböző mérőszámokkal szemben, ami kevésbé teszi ki a túlillesztést. Ennek az az oka, hogy a Gini-index általában azokat a jellemzőket részesíti előnyben, amelyek szerényebb adatcsomagokat tesznek lehetővé, ami csökkenti a túlillesztés lehetőségét.

Hátrányok:

Míg a Gini-indexnek van néhány előnye a döntési fák felosztási mértékeként, van néhány hátránya is. Íme egy rész a Gini-index használatának fő hátrányaiból:

Elfogultság számos kategóriájú funkciók felé: A Gini-index általában a sok kategóriájú vagy értékkel rendelkező funkciók felé hajlik, mivel ezek több felosztást és adatcsomagot hozhatnak létre. Ez túlillesztést és bonyolultabb döntési fát eredményezhet.

Nem jó folytonos változókhoz: A Gini-index nem megfelelő folytonos változókhoz, mivel megköveteli a változók kategóriákba vagy tárolókba történő diszkretizálását, ami információvesztéshez és a pontosság csökkenéséhez vezethet.

Figyelmen kívül hagyja a funkciók interakcióit: A Gini-index csak az egyes jellemzők egyéni előrelátó erejére gondol, és figyelmen kívül hagyja a jellemzők közötti interakciókat. Ez gyenge felosztásokat és kevésbé pontos előrejelzéseket eredményezhet.

Nem ideális egyes adatkészletekhez: időnként a Gini-index nem feltétlenül az ideális mérőszám a döntési fában lévő felosztások természetének értékelésére. Például abban az esetben, ha az objektív változó kivételesen ferde vagy kiegyensúlyozatlan, más mérőszámok, például az információszerzés vagy -nyereség aránya megfelelőbbek lehetnek.

Hajlamos a torzításra hiányzó értékek jelenlétében: A Gini-index torzíthat hiányzó értékek jelenlétében, mivel általában a kevésbé hiányzó értékekkel rendelkező jellemzők felé hajlik, függetlenül attól, hogy nem a leginkább informatívak-e.

A Gini-index valós alkalmazásai

A Gini-indexet a gépi tanulás különböző alkalmazásaiban használták, például a zsarolás helyének meghatározásában, a kreditpontozásban és az ügyfélfelosztásban. Például a zsarolás felfedezésében a Gini-index felhasználható a tervek megkülönböztetésére az adatcserében, és a bizarr viselkedési módok felismerésére. A hitelbírálat során a Gini-index felhasználható a nemteljesítés valószínűségének előrejelzésére olyan változók figyelembevételével, mint a jövedelem, a fennálló tartozás viszonya a lakásbérhez, valamint a hitel visszafizetésének nyilvántartása. Az ügyféldivízióban a Gini Index használható az ügyfelek csoportosítására viselkedésük és hajlamuk alapján.

Jövő kutatás

A döntési fa-algoritmusokban való korlátlan felhasználása ellenére a Gini-indexet még mindig kell kutatni. A kutatás egyik területe az új szennyeződési mérőszámok fejlesztése, amelyek képesek kezelni a Gini-index korlátait, például a többszintű tényezők felé való hajlamát. További kutatási terület a döntési fa algoritmusok ésszerűsítése a Gini-index segítségével, például az öltözködési technikák alkalmazása a döntési fák pontosságán.

Következtetés

A Gini-index egy jelentős szennyeződési mérőszám, amelyet a döntési fa algoritmusaiban használnak az osztályozási feladatokhoz. Méri annak valószínűségét, hogy a véletlenszerűen kiválasztott tesztet egy döntési fa-algoritmus rosszul osztályozza, és értéke 0-tól (tökéletesen tiszta) 1-ig (tökéletesen tisztátalan) változik. A Gini-index egyszerű és hatékony, számítási szempontból eredményes, és kivételesen hatékony. A gépi tanulás különböző alkalmazásaiban használták, például a félrevezetés felfedezésében, a kreditpontozásban és az ügyfélmegosztásban. Noha a Gini-indexnek van néhány korlátja, még mindig van némi kutatás a javítására és az új szennyeződési intézkedések javítására.