logo

Hierarchikus klaszterezés az adatbányászatban

A hierarchikus klaszterezés egy felügyelt tanulási eljárásra utal, amely előre meghatározott fürtök alapján határozza meg az egymást követő klasztereket. Úgy működik, hogy az adatokat egy fürtfába csoportosítja. Hierarchikus klaszterezési statisztikák az egyes adatpontok egyedi fürtként való kezelésével. A végpont a fürtök eltérő halmazára utal, ahol minden fürt különbözik a többi fürttől, és az egyes fürtök objektumai megegyeznek egymással.

A hierarchikus klaszterezésnek két típusa van

  • Agglomeratív hierarchikus klaszterezés
  • Megosztó klaszterezés

Agglomeratív hierarchikus klaszterezés

Az agglomeratív klaszterezés a hierarchikus klaszterezés egyik leggyakoribb típusa, amelyet hasonló objektumok klaszterekbe történő csoportosítására használnak. Az agglomeratív klaszterezés AGNES (Agglomerative Nesting) néven is ismert. Az agglomeratív klaszterezésben minden adatpont egyedi fürtként működik, és minden lépésben az adatobjektumok alulról felfelé irányuló módszerrel csoportosulnak. Kezdetben minden adatobjektum a fürtjében van. Minden iterációnál a klasztereket különböző klaszterekkel kombinálják, amíg egy klaszter létre nem jön.

Agglomeratív hierarchikus klaszterezési algoritmus

  1. Határozza meg az egyedek és az összes többi klaszter közötti hasonlóságot! (Közelségi mátrix keresése).
  2. Tekintsünk minden adatpontot egyedi fürtnek.
  3. Kombinálja a hasonló klasztereket.
  4. Számítsa újra a közelségi mátrixot minden klaszterhez.
  5. Ismételje meg a 3. és 4. lépést, amíg egyetlen klasztert nem kap.

Értsük meg ezt a fogalmat egy dendrogramot használó grafikus ábrázolás segítségével.

Egy adott demonstráció segítségével megérthetjük az algoritmus tényleges működését. Itt nem végeztek számítást a klaszterek közötti teljes közelség feltételezése alatt.

külön string java-ban

Tegyük fel, hogy hat különböző adatpontunk van: P, Q, R, S, T, V.

Hierarchikus klaszterezés az adatbányászatban

1. lépés:

Tekintse meg az egyes ábécéket (P, Q, R, S, T, V) egyedi klaszternek, és keresse meg az egyes klaszterek és az összes többi klaszter közötti távolságot.

Java kód példák

2. lépés:

Most egyesítse a hasonló fürtöket egyetlen fürtben. Tegyük fel, hogy a Q és az R klaszter hasonlóak egymáshoz, így a második lépésben összevonhatjuk őket. Végül megkapjuk a [ (P), (QR), (ST), (V)] klasztereket

3. lépés:

Itt újraszámítjuk a közelséget az algoritmus szerint, és kombináljuk a két legközelebbi klasztert [(ST), (V)], így új klasztereket alkotunk [(P), (QR), (STV)]

a java karakterláncot tartalmazza

4. lépés:

Ismételje meg ugyanezt a folyamatot. Az STV és PQ klaszterek összehasonlíthatók, és új klasztert alkotnak. Most van [(P), (QQRSTV)].

5. lépés:

Végül a fennmaradó két klaszter összevonva egyetlen klasztert alkot [(PQRSTV)]

Megosztó hierarchikus klaszterezés

Az osztódó hierarchikus klaszterezés pontosan az ellentéte az agglomeratív hierarchikus klaszterezésnek. A Divivisive Hierarchical klaszterezésben minden adatpont egyedi fürtnek számít, és minden iterációban a nem hasonló adatpontokat elválasztja a klasztertől. Az elválasztott adatpontokat a rendszer egyedi fürtként kezeli. Végül N klaszter marad.

Hierarchikus klaszterezés az adatbányászatban

A hierarchikus klaszterezés előnyei

  • Egyszerűen kivitelezhető, és bizonyos esetekben a legjobb eredményt adja.
  • Egyszerű, és hierarchiát, több információt tartalmazó struktúrát eredményez.
  • Nem szükséges előre megadnunk a klaszterek számát.

A hierarchikus klaszterezés hátrányai

  • Megtöri a nagy fürtöket.
  • Nehéz kezelni a különböző méretű klasztereket és konvex formákat.
  • Érzékeny a zajra és a kiugró hatásokra.
  • Az algoritmus soha nem módosítható vagy törölhető, ha már korábban megtörtént.