logo

Klaszterezés a gépi tanulásban

A klaszterezés vagy fürtelemzés egy gépi tanulási technika, amely csoportosítja a címkézetlen adatkészletet. Úgy definiálható „Az adatpontok különböző klaszterekbe történő csoportosításának módja, amelyek hasonló adatpontokból állnak. A lehetséges hasonlóságokkal rendelkező objektumok egy olyan csoportban maradnak, amely kevésbé vagy egyáltalán nem hasonlít egy másik csoporthoz.

Ehhez hasonló mintákat talál a címkézetlen adatkészletben, például alakot, méretet, színt, viselkedést stb., és felosztja a hasonló minták jelenléte és hiánya szerint.

Linux átnevezési könyvtár

Ez egy felügyelet nélküli tanulás módszerrel, ezért az algoritmus nem rendelkezik felügyelettel, és a címkézetlen adatkészlettel foglalkozik.

A klaszterezési technika alkalmazása után minden fürt vagy csoport kap egy fürtazonosítót. Az ML rendszer ezt az azonosítót használhatja nagy és összetett adathalmazok feldolgozásának egyszerűsítésére.

A klaszterezési technikát általában használják statisztikai adatelemzés.

Megjegyzés: A klaszterezés valahol hasonló a osztályozási algoritmus , de a különbség az általunk használt adatkészlet típusában van. Az osztályozásnál a címkézett adatkészlettel, míg a klaszterezésnél a címkézetlen adatkészlettel dolgozunk.

Példa : Értsük meg a klaszterezési technikát a Mall valós példáján: Amikor felkeresünk egy bevásárlóközpontot, megfigyelhetjük, hogy a hasonló használatú dolgok egy csoportba kerülnek. Például a pólók egy részre vannak csoportosítva, a nadrágok a többi résznél, hasonlóképpen a zöldséges részeknél az alma, a banán, a mangó stb. külön részekre vannak csoportosítva, hogy könnyen tájékozódhassunk a dolgokról. A klaszterezési technika is hasonlóan működik. A klaszterezés további példái a dokumentumok téma szerinti csoportosítása.

A klaszterezési technika széles körben alkalmazható különféle feladatokban. Ennek a technikának néhány leggyakoribb felhasználási módja:

  • Piaci szegmentáció
  • Statisztikai adatelemzés
  • Közösségi hálózat elemzése
  • Képszegmentálás
  • Anomália észlelése stb.

Ezen általános használaton kívül a amazon ajánlási rendszerében, hogy az ajánlásokat a múltbeli termékkeresésnek megfelelően adja meg. Netflix ezt a technikát használja arra is, hogy a megtekintési előzmények alapján a filmeket és websorozatokat ajánlja felhasználóinak.

Az alábbi ábra bemutatja a klaszterezési algoritmus működését. Láthatjuk, hogy a különböző gyümölcsök több csoportra oszthatók, hasonló tulajdonságokkal.

Klaszterezés a gépi tanulásban

A klaszterezési módszerek típusai

A klaszterezési módszerek nagy vonalakban fel vannak osztva Kemény klaszterezés (az adatpont csak egy csoportba tartozik) és Lágy klaszterezés (az adatpontok egy másik csoportba is tartozhatnak). De a klaszterezésnek más megközelítései is léteznek. Az alábbiakban bemutatjuk a gépi tanulásban használt fő klaszterezési módszereket:

    Partícionálás Klaszterezés Sűrűség alapú klaszterezés Eloszlási modell alapú klaszterezés Hierarchikus klaszterezés Fuzzy Clustering

Partícionálás Klaszterezés

Ez egyfajta fürtözés, amely az adatokat nem hierarchikus csoportokra osztja. Más néven a centroid alapú módszer . A particionálási klaszterezés leggyakoribb példája a K-Means Klaszterezési algoritmus .

Ebben a típusban az adatkészlet egy k csoportból álló halmazra van felosztva, ahol K az előre meghatározott csoportok számának meghatározására szolgál. A klaszter középpontja úgy van kialakítva, hogy az egyik klaszter adatpontjai közötti távolság minimális legyen egy másik klaszter súlypontjához képest.

Klaszterezés a gépi tanulásban

Sűrűség alapú klaszterezés

A sűrűség alapú klaszterezési módszer a nagy sűrűségű területeket klaszterekbe köti, és a tetszőleges alakú eloszlásokat addig képezik, amíg a sűrű régió összekapcsolható. Ez az algoritmus az adathalmaz különböző klasztereinek azonosításával hajtja végre, és a nagy sűrűségű területeket klaszterekbe köti. Az adattérben lévő sűrű területeket ritkább területek választják el egymástól.

Ezek az algoritmusok nehézségekbe ütközhetnek az adatpontok klaszterezése során, ha az adatkészlet változó sűrűséggel és nagy dimenzióval rendelkezik.

Klaszterezés a gépi tanulásban

Eloszlási modell alapú klaszterezés

Az eloszlási modell alapú klaszterezési módszerben az adatok felosztása annak a valószínűsége alapján történik, hogy egy adatkészlet hogyan tartozik egy adott eloszláshoz. A csoportosítás néhány eloszlás általános feltételezésével történik Gauss-eloszlás .

Ennek a típusnak a példája a Elvárás-maximalizálás Klaszterezési algoritmus amely Gauss-féle keverékmodelleket (GMM) használ.

tavaszi keret
Klaszterezés a gépi tanulásban

Hierarchikus klaszterezés

A hierarchikus fürtözés a particionált fürtözés alternatívájaként használható, mivel nincs szükség a létrehozandó fürtök számának előzetes megadására. Ebben a technikában az adatkészletet fürtökre osztják fel, hogy egy faszerű struktúrát hozzanak létre, amelyet a dendrogram . A megfigyelések vagy tetszőleges számú klaszter kiválasztható a fa megfelelő szintű vágásával. Ennek a módszernek a leggyakoribb példája a Agglomeratív hierarchikus algoritmus .

Klaszterezés a gépi tanulásban

Fuzzy Clustering

A fuzzy fürtözés olyan lágy módszer, amelyben egy adatobjektum egynél több csoporthoz vagy fürthöz is tartozhat. Minden adatkészlet rendelkezik tagsági együtthatókkal, amelyek a fürtben való tagság mértékétől függenek. Fuzzy C-means algoritmus a példa erre a fajta klaszterezésre; néha Fuzzy k-means algoritmusnak is nevezik.

Klaszterezési algoritmusok

A klaszterezési algoritmusok a fent ismertetett modelljeik alapján feloszthatók. Különféle típusú klaszterezési algoritmusok jelentek meg, de csak néhányat használnak általánosan. A klaszterezési algoritmus az általunk használt adatokon alapul. Például egyes algoritmusoknak meg kell találniuk az adott adathalmazban lévő klaszterek számát, míg másoknak meg kell találniuk az adathalmaz megfigyelése közötti minimális távolságot.

Itt elsősorban a gépi tanulásban széles körben használt fürtözési algoritmusokat tárgyaljuk:

    K-Means algoritmus:A k-means algoritmus az egyik legnépszerűbb klaszterező algoritmus. Az adatkészletet úgy osztályozza, hogy a mintákat egyenlő varianciájú különböző klaszterekre osztja. Ebben az algoritmusban meg kell adni a klaszterek számát. Gyors, kevesebb számítást igényel, lineáris összetettsége mellett Tovább). Átlageltolási algoritmus:Az átlageltolásos algoritmus megpróbálja megtalálni a sűrű területeket az adatpontok sima sűrűségében. Ez egy példa egy centroid alapú modellre, amely azon dolgozik, hogy a centroid jelöltjeit egy adott régión belüli pontok középpontjává frissítse.DBSCAN algoritmus:Az áll Zajjal rendelkező alkalmazások sűrűség alapú térbeli klaszterezéséhez . Ez egy példa egy sűrűség alapú modellre, amely hasonló az átlageltoláshoz, de néhány figyelemre méltó előnnyel. Ebben az algoritmusban a nagy sűrűségű területeket az alacsony sűrűségű területek választják el. Emiatt a klaszterek tetszőleges alakban megtalálhatók.Elvárás-maximalizálási klaszterezés GMM használatával:Ez az algoritmus alternatívaként használható a k-átlag algoritmushoz, vagy olyan esetekben, amikor a K-átlag hibás lehet. A GMM-ben feltételezzük, hogy az adatpontok Gauss-eloszlásúak.Agglomeratív hierarchikus algoritmus:Az agglomeratív hierarchikus algoritmus az alulról felfelé irányuló hierarchikus klaszterezést hajtja végre. Ebben minden adatpontot a rendszer kezdetben egyetlen fürtként kezel, majd egymás után egyesíti. A fürthierarchia fastruktúraként is ábrázolható.Affinitás terjedése:Ez különbözik a többi klaszterezési algoritmustól, mivel nem szükséges megadni a fürtök számát. Ebben minden adatpont üzenetet küld az adatpontpárok között a konvergenciaig. O(N2T) időbonyolultság, ami ennek az algoritmusnak a fő hátránya.

A klaszterezés alkalmazásai

Az alábbiakban néhány általánosan ismert klaszterezési technikát mutatunk be a gépi tanulásban:

    A rákos sejtek azonosításában:A klaszterező algoritmusokat széles körben használják rákos sejtek azonosítására. Különböző csoportokra osztja a rákos és nem rákos adatsorokat.A keresőmotorokban:A keresőmotorok a klaszterezési technikán is dolgoznak. A keresési eredmény a keresési lekérdezéshez legközelebbi objektum alapján jelenik meg. Ezt úgy teszi, hogy a hasonló adatobjektumokat egy csoportba csoportosítja, amely távol van a többi eltérő objektumtól. A lekérdezés pontos eredménye a használt klaszterezési algoritmus minőségétől függ.Ügyfélszegmentáció:Piackutatásban használják a vásárlók választása és preferenciái alapján történő szegmentálására.Biológiában:A biológia adatfolyamban különféle növény- és állatfajok osztályozására használják képfelismerő technikával.Földhasználatban:A klaszterezési technikát a hasonló földhasználati területek azonosítására használják a térinformatikai adatbázisban. Ez nagyon hasznos lehet annak megállapítására, hogy az adott földterületet milyen célra kell használni, vagyis melyik célra alkalmasabb.