A CRISP-DM az adatbányászat ágazatközi szabványos folyamatát jelenti. A CRISP-DM módszertan strukturált megközelítést biztosít az adatbányászati projektek tervezéséhez. Ez egy robusztus és jól bevált módszertan. Semmilyen tulajdonjogot nem tartunk fenn rajta. Nem mi találtuk ki. Hatalmas gyakorlatiasságát, rugalmasságát és hasznosságát átalakítjuk, amikor az elemzést üzleti problémák megoldására használjuk. Ez az aranyszál, amely szinte minden ügyféltalálkozón áthalad.
Ez a modell az események idealizált sorozata. A gyakorlatban sok feladat más sorrendben is végrehajtható, és gyakran vissza kell térni az előző feladatokhoz, és meg kell ismételni bizonyos műveleteket. A modell nem próbál meg minden lehetséges útvonalat rögzíteni az adatbányászati folyamaton keresztül.
Hogyan segít a CRISP?
A CRISP DM útitervet ad, bevált gyakorlatokat ad, és struktúrákat biztosít az adatbányászat jobb és gyorsabb eredményéhez, így segíti az üzletet az adatbányászati projektek tervezése és végrehajtása során.
A CRISP-DM fázisai
A CRISP-DM áttekintést nyújt az adatbányászat életciklusáról, mint folyamatmodellről. Az életciklus-modell hat fázisból áll, nyilak jelzik a fázisok közötti legfontosabb és leggyakoribb függőséget. A fázisok sorrendje nem szigorú. És a legtöbb projekt szükség szerint oda-vissza mozog a fázisok között. A CRISP-DM modell rugalmas és könnyen testreszabható.
Például, ha szervezetének célja a pénzmosás felderítése, akkor valószínűleg nagy mennyiségű adatot kell átvizsgálnia konkrét modellezési cél nélkül. A modellezés helyett a munkája az adatok feltárására és megjelenítésére összpontosít, hogy feltárja a pénzügyi adatok gyanús mintáit. A CRISP-DM lehetővé teszi az Ön igényeinek megfelelő adatbányászati modell létrehozását.
Tartalmazza a projekt tipikus fázisainak leírását, az egyes fázisokhoz kapcsolódó feladatokat, valamint a feladatok közötti kapcsolatok magyarázatát.
1. fázis: Üzleti megértés
A CRISP-DM folyamat első szakasza annak megértése, hogy mit szeretne elérni üzleti szempontból. A szervezetnek lehetnek versengő céljai és korlátai, amelyeket megfelelően ki kell egyensúlyozni. Ennek a folyamatnak a célja a projekt eredményét befolyásoló fontos tényezők feltárása. Ennek a lépésnek a figyelmen kívül hagyása azt jelentheti, hogy sok erőfeszítést kell tenni annak érdekében, hogy a rossz kérdésekre megfelelő válaszokat adjunk.
Melyek a projekt kívánt eredményei?
Mérje fel a jelenlegi helyzetet
bal oldali csatlakozás vs jobb csatlakozás
Ez magában foglalja az erőforrások, korlátok, feltételezések és egyéb tényezők részletesebb tényfeltárását, amelyeket figyelembe kell vennie az adatelemzési cél és a projektterv meghatározásakor.
- Személyzet (üzleti szakértők, adatszakértők, műszaki támogatás, adatbányászati szakértők)
- Adatok (rögzített kivonatok, hozzáférés élő, raktározott vagy működési adatokhoz)
- Számítási erőforrások (hardverplatformok)
- Szoftver (adatbányászati eszközök, egyéb releváns szoftverek)
- A releváns üzleti terminológia szószedete a projekt számára elérhető üzleti ismeretek részét képezi. A szószedet összeállítása hasznos „tudásszerzés” és oktatási gyakorlat.
- Az adatbányászati terminológia szószedetét az üzleti probléma szempontjából releváns példák illusztrálják.
Határozza meg az adatbányászati célokat
Az üzleti cél célkitűzéseket fogalmaz meg az üzleti terminológiában. Az adatbányászati cél technikai értelemben határozza meg a projekt céljait. Az üzleti cél lehet például a katalóguseladások növelése a meglévő ügyfelek számára. Az adatbányászat célja lehet annak megjóslása, hogy az elmúlt három év során vásárolt vásárlásai, demográfiai adatok (életkor, fizetés, város stb.) és a tétel ára alapján az ügyfél hány kütyüt fog vásárolni.
Projektterv készítése
Ismertesse az adatbányászati célok és az üzleti célok eléréséhez tervezett tervet. A tervnek meg kell határoznia a projekt hátralévő részében végrehajtandó lépéseket, beleértve az eszközök és technikák kezdeti kiválasztását.
ascii táblázat c
1. Projektterv: Sorolja fel a projektben végrehajtandó szakaszokat, azok időtartamával, a szükséges erőforrásokkal, bemenetekkel, kimenetekkel és függőségekkel. Ahol lehetséges, próbálja meg explicitté tenni az adatbányászati folyamat nagyszabású iterációit, például a modellezési és kiértékelési fázisok ismétlését.
A projektterv részeként fontos elemezni az időbeosztás és a kockázatok közötti függőséget. Ezen elemzések eredményeit kifejezetten jelölje meg a projekttervben, ideális esetben intézkedésekkel és javaslatokkal, ha a kockázatok megnyilvánulnak. Döntse el, hogy az értékelési szakaszban melyik értékelési stratégiát használja.
A projektterve egy dinamikus dokumentum lesz. Minden fázis végén áttekinti az előrehaladást és az elért eredményeket, és ennek megfelelően frissíti a projekttervet. Ezeknek a frissítéseknek a konkrét felülvizsgálati pontjainak a projektterv részét kell képezniük.
2. Az eszközök és technikák kezdeti értékelése: Az első szakasz végén el kell végeznie az eszközök és technikák kezdeti értékelését. Például kiválaszthat egy adatbányászati eszközt, amely a folyamat különböző szakaszaiban különböző módszereket támogat. Fontos az eszközök és technikák értékelése a folyamat korai szakaszában, mivel az eszközök és technikák kiválasztása befolyásolhatja az egész projektet.
2. fázis: Adatok megértése
A CRISP-DM folyamat második fázisa megköveteli a projekt erőforrásaiban felsorolt adatok beszerzését. Ez a kezdeti gyűjtés magában foglalja az adatok betöltését, ha ez szükséges az adatok megértéséhez. Ha például egy adott eszközt használ az adatok megértéséhez, akkor teljesen logikus az adatok betöltése ebbe az eszközbe. Ha több adatforrást szerez be, mérlegelnie kell, hogyan és mikor fogja ezeket integrálni.
Írja le az adatokat
Vizsgálja meg a nyert adatok „bruttó” vagy „felületi” tulajdonságait, és számoljon be az eredményekről.
Fedezze fel az adatokat
Ebben a szakaszban az adatbányászattal kapcsolatos kérdéseket kell megválaszolnia lekérdezési, adatvizualizációs és jelentéskészítési technikák segítségével. Ezek a következők lehetnek:
- A legfontosabb attribútumok megoszlása
- Párok vagy kis számú attribútum közötti kapcsolatok
- Egyszerű összesítések eredményei
- Jelentősebb részpopulációk tulajdonságai
- Egyszerű statisztikai elemzések
Ezek az elemzések közvetlenül foglalkozhatnak adatbányászati céljaival. Hozzájárulhatnak vagy finomíthatják az adatleírásokat és a minőségi jelentéseket, valamint beépíthetik a további elemzéshez szükséges átalakítási és egyéb adat-előkészítési lépéseket.
Ellenőrizze az adatok minőségét
Vizsgálja meg az adatok minőségét, és tegye meg a következő kérdéseket:
- Az adatok teljesek, vagy minden szükséges esetet lefednek?
- Helyes-e, vagy tartalmaz-e hibákat, és ha vannak hibák, azok mennyire gyakoriak?
- Hiányoznak értékek az adatokból? Ha igen, hogyan ábrázolják őket, hol fordulnak elő, és mennyire gyakoriak?
Adatminőségi jelentés
Sorolja fel az adatminőség-ellenőrzés eredményeit. Ha minőségi problémák vannak, javasoljon lehetséges megoldásokat. Az adatminőségi problémák megoldása általában nagymértékben függ az adatoktól és az üzleti tudástól.
3. fázis: Adat-előkészítés
Ebben a projektfázisban Ön dönti el, hogy milyen adatokat fog felhasználni az elemzéshez. A döntés meghozatalához felhasználható kritériumok közé tartozik az adatok relevanciája az adatbányászati célokhoz, az adatok minősége és a technikai korlátok, például az adatmennyiség vagy adattípusok korlátozása.
Tisztítsa meg adatait
Ez a feladat magában foglalja az adatok minőségének a kiválasztott elemzési technikák által megkívánt szintre való emelését. Ez magában foglalhatja az adatok tiszta részhalmazainak kiválasztását, megfelelő alapértelmezett értékek beillesztését vagy ambiciózusabb technikákat, például a hiányzó adatok becslését modellezéssel.
A szükséges adatok összeállítása
vödör fajta
Ez a feladat építő jellegű adat-előkészítési műveleteket tartalmaz, például származtatott attribútumok, teljes új rekordok vagy meglévő attribútumok átalakított értékeinek létrehozását.
Integrálja az adatokat
Ezek a módszerek több adatbázisból, táblából vagy rekordból származó információkat kombinálnak új rekordok vagy értékek létrehozásához.
javascript globális változó
4. fázis: Modellezés
Válassza ki a modellezési technikát: Első lépésként válassza ki a használni kívánt alapvető modellezési technikát. Bár előfordulhat, hogy az üzleti megértés szakaszában már kiválasztott egy eszközt, ebben a szakaszban a konkrét modellezési technikát választja ki, pl. döntési fa építése C5.0-val vagy neurális hálózat generálása visszaterjedéssel. Ha több technikát alkalmaz, akkor ezt a feladatot mindegyik technikánál külön hajtsa végre.
Tesztterv létrehozása
Mielőtt létrehozna egy modellt, létre kell hoznia egy eljárást vagy mechanizmust a modell minőségének és érvényességének tesztelésére. Például az olyan felügyelt adatbányászati feladatoknál, mint az osztályozás, általános a hibaarányok használata az adatbányászati modellek minőségi mérőszámaként. Ezért az adatkészletet általában vonat- és tesztkészletekre osztja, a modellt a vonatkészletre építi fel, és a minőségét a különálló tesztkészleten becsüli meg.
Modell építése
Futtassa a modellező eszközt az előkészített adatkészleten egy vagy több modell létrehozásához.
A modell értékelése
Értelmezze a modelleket a domain tudása, az adatbányászat sikerességi kritériumai és a kívánt tesztterv alapján. Ítélje meg a modellezési és felfedezési technikák alkalmazásának sikerét, majd később lépjen kapcsolatba üzleti elemzőkkel és tartományszakértőkkel, hogy megvitassák az adatbányászat eredményeit az üzleti kontextusban. Ez a feladat csak modelleket vesz figyelembe, míg az értékelési szakasz a projekt során keletkezett összes többi eredményt is figyelembe veszi.
Ebben a szakaszban rangsorolni kell a modelleket, és az értékelési szempontok szerint értékelni kell őket. Itt amennyire csak lehet, figyelembe kell vennie az üzleti célokat és a sikerkritériumokat. A legtöbb adatbányászati projektben egyetlen technikát többször alkalmaznak, és az adatbányászati eredményeket több különböző technikával állítják elő.
5. fázis: Értékelés
Az eredmények értékelése: A korábbi értékelési lépések olyan tényezőkkel foglalkoztak, mint a modell pontossága és általánossága. Ebben a lépésben felméri, hogy a modell milyen mértékben felel meg üzleti céljainak, és meg kell határoznia, hogy van-e valamilyen üzleti oka annak, hogy ez a modell hiányos. Egy másik lehetőség a modell tesztalkalmazásokon való tesztelése a valós alkalmazásban, ha az idő és a költségvetés megengedi. Az értékelési szakasz magában foglalja az Ön által generált egyéb adatbányászati eredmények értékelését is. Az adatbányászati eredmények olyan modelleket tartalmaznak, amelyek szükségszerűen kapcsolódnak az eredeti üzleti célokhoz, és minden olyan megállapítást, amely nem feltétlenül kapcsolódik az eredeti üzleti célokhoz, de további kihívásokat, információkat vagy tippeket is feltárhat a jövőbeli irányokhoz.
Felülvizsgálati eljárás
Ezen a ponton az eredményül kapott modellek kielégítőnek tűnnek, és kielégítik az üzleti igényeket. Most célszerű alaposabban áttekintenie az adatbányászati tevékenységet, hogy megállapítsa, van-e olyan fontos tényező vagy feladat, amelyet valamilyen módon figyelmen kívül hagytak. Ez az áttekintés a minőségbiztosítási kérdésekre is kitér. Például: helyesen építettük meg a modellt? Csak azokat az attribútumokat használtuk, amelyeket használhatunk, és amelyek rendelkezésre állnak a jövőbeni elemzésekhez?
Határozza meg a következő lépéseket
Most az értékelési eredmények és a folyamat áttekintése alapján döntheti el, hogyan tovább. Befejezi ezt a projektet, és folytatja a telepítést, további iterációkat kezdeményez, vagy új adatbányászati projekteket állít be? Számba kell vennie fennmaradó erőforrásait és költségvetését is, amelyek befolyásolhatják döntéseit.
6. fázis: Telepítés
Telepítési terv: A telepítési szakaszban figyelembe kell venni az értékelési eredményeket, és meghatározni a telepítési stratégiát. Ha a megfelelő modell(ek) létrehozásához általános eljárást határoztak meg, ezt az eljárást itt dokumentálják későbbi telepítés céljából. Célszerű az üzembe helyezés módjait és eszközeit mérlegelni az üzleti megértés szakaszában, mert a telepítés kulcsfontosságú a projekt sikeréhez. A prediktív elemzés itt segít javítani vállalkozása működési oldalát.
Tervezze meg a felügyeletet és a karbantartást
A felügyelet és a karbantartás fontos kérdés, ha az adatbányászat eredménye a mindennapi üzlet és környezet részévé válik. A karbantartási stratégia gondos elkészítése segít elkerülni az adatbányászati eredmények szükségtelenül hosszú ideig tartó helytelen felhasználását. A projektnek részletes monitorozási folyamattervre van szüksége az adatbányászati eredmény(ek) telepítésének nyomon követéséhez. Ez a terv figyelembe veszi a telepítés konkrét típusát.
Készítsen zárójelentést
A projekt végén zárójelentést fog írni. Ez a jelentés a telepítési tervtől függően lehet csak a projekt és a tapasztalatok összefoglalása (ha azokat még nem dokumentálták folyamatban lévő tevékenységként), vagy lehet az adatbányászat eredményének végleges és átfogó bemutatása.
Tekintse át a projektet
különbség az oroszlán és a tigris között
Mérje fel, mi volt jó és mi rossz, mi volt jól, és mi az, ami javításra szorul.