Az Apache Spark oktatóprogramja a Spark alapvető és haladó fogalmait tartalmazza. Spark oktatóanyagunk kezdőknek és profiknak készült.
A Spark egy egységes analitikai motor nagyméretű adatfeldolgozáshoz, beleértve a beépített SQL-modulokat, streaminget, gépi tanulást és grafikonfeldolgozást.
A Spark oktatóanyagunk tartalmazza az Apache Spark összes témáját a Spark bevezetésével, a Spark telepítését, a Spark architektúráját, a Spark összetevőit, az RDD-t, a Spark valós idejű példáit és így tovább.
Mi az a Spark?
Az Apache Spark egy nyílt forráskódú fürt-számítási keretrendszer. Elsődleges célja a valós idejű generált adatok kezelése.
A Spark a Hadoop MapReduce tetejére épült. Memóriában való futtatásra optimalizálták, míg az olyan alternatív megközelítések, mint a Hadoop MapReduce, adatokat írnak a számítógép merevlemezére és onnan. Tehát a Spark sokkal gyorsabban dolgozza fel az adatokat, mint más alternatívák.
Az Apache Spark története
A Sparkot Matei Zaharia kezdeményezte 2009-ben az UC Berkeley AMPLab-nál. 2010-ben nyílt forráskódú, BSD licenc alatt.
válasszon többtáblás sql-t
2013-ban a projektet az Apache Software Foundation vásárolta meg. 2014-ben a Spark felső szintű Apache projektként jelent meg.
Az Apache Spark jellemzői
Gyors | - A legmodernebb DAG-ütemezővel, lekérdezésoptimalizálóval és fizikai végrehajtó motorral nagy teljesítményt biztosít mind a kötegelt, mind a streaming adatokhoz.
Könnyen kezelhető | - Megkönnyíti az alkalmazás megírását Java, Scala, Python, R és SQL nyelven. Több mint 80 magas szintű üzemeltetőt is biztosít.
Általánosság | - Könyvtárak gyűjteményét kínálja, beleértve az SQL-t és a DataFrames-et, az MLlib-et a gépi tanuláshoz, a GraphX-et és a Spark Streaminget.
Könnyűsúlyú | - Ez egy könnyű, egységes elemző motor, amelyet nagy léptékű adatfeldolgozásra használnak.
Mindenhol fut | - Könnyen futhat Hadoop, Apache Mesos, Kubernetes rendszeren, önállóan vagy felhőben.
A Spark használata
Adatintegráció: | A rendszerek által generált adatok nem elég konzisztensek ahhoz, hogy az elemzéshez kombinálják. Konzisztens adatok lekéréséhez a rendszerekből olyan folyamatokat használhatunk, mint a kivonás, átalakítás és betöltés (ETL). A Sparkot az ETL-folyamat költségének és időigényének csökkentésére használják.
Stream feldolgozása: | Mindig nehéz kezelni a valós idejű generált adatokat, például a naplófájlokat. A Spark eléggé képes adatfolyamok kezelésére, és elutasítja a potenciálisan csalárd műveleteket.
Gépi tanulás: | A gépi tanulási megközelítések megvalósíthatóbbá és egyre pontosabbá válnak az adatmennyiség növekedésének köszönhetően. Mivel a Spark képes adatokat tárolni a memóriában, és gyorsan képes ismételt lekérdezések futtatására, megkönnyíti a gépi tanulási algoritmusokkal való munkát.
Interaktív elemzés: | A Spark képes gyorsan reagálni. Így ahelyett, hogy előre meghatározott lekérdezéseket futtatnánk, interaktívan kezelhetjük az adatokat.
Előfeltétel
A Spark megtanulása előtt rendelkeznie kell a Hadoop alapismereteivel.
Közönség
Spark oktatóanyagunk a kezdőknek és a profiknak készült.
Problémák
Biztosítjuk, hogy ezzel a Spark-oktatóanyaggal nem talál problémát. Ha azonban bármilyen hiba van, kérjük, írja be a problémát a kapcsolatfelvételi űrlapon.