logo

Apache Spark oktatóanyag

Apache Spark oktatóanyag

Az Apache Spark oktatóprogramja a Spark alapvető és haladó fogalmait tartalmazza. Spark oktatóanyagunk kezdőknek és profiknak készült.

A Spark egy egységes analitikai motor nagyméretű adatfeldolgozáshoz, beleértve a beépített SQL-modulokat, streaminget, gépi tanulást és grafikonfeldolgozást.

A Spark oktatóanyagunk tartalmazza az Apache Spark összes témáját a Spark bevezetésével, a Spark telepítését, a Spark architektúráját, a Spark összetevőit, az RDD-t, a Spark valós idejű példáit és így tovább.

Mi az a Spark?

Az Apache Spark egy nyílt forráskódú fürt-számítási keretrendszer. Elsődleges célja a valós idejű generált adatok kezelése.

A Spark a Hadoop MapReduce tetejére épült. Memóriában való futtatásra optimalizálták, míg az olyan alternatív megközelítések, mint a Hadoop MapReduce, adatokat írnak a számítógép merevlemezére és onnan. Tehát a Spark sokkal gyorsabban dolgozza fel az adatokat, mint más alternatívák.

Az Apache Spark története

A Sparkot Matei Zaharia kezdeményezte 2009-ben az UC Berkeley AMPLab-nál. 2010-ben nyílt forráskódú, BSD licenc alatt.

válasszon többtáblás sql-t

2013-ban a projektet az Apache Software Foundation vásárolta meg. 2014-ben a Spark felső szintű Apache projektként jelent meg.

Az Apache Spark jellemzői

    Gyors- A legmodernebb DAG-ütemezővel, lekérdezésoptimalizálóval és fizikai végrehajtó motorral nagy teljesítményt biztosít mind a kötegelt, mind a streaming adatokhoz.Könnyen kezelhető- Megkönnyíti az alkalmazás megírását Java, Scala, Python, R és SQL nyelven. Több mint 80 magas szintű üzemeltetőt is biztosít.Általánosság- Könyvtárak gyűjteményét kínálja, beleértve az SQL-t és a DataFrames-et, az MLlib-et a gépi tanuláshoz, a GraphX-et és a Spark Streaminget.Könnyűsúlyú- Ez egy könnyű, egységes elemző motor, amelyet nagy léptékű adatfeldolgozásra használnak.Mindenhol fut- Könnyen futhat Hadoop, Apache Mesos, Kubernetes rendszeren, önállóan vagy felhőben.

A Spark használata

    Adatintegráció:A rendszerek által generált adatok nem elég konzisztensek ahhoz, hogy az elemzéshez kombinálják. Konzisztens adatok lekéréséhez a rendszerekből olyan folyamatokat használhatunk, mint a kivonás, átalakítás és betöltés (ETL). A Sparkot az ETL-folyamat költségének és időigényének csökkentésére használják.Stream feldolgozása:Mindig nehéz kezelni a valós idejű generált adatokat, például a naplófájlokat. A Spark eléggé képes adatfolyamok kezelésére, és elutasítja a potenciálisan csalárd műveleteket.Gépi tanulás:A gépi tanulási megközelítések megvalósíthatóbbá és egyre pontosabbá válnak az adatmennyiség növekedésének köszönhetően. Mivel a Spark képes adatokat tárolni a memóriában, és gyorsan képes ismételt lekérdezések futtatására, megkönnyíti a gépi tanulási algoritmusokkal való munkát.Interaktív elemzés:A Spark képes gyorsan reagálni. Így ahelyett, hogy előre meghatározott lekérdezéseket futtatnánk, interaktívan kezelhetjük az adatokat.

Előfeltétel

A Spark megtanulása előtt rendelkeznie kell a Hadoop alapismereteivel.

Közönség

Spark oktatóanyagunk a kezdőknek és a profiknak készült.

Problémák

Biztosítjuk, hogy ezzel a Spark-oktatóanyaggal nem talál problémát. Ha azonban bármilyen hiba van, kérjük, írja be a problémát a kapcsolatfelvételi űrlapon.