ADATELEMZÉS ÉS VIZUALIZÁCIÓ PYTHON SEGÍTSÉGÉVEL

A Pythont széles körben használják adatelemzési nyelvként a robusztus könyvtárak és az adatok kezelésére szolgáló eszközök miatt. A könyvtárak között megtalálhatók a Pandák, amelyek megkönnyítik az adatok feltárását, manipulációját és elemzését. használni fogjuk Pandák nevű adatkészlet elemzésére Ország-adatok.csv Kaggle-től. Miközben ezekkel az adatokkal dolgozunk, néhány fontos fogalmat is bemutatunk a Pandákban.

1. Telepítés

A pandák telepítésének legegyszerűbb módja a pip használata:

Python pip install pandas

vagy Töltse le innen itt .

2. DataFrame létrehozása Pandasban

A DataFrame egy táblázatszerű adatstruktúra a Pandasban, amely sorokban és oszlopokban tárolja az adatokat. A DataFrame úgy hozható létre, hogy több python Series objektumot ad át a fájlba DataFrame osztály ( pd.DataFrame() ) segítségével pd.Series módszer. Ebben a példában két sorozat objektumot használunk: s1 mint az első sor és s2 mint a második sor.

1. példa: DataFrame létrehozása sorozatból:

Python

import pandas as pd # Creating two Series: s1 (numbers) and s2 (names) s1 = pd.Series([1 2]) s2 = pd.Series(['Ashish' 'Sid']) # Creating DataFrame by combining Series as rows dataframe = pd.DataFrame([s1 s2]) # Displaying the DataFrame print(dataframe)

Kimenet:

Adatelemzés és vizualizáció Python segítségével' title=

2. példa: DataFrame egyéni index- és oszlopneveket tartalmazó listából:

Python dataframe1 = pd.DataFrame([[1 2] ['Ashish' 'Sid']] index=['r1' 'r2'] columns=['c1' 'c2']) print(dataframe1)

Kimenet:

Adatelemzés és vizualizáció Python segítségével' loading='lazy' title=

3. példa: DataFrame szótárból:

Python dataframe2 = pd.DataFrame({ 'c1': [1 'Ashish'] 'c2': [2 'Sid'] }) print(dataframe2)

Kimenet:

3. Adatok importálása Pandákkal

Az első lépés az adatok kiolvasása. Esetünkben az adatokat CSV (Comma-Separated Values) fájlként tároljuk, ahol minden sort egy új sor, az oszlopokat pedig vessző választ el. Ahhoz, hogy a Pythonban lévő adatokkal dolgozhasson, el kell olvasnia a csv-t fájlt egy Pandas DataFrame-be.

Python

import pandas as pd # Read Country-data.csv into a DataFrame df = pd.read_csv('Country-data.csv') # Prints the first 5 rows of a DataFrame as default df.head() # Prints no. of rows and columns of a DataFrame df.shape

Kimenet:

(167 10)

4. DataFrame-ek indexelése pandákkal

A Pandák hatékony indexelési lehetőségeket biztosítanak. A DataFrame-eket mindkettővel indexelheti pozíció alapú és címke alapú mód.

Pozíció alapú indexelés (a iloc ):

Python

# prints first 5 rows and every column which replicates df.head() df.iloc[0:5:] # prints entire rows and columns df.iloc[::] # prints from 5th rows and first 5 columns df.iloc[5::5]

Kimenet:

Címke alapú indexelés (a loc ):

Az indexelés a címkékkel a pandas.DataFrame.loc módszer, amely lehetővé teszi a pozíciók helyett címkék használatával történő indexelést.

Példák:

Python

# prints first five rows including 5th index and every columns of df df.loc[0:5:] # prints from 5th rows onwards and entire columns df.loc[5::]

Kimenet:

A fentiek valójában nem sokban különböznek a df.iloc[0:5:]-től. Ennek az az oka, hogy bár a sorcímkék bármilyen értéket felvehetnek, a sorcímkéink pontosan megegyeznek a pozíciókkal. Az oszlopcímkék azonban sokkal könnyebbé tehetik a dolgokat az adatokkal való munka során.

Példa:

Python # Prints the first 5 rows of Time period # value df.loc[:5'child_mort']

Kimenet:

5. DataFrame Math Pandákkal

A Pandas megkönnyíti a matematikai műveletek végrehajtását az adatkeretekben tárolt adatokon. A pandákon végrehajtható műveletek vektorizáltak, ami azt jelenti, hogy gyorsak és minden elemre automatikusan, hurkok használata nélkül vonatkoznak.

Példa – Oszlopos matematika:

Python

# Adding 5 to every element in column A df['child_mort'] = df['child_mort'] + 5 # Multiplying values in column B by 10 df['exports'] = df['exports'] * 10 df

Kimenet:

Statisztikai függvények a pandákban:

helyezze be a billentyűzetbe

Az adatkeretek kiszámítása a pandák statisztikai függvényei segítségével végezhető el. Ilyen funkciókat használhatunk:

df.sum() → értékek összege
df.mean() → átlagos
df.max() / df.min() → max és min értékek
df.describe() → gyors statisztikai összefoglaló

Python

# computes various summary statistics excluding NaN values df.describe() # Provides sum of all the values for each column df.sum()

Kimenet:

6. Adatvizualizáció Pandas és Matplotlib segítségével

A pandákkal nagyon könnyen használható Matplotlib egy hatékony könyvtár, amelyet alapvető diagramok és diagramok létrehozására használnak. Csak néhány sornyi kóddal vizualizálhatjuk adatainkat, és jobban megérthetjük azokat. Az alábbiakban bemutatunk néhány egyszerű példát, amelyek segítenek a Pandas és a Matplotlib használatával történő ábrázolás megkezdésében:

Python # Import the library first import matplotlib.pyplot as plt

Hisztogram

A hisztogram az értékek eloszlását mutatja egy oszlopban.

Python

df['income'].hist(bins=10) plt.title('Histogram of Income') plt.xlabel('Income Value') plt.ylabel('Frequency') plt.show()

Kimenet:

Box Telek

A dobozos telek hasznos a kiugró értékek észleléséhez és az adatok terjedésének megértéséhez.

Python

df = df.head(10) plt.figure(figsize=(20 6)) # Increase width to make x-axis labels clearer df.boxplot(column='imports' by='country') plt.title('Boxplot by Country') plt.suptitle('') # Removes default title plt.xlabel('Country') plt.ylabel('Imports') plt.xticks(rotation=45) # Optional: Rotate x-axis labels for better visibility plt.tight_layout() # Adjust layout to avoid clipping plt.show()

Kimenet:

Scatter Plot

A szórványrajz két változó közötti kapcsolatot mutatja.

Python

x = df['health'] y = df['life_expec'] plt.scatter(x y label='Data Points' color='m' marker='*' s=30) plt.xlabel('Health') plt.ylabel('Life Expectancy') plt.title('Scatter Plot of Health vs Life Expectancy') plt.legend() plt.show()

Kimenet:

Kapcsolódó cikk:

Pandák Bevezetés
Grafikonábrázolás Pythonban
CSV-fájlok használata Pythonban
Pandas DataFrame
Bevezetés a Matplotlib-be
Hisztogram – Definíciótípusok Grafikon és példák
Box Telek
Scatter Plot

Kvíz létrehozása

Adatelemzés és vizualizáció Python segítségével

1. Telepítés

2. DataFrame létrehozása Pandasban

3. Adatok importálása Pandákkal

4. DataFrame-ek indexelése pandákkal

5. DataFrame Math Pandákkal

6. Adatvizualizáció Pandas és Matplotlib segítségével