XML-ELEMZÉS PYTHONBAN

Ez a cikk arra összpontosít, hogyan lehet egy adott XML-fájlt elemezni, és strukturált módon kinyerni belőle néhány hasznos adatot. XML: Az XML az eXtensible Markup Language rövidítése. Adatok tárolására és szállítására tervezték. Úgy tervezték, hogy ember és gép által is olvasható legyen. Ezért az XML tervezési céljai az egyszerűség általánosságára és az interneten való használhatóságra helyezik a hangsúlyt. Az oktatóanyagban elemezni kívánt XML-fájl valójában egy RSS-hírcsatorna. RSS: Az RSS (Rich Site Summary – gyakran nevezik Really Simple Syndication) szabványos webes hírcsatorna-formátumok családját használja a gyakran frissített információk, például a blogbejegyzések, a hírek címsorai és a hangvideó közzétételére. Az RSS XML formátumú egyszerű szöveg.

Maga az RSS formátum viszonylag könnyen olvasható mind az automatizált folyamatok, mind az emberek által.
Az ebben az oktatóanyagban feldolgozott RSS egy népszerű hírwebhely legnépszerűbb híreinek RSS feedje. Meg tudod nézni itt . Célunk, hogy ezt az RSS-hírcsatornát (vagy XML-fájlt) feldolgozzuk, és más formátumban elmentsük későbbi használatra.

Használt Python modul: Ez a cikk a beépített használatára összpontosít xml python modul az XML elemzéséhez, és a fő hangsúly a ElementTree XML API ennek a modulnak. Végrehajtás: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Töltse be az RSS-hírcsatornát a megadott URL-ről, és mentse el XML-fájlként.
Elemezze az XML-fájlt, hogy a híreket szótárlistaként mentse, ahol minden szótár egyetlen hírelemet tartalmaz.
Mentse el a híreket CSV-fájlba.

Próbáljuk meg részletekben értelmezni a kódot:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

Elem

ElementTree

Elem

parseXML()

tree = ET.parse(xmlfile)

ElementTree

xmlfile.

root = tree.getroot()

meggyökerezett()

Elem

for item in root.findall('./channel/item'):

tétel

./csatorna/elem

XPath

tétel

csatorna

gyökér

itt

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

tétel

hír

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

gyermek.attrib

url

média:tartalom

news[child.tag] = child.text.encode('utf8')

gyermek.tag

gyermek.szöveg

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

híroldalak

mentés CSV-be()

Tehát most így néznek ki formázott adataink:

Amint láthatja, a hierarchikus XML-fájl adatait egyszerű CSV-fájllá alakították át, így az összes hírt táblázat formájában tárolják. Ez megkönnyíti az adatbázis bővítését is. A JSON-szerű adatokat közvetlenül is használhatják alkalmazásaikban! Ez a legjobb alternatíva adatok kinyerésére olyan webhelyekről, amelyek nem biztosítanak nyilvános API-t, de biztosítanak néhány RSS-hírcsatornát. A fenti cikkben használt összes kód és fájl megtalálható itt . Mi lesz ezután?

A fenti példában használt híroldal további rss feedjeit tekintheti meg. Megpróbálhatja létrehozni a fenti példa kiterjesztett változatát más RSS-hírcsatornák elemzésével.
Ön krikett rajongó? Majd ez Az rss feednek érdekelnie kell! Elemezheti ezt az XML-fájlt, hogy információkat kaparjon le az élő krikettmérkőzésekről, és készítsen asztali értesítőt!

HTML és XML kvíz Kvíz létrehozása

TechCodeview

XML-elemzés Pythonban