1. Datenvisualisierung und Web-Scraping
1.1. Was ist Datenvisualisierung?
Datenvisualisierung ist der Prozess, komplexe Daten oder Muster auf eine intuitive Weise darzustellen, um sie leicht verständlich zu machen. Bilder, Diagramme, Grafiken und verschiedene andere Formen können verwendet werden, um Informationen darzustellen, und eine effektive Visualisierung hilft dabei, verborgene Erkenntnisse in den Daten zu entdecken.
1.2. Arten von Python-Datenvisualisierungsbibliotheken
1.2.1. Matplotlib(https://matplotlib.org/)
Matplotlib ist die grundlegendste Bibliothek zur Erstellung von 2D-Grafiken in Python.
Es wird verwendet, wenn verschiedene Diagramme und Plot-Stile wie Linienplot, Streudiagramm, Balkendiagramm, Histogramm, Kreisdiagramm usw. benötigt werden. Aufgrund seiner hohen Flexibilität bei der Plot-Gestaltung wird es am häufigsten als Grundlage für andere Visualisierungsbibliotheken verwendet.
1.2.2. Seaborn(https://seaborn.pydata.org/)
Seaborn ist eine fortgeschrittene Visualisierungsbibliothek, die auf Matplotlib basiert.
Es wird hauptsächlich für statistische Datenvisualisierung verwendet. Es bietet bessere Farbpaletten, Themen und grafische Elemente als Matplotlib und unterstützt verschiedene Diagramme wie Heatmaps, Pair Plots, Violin Plots usw.
1.2.3. Plotly(https://plotly.com/python/)
Plotly ist eine Bibliothek zur Erstellung interaktiver Grafiken.
Es ist optimal für die Erstellung interaktiver Plots im Web. Da Plotly auf D3.js basiert, wird es in verschiedenen Plattformen und Sprachen unterstützt.
1.2.4. Bokeh(https://bokeh.org/)
Bokeh ist eine Python-Bibliothek zur Erstellung anspruchsvoller Visualisierungen.
Da es dynamische Datenvisualisierungen erstellt, wäre es ideal, um sie für das Web zu nutzen. Da heutzutage alles dynamisch und reaktionsschnell ist, können mit Bokeh attraktivere und schönere Berichte erstellt werden.
1.2.5. Altair(https://altair-viz.github.io/)
Altair ist ein Python-spezifisches deklaratives statistisches Visualisierungstool, das auf Vega und Vega-Lite basiert.
Altair wurde entwickelt, um Benutzer von der Komplexität der Grafikerstellung zu befreien und den Fokus auf die Kerninhalte der Daten zu legen. Eine der Hauptfunktionen von Altair ist seine API, die auf einer intuitiven und konsistenten Syntax von Vega-Lite basiert, sodass Benutzer schnell damit vertraut werden können. Dank dieser Struktur können Benutzer Daten ohne komplexen Code prägnant und ästhetisch ansprechend visualisieren.
Die oben genannten fünf sind einige der führenden Visualisierungsbibliotheken, und es gibt viele weitere Bibliotheken, die kontinuierlich veröffentlicht und weiterentwickelt werden. Es wäre ratsam, nicht nur eine Bibliothek zu verwenden, sondern verschiedene Visualisierungsbibliotheken zu kombinieren, um Daten intuitiver zu analysieren.
Als nächstes werde ich das Thema "Word Cloud" erklären, das als Beispiel verwendet werden soll.
2. Wortwolke (Word Cloud)
Eine Wortwolke ist eine Visualisierungstechnik, bei der Wörter je nach Häufigkeit oder Wichtigkeit in einem Text in verschiedenen Größen dargestellt werden. Je häufiger ein Wort ist, desto größer wird es in der Wolke dargestellt, was sehr intuitiv ist. Die Verwendung einer Wortwolke ermöglicht es, auf einen Blick zu erkennen, welche Wörter oder Themen im Text wichtig sind.
2.1. Unterschiede zu anderen Visualisierungsbibliotheken
Der größte Unterschied zu den oben genannten Visualisierungsbibliotheken besteht darin, dass sie auf Text basiert.
Die zuvor vorgestellten Bibliotheken basieren alle auf strukturierten Daten (Excel oder bereits formatierten Datensätzen), während Word Cloud dazu dient, Textdaten zu analysieren, die Benutzer im Web wie Kommentare oder Beiträge verfasst haben.
3. Praxisbeispiel
3.1. Hashscraper Login
...
3.2. Finden des Naver Map Collection Bots
...
3.3. Einstellungen für die Sammlung
...
3.4. Überprüfen der Sammelergebnisse
...
3.5. Daten einlesen
...
3.6. Anwendung der Word Cloud
...
Durch die Erstellung einer Wortwolke mit den gesammelten Daten zu lokalen Restaurants können Sie die Branchenverteilung in verschiedenen Regionen auf einen Blick erkennen.
Probieren Sie verschiedene Ansätze aus.
Lesen Sie auch:
Automatisieren Sie die Datensammlung jetzt
Beginnen Sie in 5 Minuten ohne Codierung · Erfahrung mit über 5.000 Websites Crawling




