1. Visualisation des données et crawling
1.1. Qu'est-ce que la visualisation des données ?
La visualisation des données est le processus de représentation intuitive de données complexes ou de motifs pour les rendre faciles à comprendre. Dessins, graphiques, graphiques, etc. peuvent être utilisés pour représenter des informations de différentes manières, et une visualisation efficace est d'une grande aide pour découvrir des informations cachées dans les données.
1.2. Types de bibliothèques de visualisation des données Python
1.2.1. Matplotlib(https://matplotlib.org/)
Matplotlib est la bibliothèque de base la plus utilisée pour tracer des graphiques 2D en Python.
Il est utilisé pour les types de graphiques et de tracés variés tels que les tracés de lignes, les tracés de dispersion, les diagrammes à barres, les histogrammes, les diagrammes circulaires, etc. En raison de sa grande flexibilité en matière de style de tracé, il est largement utilisé comme base pour d'autres bibliothèques de visualisation.
1.2.2. Seaborn(https://seaborn.pydata.org/)
Seaborn est une bibliothèque de visualisation avancée basée sur Matplotlib.
Il est principalement utilisé pour la visualisation de données statistiques. Il offre de meilleures palettes de couleurs, thèmes et éléments graphiques que Matplotlib, et prend en charge une variété de graphiques tels que les cartes thermiques, les tracés en paires, les tracés de violon, etc.
1.2.3. Plotly(https://plotly.com/python/)
Plotly est une bibliothèque pour créer des graphiques interactifs.
Il est optimisé pour la création de graphiques interactifs sur le web. Étant basé sur D3.js, Plotly est pris en charge sur différentes plates-formes et langues.
1.2.4. Bokeh(https://bokeh.org/)
Bokeh est une bibliothèque Python pour créer des visualisations plus sophistiquées.
Il génère des visualisations de données dynamiques, ce qui le rend idéal pour une utilisation sur le web. Avec la tendance actuelle vers la dynamique et la réactivité, l'utilisation de Bokeh permet de créer des rapports plus attrayants et esthétiques.
1.2.5. Altair(https://altair-viz.github.io/)
Altair est un outil de visualisation statistique déclaratif basé sur Vega et Vega-Lite pour Python.
Altair est conçu pour permettre aux utilisateurs de se concentrer sur l'essentiel des données en évitant la complexité des tâches graphiques. L'une des principales caractéristiques d'Altair est son API, qui repose sur une syntaxe intuitive et cohérente basée sur Vega-Lite, permettant aux utilisateurs de visualiser rapidement les données de manière concise et esthétique.
Les cinq bibliothèques mentionnées ci-dessus sont quelques-unes des plus représentatives parmi les bibliothèques de visualisation, et de nombreuses autres bibliothèques sont en cours de développement et d'amélioration en temps réel. Il est recommandé d'utiliser une combinaison de différentes bibliothèques de visualisation pour analyser les données de manière plus intuitive.
Ensuite, nous expliquerons le "nuage de mots" qui sera utilisé comme sujet.
2. Qu'est-ce qu'un nuage de mots ?
Un nuage de mots est une technique de visualisation qui représente des mots dans un texte en fonction de leur fréquence ou de leur importance sous différentes tailles. Plus la fréquence d'un mot est élevée, plus il sera représenté en grande taille dans le nuage, ce qui le rend très intuitif. Le nuage de mots permet de visualiser facilement quels mots ou sujets sont importants dans un texte en un coup d'œil.
2.1. Différences par rapport aux autres bibliothèques de visualisation
La principale différence avec les bibliothèques de visualisation mentionnées précédemment est qu'elle est basée sur du texte.
Les bibliothèques présentées précédemment sont toutes basées sur des données structurées (telles que des ensembles de données déjà formatés comme des feuilles de calcul), tandis que le nuage de mots aide les utilisateurs à analyser et à visualiser des données textuelles telles que des commentaires et des articles sur le web.
3. Exemple de pratique
3.1. Connexion à Hashscraper
Après vous être inscrit à Hashscraper, vous pourrez consulter le tableau de bord qui propose divers bots de crawling. Cela permet même aux non-spécialistes sans connaissances en développement de collecter rapidement et facilement des données. Compte tenu de la diversité des bots disponibles sur différents sites, il est recommandé de rechercher et d'utiliser ceux qui vous intéressent.
3.2. Recherche du bot de collecte de cartes Naver Map
Pour utiliser Naver Map, recherchez Naver Map, puis cliquez sur la carte de collecte de Naver Map.
En cliquant sur la carte de Naver Map, la page correspondante s'ouvrira.
3.3. Configuration de la collecte
Cliquez sur la partie de l'édition du mot-clé et le bouton de configuration pour pouvoir éditer le mot-clé.
Une fenêtre contextuelle apparaîtra, où vous pouvez saisir le mot-clé de la région + du sujet.
Vous pouvez également choisir le nombre maximum d'éléments à collecter selon votre choix.
Si une collecte automatique continue est nécessaire, vous pouvez définir la fréquence de collecte. Enregistrez, puis appuyez sur le bouton de démarrage de la collecte des données.
3.4. Vérification des résultats de la collecte
Lorsque la collecte est en cours, les résultats commenceront à s'afficher sous le bouton de démarrage de la collecte des données.
En cliquant sur le bouton "view", les résultats des données s'afficheront.
En cliquant sur "Télécharger Excel", vous pourrez télécharger les données correspondantes. L'image ci-dessous montre le fichier Excel qui apparaît après le téléchargement.
3.5. Lecture des données
Lisez les données avec read_excel.
import pandas as pd
my_hometown_shop = pd.read_excel('../blog/네이버 지도 수집.xlsx')
my_hometown_shop
Parmi les colonnes de données lues, conservez uniquement la colonne "catégorie" nécessaire à la création du nuage de mots et supprimez toutes les autres.
my_hometown_shop_new= my_hometown_shop['카테고리']
Lorsque les données sont mises en forme en tant que cadre, les lignes sont alignées de manière lisible comme indiqué ci-dessus.
3.6. Application du nuage de mots
Appliquez le nuage de mots aux données nettoyées.
from wordcloud import WordCloud
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm
sys_font = fm.findSystemFonts()
nanum_fonts = [f for f in sys_font if 'Nanum' in f]
path ='/Library/Fonts/NanumBarunpenRegular.ttf'
# 아까 언급했던 경로로 직접 설정합니다.
path = '/Library/Fonts/NanumBarunpenRegular.ttf'
wordcloud = WordCloud(width=800, height=800,
background_color='white',
max_words=200,
contour_width=3,
contour_color='steelblue',
font_path=path).generate(' '.join(my_hometown_shop['카테고리']))
plt.figure(figsize=(10, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()
À travers ce nuage de mots, on peut voir que les plats de fruits de mer et de cuisine coréenne dominent dans les "restaurants populaires de Noryangjin".
En créant un nuage de mots à partir de données collectées sur les restaurants locaux, il est possible de visualiser de manière intuitive la répartition des secteurs par région.
Essayez différentes méthodes d'utilisation.
Lisez également cet article :
Automatisez la collecte de données maintenant
Commencez gratuitement en 5 minutes · Expérience de collecte de données sur plus de 5 000 sites Web sans codage




