Quelle est la fonction principale de Matplotlib ?

Matplotlib est utilisé pour tracer des graphiques 2D variés comme des lignes, des barres, et des histogrammes.

Comment Seaborn se distingue-t-il de Matplotlib ?

Seaborn est une bibliothèque avancée qui offre de meilleures palettes de couleurs et est principalement utilisée pour la visualisation de données statistiques.

Qu'est-ce qui rend Plotly unique ?

Plotly est optimisé pour créer des graphiques interactifs sur le web, basé sur D3.js.

Pratique de création de nuage de mots clés à partir des données des meilleurs restaurants locaux - Hashscraper | Blog de technologie de scraping de hachage

Q: Quels sont les types de bibliothèques de visualisation des données en Python ?

Les principales bibliothèques incluent Matplotlib, Seaborn, Plotly et Bokeh.

1. Visualisation des données et crawling

1.1. Qu'est-ce que la visualisation des données ?

La visualisation des données est le processus de représentation intuitive de données complexes ou de motifs pour les rendre faciles à comprendre. Dessins, graphiques, graphiques, etc. peuvent être utilisés pour représenter des informations de différentes manières, et une visualisation efficace est d'une grande aide pour découvrir des informations cachées dans les données.

1.2. Types de bibliothèques de visualisation des données Python

1.2.1. Matplotlib(https://matplotlib.org/)

notion image

Matplotlib est la bibliothèque de base la plus utilisée pour tracer des graphiques 2D en Python.

Il est utilisé pour les types de graphiques et de tracés variés tels que les tracés de lignes, les tracés de dispersion, les diagrammes à barres, les histogrammes, les diagrammes circulaires, etc. En raison de sa grande flexibilité en matière de style de tracé, il est largement utilisé comme base pour d'autres bibliothèques de visualisation.

1.2.2. Seaborn(https://seaborn.pydata.org/)

notion image

Seaborn est une bibliothèque de visualisation avancée basée sur Matplotlib.

Il est principalement utilisé pour la visualisation de données statistiques. Il offre de meilleures palettes de couleurs, thèmes et éléments graphiques que Matplotlib, et prend en charge une variété de graphiques tels que les cartes thermiques, les tracés en paires, les tracés de violon, etc.

1.2.3. Plotly(https://plotly.com/python/)

notion image

Plotly est une bibliothèque pour créer des graphiques interactifs.

Il est optimisé pour la création de graphiques interactifs sur le web. Étant basé sur D3.js, Plotly est pris en charge sur différentes plates-formes et langues.

1.2.4. Bokeh(https://bokeh.org/)

notion image

Bokeh est une bibliothèque Python pour créer des visualisations plus sophistiquées.

Il génère des visualisations de données dynamiques, ce qui le rend idéal pour une utilisation sur le web. Avec la tendance actuelle vers la dynamique et la réactivité, l'utilisation de Bokeh permet de créer des rapports plus attrayants et esthétiques.

1.2.5. Altair(https://altair-viz.github.io/)

notion image

Altair est un outil de visualisation statistique déclaratif basé sur Vega et Vega-Lite pour Python.

Altair est conçu pour permettre aux utilisateurs de se concentrer sur l'essentiel des données en évitant la complexité des tâches graphiques. L'une des principales caractéristiques d'Altair est son API, qui repose sur une syntaxe intuitive et cohérente basée sur Vega-Lite, permettant aux utilisateurs de visualiser rapidement les données de manière concise et esthétique.

Les cinq bibliothèques mentionnées ci-dessus sont quelques-unes des plus représentatives parmi les bibliothèques de visualisation, et de nombreuses autres bibliothèques sont en cours de développement et d'amélioration en temps réel. Il est recommandé d'utiliser une combinaison de différentes bibliothèques de visualisation pour analyser les données de manière plus intuitive.

Ensuite, nous expliquerons le "nuage de mots" qui sera utilisé comme sujet.

2. Qu'est-ce qu'un nuage de mots ?

Un nuage de mots est une technique de visualisation qui représente des mots dans un texte en fonction de leur fréquence ou de leur importance sous différentes tailles. Plus la fréquence d'un mot est élevée, plus il sera représenté en grande taille dans le nuage, ce qui le rend très intuitif. Le nuage de mots permet de visualiser facilement quels mots ou sujets sont importants dans un texte en un coup d'œil.

2.1. Différences par rapport aux autres bibliothèques de visualisation

La principale différence avec les bibliothèques de visualisation mentionnées précédemment est qu'elle est basée sur du texte.

Les bibliothèques présentées précédemment sont toutes basées sur des données structurées (telles que des ensembles de données déjà formatés comme des feuilles de calcul), tandis que le nuage de mots aide les utilisateurs à analyser et à visualiser des données textuelles telles que des commentaires et des articles sur le web.

3. Exemple de pratique

3.1. Connexion à Hashscraper

notion image

Après vous être inscrit à Hashscraper, vous pourrez consulter le tableau de bord qui propose divers bots de crawling. Cela permet même aux non-spécialistes sans connaissances en développement de collecter rapidement et facilement des données. Compte tenu de la diversité des bots disponibles sur différents sites, il est recommandé de rechercher et d'utiliser ceux qui vous intéressent.

3.2. Recherche du bot de collecte de cartes Naver Map

Pour utiliser Naver Map, recherchez Naver Map, puis cliquez sur la carte de collecte de Naver Map.

notion image

En cliquant sur la carte de Naver Map, la page correspondante s'ouvrira.

notion image

3.3. Configuration de la collecte

Cliquez sur la partie de l'édition du mot-clé et le bouton de configuration pour pouvoir éditer le mot-clé.

notion image

Une fenêtre contextuelle apparaîtra, où vous pouvez saisir le mot-clé de la région + du sujet.

Vous pouvez également choisir le nombre maximum d'éléments à collecter selon votre choix.

Si une collecte automatique continue est nécessaire, vous pouvez définir la fréquence de collecte. Enregistrez, puis appuyez sur le bouton de démarrage de la collecte des données.

notion image

3.4. Vérification des résultats de la collecte

Lorsque la collecte est en cours, les résultats commenceront à s'afficher sous le bouton de démarrage de la collecte des données.

notion image

En cliquant sur le bouton "view", les résultats des données s'afficheront.

En cliquant sur "Télécharger Excel", vous pourrez télécharger les données correspondantes. L'image ci-dessous montre le fichier Excel qui apparaît après le téléchargement.

notion image

3.5. Lecture des données

Lisez les données avec read_excel.

import pandas as pd
my_hometown_shop = pd.read_excel('../blog/네이버 지도 수집.xlsx')
my_hometown_shop

notion image

Parmi les colonnes de données lues, conservez uniquement la colonne "catégorie" nécessaire à la création du nuage de mots et supprimez toutes les autres.

my_hometown_shop_new= my_hometown_shop['카테고리']

Lorsque les données sont mises en forme en tant que cadre, les lignes sont alignées de manière lisible comme indiqué ci-dessus.

3.6. Application du nuage de mots

Appliquez le nuage de mots aux données nettoyées.

from wordcloud import WordCloud
import matplotlib.pyplot as plt
import matplotlib.font_manager as fm

sys_font = fm.findSystemFonts()
nanum_fonts = [f for f in sys_font if 'Nanum' in f]
path ='/Library/Fonts/NanumBarunpenRegular.ttf'

# 아까 언급했던 경로로 직접 설정합니다.
path = '/Library/Fonts/NanumBarunpenRegular.ttf'

wordcloud = WordCloud(width=800, height=800,
                      background_color='white',
                      max_words=200,
                      contour_width=3,
                      contour_color='steelblue',
                      font_path=path).generate(' '.join(my_hometown_shop['카테고리']))

plt.figure(figsize=(10, 10))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis('off')
plt.show()

À travers ce nuage de mots, on peut voir que les plats de fruits de mer et de cuisine coréenne dominent dans les "restaurants populaires de Noryangjin".

En créant un nuage de mots à partir de données collectées sur les restaurants locaux, il est possible de visualiser de manière intuitive la répartition des secteurs par région.

Essayez différentes méthodes d'utilisation.

Lisez également cet article :

Automatisez la collecte de données maintenant

Commencez gratuitement en 5 minutes · Expérience de collecte de données sur plus de 5 000 sites Web sans codage

Commencez gratuitement →

Pratique de création de nuage de mots clés à partir des données des meilleurs restaurants locaux - Hashscraper

1. Visualisation des données et crawling

1.1. Qu'est-ce que la visualisation des données ?

1.2. Types de bibliothèques de visualisation des données Python

1.2.1. Matplotlib(https://matplotlib.org/)

1.2.2. Seaborn(https://seaborn.pydata.org/)

1.2.3. Plotly(https://plotly.com/python/)

1.2.4. Bokeh(https://bokeh.org/)

1.2.5. Altair(https://altair-viz.github.io/)

2. Qu'est-ce qu'un nuage de mots ?

2.1. Différences par rapport aux autres bibliothèques de visualisation

3. Exemple de pratique

3.1. Connexion à Hashscraper

3.2. Recherche du bot de collecte de cartes Naver Map

3.3. Configuration de la collecte

3.4. Vérification des résultats de la collecte

3.5. Lecture des données

3.6. Application du nuage de mots

Lisez également cet article :

Automatisez la collecte de données maintenant

Comments

Add Comment

Continuer la lecture

Collecte facile des hashtags Instagram et visualisation des données même pour les non-développeurs

Guide complet du scraping pour les dramaturges 2026 - de l'installation à la contournement des anti-bots

Guide de crawl de données sur les prix réels de l'immobilier - Collecte automatique des prix des appartements et des bureaux

Automatisation du crawling de Musinsa : Comment collecter facilement des données produits par catégorie.

Get notified of new posts