1. Visualización de datos y Web Scraping
1.1. ¿Qué es la visualización de datos?
La visualización de datos es el proceso de representar de manera intuitiva y fácil de entender datos complejos o patrones. Puede representar información en diversas formas como imágenes, gráficos y gráficos, y una visualización efectiva es de gran ayuda para descubrir información oculta en los datos.
1.2. Tipos de bibliotecas de visualización de datos en Python
1.2.1. Matplotlib(https://matplotlib.org/)
Matplotlib es la biblioteca básica más utilizada en Python para dibujar gráficos 2D.
Se utiliza cuando se necesitan varios tipos de gráficos y estilos de trazado como gráficos de líneas, gráficos de dispersión, gráficos de barras, histogramas, gráficos circulares, etc. Debido a su alta flexibilidad en el estilo de trazado, se considera la más utilizada. Por lo tanto, es la base de otras bibliotecas de visualización.
1.2.2. Seaborn(https://seaborn.pydata.org/)
Seaborn es una biblioteca avanzada de visualización basada en Matplotlib.
Se utiliza principalmente para la visualización de datos estadísticos. Ofrece paletas de colores, temas y elementos gráficos mejores que Matplotlib, y admite una variedad de gráficos como mapas de calor, gráficos de pares, gráficos de violín, entre otros.
1.2.3. Plotly(https://plotly.com/python/)
Plotly es una biblioteca para crear gráficos interactivos.
Está optimizado para la creación de gráficos interactivos en la web. Debido a que Plotly se basa en D3.js, es compatible con varias plataformas y lenguajes.
1.2.4. Bokeh(https://bokeh.org/)
Bokeh es una biblioteca de Python para crear visualizaciones más elegantes.
Al generar visualizaciones de datos dinámicas, sería ideal utilizar Bokeh para crear aplicaciones web. En la actualidad, la tendencia es hacia la interactividad y la capacidad de respuesta, por lo que con Bokeh se pueden crear informes más atractivos y hermosos.
1.2.5. Altair(https://altair-viz.github.io/)
Altair es una herramienta declarativa de visualización estadística para Python basada en Vega y Vega-Lite.
Altair está diseñado para centrarse en el contenido esencial de los gráficos, alejándose de la complejidad de la manipulación gráfica. Una de las principales características de Altair es su API, que se basa en una sintaxis intuitiva y consistente de Vega-Lite, lo que permite a los usuarios aprender rápidamente. Gracias a esta estructura, los usuarios pueden visualizar datos de manera concisa y estéticamente atractiva sin necesidad de un código complejo.
Estas cinco bibliotecas son algunas de las más representativas en el campo de la visualización de datos, y además, hay muchas otras bibliotecas que se están lanzando y desarrollando en tiempo real. Sería bueno combinar varias bibliotecas de visualización para analizar los datos de manera más intuitiva.
A continuación, se describe la "nube de palabras", que se utilizará como tema principal entre estas bibliotecas.
2. ¿Qué es una nube de palabras (Word Cloud)?
Una nube de palabras es una técnica de visualización que representa palabras en un texto según su frecuencia o importancia en diferentes tamaños. Cuanto mayor sea la frecuencia de una palabra, más grande se mostrará en la nube, lo que la hace muy intuitiva. La ventaja de utilizar una nube de palabras es que permite identificar fácilmente qué palabras o temas son importantes en un texto con solo un vistazo.
2.1. Diferencias con otras bibliotecas de visualización
La mayor diferencia con las bibliotecas de visualización mencionadas anteriormente es que se basa en texto.
Las bibliotecas presentadas anteriormente se basan en datos estructurados (como conjuntos de datos en Excel), pero la nube de palabras ayuda a analizar y visualizar textos que los usuarios han escrito en la web, como comentarios o publicaciones.
3. Ejemplo práctico
3.1. Iniciar sesión en Hashscraper
Para verificar el panel de control, regístrese en Hashscraper y verá varios bots de scraping. Incluso los no expertos en desarrollo pueden recopilar datos de manera fácil y rápida gracias a la variedad de bots disponibles en diferentes sitios. Se recomienda buscar y utilizar los bots necesarios en diferentes sitios.
3.2. Encontrar un bot de recopilación de mapas de Naver
Para utilizar Naver Maps, busque Naver Maps y haga clic en la tarjeta de recopilación de Naver Maps.
3.3. Configurar la recopilación
Edite la palabra clave en la sección correspondiente y haga clic en el botón de configuración.
Si necesita una recopilación automática continua, configure el intervalo de recopilación. Guarde y comience la recopilación de datos presionando el botón de inicio.
3.4. Verificar los resultados de la recopilación
Cuando comience la recopilación, los datos comenzarán a mostrarse debajo del botón de inicio de la recopilación.
Haga clic en el botón 'ver' para ver los resultados de los datos.
Haga clic en 'Descargar Excel' para descargar los datos. La imagen a continuación muestra el archivo de Excel descargado.
3.5. Leer los datos
Lea los datos con read_excel.
Organice los datos dejando solo la columna 'Categoría' necesaria para crear la nube de palabras.
Al estructurar los datos, las filas se ordenarán de manera clara como se muestra arriba.
3.6. Aplicar la nube de palabras
Aplique la nube de palabras con los datos procesados.
A través de esta nube de palabras, se puede observar que los platos de mariscos y comida coreana tienen un gran peso en los "restaurantes en Noryangjin".
Al recopilar datos de restaurantes locales y crear una nube de palabras, se puede verificar de manera intuitiva la distribución de los negocios por zona.
Se recomienda probar diversas formas de aplicación.
También te puede interesar leer:
Automatiza la recopilación de datos
Comienza en 5 minutos sin programación · Experiencia en web scraping de más de 5,000 sitios web




