Cómo scrapear artículos de prensa en pocos clics

El scraping de páginas web es una de las formas más eficaces para recuperar datos de la web. Por otro lado, cada página web es diferente, y extraer datos de ella requiere un script de scraping que implique una lógica personalizada.

Construir un script de este tipo cuesta tiempo y dinero. Por suerte, recientemente han sido desarrollados muchos servicios de web scraping que te permiten scrapear la web con solo unos clics. Así que ya no tienes que escribir código para lograr tus objetivos de extracción de datos.

Aquí, aprenderás cómo extraer datos de un artículo de prensa con Listly, un servicio de scraping que se puso en contacto conmigo para probar su producto y darte mi opinión sincera. ¡Empezamos!

Qué datos scrapear de los artículos de prensa y por qué

Los artículos de la prensa suelen constar de

un título
una sección TL;DR (Too Long; Didn't Read) opcional
uno o más subtítulos
una lista de párrafos
algunas imágenes

Naturalmente, la información más importante aquí es el texto del artículo, pero también son importantes las imágenes y los vídeos. En particular, cuando se trata de archivos multimedia, hay que tener en cuenta que pueden estar protegidos por derechos de autor. Y si quiere evitar problemas, es posible que te pidan que indiques de dónde proviene el archivo multimedia. Por eso, recuperar la información sobre la fuente y el autor de una imagen o un vídeo es de vital importancia.

Después, puedes utilizar toda esta información para crear una aplicación de agregación de noticias, añadir una sección de noticias a tu sitio web o aplicación, estudiar cómo puede cambiar un artículo con el tiempo con fines de marketing, crear una fuente de datos para que tus algoritmos de aprendizaje automático estudien cómo funciona el lenguaje, o simplemente compartir el artículo con tus amigos.

Ahora, vamos a profundizar en el instrumento elegido para scrapear datos de los artículos de prensa.

¿Qué es Listly?

"Listly es un servicio de web scraping para todos, desde los vendedores no técnicos hasta los desarrolladores avanzados. Convierte las páginas web en una hoja de cálculo de Excel en cuestión de segundos. Los datos extraídos se utilizan para el marketing, la investigación, el big data y otros trabajos relacionados con los datos." — FAQ — Listly.io

La forma recomendada de usar Listly es a través de la extensión oficial para Google Chrome, que ya ha sido descargada por más de 60k usuarios.

Pero no perdamos más tiempo y aprendamos a emplear Listly para scrapear datos de prensa.

Scrapear artículos de la CNN con Listly

Aprendamos a scrapear datos de artículos de prensa con Listly en este tutorial paso a paso con imágenes.

1. Antes de empezar

En primer lugar, necesitas una cuenta de Listly. Visita esta página, rellena el formulario y haz clic en "SIGN UP".

Recibirás el siguiente correo electrónico en tu bandeja de entrada para verificar tu dirección de correo electrónico:

Haz clic en "Verify email" y ya deberías tener una cuenta de Listly!

Ahora, solo tienes que instalar la extensión de Listly para Chrome. Todo lo que tienes que hacer es visitar el sitio web de Listly y hacer clic en "ADD TO CHROME".

Ten en cuenta que puedes probar Listly de forma gratuita, pero el plan gratuito tiene algunas limitaciones. Esto significa que si quieres una experiencia completa, necesitas un plan de pago.

Ahora tienes todo lo que necesitas para empezar a scrapear datos de sitios web. Pero antes de empezar a usarlo, recomiendo fijar Listly en la barra de herramientas de la extensión de Chrome haciendo clic en el siguiente botón:

2. Seleccionar el artículo de scrapear

Ahora, visita el sitio web de prensa y elige el artículo que desea scrapear. En este tutorial, verás cómo scrapear el artículo "Katya Echazarreta, la primera latina nacida en México en ir al espacio" del sitio web CNN en Español.

Este es como el artículo se ve en el sitio:

Como puedes ver, es un artículo largo y detallado. El principal reto del scraping de artículos de prensa es que suelen estar formados por varios bloques de texto. Además, puede haber muchos anuncios, imágenes y videos entre ellos. Por lo tanto, desarrollar un script de scraping para recuperar los datos que te interesan puede necesitar requerir la definición de una lógica compleja. ¡Pero puedes evitar todo esto con Listly!

Ahora, vamos a ver cómo Listly te permite scrapear una página de este tipo con solo un puñado de clics y sin código.

3. Cómo scrapear un artículo de la CNN con Listly con unos pocos clics

Visita la página del artículo que seleccionaste y haz clic en el icono de Listly en la barra de herramientas de la extensión de Chrome.

Este es el aspecto de la ventana emergente de Listly que debería aparecer:

Ya que un artículo de prensa no es una tabla y quieres scrapear todo el texto del artículo, haz clic en "LISTLY WHOLE".

Espera a que Listly haga su magia, y deberías ser redirigido a la página de abajo:

Esta es la página Databoard de Listly, donde puedes decidir qué datos scrapear y cuáles ignorar. Observa cómo Listly scrapea y organiza automáticamente todos los bloques que se encuentran en la página web de origen.

Al explorar los datos que te ofrece la interfaz de Listly, deberías notar que la pestaña con 12 bloques en "Top 30" es la que contiene lo que estás buscando. Pero solamente algunas de las 12 tarjetas podrían ser realmente interesantes. Para seleccionar solo las relevantes, elige "Selected Tabs" en el campo de entrada "Selected Cards".

Este es el aspecto que debería tener ahora su página Databoard de Listly:

Ahora, cada bloque tiene un botón de selección que puedes utilizar para seleccionarlo o deseleccionarlo. Solamente los bloques que haya marcado como seleccionados serán tenidos en cuenta en el proceso de extracción de datos final.

Una vez seleccionados los bloques de interés, pulse el botón "EXCEL" para exportar los datos extraídos a una hoja de cálculo de Excel. Será descargado en automático un archivo con el nombre LISTLY_SINGLE_XXXX_YYYY.xlsx.

Abre el archivo de Excel, y deberías ver los datos extraídos del artículo de la CNN en Español que seleccionaste manualmente organizados en celdas como en la imagen de abajo:

Como puedes ver, la columna LABEL-1 contiene todos los párrafos, las URL de los vídeos y los subtítulos, mientras la columna LABEL-2 almacena el pie del video.

Básicamente, en estas dos columnas están todos los datos más importantes que puedes recuperar de un artículo de prensa.

¡Es todo! Con solamente unos pocos clics, puedes scrapear una página web con contenido heterogéneo y estructurado. Todo esto, sin escribir una sola línea de código.

Listly: Una revisión honesta

Ya que fue Listly quien me contactó para probar su producto, me siento obligado a compartir con ustedes mi honesta opinión al respecto. La experiencia general fue definitivamente positiva y ahora vamos a ver los pros y los contras más relevantes basados en mi experiencia con Listly hasta ahora.

Pros

Fácil de usar: la interfaz de usuario de Listly es intuitiva y te guía en el proceso de extracción de datos.
Rápido: el scraping de datos del artículo de prensa necesitó nada más que unos segundos.
Lleno de funciones: Listly te ofrece la capacidad de programar una extracción diaria, recibir notificaciones por correo electrónico, exportar múltiples páginas a una hoja de cálculo de Excel en la página Databoard, subir archivos .html a la página Fileboard, reproducir las acciones del ratón/teclado para cargar más datos, repetir el clic para cargar más datos, repetir el desplazamiento para cargar más datos, autoguardar mientras se desplaza, seleccionar un servidor proxy para cambiar la dirección IP, detectar iframes, extraer datos de iframes, extraer hipervínculos sobre el contenido, y mucho más.

Contras

Se pueden exportar solo hojas de cálculo: en el momento de escribir este artículo, solo es posible extraer los datos en hojas de cálculo o en JSON y CSV con el programa Beta API. Tener la capacidad de exportar los datos a Word, Google Docs, documentos PDF y otros formatos sería útil.
El método de selección de datos es un poco superficial: la página de Databoard donde puedes seleccionar qué datos considerar y cuáles ignorar no ofrece muchas opciones. La posibilidad de preformatear los datos de interés, incluir o evitar automáticamente los bloques que contengan una determinada palabra o expresión, o elegir cómo agregar o dividir los bloques sería una buena característica a tener.

Conclusión

En este artículo, vimos qué datos debes scrapear de un artículo de prensa, por qué y cómo hacerlo sin escribir una sola línea de código. Esto fue posible gracias a Listly, un servicio de web scraping que se basa sobra una extensión del navegador eficaz, fácil de usar y rápida que te das la capacidad de scrapear cualquier sitio web. Como se mostró, Listly tiene algunas faltas menores, pero mi experiencia ha sido globalmente positiva.

Gracias por leer. Espero que este artículo te haya resultado útil.

The post "Cómo scrapear artículos de prensa en pocos clics" appeared first on Writech.

Blog