¿Qué es el Scraping de Contenidos?
El Scraping de contenidos, o raspadores de contenido, consiste en bots que rastrean Internet mientras copian contenido, lo que puede resultar molesto por varios motivos. Los raspadores de contenido consumen ancho de banda y recursos del servidor, lo que provoca tiempos de carga de la página más largos.
Los raspadores de contenido pueden poner en peligro la clasificación de búsqueda de tu sitio, incluso si no perjudican los tiempos de carga de la página de su sitio web. Después de copiar parte del contenido de tu sitio web, pueden volver a publicarlo en otro lugar. Los motores de búsqueda pueden clasificar una de estas versiones duplicadas en lugar de la versión original en el sitio web. Al proteger tu sitio web de WordPress de los scraping de contenidos, no tenés que preocuparte de que estos bots afecten negativamente los tiempos de carga y la clasificación de la página de tu sitio.
Deshabilitar las fuentes RSS
Podés proteger tu sitio web de los raspadores de contenido desactivando el feed RSS (Really Simple Syndication) de tu sitio web. Existen diferentes tipos de scraping de contenidos. Todos copian contenido, pero algunos, como los canales RSS, se dirigen a ciertos tipos de contenido. Una vez que buscan y encuentran tu fuente RSS, copian todo el contenido que contiene para poder volver a publicarlo en otro sitio web.
El sitio web de WordPress probablemente tenga al menos una fuente RSS. La creación de fuentes RSS es una característica nativa del conocido sistema de administración de contenido (CMS). Cuando instalas WordPress, se crea automáticamente una fuente RSS que consta de las últimas publicaciones en tu sitio web. Sin embargo, esto se puede cambiar modificando functions.php del sitio web usando el código proporcionado en wordpress.stackexchange.com / questions / 162811 / how-to-secure-or-disable-the-rss-feeds. Con el plugin Disable Feeds todas las demás RSS quedan deshabilitadas.
Cambiar la configuración de la fuente RSS
Las fuentes RSS todavía están disponibles, pero deberías considerar cambiar la configuración para protegerlas de los raspadores de contenido. De forma predeterminada, la fuente RSS incluirá todo el contenido de la última publicación. Ya sea que su publicación tenga 200 o 2000 palabras, los scraping de contenidos pueden apuntar a esta fuente RSS para copiar tu publicación a la perfección.
WordPress proporciona dos configuraciones para las fuentes RSS. El texto completo es la configuración predeterminada para colocar todo el contenido de las publicaciones recientes en la fuente RSS. Otro configuración es el resumen. Esto solo colocará extractos del contenido de publicaciones recientes en la fuente RSS. La configuración de resumen permite que los raspadores de contenido que se dirigen a los feeds RSS de tu sitio web copien solo una pequeña parte de ese contenido.
En el panel de administración, podés cambiar la configuración de texto completo a resumen. Después de iniciar sesión en el panel de administración, en el menú de la barra lateral izquierda selecciona >Configuración y escoge el botón >Lectura. En la nueva página de configuración, podés seleccionar el texto completo o el resumen de la fuente RSS de tu sitio web.
Agregar muchos enlaces internos
Sé generoso con los enlaces internos al crear contenido. Los enlaces internos pueden disuadir a otros usuarios de copiar de tu sitio web con un raspador de contenido. El scraping de contenidos está automatizado. Así que no selecciona de forma selectiva el contenido a copiar. Más bien, copia automáticamente todo el contenido de una página o publicación en particular.
Los enlaces internos son enlaces que conectan una página de tu sitio web con otra en tu sitio. Crear contenido que contenga muchos enlaces internos significa que cuando un raspador de contenido copia y vuelve a publicar el contenido de tu sitio, tu sitio web generará una cantidad similar de backlinks. Es posible que los usuarios que trabajan con scraping de contenidos no quieran vincularse a tu sitio web. Cuando ven contenido lleno de enlaces internos en tu sitio web, es posible que dejen de extraerlo con raspadores de contenido.
Instalar plugins de seguridad
Instalar en tu pc complementos de seguridad como Jetpack puede darle a tu sitio web una ventaja. Para copiar el contenido, el scraping de contenidos debe visitar tu sitio web.
Sin embargo, los raspadores de contenido se comportan de manera diferente a los visitantes humanos. A menudo, la sesión de visualización de la página es corta y envía más solicitudes de Protocolo de transferencia de hipertexto (HTTP) que un visitante humano. Los complementos de seguridad están diseñados para buscar ese comportamiento sospechoso.
En muchos casos, los complementos de seguridad son suficientes para mantener alejados a los scraping de contenidos. Una vez instalado, monitorea el tráfico del sitio web mientras busca signos de actividad de bots. El complemento de seguridad bloquea todo el tráfico que se origina en esa dirección de Protocolo de Internet (IP) si cree que el visitante es un bot. Los principales complementos de seguridad de WordPress incluyenWordFence y Sucuri.
Ignorarlo
Otro enfoque es ignorar por completo el raspador de contenido. Suponiendo que tenés un paquete de alojamiento web de alta calidad con suficiente ancho de banda y recursos del servidor, los scraping de contenidos no deberían ralentizar tu sitio web. Los problemas de rendimiento relacionados con la velocidad generalmente solo ocurren con paquetes de alojamiento compartido de gama baja.
Si te preocupa que el scraping de contenidos pierda algunos de los rankings de búsqueda de tu sitio web, podés usar un mapa del sitio. Un mapa del sitio es un archivo que actúa como directorio de tu sitio web. Presenta la URL o la ubicación de todas las páginas publicadas en tu sitio web. Al utilizar un mapa del sitio, los motores de búsqueda rastrean la versión original del contenido de su sitio web antes de rastrear la versión duplicada creada por el raspador de contenido. Como resultado, el raspador de contenido no provoca una pérdida de clasificación.
No se trata solo de crear mapas manualmente. El complemento de mapa del sitio crea un mapa del sitio para tu sitio web y actualiza este archivo recién creado a medida que realizás cambios en tu sitio. Por ejemplo, al eliminar una página la elimina del mapa del sitio de tu sitio web. Por otro lado, cuando publicás una página nueva, el complemento la agrega al mapa del sitio de tu sitio web.
El complemento de mapa de sitio XML de Autocollo es una excelente opción. Es completamente gratuito y se distribuye bajo la Licencia Pública General (GPL). Lo más importante es que el complemento XML Sitemap actualiza automáticamente el mapa del sitio de tu sitio web para que vos no tengas que hacerlo.
Los scraping de contenidos han existido durante décadas. Son bots que arañan sitios web mientras copian contenido. Los raspadores de contenido se dirigen a todo tipo de sitios web, pero los sitios web que ejecutan WordPress están especialmente en riesgo debido a las fuentes RSS. Podés proteger tu sitio web con WordPress de los scraping de contenidos deshabilitando las fuentes RSS, cambiando la configuración de las fuentes RSS, agregando muchos enlaces internos y utilizando complementos de seguridad. Alternativamente, podés optar por ignorar el raspador de contenido si has tomado precauciones para evitar ralentizaciones y clasificaciones deficientes.
Ibumu ayuda a proteger tu sitio web de WordPress
Como proveedor de alojamiento administrado premium de WordPress, Ibumu ofrece a sus clientes medidas de seguridad de última generación. Está diseñado para prevenir todo tipo de amenazas cibernéticas, manteniéndo tu sitio web funcionando las 24 horas del día, los 7 días de la semana. Además, todos los planes de hosting de Ibumu incluyen: Jetpack Seguridad Diaria Gratis ($ 249 / año) para brindar una capa adicional de seguridad y protección.