Perplexity ignora bloqueos en su actividad de scraping web

La startup de inteligencia artificial Perplexity está en el ojo del huracán tras ser acusada por Cloudflare de ignorar las restricciones de scraping que han sido impuestas por diversos sitios web. ¿Te imaginas lo que esto significa en un mundo donde la ética digital está cada vez más en juego? Cloudflare sostiene que Perplexity ha estado ocultando su identidad y eludiendo bloqueos establecidos por los propietarios de los sitios, lo que ha desatado un intenso debate sobre la ética del scraping en la era digital.

Detalles de la acusación

El lunes, Cloudflare lanzó un informe que expone cómo Perplexity ha estado operando al margen de las configuraciones de acceso de los sitios web. La investigación reveló que la startup ha usado técnicas para sortear las restricciones impuestas por los propietarios, como la modificación de su ‘user agent’ y el cambio de sus redes autónomas. Esto les permite operar sin ser detectados. ¿No te parece inquietante?

Cloudflare indicó que esta actividad se ha observado en decenas de miles de dominios, con millones de solicitudes generadas diariamente.

La empresa comentó: «Pudimos identificar este crawler utilizando una combinación de aprendizaje automático y señales de red». Esto pone de manifiesto hasta qué punto ha evolucionado el scraping en nuestros días.

Reacción de Perplexity

En respuesta a las acusaciones, un portavoz de Perplexity, Jesse Dwyer, desestimó el informe de Cloudflare, considerándolo un «argumento de venta». Dwyer aseguró que las capturas de pantalla presentadas por Cloudflare no demostraban que se hubiera accedido a contenido alguno.

Además, afirmó que el bot mencionado no pertenecía a su empresa.

No obstante, Cloudflare destacó que la queja inicial provenía de sus clientes, quienes reportaron que Perplexity estaba accediendo a sus sitios incluso tras implementar bloqueos en su archivo Robots.txt. Cloudflare realizó pruebas y confirmó que Perplexity estaba burlando estas restricciones, utilizando incluso un navegador genérico para hacerse pasar por Google Chrome cuando su crawler original era bloqueado.

Implicaciones para el futuro del scraping

La postura de Cloudflare refleja una creciente preocupación en la industria sobre las prácticas de scraping y cómo afectan a los modelos de negocio de editores y creadores de contenido. En respuesta a estas inquietudes, Cloudflare ha anunciado la creación de un mercado que permitirá a los propietarios de sitios cobrar a los scrapers que acceden a su contenido. Esto marca un cambio significativo en cómo se gestionan las interacciones entre las plataformas de inteligencia artificial y los sitios web. ¿Qué opinas de esta medida?

Además, Cloudflare ya había lanzado previamente herramientas para prevenir el scraping de contenido sin autorización, destacando así su compromiso con la protección de los derechos de los editores. Este conflicto resalta la necesidad de un marco más claro y eficiente que regule el scraping y la inteligencia artificial, garantizando que se respeten las preferencias de los propietarios de contenido.

Contexto y antecedentes

Esta no es la primera vez que Perplexity se enfrenta a acusaciones de scraping no autorizado. El año pasado, medios como Wired informaron sobre casos en los que Perplexity fue acusado de plagiar contenido. En una entrevista, el CEO de la compañía, Aravind Srinivas, no pudo proporcionar una definición clara de plagio, lo que generó aún más dudas sobre las prácticas de la empresa.

Las acusaciones de Cloudflare subrayan un tema recurrente en la industria tecnológica: la batalla entre la innovación impulsada por la IA y la protección de los derechos de autor. A medida que las startups de inteligencia artificial continúan desarrollándose, establecer límites claros sobre lo que constituye un acceso ético y responsable al contenido en línea se vuelve cada vez más urgente. ¿Estamos listos para enfrentar este desafío?