"En el futuro, la mayor parte de internet será tráfico de bots", vaticina Toshit Pangrahi, cofundador y CEO de TollBit, una empresa que rastrea la actividad de web-scraping (raspado) y ha publicado el nuevo informe. "No es solo un problema de derechos de autor, está surgiendo un nuevo visitante en internet".
La mayoría de los grandes sitios web intentan limitar el contenido que los bots pueden raspar y alimentar a los sistemas de IA con fines de entrenamiento. La empresa matriz de WIRED, Condé Nast, así como otros editores, están demandando actualmente a varias compañías de IA por supuestas infracciones de derechos de autor relacionadas con el entrenamiento de inteligencia artificial.
Sin embargo, también está aumentando otro tipo de scraping de sitios web relacionado con la IA. Muchos chatbots y otras herramientas de IA pueden ahora recuperar informaciónde la web en tiempo real y utilizarla para aumentar y mejorar sus resultados. Esto puede incluir precios actualizados de productos, horarios de cines o resúmenes de las últimas noticias.
Según los datos de Akamai, el tráfico de bots relacionados con la formación no ha dejado de aumentar desde el pasado mes de julio. Mientras tanto, la actividad global de los bots que buscan contenido web para los agentes de IA también está en alza.
"La IA está cambiando la web tal y como la conocemos", asegura a WIRED Robert Blumofe, director de tecnología de Akamai. "La carrera que se avecina determinará el futuro aspecto, la sensación y la funcionalidad de la web, así como los aspectos básicos de hacer negocios."
herramientas que los propietarios de sitios web pueden utilizar para cobrar a los scrapers de IA por acceder a sus contenidos. Otras compañías, como Cloudflare, ofrecen herramientas similares. "Cualquiera que dependa del tráfico web humano (empezando por los editores, pero básicamente todo el mundo) se va a ver afectado", explica Pangrahi. "Tiene que haber una forma más rápida de tener ese intercambio de valor programático de máquina a máquina".Qué dicen los dueños de los bots
WIRED intentó ponerse en contacto con 15 empresas de AI scraping citadas en el informe de TollBit para obtener comentarios. La mayoría no respondió o no fue posible contactar con ellas. Varias manifestaron que sus sistemas de inteligencia artificial intentan respetar los límites técnicos que los sitios web establecen para limitar el scraping, pero señalaron que estas barreras pueden ser a menudo complejas y difíciles de seguir.
O Lenchner, director general de Bright Data, una de las mayores empresas de web scraping del mundo, afirma que los robots de su empresa no recopilan información no pública. Bright Data fue demandada anteriormente por Meta y X por presunta sustracción indebida de contenidos de sus plataformas.(Meta retiró posteriormente su demanda, y un juez federal de California desestimó el caso presentado por X.)
Karolis Stasiulevičiu, portavoz de otra de las compañías citadas, ScrapingBee, declaró a WIRED: "ScrapingBee se basa en uno de los principios fundamentales de internet: la web abierta debe ser accesible. Las páginas web públicas son, por su diseño, legibles tanto por humanos como por máquinas".
Oxylabs, otra empresa de scraping, afirmó en un comunicado sin firma que sus robots no "acceden a contenidos que se encuentren tras inicios de sesión, muros de pago o autenticación. Exigimos a nuestros clientes que utilicen nuestros servicios únicamente para acceder a información de acceso público, y aplicamos normas de cumplimiento en toda nuestra plataforma."
Oxylabs añade que hay muchas razones legítimas para que las empresas hagan scraping de contenidos web, por ejemplo con fines de ciberseguridad y para llevar a cabo periodismo de investigación. La empresa también indica que las contramedidas que utilizan algunos sitios web no discriminan entre los distintos casos de uso. "La realidad es que muchos sistemas anti-bot modernos no distinguen bien entre el tráfico malicioso y el acceso automatizado legítimo", reclama Oxylabs.
WIRED. Adaptado por Mauricio Serfatty Godoy.La paradoja de la IA en América LatinaDe LatamGPT a regulaciones pioneras, la región enfrenta la pregunta definitoria: ¿moldeará la tecnología de IA o será moldeada por ella?
Arrow