25 juin 2024

De nombreuses IA ne respectent pas les directives du fichier robots.txt. L'utilisation non autorisée de contenu Web par des sociétés d'IA.

L’utilisation non autorisée du contenu Web par l’IA menace l’industrie des médias, provoquant une surcharge des ressources et des plantages.

Le développement rapide de l’intelligence artificielle (IA) a ouvert de nouvelles frontières dans le traitement de l’information, mais a également soulevé d’importantes questions éthiques et juridiques. Récemment, il est apparu que plusieurs sociétés d’IA ignorent les normes du Web pour l’acquisition de contenu, telles que le protocole « robots.txt », suscitant des inquiétudes parmi les éditeurs et les experts en contenu numérique. Cet article explorera les implications de ces pratiques, analysera les conséquences pour l'industrie des médias et discutera des solutions possibles.

Contexte et signification du protocole « robots.txt »

Le protocole « robots.txt » a été introduit dans les années 90 pour permettre aux propriétaires de sites Web de contrôler quelles parties de leur site pourraient être indexées par les robots des moteurs de recherche. Cette norme est devenue un pilier pour garantir que le contenu Web ne soit pas surchargé de requêtes automatisées, tout en protégeant les droits des propriétaires de contenu.

Les directives robots.txt et le délai d'exploration

Le fichier « robots.txt » indique non seulement quelles pages un robot peut et ne peut pas visiter, mais propose également des directives cruciales telles que le « délai d'exploration ». Le « crawl delay » est un paramètre qui précise le délai qu’un bot doit respecter entre une requête et une autre au serveur. Cette directive est essentielle pour éviter qu'un site Web ne soit surchargé de requêtes, ce qui pourrait entraîner une augmentation significative de la charge CPU et des ressources du serveur.

Robots.txt

Le problème des entreprises d’IA ignorant les directives

De nombreuses entreprises d’IA ne respectent pas ces directives, ce qui entraîne une augmentation significative de la charge sur les serveurs des sites Web. Ce problème est particulièrement aigu pour les grands sites comportant des centaines de milliers de pages ou de produits. Lorsque plusieurs robots, légitimes et IA, explorent un site simultanément, La charge du processeur peut croître de façon exponentielle, atteignant des niveaux insoutenables. De plus, la charge sur la base de données augmente considérablement, les requêtes continues surchargeant les ressources de la base de données. Les processus PHP, souvent utilisés pour générer du contenu dynamique, peuvent ralentir, voire planter, aggravant encore la situation.

Étude de cas : impact réel sur les ressources du serveur

Un exemple pratique de ce problème concerne l’un de nos clients, qui a subi une surcharge importante en raison de l’analyse simultanée de plus de huit robots IA émergents. Ces robots ont continué à explorer le site pendant plus de huit heures, entraînant une augmentation de la charge du processeur de plus de 900 % par rapport aux niveaux normaux des derniers mois. Cette surcharge entraînait un ralentissement des performances du site et risquait de provoquer un crash complet.

L'affaire Perplexity et la réponse des éditeurs

Un exemple emblématique de ce problème est le conflit entre Forbes et Perplexity, une startup de recherche d’IA qui développe des outils pour générer des résumés automatiques. Forbes a publiquement accusé Perplexity d'utiliser ses articles d'investigation pour générer des résumés d'IA sans autorisation, contournant les restrictions imposées par le protocole « robots.txt ». Une enquête menée par Wired a confirmé que Perplexity contourne probablement le protocole pour contourner les blocages.

Cette affaire a suscité d'importantes inquiétudes au sein de la News Media Alliance, un groupe professionnel représentant plus de 2.200 XNUMX éditeurs aux États-Unis. La présidente Danielle Coffey a souligné que le fait de ne pas mettre un terme à ces pratiques pourrait sérieusement compromettre la capacité de l'industrie des médias à monétiser son contenu et à rémunérer les journalistes.

Le rôle de TollBit

En réponse à ces problématiques est née TollBit, une startup qui se positionne comme intermédiaire entre les entreprises d’IA et les éditeurs. TollBit surveille le trafic de l'IA sur les sites Web des éditeurs et utilise des analyses avancées pour aider les deux parties à négocier les frais de licence pour l'utilisation du contenu.

TollBit a signalé que non seulement Perplexity, mais de nombreux agents d'IA contournent le protocole « robots.txt ». La société a collecté des données auprès de plusieurs éditeurs qui montrent un schéma clair de violations de protocole par différentes sources d'IA, indiquant un problème répandu dans l'industrie.

Les implications juridiques et les perspectives d’avenir

Le protocole « robots.txt » ne dispose d'aucun mécanisme d'application juridique clair, ce qui complique la capacité des éditeurs à se défendre contre ces pratiques. Cependant, certains signes indiquent que certains groupes, comme la News Media Alliance, envisagent d'éventuelles actions en justice pour protéger leurs droits.

Pendant ce temps, certains éditeurs adoptent des approches différentes. Par exemple, le New York Times a engagé des poursuites judiciaires contre des sociétés d’IA pour violation du droit d’auteur, tandis que d’autres signent des accords de licence avec des sociétés d’IA prêtes à payer pour le contenu. Cependant, de nombreux désaccords subsistent quant à la valeur des documents fournis par les éditeurs.

conclusion

L’utilisation non autorisée de contenus Web par les sociétés d’IA représente un problème important pour l’industrie des médias. À mesure que les technologies de l’IA continuent d’évoluer, il est crucial d’établir un équilibre qui protège les droits des créateurs de contenu tout en garantissant l’innovation technologique. Des initiatives telles que celle de TollBit et d'éventuelles actions en justice pourraient constituer des étapes importantes vers une solution équitable, mais le dialogue entre les parties concernées reste essentiel pour construire un avenir durable pour tous.

Vous avez des doutes ? Vous ne savez pas par où commencer ? Contactez-nous !

Nous avons toutes les réponses à vos questions pour vous aider à faire le bon choix.

Discute avec nous

Discutez directement avec notre support avant-vente.

0256569681

Contactez-nous par téléphone pendant les heures de bureau 9h30 - 19h30

Contactez-nous en ligne

Ouvrez une demande directement dans l'espace contact.

INFORMATIONS

Managed Server Srl est un acteur italien leader dans la fourniture de solutions système GNU/Linux avancées orientées vers la haute performance. Avec un modèle d'abonnement peu coûteux et prévisible, nous garantissons que nos clients ont accès à des technologies avancées en matière d'hébergement, de serveurs dédiés et de services cloud. En plus de cela, nous proposons des conseils système sur les systèmes Linux et une maintenance spécialisée en SGBD, sécurité informatique, Cloud et bien plus encore. Nous nous distinguons par notre expertise dans l'hébergement de CMS Open Source de premier plan tels que WordPress, WooCommerce, Drupal, Prestashop, Joomla, OpenCart et Magento, soutenus par un service d'assistance et de conseil de haut niveau adapté aux administrations publiques, aux PME et à toutes tailles.

Red Hat, Inc. détient les droits de Red Hat®, RHEL®, RedHat Linux® et CentOS® ; AlmaLinux™ est une marque commerciale d'AlmaLinux OS Foundation ; Rocky Linux® est une marque déposée de la Rocky Linux Foundation ; SUSE® est une marque déposée de SUSE LLC ; Canonical Ltd. détient les droits sur Ubuntu® ; Software in the Public Interest, Inc. détient les droits sur Debian® ; Linus Torvalds détient les droits sur Linux® ; FreeBSD® est une marque déposée de The FreeBSD Foundation ; NetBSD® est une marque déposée de la Fondation NetBSD ; OpenBSD® est une marque déposée de Theo de Raadt. Oracle Corporation détient les droits sur Oracle®, MySQL® et MyRocks® ; Percona® est une marque déposée de Percona LLC ; MariaDB® est une marque déposée de MariaDB Corporation Ab ; REDIS® est une marque déposée de Redis Labs Ltd. F5 Networks, Inc. détient les droits sur NGINX® et NGINX Plus® ; Varnish® est une marque déposée de Varnish Software AB. Adobe Inc. détient les droits sur Magento® ; PrestaShop® est une marque déposée de PrestaShop SA ; OpenCart® est une marque déposée d'OpenCart Limited. Automattic Inc. détient les droits sur WordPress®, WooCommerce® et JetPack® ; Open Source Matters, Inc. détient les droits sur Joomla® ; Dries Buytaert détient les droits sur Drupal®. Amazon Web Services, Inc. détient les droits sur AWS® ; Google LLC détient les droits sur Google Cloud™ et Chrome™ ; Microsoft Corporation détient les droits sur Microsoft®, Azure® et Internet Explorer® ; La Fondation Mozilla détient les droits sur Firefox®. Apache® est une marque déposée de The Apache Software Foundation ; PHP® est une marque déposée du groupe PHP. CloudFlare® est une marque déposée de Cloudflare, Inc. ; NETSCOUT® est une marque déposée de NETSCOUT Systems Inc. ; ElasticSearch®, LogStash® et Kibana® sont des marques déposées d'Elastic NV. Hetzner Online GmbH détient les droits sur Hetzner® ; OVHcloud est une marque déposée d'OVH Groupe SAS ; cPanel®, LLC détient les droits sur cPanel® ; Plesk® est une marque déposée de Plesk International GmbH ; Facebook, Inc. détient les droits sur Facebook®. Ce site n'est affilié, sponsorisé ou autrement associé à aucune des entités mentionnées ci-dessus et ne représente en aucune manière aucune de ces entités. Tous les droits sur les marques et noms de produits mentionnés sont la propriété de leurs titulaires respectifs des droits d'auteur. Toutes les autres marques mentionnées appartiennent à leurs titulaires. MANAGED SERVER® est une marque déposée au niveau européen par MANAGED SERVER SRL, Via Enzo Ferrari, 9, 62012 Civitanova Marche (MC), Italie.

Retour en haut de page