llm; intelligence artificielle générative; dataset; biais
Abstract :
[fr] L’année 2023 fut notamment celle de l’essor des IA génératives capables de produire des images (Stable Diffusion, Midjourney…) ou des textes (ChatGPT, Bard…) originaux. Ces nouveaux outils ont amené leur lot de polémiques. Parmi celle-ci, la question des droits d’auteurs des contenus utilisés pour l’entraînement de ces modèle a rapidement touché les scènes médiatiques puis judiciaires. Dans cette recherche exploratoire, nous avons utilisé un robot d’exploration pour analyser les fichiers « robots.txt » de plusieurs ensemble de sites web incluant le Top 100 Alexa, des sites de presse en ligne et des sites d’éditeurs scientifiques. L’objectif était d’analyser le recours à cette norme technique, soit le protocole d’exclusion des robots, pour traiter cette question de la violation de la propriété intellectuelle. Nos résultats montrent une forte utilisation des mesures de blocage par les sites vivant de la publication de contenus. Ils mettent cependant en évidence certaines incohérences dans les mesures de blocage, des limitations dans le protocole d’exclusion des robots et des biais (pour lesquels une nouvelle mesure est proposée) que les politiques de blocage différenciées risquent d’introduire lors de l’entraînement des IA génératives.
Disciplines :
Computer science
Author, co-author :
Viseur, Robert ; Université de Mons - UMONS > Faculté Warocqué d'Economie et de Gestion > Service des Technologies de l'Information et de la Communication
Delcoucq, Landelin ; Université de Mons - UMONS > Faculté Warocqué d'Economie et de Gestion > Service des Technologies de l'Information et de la Communication
Language :
French
Title :
Exploration des pratiques de régulation des IA génératives par le protocole d’exclusion des robots