@laetsgo
#admin #enshittification #IA c'est un problème compliqué à traiter mais oui, c'est un sujet dans toutes les bouches du small web.
TL;dr: pas de bonnes solutions, mais les contres mesures avancent.
Déjà, ces bots ne respectent absolument pas les instructions de robots.txt que les bots de search eux respectent. En fait, n'importe quoi qui ressemble à des règles de bons fonctionnement ensemble est ignoré.
https://thelibre.news/foss-infrastructure-is-under-attack-by-ai-companies/
En fait c'est tellement pourri comme domaine, que des boites paie des créateurs de softs pour inclure dans leurs logiciel un botnet, ie un accès distant qui permet d'utiliser le smartphone/ ordinateur hôte comme relais, ce qui rend les défenses simple d'ip-ban inefficaces. Ces botnets sont massivement utilisés par les boite de LLM: https://jan.wildeboer.net/2025/04/Web-is-Broken-Botnet-Part-2/
Bref, comment on de défend ?
Déjà, il ne faut pas sous estimé le travail ingrat de check/ban/throttling et toutes les mesures habituelles (et souvent très fastidieuses) mise en oeuvre par les admin sys.
Et sinon essentiellement, en rendant économiquement inetrerssant pour les bots de crawler certains endroits. C'est pas fou écologiquement (ça ressemble à mettre la clim pour compenser le chauffage déréglé), et les llm ont les poches profondes.
Mais pour l'instant on n'a pas mieux, on ne sait pas reconnaître un bot pour le banir, les boites de llm mettent énormément de r&d et "nos meilleurs cerveaux" (mais visiblement pas très fort en éthique) pour échapper aux détections.
On a quand même :
- des tar-pits, ie des pieges qui font boucler les bots dans un labyrinthe de texte plausible mais généré aléatoirement. Les boite d'IA détestent, et trouve rapidement des protection. Ex: népenthès: https://zadzmo.org/code/nepenthes/
- des pages de protection qui imposent un coût de calcul important. Le petit dernier qui fait un tabas, une réalisation de la géniale @cadey : https://xeiaso.net/blog/2025/anubis/
Et j'espère beaucoup d'autres solutions bientôt.
Mais ça reste ad-hoc, et assez complexe à mettre en place... Mais le besoin est réel. En faut, les effets de bord des LLM se font même sentir au niveau des maintainers de logiciels libres, cf curl: https://www.linkedin.com/posts/danielstenberg_hackerone-curl-activity-7324820893862363136-glb1
Bref, le temps de la résistance n'est pas que politique.