Il existe dans la veille un jeu de "jeu du chat et de la souris" entre les webmasters qui publient et diffuse des sites Internet et les veilleurs qui, avec des outils de veille, essayent de les surveiller. La plupart des outils de veille sont des crawlers qui aspirent des sites et des pages web, les stockent et les comparent régulièrement avec la version en ligne pour détecter d'éventuels changements. Certains outils d’actualités ou d’archives fonctionnent sur le même principe.
Ainsi, de l’autre coté, les éditeurs de sites tentent de bloquer ces robots. Plusieurs solutions sont alors possibles :
Introduire sur son site un captcha ou une question de l’internaute qui l’oblige à une action : recopier le contenu de l’image du catcha, répondre à une question, donner sa (une) date de naissance, etc. Le robot sera lui aussi obligé de réaliser une action pour poursuivre ou lire la suite des pages, ce qui est impossible pour lui surtout si l’action est différente à chaque fois.
Il est également possible d’affecter une variable de session à l’internaute lors de chaque visite. Cette méthode est surtout utilisée lorsqu’il y a une requête à faire sur le site (bases de données). Si la requête peut être automatisée avec certains outils de veille, on peut aussi lui demander d’enregistrer une variable de session pour « faire croire » au site que l’on est le même visiteur. Toutefois, si la variable de session possède une date de péremption (obligeant l’internaute à refaire sa requête dès cette date atteinte) les outils de veille seront bloqués. A titre d’exemple, le site de réservation de la SNCF (voyages-sncf.com) est un vrai casse-tête pour les outils de veille.
Il est enfin possible de paramétrer sa page robots.txt pour bloquer le robot après l’avoir identifié. Le code à inscrire dans cette page est le suivant :
« User-agent: nom du robot
Disallow: /»
Pour cela, le site du journal Le Monde, vous facilitera dans votre tâche. Soucieux que leur site ne soit pas aspiré, ses webmestres ont inclus dans leur page robots.txt la plupart des outils de veille connus, excluant les robots suivants de toute indexation : Meltawer, Digimind, Knowings, Sindup, Cision, Talkwater, TurnitinBot, ConveraCrawler, QuepasaCreep, Jetbot, NewsNow, kbcrawl, AmiSoftware, Newzbin, Ask n read, Qwam content intelligence, Zite, flipboard, FlipboardProxy, Youmag, Synthesio, trendybuzz, spotter, scoop.it, linkfluence, 5emeRue, Augure, Corporama, readability.com, grub-client, ia_archiver, ia_archiver-web.archive.org, k2spider, libwww, wget, 5erue, adequat, adequat-systems, auramundi, coexel, ellisphere, leadbox, mention, Moreover, mytwip, NewsNow, Newzbin, opinion-tracker, proxem, score3, trendeo, vecteurplus, verticalsearch, vsw, winello, Fetch, infoseek, MSIECrawler, Offline Explorer, sitecheck.internetseer.com, SiteSnagger, Teleport, TeleportPro, WebCopier, WebStripper, Zealbot, asknread.com, ellisphere, spotter.
François JEANNE-BEYLOT
Bonjour, j'ai une question toute naïve. En quoi est-ce nuisible de se faire aspirer son site par un robot ? Quel usage est fait de cette aspiration ?
Merci pour la réponse et pour les trucs, que je suivrai peut-être du coup !
Rédigé par : TM | 03 décembre 2014 à 14:28