FI7/97

http://altavista.epfl.ch/
pour trouver de l'information sur le site EPFL

par Jacqueline Dousson, SIC

Afin d'aider les internautes de l'EPFL ou extérieurs à trouver une information dispersée sur les nombreux serveurs du site, le SIC a acquis une licence du logiciel Alta-Vista fourni par Digital Equipment Corporation. Ce logiciel est bien connu sur le web pour la taille de son index: plus de 100 millions de pages appartenant à 650 000 sites seraient indexées par le robot d'Alta-Vista (accessible aux adresses suivantes:

http://www.altavista.digital.com/

aux USA, et

http://www.altavista.telia.com

en Europe). La version locale du logiciel fonctionne exactement sur les mêmes bases: le robot, Scooter, part d'une page racine (http://www.epfl.ch dans notre cas), repère les pages HTML internes au domaine epfl.ch accessibles par liens hypertextes successifs, les analyse et augmente ainsi l'index. La consultation de l'index local ainsi créé se fait à partir de l'adresse:

http://altavista.epfl.ch/

Comme avec le moteur de recherche mondial, vous avez plusieurs options pour affiner votre requête:

Actuellement, le nombre de pages indexées par le serveur Alta-Vista local est de 70 000 pages sur 166 serveurs différents.

Avantages du moteur de recherche local par rapport au moteur mondial

Avec Alta-Vista mondial, on avait déjà la possibilité de forcer la recherche sur le site EPFL en spécifiant host:epfl.ch, mais la version locale nous permet:

Mais les inconvénients de la version locale restent ceux bien connus du moteur Alta-Vista classique, c'est-à-dire qu'il n'indexe pas les pages qui contiennent des scripts, images cliquables ou interrogations de bases de données.

Comment exclure vos pages de l'indexation par Alta-Vista

Si l'information de votre serveur est destiné à une population restreinte (exemple: un groupe de travail), vous pouvez décider d'exclure votre serveur de toute indexation. Cette possibilité vous est offerte grâce au Robots Exclusion Standard, que suit Alta-Vista, ainsi que la plupart des moteurs de recherche sérieux. Il vous suffit de placer un fichier robots.txt dans la racine de votre serveur (un robots.txt qui se trouverait dans un répertoire interne au serveur n'a aucun effet). Ce fichier comprend les lignes suivantes:

User-agent: nom du robot à qui est destiné l'exclusion
Disallow: un sous-répertoire à exclure

Exemples:

User-agent: *

Disallow: /

indique à tous les robots (qui suivent la règle) de n'indexer aucune de vos pages

User-agent: *

Disallow:

autorise tous les robots à tout indexer. Inutile: l'absence de robots.txt ou mieux un robots.txt vide (car cela évite d'encombrer le fichier error_log) a le même effet.


retour au sommaire du Flash informatique no 7/97

retour à la page principale des Flash informatique

Vos commentaires

© FI-7 du 16 septembre 1997