Le principal problème de la recherche d'informations sur Internet n'est pas de trouver des pages ou des sites, mais d'obtenir la réponse à la question posée. En d'autres termes, le problème réside principalement dans l'affinage des résultats. Comment limiter le nombre des résultats obtenus en ne confondant pas exactitude et pertinence. Un résultat peut être exact ou correct sans être pertinent, c'est-à-dire répondre précisément à la question posée.
Les débutants dans la recherche sur Internet commettent souvent l'erreur de ne s'adresser qu'à un seul outil, généralement le moteur de recherche le plus connu, Google, en espérant que celui-ci répondra à la question qu'ils se posent. Pourtant, personne ne songerait à s'adresser à l'employé de la Bibliothèque royale en lui disant simplement «chimie». La réponse obtenue serait d'abord un silence étonné suivi de questions: chimie organique ou inorganique ? Radiochimie ? Histoire de la chimie ? Chimie industrielle ?
Un document crédible
Il est important de comprendre que les moteurs de recherche ne peuvent se comporter - dans le meilleur des cas - comme un bibliothécaire basique, c'est-à-dire indiquer où se trouve l'information, mais pas fournir l'information proprement dite.
Avant de se lancer tête baissée dans une recherche, il faut se poser la même question: qui possède l'information que je cherche ? Qui peut répondre à ma question ? Si la réponse tient en quelques mots, un moteur de recherche fera sans doute l'affaire. Pour répondre à une question simple comme En quelle année et dans quelle spécialité Jules Bordet a-t-il reçu le prix Nobel ?, il suffira de taper dans Google ou un autre moteur une phrase comme «Jules Bordet a reçu le prix Nobel de en» (sans les guillemets), laissant au moteur le soin de combler les vides.
Si la question est de trouver la liste des lauréats du prix Nobel de chimie, une requête de type «liste des prix Nobel de chimie» (sans les guillemets) suffira. Par contre, si le but de la recherche est de trouver un article récent de J.V. Dacie sur l'hématologie, il faudra chercher un peu plus attentivement.
Pour bien comprendre comment fonctionne un moteur de recherche, il suffit de se livrer à l'expérience suivante: taper dans le champ de recherche de Google quatre ou cinq ingrédients (œufs farine chocolat lait) séparés par un simple espace, puis lancer la recherche. Selon les ingrédients indiqués, Google ramènera des recettes de cuisine ou des fiches de diététique. Pourquoi ? Parce qu'il a cherché les pages comportant les quatre ou cinq mots de la recherche. Il classe parmi les premiers résultats les pages sur lesquelles les mots proposés apparaissent dans le titre et dans l'ordre indiqué; viennent ensuite les pages comportant certains mots dans le titre et d'autres dans le corps du texte, puis les pages où les mots figurent dans le texte mais dans le désordre, puis les pages contenant certains mots dans l'ordre, et ainsi de suite.
Il faut donc toujours essayer de deviner quels mots doivent figurer dans la réponse et dans quel ordre. L'idée est que la réponse à ma question a déjà été écrite quelque part par quelqu'un. Si la recherche porte sur un document technique ou scientifique, les termes caractéristiques - le jargon spécifique - du sujet traité figureront dans la réponse.
Plusieurs choses à retenir. Google possède plusieurs bases de données: Web, images, etc. Une recherche sur le rotavirus peut évidemment se faire dans la base de données Web (proposée par défaut par Google). Mais comment trouver un document crédible ? On peut imaginer qu'une thèse sur ce sujet comporte au moins une illustration intitulée «rotavirus». Il est donc parfois utile de partir de la base de données des images (deuxième lien au-dessus du champ de recherche de Google) pour remonter de l'image au document qui le contient.
Les pages figurant parmi les 10 premières de Google ont généralement consenti un effort commercial pour améliorer leur classement. On y trouve par conséquent surtout des pages dont le contenu est peu intéressant. L'immense majorité des millions de requêtes journalières lancées dans les moteurs de recherche concernent ces pages commerciales. Mais si la recherche porte sur des documents techniques et scientifiques, il n'est plus possible de se contenter des résultats apparaissant sur les premières pages. C'est la raison pour laquelle les professionnels de la recherche commencent par aller dans les préférences (à droite du champ de recherche dans Google) pour lui demander d'afficher 100 résultats par pages et non pas 10.
Ces mêmes professionnels s'adressent également à une autre base de données de Google appelée Google Scholar (http://scholar.google.com/), spécialement consacrée à la documentation technique et scientifique. Les fonctions avancées de Google Scholar permettent de limiter la recherche à un domaine (biologie, environnement, médecine, ingénierie), mais également à une période de publication.
Il convient d'indiquer très précisément au moteur ce qu'on cherche. Si le but est de trouver une base de données sur les constantes physiques, tous ces termes-clés devront figurer dans la requête.
Il faut toujours interroger au moins deux, voire trois moteurs de recherche: Google
(http://www.google.com/);Yahoo! (http://search.yahoo.com/) et Exalead
(http://www.exalead.com), seul moteur européen.
• Il est impératif d'utiliser au moins trois mots dans une requête. La consultation des statistiques d'utilisation des moteurs de recherche montre que 70% des recherches sont effectuées avec seulement deux mots-clés alors que Google par exemple en accepte environ trente !
• Les requêtes devraient toujours être construites comme dans l'exemple ci-dessous.
Il faut généralement au moins trois mots pour définir à la fois le champ de recherche et le contexte. Dans la requête «laboratoire physique plasmas» (sans les guillemets):
• le terme «physique» définit le contexte de la recherche;
• le terme «plasmas» définit un sous-contexte qui vient affiner le contexte. Il permet d'éliminer les pages traitant d'autres spécialités;
• le terme «laboratoire» définit la recherche elle-même.
Pour trouver le contexte et le sous-contexte, posez-vous simplement la question «de quoi ?»: laboratoire de quoi ?; physique de quoi ?
Sachant cela, il devient plus facile de trouver exactement ce que l'on cherche.
Quelques stratégies de recherche de sites.
Pour trouver des pages universitaires, les fonctions avancées des moteurs de recherche permettent de limiter la recherche à un domaine particulier. Le domaine dont il est question est la catégorie dans laquelle sont classés tous les sites pour permettre leur identification, soit par activité (.org, .edu, .net...), soit par origine géographique (.be, .ca, .fr...). Rappelons qu'il est possible d'identifier tous les domaines sur le site de l'IANA (http://www.iana.org/), en particulier dans la rubrique IANA ccTLD Database.
Le domaine .edu est réservé aux universités. Avec Google, il est par exemple possible de limiter une recherche aux pages provenant de sites universitaires et contenant les mots demandés. La syntaxe sera par exemple: site:edu plasma physics laboratory. Rappel: jamais d'espace avant ou après les deux points !Il est évidemment possible d'affiner en demandant par exemple un format particulier de fichier avec une syntaxe de type site:edu filetype:pdf plasma physics laboratory (qui ramène uniquement des fichiers au format Pdf).
Un problème pratique se pose ici: le domaine .edu est essentiellement utilisé pour les États-Unis. En Belgique et au Royaume-Uni, on utilise l'extension .ac. Mais le .ac est un sous-domaine du .be ou .uk. Comment procéder ? En combinant deux syntaxes: site:be inurl:ac «laboratoire de physique» (avec les guillements) (la syntaxe permet de limiter la recherche aux pages ayant un mot particulier dans leur adresse. Dans ce cas-ci, nous exigeons la présence de .ac dans l'adresse des pages du domaine belge).
Les pages mises en ligne par les universités françaises utilisent le sous-domaine (.univ). Une bonne syntaxe pourrait donc être site:fr inurl:univ «laboratoire de physique» (avec les guillements).
Trouver des pages de liens utiles.
Une stratégie de recherche intéressante consiste à identifier un site de bonne qualité et crédible pour ensuite chercher si ce site propose des liens utiles. Si un site est de bonne qualité, il est peu probable qu'il mette sa crédibilité en jeu en proposant des liens vers des sites de mauvaise qualité.
Les pages de liens portent généralement un titre du genre «liens utiles», «signets» ou «useful links». Nous pourrions lancer des requêtes de type
• useful links pharmaceuticsl
• liens utiles toxicologie qui ramènent de bons résultats dès la première page.
Les sites anglo-saxons utilisent souvent le terme pathfinder pour identifier les pages proposant de la documentation sur certains sujets comme la chimie par exemple. La requête chemistry pathfinder peut donner de très bons résultats. Il est également possible d'utiliser la même syntaxe en précisant le nom d'une université:pathfinder science berkeley.
La requête «signets utiles» (sans les guillemets), rapporte parmi les premiers résultats une page fort intéressante consacrée à la culture française. Il s'agit de Magister
(http://www.site-magister.com/nosign.htm).
Signalons également l'excellente page de signets recommandés par les bibliothécaires de la Bibliothèque nationale de France (http://signets.bnf.fr/).
Trouver des références.
Les Anglo-saxons parlent de «reference» à propos de pages regroupant des liens vers des listes, des annuaires, des sites de statistiques, des almanachs, des données démographiques... Ces pages constituent très souvent de très bons points de départ pour des recherches plus précises. Pour repérer ce genre de site, il existe plusieurs solutions:
• utiliser un annuaire comme l'Open Directory Project (http://www.dmoz.com/) ou Yahoo! (http://dir.yahoo.com/) dont les pages d'accueil proposent toutes un lien «Refe-rences». Il faudra ensuite lire attentivement l'intitulé des sous-catégories pour affiner son choix.
• utiliser un moteur de recherche avec une recherche de type «mathematics references» (sans les guillemets); faire appel à des sites spécialisés comme Reference.com (http://www.reference.com/) ou RefDesk (http://www.refdesk.com/) proposant des centaines de liens utiles.
Wikipédia, l'encyclopédie collaborative en ligne (Athena n° 229 pp. 350-351), fournit une série de liens dans plusieurs domaines vers des listes de références. Cette page s'appelle List of reference tables
Listible (http://www.listible.com/) est une application du Web 2.0 permettant à chacun de proposer des listes sur n'importe quel sujet. Les utilisateurs peuvent ensuite voter pour faire monter une liste dans sa catégorie. Cette application est intéressante car elle permet de bénéficier du travail de recherche des autres utilisateurs. La recherche peut se faire par thème ou par mot-clé.
Quelques sites incontournables.
Il existe sur le Web des sources généralement considérées comme crédibles par les spécialistes. En voici quelques-uns:
Academic Info (http://www.academicinfo.net/),
BUBL (http://bubl.ac.uk/),
Infomine (http://infomine.ucr.edu/) et
Virtual Library (http://vlib.org/) regroupent des collections de sites académiques dans des catégories et sous-catégories.
Le gouvernement américain tient à jour une formidable source d'informations Eric (Education Reference Infor-mation Center) spécialement destinée aux enseignants et aux étudiants, mais utile et accessible à tous. Ce site est disponible à l'adresse http://www.eric.ed.gov/
La CIA, (l'agence centrale de renseignements), des États-Unis, a la réputation d'être bien informée sur tous les pays. Un de ses sites, le CIA Factbook (https://www.cia.gov/cia/publications/factbook/) permet de trouver une information abondante et mise régulièrement à jour sur tous les pays du monde.
L'une des meilleures sources de sites scientifiques de référence est incontestablement le Martindale's Reference Desk (http://www.martindalecenter.com/) dont le contenu donne le vertige.
Une fois encore, on constate que la recherche d'informations est affaire de méthode et de logique. Il n'est pas nécessaire de connaître les adresses de centaines de sites pour s'en sortir...
Christian Vanden Berghen - http://www.brainsfeed.com - cvb@brainsfeed.com - N°230




