Articles taggés avec ‘moteur’

Boostez Spotlight!

Saturday 10 March 2007

Alors booster c’est le verbe et Spotlight c’est le moteur de recherche du système d’exploitation Mac (j’explique pour ma mère ;) ). Donc kekiya au menu today? Une alternative ou un complément à ce moteur de recherche qui est déjà pas si mal conçu: EasyFind. Gratuit, rapide, puissant, (Mitsubi…).

easyfind

Via Un Site Apple Non Officiel

Tags: , , ,

Sitemaps, un nouveau protocole d’indexation du web

Tuesday 21 November 2006

Sitemaps.org est une manière de pondre un plan du site en XML qui facilitera la tâche aux robots venant fouiner sur nos sites. Le fichier créé sera à placer à la racine du site (http://example.com/sitemap.xml).

Google, Yahoo ! et Microsoft éditent ensemble un nouveau protocole d’indexation du Web : Sitemaps.
Sitemaps fonctionne sous forme de de fichier XML mis à la racine du site internet désirant se faire indexer. Ceci permettant un meilleur référencement, une recherche plus profonde que ce qui est fournit actuellement sur le net et une surveillance de la tâche des robots journalisant ainsi leurs passages, le nombre de pages indexées pour chaque visite. Sitemaps permettrait non pas d’apparaître en pôle-position lors d’une recherche mais une meilleure adaptation de site et une fréquence de parution plus rapide des nouveautés survenues sur le site internet en lui-même.

Source

Tags: , , , ,

LeWebPédagogique désire partager la connaissance pédagogique

Saturday 18 November 2006

LeWebPédagogique vise deux objectifs si j’ai bien compris ce site:

  1. offrir un moteur de recherche permettant de trouver des ressources (cours, documents, corrigés,…) sur une sélection de 10 000 sites éducatifs
  2. donner la possibilité d’ouvrir un blog (avec pub gratuitement ou sans pub en payant un forfait mensuel) et rassembler les propos tenus par une communauté de professeurs passionnés qui s’adressent aux élèves, aux parents comme aux amateurs éclairés de pédagogie

Via Faut le savoir

Tags: , , , , , , ,

Indexation par les moteurs de recherche: le fichier “robots.txt”

Thursday 23 September 2004

Cela fait quelques temps que j’entends parler d’un fichier nommé “robots.txt“. Si je voyais bien un rapport avec les moteurs de recherche, je n’avais jamais vraiment compris son utilité. C’est maintenant réparé avec la rédaction de ce billet.

Les moteurs de recherche passent leur temps à scruter le web (et donc votre site web) pour établir leur indexation. Pour ce faire, ils utilisent des robots nommés “spider” (araignée) ou encore “crawler”, dont le rôle est de chercher en premier lieu un fichier qui doit se trouver à la racine d’un site. Ce fichier est le fameux fichier “robots.txt” qui permet d’indiquer aux moteurs ou autres outils de recherche quelles parties de votre site ne doivent pas être indexées. En quelque sorte, il définit les droits d’accès de votre site aux robots. Ce simple fichier texte respecte une syntaxe propre et doit être présent à la racine de votre site Web (et uniquement là!). Si ce fichier n’existe pas, les robots visiteront et indexeront éventuellement toutes les pages de votre site.

Ce fichier contient au minimum les deux lignes suivantes (pour en savoir plus sur les subtilités de cette syntaxe, je vous conseille la lecture de la page “LE FICHIER robots.txt“):
User-agent: qui indique le nom du moteur auquel on désire indiquer une instruction
Disallow: qui va permettre d'interdire l'indexation d'un répertoire (et de ses sous-répertoires) ou d'un fichier

Dans le cas de mon site web (http://www.davidtouvet.com), j’ai créé une sous-partie destinée à effectuer des tests divers. Il est inutile que cette partie soit indexée. Mon fichier “robots.txt” ressemble donc à cela:
# définit l'interdiction de visiter la section tests
User-agent: *
Disallow: /tests/

Ainsi, j’interdis à tous les robots (= *) d’indexer le répertoire (et tous les sous-répertoires) “tests”. Facile non :smile:. Pour vérifier tout cela, j’ai utilisé un vérificateur de syntaxe du fichier “robots.txt”.

En complément de ce fichier “robots.txt”, il faudra veiller à renseigner des balises méta:

  1. <meta name="robots" content="X, Y">: “X” contiendra soit la valeur “index” (les robots indexeront la page) ou “noindex”; “Y” contiendra soit la valeur “follow” (les robots suivront tous les liens qu’ils trouveront sur la page) ou “nofollow”
  2. <meta name="revisit-after" content="XX days">: “XX” indiquera le nombre de jours avant qu’un robot ne revienne visiter cette page
  3. <meta name="expires" content="never">: “never” indique la durée de vie de votre page; on peut spécifier une date, en utilisant ce format : “Sun, 07 Aug 2005 08:21:57 GMT”
Tags: , , , ,