Sitemaps, un nouveau protocole d’indexation du web

Sitemaps.org est une manière de pondre un plan du site en XML qui facilitera la tâche aux robots venant fouiner sur nos sites. Le fichier créé sera à placer à la racine du site (http://example.com/sitemap.xml).

Google, Yahoo ! et Microsoft éditent ensemble un nouveau protocole d’indexation du Web : Sitemaps.
Sitemaps fonctionne sous forme de de fichier XML mis à la racine du site internet désirant se faire indexer. Ceci permettant un meilleur référencement, une recherche plus profonde que ce qui est fournit actuellement sur le net et une surveillance de la tâche des robots journalisant ainsi leurs passages, le nombre de pages indexées pour chaque visite. Sitemaps permettrait non pas d’apparaître en pôle-position lors d’une recherche mais une meilleure adaptation de site et une fréquence de parution plus rapide des nouveautés survenues sur le site internet en lui-même.

Source

Tags: , , , ,

Accéder au web par votre disque dur avec Webaroo

Webaroo? Le web à vélo? Ou plutôt “roo” de secours pour les non connectés? C’est en tout cas un projet ambitieux qui pourraient se révéler utile dans certains cas. Par contre, attention à l’orgie numérique si même les moments déconnectés deviennent comme connectés…

webaroo

Webaroo indexe le contenu des sites les plus sérieux et crée des packs de téléchargements en fonction des sujets recherchés. Le contenu des ces packs est sauvegardé hors ligne sur votre ordinateur et mis à jour régulièrement. (…) Il vous est aussi possible d’indexer les sites spécifiques de votre choix afin de pouvoir les visiter tout en étant déconnecté. (…) Notons que Webaroo est aussi disponible pour les téléphones et PDAs fonctionnant sous Windows Pocket PC.

Source

Tags: , ,

Google Desktop Search recherche sur votre disque dur

Nouvelle application développée par les laboratoires de Google (mais où vont-ils s’arrêter :shock:), Google Desktop Search qui recherche des informations présentes dans votre ordinateur.

Actuellement disponible que pour le système d’exploitation Windows, et recherchant pour le moment les documents .txt, .html, Microsoft Word, Excel et PowerPoint, les courriels de Outlook et Outlook Express, les archives de la messagerie instantanée AOL et des pages web d’Internet Explorer. Néanmoins, Google aimerait intégrer davantage de formats dans sa recherche et propose un formulaire que nous pouvons utiliser pour proposer d’autres formats. Je vous propose de cocher entre autres “Support Mozilla Firefox” et de proposer Mozilla Thunderbird dans le champ “Suggestion:”.

Pour installer Google Desktop Search, il faut:

  1. se rendre sur le site officiel de Google Desktop Search
  2. cliquer sur “Agree and Download”
  3. fermer votre navigateur web
  4. installer l’application (.exe)
  5. lancer un navigateur web et se rendre sur l’interface de Google

Pour en savoir plus:

La seule chose dérangeante à mon avis est que la recherche en local s’effectue à partir d’un navigateur. Ce qui laisse facilement naître des doutes sur la confidentialité de l’indexation par Google… :sad:, même si Google a pris ses précautions:

Privacy and Google Desktop Search.

Google is commited to making search on your desktop as easy as searching the web. We recognize that privacy is an important issue, so we designed and built Google Desktop Search with respect for your privacy.

So that you can easily search your computer, the Google Desktop Search application indexes and stores versions of your files and other computer activity, such as email, chats, and web history. These versions may also be mixed with your Web search results to produce results pages for you that integrate relevant content from your computer and information from the Web.

Your computer’s content is not made accessible to Google or anyone else without your explicit permission.

Plus d’informations: Privacy Policy et Privacy FAQ.

Tags: , , , , , ,

Indexation par les moteurs de recherche: le fichier "robots.txt"

Cela fait quelques temps que j’entends parler d’un fichier nommé “robots.txt“. Si je voyais bien un rapport avec les moteurs de recherche, je n’avais jamais vraiment compris son utilité. C’est maintenant réparé avec la rédaction de ce billet.

Les moteurs de recherche passent leur temps à scruter le web (et donc votre site web) pour établir leur indexation. Pour ce faire, ils utilisent des robots nommés “spider” (araignée) ou encore “crawler”, dont le rôle est de chercher en premier lieu un fichier qui doit se trouver à la racine d’un site. Ce fichier est le fameux fichier “robots.txt” qui permet d’indiquer aux moteurs ou autres outils de recherche quelles parties de votre site ne doivent pas être indexées. En quelque sorte, il définit les droits d’accès de votre site aux robots. Ce simple fichier texte respecte une syntaxe propre et doit être présent à la racine de votre site Web (et uniquement là!). Si ce fichier n’existe pas, les robots visiteront et indexeront éventuellement toutes les pages de votre site.

Ce fichier contient au minimum les deux lignes suivantes (pour en savoir plus sur les subtilités de cette syntaxe, je vous conseille la lecture de la page “LE FICHIER robots.txt“):

User-agent: qui indique le nom du moteur auquel on désire indiquer une instruction
Disallow: qui va permettre d'interdire l'indexation d'un répertoire (et de ses sous-répertoires) ou d'un fichier

Dans le cas de mon site web (http://www.davidtouvet.com), j’ai créé une sous-partie destinée à effectuer des tests divers. Il est inutile que cette partie soit indexée. Mon fichier “robots.txt” ressemble donc à cela:

# définit l'interdiction de visiter la section tests
User-agent: *
Disallow: /tests/

Ainsi, j’interdis à tous les robots (= *) d’indexer le répertoire (et tous les sous-répertoires) “tests”. Facile non :smile:. Pour vérifier tout cela, j’ai utilisé un vérificateur de syntaxe du fichier “robots.txt”.

En complément de ce fichier “robots.txt”, il faudra veiller à renseigner des balises méta:

  1. <meta name="robots" content="X, Y">: “X” contiendra soit la valeur “index” (les robots indexeront la page) ou “noindex”; “Y” contiendra soit la valeur “follow” (les robots suivront tous les liens qu’ils trouveront sur la page) ou “nofollow”
  2. <meta name="revisit-after" content="XX days">: “XX” indiquera le nombre de jours avant qu’un robot ne revienne visiter cette page
  3. <meta name="expires" content="never">: “never” indique la durée de vie de votre page; on peut spécifier une date, en utilisant ce format : “Sun, 07 Aug 2005 08:21:57 GMT”
Tags: , , , ,