La fraîcheur de l'information est du côté de Twitter

On le savait depuis un moment, mais lisez cet article d’InternetActu.net, c’est intéressant:

Quand l’avion de ligne américain s’est abîmé dans l’Hudson, la semaine dernière, les premières images et les premières réactions furent postées via Twitter, le système de messagerie instantané en ligne, bien avant que l’information soit accessible sur le reste du web. Un exemple qui démontre que la réactivité des messageries instantanées communautaires est plus forte que celle des moteurs d’information traditionnels.

(…)

Mais peut-être plus pour longtemps. Yahoo! a annoncé qu’ils allaient désormais utiliser Twitter pour améliorer leur service d’information, via TweetNews, un moteur de recherche et un algorithme qui vont permettre de faire remonter les informations de Yahoo News selon la fraîcheur de l’information et notamment selon les sujets les plus fréquemment twittés.

Tags: , , ,

Des liens de recherches sponsorisés

Intéressante remarque de FredCavazza à propos du moteur de recherche d’ Allocine:

Première hypothèse : ces titres de film sont choisis en fonction des recherche les plus demandées de la semaine passée. Deuxième hypothèse : ces titres de film sont des liens sponsorisé déguisés. Non seulement ils sont placés à un endroit très stratégique dans la page (dans une zone “neutre”, là où on ne les attends pas) mais en plus ils sont idéalement positionnés dans le code source pour être référencés (tout en haut de page).

Tags: , , ,

Sitemaps, un nouveau protocole d’indexation du web

Sitemaps.org est une manière de pondre un plan du site en XML qui facilitera la tâche aux robots venant fouiner sur nos sites. Le fichier créé sera à placer à la racine du site (http://example.com/sitemap.xml).

Google, Yahoo ! et Microsoft éditent ensemble un nouveau protocole d’indexation du Web : Sitemaps.
Sitemaps fonctionne sous forme de de fichier XML mis à la racine du site internet désirant se faire indexer. Ceci permettant un meilleur référencement, une recherche plus profonde que ce qui est fournit actuellement sur le net et une surveillance de la tâche des robots journalisant ainsi leurs passages, le nombre de pages indexées pour chaque visite. Sitemaps permettrait non pas d’apparaître en pôle-position lors d’une recherche mais une meilleure adaptation de site et une fréquence de parution plus rapide des nouveautés survenues sur le site internet en lui-même.

Source

Tags: , , , ,

LeWebPédagogique désire partager la connaissance pédagogique

LeWebPédagogique vise deux objectifs si j’ai bien compris ce site:

  1. offrir un moteur de recherche permettant de trouver des ressources (cours, documents, corrigés,…) sur une sélection de 10 000 sites éducatifs
  2. donner la possibilité d’ouvrir un blog (avec pub gratuitement ou sans pub en payant un forfait mensuel) et rassembler les propos tenus par une communauté de professeurs passionnés qui s’adressent aux élèves, aux parents comme aux amateurs éclairés de pédagogie

Via Faut le savoir

Tags: , , , , , , ,

Indexation par les moteurs de recherche: le fichier "robots.txt"

Cela fait quelques temps que j’entends parler d’un fichier nommé “robots.txt“. Si je voyais bien un rapport avec les moteurs de recherche, je n’avais jamais vraiment compris son utilité. C’est maintenant réparé avec la rédaction de ce billet.

Les moteurs de recherche passent leur temps à scruter le web (et donc votre site web) pour établir leur indexation. Pour ce faire, ils utilisent des robots nommés “spider” (araignée) ou encore “crawler”, dont le rôle est de chercher en premier lieu un fichier qui doit se trouver à la racine d’un site. Ce fichier est le fameux fichier “robots.txt” qui permet d’indiquer aux moteurs ou autres outils de recherche quelles parties de votre site ne doivent pas être indexées. En quelque sorte, il définit les droits d’accès de votre site aux robots. Ce simple fichier texte respecte une syntaxe propre et doit être présent à la racine de votre site Web (et uniquement là!). Si ce fichier n’existe pas, les robots visiteront et indexeront éventuellement toutes les pages de votre site.

Ce fichier contient au minimum les deux lignes suivantes (pour en savoir plus sur les subtilités de cette syntaxe, je vous conseille la lecture de la page “LE FICHIER robots.txt“):

User-agent: qui indique le nom du moteur auquel on désire indiquer une instruction
Disallow: qui va permettre d'interdire l'indexation d'un répertoire (et de ses sous-répertoires) ou d'un fichier

Dans le cas de mon site web (http://www.davidtouvet.com), j’ai créé une sous-partie destinée à effectuer des tests divers. Il est inutile que cette partie soit indexée. Mon fichier “robots.txt” ressemble donc à cela:

# définit l'interdiction de visiter la section tests
User-agent: *
Disallow: /tests/

Ainsi, j’interdis à tous les robots (= *) d’indexer le répertoire (et tous les sous-répertoires) “tests”. Facile non :smile:. Pour vérifier tout cela, j’ai utilisé un vérificateur de syntaxe du fichier “robots.txt”.

En complément de ce fichier “robots.txt”, il faudra veiller à renseigner des balises méta:

  1. <meta name="robots" content="X, Y">: “X” contiendra soit la valeur “index” (les robots indexeront la page) ou “noindex”; “Y” contiendra soit la valeur “follow” (les robots suivront tous les liens qu’ils trouveront sur la page) ou “nofollow”
  2. <meta name="revisit-after" content="XX days">: “XX” indiquera le nombre de jours avant qu’un robot ne revienne visiter cette page
  3. <meta name="expires" content="never">: “never” indique la durée de vie de votre page; on peut spécifier une date, en utilisant ce format : “Sun, 07 Aug 2005 08:21:57 GMT”
Tags: , , , ,