Google: les bases pour un bon référencement de son site

L’article Google Optimization Tips est une bonne introduction pour maîtriser les bases d’un référencement de son site par Google.

  • A Bot Visit: pour demander aux robots de Google de venir faire un petit tour sur son site, on peut utiliser un formulaire à l’URL www.google.com/addurl pas très immédiat mais c’est un bon début pour un nouveau site).
  • Get Your Keywords: importance de définir un set de mots-clés adaptés à son site. On peut utiliser inventory.overture.com pour savoir si un mot-clé a été beaucoup demandé (= recherché) le dernier mois et les recherches associées (donc les mots-clés associés qu’on pourra utiliser).
  • Place Your Keywords: vu qu’il est acquis qu’il ne sert plus à rien de placer nos bons vieux mots-clés dans la balise meta keyword, l’endroit le plus adapté serait l’URL et le titre des pages. Selon l’auteur, il serait également important de placer ses mots-clés dans le corps de la page (body) selon deux principes: fréquence et proximité. De plus, plus les mots-clés sont placés en début de texte ou dans les balises h1/h2, plus ils sont importants (principe de la pyramide inversée)
  • Check Your Keywords: l’outil googlerankings.com permet de checker sa position dans Google suivant tel ou tel mots-clés entré.
  • Tech and Formatting Tips: importance de la mise à jour fréquente de la homepage de son site.
  • Lots of Links: là ça devient carrément un jeu: le but étant de truffer son texte de liens spécialement vers des sites connus et bien référencés (penser à tester son Google Pagerank). Le must: les liens entrant (d’un autre site vers le sien).
  • Clean Formatting: enfin, et cela fait plaisir quand on utilise WordPress pour propulser son blog, vérifier que son site soit programmé proprement en respectant les standards. A éviter: toutes les technologies que Google ignore: frames, javascript, menus en Flash, sites en Flash, etc.
Tags: , , , , , ,

Encoder les emails pour éviter le spam

neokraft.net propose un outil permettant d’encoder une adresse email en hexadécimal. Un formulaire permet d’entrer une adresse email et de recevoir un code à copier-coller directement dans nos pages web. On trouve également la fonction php qui génère ce code.

Vous le savez sans doute, mettre son adresse email sur une page Web relève aujourd’hui à une renonciation immédiate de son droit à la tranquilité. D’infâmes robots vont passer sur vos pages et vous envoyer des pouriels à ne plus en pouvoir. La solution consiste souvent à encoder votre adresse de manière à être compréhensible. Par exemple : om (chez) neokraft (point) net. Élégant, hype, mais vraiment pas pratique.

Une autre solution consiste à encoder votre email en hexadécimal. La forme de l’url devient alors quelque chose de compréhensible par les navigateurs mais visiblement plus par les robots. Je ne garantis rien quant à l’efficacité du système mais pour moi ça marche plutôt bien, je ne reçois que des emails de visiteurs sur l’adresse qui est sur ce site (ce qui prouve qu’on peut encore m’écrire ;-).

Tags: , , ,

Indexation par les moteurs de recherche: le fichier "robots.txt"

Cela fait quelques temps que j’entends parler d’un fichier nommé “robots.txt“. Si je voyais bien un rapport avec les moteurs de recherche, je n’avais jamais vraiment compris son utilité. C’est maintenant réparé avec la rédaction de ce billet.

Les moteurs de recherche passent leur temps à scruter le web (et donc votre site web) pour établir leur indexation. Pour ce faire, ils utilisent des robots nommés “spider” (araignée) ou encore “crawler”, dont le rôle est de chercher en premier lieu un fichier qui doit se trouver à la racine d’un site. Ce fichier est le fameux fichier “robots.txt” qui permet d’indiquer aux moteurs ou autres outils de recherche quelles parties de votre site ne doivent pas être indexées. En quelque sorte, il définit les droits d’accès de votre site aux robots. Ce simple fichier texte respecte une syntaxe propre et doit être présent à la racine de votre site Web (et uniquement là!). Si ce fichier n’existe pas, les robots visiteront et indexeront éventuellement toutes les pages de votre site.

Ce fichier contient au minimum les deux lignes suivantes (pour en savoir plus sur les subtilités de cette syntaxe, je vous conseille la lecture de la page “LE FICHIER robots.txt“):

User-agent: qui indique le nom du moteur auquel on désire indiquer une instruction
Disallow: qui va permettre d'interdire l'indexation d'un répertoire (et de ses sous-répertoires) ou d'un fichier

Dans le cas de mon site web (http://www.davidtouvet.com), j’ai créé une sous-partie destinée à effectuer des tests divers. Il est inutile que cette partie soit indexée. Mon fichier “robots.txt” ressemble donc à cela:

# définit l'interdiction de visiter la section tests
User-agent: *
Disallow: /tests/

Ainsi, j’interdis à tous les robots (= *) d’indexer le répertoire (et tous les sous-répertoires) “tests”. Facile non :smile:. Pour vérifier tout cela, j’ai utilisé un vérificateur de syntaxe du fichier “robots.txt”.

En complément de ce fichier “robots.txt”, il faudra veiller à renseigner des balises méta:

  1. <meta name="robots" content="X, Y">: “X” contiendra soit la valeur “index” (les robots indexeront la page) ou “noindex”; “Y” contiendra soit la valeur “follow” (les robots suivront tous les liens qu’ils trouveront sur la page) ou “nofollow”
  2. <meta name="revisit-after" content="XX days">: “XX” indiquera le nombre de jours avant qu’un robot ne revienne visiter cette page
  3. <meta name="expires" content="never">: “never” indique la durée de vie de votre page; on peut spécifier une date, en utilisant ce format : “Sun, 07 Aug 2005 08:21:57 GMT”
Tags: , , , ,