Ingeniuz :: Desarrollador web

domingo, mayo 29, 2005

Ayudando a los buscadores a indexar tu página

Parte I: las recomendaciones del W3C

Este artículo pretende comentar lo que nos sugiere el W3C para que nuestras páginas sean más accesibles a las herramientas de "indexado" de los buscadores. Mucho se ha hablado y se habla sobre técnicas y "trucos" para ser "indexado" o subir posiciones en los motores de búsqueda más usados.
El objetivo de este artículo no es hablar del último truco para "entrar en la lista", sino comentar lo que parece que pocos tienen en cuenta, que son las recomendaciones del W3C para el desarrollo de nuestras páginas.

Estos son los consejos que nos dá el organismo encargado de controlar los estándares en la web:

Define el idioma del documento

En el contexto global de la web, es importante saber en qué idioma ha sido escrita una página. Si has preparado versiones en otros idiomas de los contenidos de tu página web, es importante que los especifiques en el código de la misma. El lenguaje HTML nos dá la posibilidad de hacer mediante el elemento LINK. De esta forma el motor de búsqueda podrá ofrecer a sus usuarios los resultados en su idioma preferido, sin importar qué ha escrito para realizar su búsqueda.

Por ejemplo, los siguientes enlaces ofrecen alternativas en francés y en alemán al motor de búsqueda:

<LINK rel="alternate"
type="text/html"
href="pagina-fr.html" hreflang="fr"
lang="fr" title="La vie souterraine">
<LINK rel="alternate"
type="text/html"
href="pagina-de.html" hreflang="de"
lang="de" title="Das Leben im Untergrund">

Coloca palabras clave y descripciones

Algunos motores de búsqueda recogen los valores alojados en los elementos META.
Se trata de una lista de palabras/frases clave separadas por coma o una descripción corta de los contenidos del sitio web.
Los buscadores pueden mostrar esas palabras/descripciones como resultados para las búsquedas.

Por ejemplo:

<meta name="keywords" content="rent a car, alquiler de coches">
<meta name="description" content="PrestaCoches - Rent a car - Alquile su coche para las vacaciones">

Indica el comienzo de un grupo de páginas relacionadas

Los grupos de documentos relacionados o presentaciones frecuentemente se convierten a grupos de documentos HTML.
Es muy útil el referenciar el principio del grupo (la página principal) de forma que tanto el buscador como el visitante puedan identificarla.
Esto lo podemos conseguir usando el elemnto LINK con rel="start" acompañado por el atributo título.
Por ejemplo:

<LINK rel="start"
type="text/html"
href="pagina1.html"
title="Teoría general de la relatividad">

Deja instrucciones para los robots de los buscadores

Alguna gente se sorprende al darse cuenta que contenidos "sensibles" de su sitio web han sido "indexados".
La mayoría de los robots de los buscadores, aceptan unas instrucciones especiales que les indican qué páginas/documentos pueden "indexar" y cuales no. Hay dos formas de comunicarse con los robots:

  1. un archivo "robots.txt"
  2. el elemento META en los documentos HTML
Lo describo con más detalle a continuación.

Robots de búsqueda

El archivo robots.txt

Cuando un robot visita un sitio web, por ejemplo http://www.innoa.com, lo primero que comprueba es la existencia del archivo http://www.innoa.com/robots.txt.
Si encuentra el documento, analizará su contenido para ver si puede descargar documentos del sitio web. Se puede personalizar el archivo robots.txt para que sólo se aplique a un determinado robot y para no permitir el acceso a directorios o documentos específicos.

Este es un ejemplo del contenido de un archivo robots.txt que evita que los robots visiten el sitio web

        User-agent: *    # se aplica a todos los robots
Disallow: / # no permite el indexado de ninguna página

El Robot simplemente comprobará si existe la URI "/robots.txt" en tu sitio web. Aquí tienes algunos ejemplos de URI para el archivo "robots.txt":

URI del sitio web URI para el archivo robots.txt
http://www.w3.org/ http://www.w3.org/robots.txt
http://www.w3.org:80/ http://www.w3.org:80/robots.txt
http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt
http://w3.org/ http://w3.org/robots.txt

Únicamente puede existir un archivo "/robots.txt" en un sitio web. Concretamente, no se deben crear archivos "robots.txt" en archivos de usuario, ya que el robot nunca los buscará ahí. Si deseas que tus usuarios puedan crear sus propios "robots.txt", no te queda más remedio que integrarlos todos en un único "/robots.txt" o decirles que usen la etiqueta META Robots.

NOTA: Las URI diferencian mayúsculas y minúsculas, y la cadena "/robots.txt" debe estar completamente en minúscula. Las líneas en blanco no se permiten dentro de un registro en el archivo "robots.txt".

Debe haber exactamente un campo "User-agent" por registro. El robot puede ser liberal al interpretar este campo, por lo que se recomienda poner una subcadena del nombre del robot en minúscula y sin información de versión.

Si el valor es "*", el registro describe la política de acceso por defecto para cualquier robot que no se haya especificado en otro registro. No se debe tener más de un registro de este tipo en el archivo "/robots.txt".

El campo "Disallow" especifica una URI parcial que no se debe visitar. Puede ser relativa o absoluta; cualquier URI que comience comience con este valore no será visitada por el robot.
Por ejemplo:

Disallow: /ayuda prohibe ambos /ayuda.html y /ayuda/index.html, mientras que
Disallow: /ayuda/ debe prohibir /ayuda/index.html pero permitir /ayuda.html.

Un valor vacío para "Disallow" indica que todas las URIs pueden ser visitadas por el robot.
Al menos un campo "Disallow" debe estar presente en el archivo "robots.txt".

Robots y el elemento META

El elemento META de HTML permite comunicarse con los robots para permitirles o denegarles el acceso a un documento.

En el siguiente ejemplo un robot no debe "indexar" el documento, ni analizarlo en busca de enlaces:

<meta name="ROBOTS" content="NOINDEX, NOFOLLOW">

Los términos que pueden aparecer en el content son ALL, INDEX, NOFOLLOW, NOINDEX.

Enlaces relacionados


 
Working on casas rurales / casas rurales & codigo postal & Salud y nutricion & tiendas + Padel, tiendas online