domingo, 27 de enero de 2008

Las criaturas que tejen la Word Wide Web (crawlers)


Contínuamente existen unas criaturas digitales vagando por Internet analizando millones de páginas Web para uno u otro motivo (p.e.: indexar búsquedas). Suena a Ciencia Ficción pero es cierto, tienen una IA destinadas a hacer un trabajo específico y que viajan contínuamente por la red.

Estas critauras deciden los caminos a seguir en función de varios factores como por ejemplo analizando foros y viendos los enlaces, palabras como "What's new" en páginas Web, mailing list, etc ... a veces simplemente se le asigna en su origen una página Web principal y a partir de ella van tejiendo un árbol con diferentes rutas a seguir siguiendo un patrón específico ...

Todos estos programas suministran información variada a los grandes de la Red como por ejemplo Yahoo, Google, etc ...


La fauna podría ser:

Robots
nombre genérico

Spiders
es lo mismo, pero suena mejor ;)

Worms
Igual que los robots pero se pueden autoreplicar (o reproducirse).

Web crawlers
Robot específico para analizar páginas Web

WebAnts
Robots que interactúan entre ellos para diversas funciones en Internet


Os pongo un ejemplo, algunos robots (también podemos usar el término "bot") de Google, llamados GoogleBots:


Googlebot/2.1
Es el "crawler" que utiliza el buscador Google para indexar sus páginas Web.

Googlebot-Image/1.0
Este bot es nuevo y lo usan exclusivamente para indexar imágenes.

Mediapartners-Google/2.1
Sirve de soporte para actualizar los anuncios del AddSense de Google.

Googlebot/Test
De este creo que no se sabe nada, su función es aún indeterminada. Comentan que analizan JavaScripts.

Origen de estos posts:
http://googlemania.ojobuscador.com/useragent.php

Página principal de GoogleBots:
http://www.google.com/support/webmasters/bin/topic.py?topic=8843

En este enlace puedes encontrar un FAQ completo sobre este tema (es muy interesante):
http://www.robotstxt.org/faq.html

Y en este curioso enlace puedes ver una página Web tal y como la vería un bot:
http://www.smart-it-consulting.com/internet/google/googlebot-spoofer/index.htm

Este tema es muy complejo y además es fundamental si tienes una página Web y quieres posicionarla mejor en los buscadores.

Todos estos programas están creando la "Gaia" digital ;) un organismo "vivo" en contínua evolución ...