QUÉ ES EL RASTREADOR WEB O WEB CRAWLER
Un rastreador web es un bot que se mueve por las páginas web e indexa su contenido para que los usuarios puedan encontrarlo en posteriores búsquedas. Los bots más destacados son los de los principales motores de búsqueda. Google tiene varios bots de rastreo web; otros son el bot de Yahoo y el de la corporación tecnológica china Baidu. Un rastreador web recorre principalmente las páginas web mediante enlaces externos e internos. Los rastreadores web también se denominan arañas.
Si el propietario de un dominio web quiere que su sitio se encuentre en las búsquedas, debe permitir el rastreo web. Los motores de búsqueda sólo presentarán las páginas web que hayan descubierto a través del rastreo.
Cuando un rastreador web se desplaza por una página, indexa, o registra, toda la información relevante de la página (a menudo cualquier información de la página) para poder sacar esas páginas cuando un usuario haga una consulta en el motor de búsqueda.
No todo Internet está indexado; los investigadores no están seguros de la cantidad. Pero los rastreadores sólo pueden acceder a las páginas web públicas; las privadas no. Un sitio web también puede añadir la extensión robots.txt al HTML para las páginas que no deben ser rastreadas por un bot, o utilizar etiquetas «noindex» en el propio HTML.
RASTREADORES WEB Y EL SEO
Los rastreadores web encuentran contenidos para los motores de búsqueda; lo que recogen de una página web afecta a la clasificación de esa página en los motores de búsqueda. Si una página tiene muchas palabras clave y enlaces relevantes cuando se indexa, aparecerá de forma más destacada en un motor de búsqueda.
Tener palabras clave en lugares importantes, como los encabezados y los metadatos, también da a una página web una mejor visibilidad de SEO. Los rastreadores web no sólo prestan atención al texto plano de una página web, sino que también estudian los metadatos y la forma en que los usuarios responden a una página, por lo que es importante que un sitio web elija metadatos precisos para que se muestre con mayor exactitud en un motor de búsqueda, y que tenga un contenido que responda a las consultas de búsqueda pertinentes.