Los buscadores tradicionales sólo ofrecen acceso a una pequeña parte de lo que existe online, a lo que se denomina la Web superficial o visible.
Comprende todos aquellos sitios cuya información puede ser indexada por los robots de los buscadores convencionales y recuperada casi en su totalidad mediante una consulta a sus formularios de búsqueda.
Las características principales de los sitios de la Web visible son:
• su información no está contenida en bases de datos
• es de libre acceso
• no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
• su información no está contenida en bases de datos
• es de libre acceso
• no requiere la realización de un proceso de registro para acceder
Mayoritariamente está formada por páginas Web estáticas, es decir páginas o archivos con una URL fija y accesibles desde otro enlace.
Lo que resta, la Web profunda, es un amplísimo banco de información ubicado en catálogos, revistas digitales, blogs, entradas a diccionarios y contenido de sitios que demandan un login (aunque sea gratuito) y entre otros tipos de contenido que no puede recuperarse con los mecanismos de búsqueda comunes.
Diversos especialistas y entidades académicas se dedican a la tarea de elaborar y mantener páginas concentradoras de recursos web seleccionados por áreas de especialidad, (subject guides), que pueden contener recursos que no son recuperables con un buscador común. Estos directorios anotados o guías temáticas suelen tener un alto grado de calidad, ya que comprometen el prestigio de los autores y de las instituciones involucradas. La selección de recursos suele ser muy cuidadosa y su actualización frecuente. En ocasiones, diversas instituciones se asocian formando “circuitos” (web rings) para la elaboración cooperativa de estas guías. Un buen ejemplo de ello es The WWW Virtual Library.
Los directorios anotados o guías pueden incluir, además, algún mecanismo de búsqueda en sus páginas o en la Web en general (Moreno Jiménez, 2004). Comúnmente no basta con conocer la variedad de herramientas de búsqueda disponibles en la Web, sino que se requiere una orientación sobre su funcionamiento, sobre qué estrategias seguir para trazar una adecuada ruta de búsqueda y sobre cómo elegir los mejores instrumentos para cada necesidad. De ello se ocupan los tutoriales. How to Choose a Search Engine or Directory, de la Universidad de Albany, en Estados Unidos, y las guías de SearchAbility y de la Universidad de Leiden en Holanda A Collection of Special Search Engines orientan al usuario en el amplio mundo tanto de los recursos especializados en la Web como de las maquinarias que permiten su localización. Pero más allá de todas estas herramientas y recursos se encuentra la Web invisible.
Sherman y Price (2001) identifican cuatro tipos de contenidos invisibles en la Web:
La web opaca (the opaque web).
La Web privada (the private web).
La Web propietaria (the proprietary web).
La Web realmente invisible (the truly invisible web).
- La Web opaca:
Se compone de archivos que podrían estar incluidos en los índices de los motores de búsqueda, pero no lo están por alguna razón particular como:
– Extensión de la indización: no todas las páginas de un sitio son indizadas en los buscadores.
– Frecuencia de la indización: los motores de búsqueda
– Número máximo de resultados visibles
– URL’s desconectadas.
– Frecuencia de la indización: los motores de búsqueda
– Número máximo de resultados visibles
– URL’s desconectadas.
La Web privada consiste en las páginas Web que podrían estar indexadas en los buscadores pero son excluidas deliberadamente por alguno de estos motivos:
- Las páginas están protegidas por contraseñas.
- Contienen un archivo “robots.txt” para evitar ser indexadas.
- Contienen un campo “noindex” para evitar que el buscador pueda indexar la parte correspondiente al cuerpo de la página.
Este segmento de la Web contiene, en general, documentos excluidos deliberadamente por su falta de utilidad, ya que son los dueños de la información que contienen quienes deciden que no se encuentre disponible, por lo que difícilmente se podrán encontrar mecanismos legítimos para franquear esa barrera.
La Web propietaria incluye aquellas páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago.
La Web realmente invisible se compone de páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario, información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.