Web Superficial y Web Profunda (Deep Web)

sábado, 20 de junio de 2015
Para buscar bien, además de los buscadores convencionales, hay que tener en cuenta a otras fuentes específicas de información.

En internet se dan dos grandes grupos de webs:

  1. Web superficial o visible: La web indexada en los buscadores convencionales.
  2. Web profunda o invisible: Aquella a la que los buscadores nunca nos dirigirán por no estar indexada.


Fuente: prezi.com
Hay quien dice que la web profunda es presumiblemente una porción muy grande del total de internet que incluso los hay que lo cifran en el 95-96% del total de la información existente en internet... y por ello en artículos dedicados a ella se simboliza como un iceberg representando un pequeño porcentaje a la web superficial o visible (lo que se encuentra por encima de la superficie del iceberg) y representando la web profunda la parte del iceberg sumergida.

Incluso existe mucha leyenda sobre que buena parte de esta web invisible lo es deliberadamente como refugio de actividades delictivas. Muchos utilizar erróneamente el concepto Web Profunda para referirse a este tipo de información delictiva, sin embargo, aún siendo cierto la existencia de este tipo de información se estima que es una mínima parte de la Web profunda y es que internet tiene cierto paralelismo con la vida real, hay gente y actos buenos y también los hay delictivos.

Pero en este artículo se describen métodos de búsqueda de información útil y como encontrar dicha información en esta parte de internet que no nos la mostrarán los buscadores como Google, Yahoo, Bing, etc por no estar indexada.

La web superficial o visible


La web superficial es aquella que pude ser indexada por los buscadores convencionales, es decir, que es fácilmente rastreable por los robots o arañas de los buscadores y por lo tanto nos la puede entregar tras una consulta en sus formularios de búsqueda.

Así las características principales de la web visible son:
  • Su información no está contenida en bases de datos que para acceder a ella se tenga que hacer mediante consultas.
  • Es de acceso libre.
  • No se accede a ella mediante registro, constreña o cuentas.
  • En su mayoría son páginas web estáticas, o dinámicas que puedan accederse a ellas mediante URLs fijas y accesibles desde otros enlaces.

La web profunda o invisible


También llamada "Deep Web" (del inglés Web Profunda), "Dark Web" (del inglés Web Oscura) y "Hidden Web" (del inglés Web Oculta) o también "Internet profunda". Se trata de aquella información disponible en internet y que no te la devuelve un buscador cuando se le hace una consulta.

¿Porqué? Pues porque no está indexada, ya sea por su dificultad o por su imposibilidad en ser rastreada. También porque el algoritmo del motor de búsqueda determine que no es información útil o relevante.

Así lo dice el profesor de la Univesidad Pompeu Fabra de Barcelona, Lluis Codina:
“Internet invisible es un nombre claramente inadecuado para referirse al sector de sitios y de páginas web que no pueden indexar los motores de búsqueda de uso público. Debería denominarse, en realidad, la web "no indexable", lo cual es un término mucho más adecuado”.

Motivos por los que los buscadores son incapaces de indexar la web profunda:


  • Páginas y sitios web que para acceder a ellos se realiza mediante contraseñas.
  • Páginas que el algoritmo de los buscadores considera la información contenidas en ellas poco útil, irrelevante, efímera o no suficientemente valiosa para indexar aunque puedan técnicamente indexarla.
  • Webs con archivo robots.txt donde se indica que no se indexe dicho sito.
  • Documentos en formatos no indexables.
  • Sitios que usan bases de datos. Para estos casos los buscadores pueden llegar a la interfaz creada para acceder a dichas bases de datos, como por ejemplo, catálogos de librerías o agencias de gobierno
  • Enciclopedias, diccionarios, revistas en las que para acceder a la información hay que interrogar a la base de datos.
  • Páginas formadas en su mayoría por imágenes, audio o vídeo con poco o nada de texto.
  • Los archivos en formatos PostScript, Flash, Shockwave, ejecutables (.exe), archivos comprimidos (.zip,.rar, etc)
  • Páginas dinámicas creadas temporalmente después de llenar un formulario y que desaparece después de la consulta.
  • Es un sitio aislado, es decir, no hay ningún enlace que lo vinculen con otros sitios y viceversa.
  • Son subdirectorios o bases de datos restringidas.

Una forma de clasificación de la web profunda

Chris Sherman y Gary Price establecen la siguiente clasificación:

  • La Web opaca (the opaque Web): Está compuesta por archivos que, si bien podrían estar incluidos en los índices de los buscadores.
  • La Web privada (the private Web): Consiste en las páginas Web que podrían estar indexadas en los buscadores pero son excluidas deliberadamente.
  • La Web propietaria (the proprietary Web): Páginas en las que es necesario registrarse para tener acceso al contenido, ya sea de forma gratuita o de pago.
  • La Web realmente invisible (the truly invisible Web): páginas que no pueden ser indexadas por limitaciones técnicas de los buscadores, programas ejecutables y archivos comprimidos, páginas generadas dinámicamente, es decir, que se generan a partir de datos que introduce el usuario,  información almacenada en bases de datos relacionales, que no puede ser extraída a menos que se realice una petición específica.
Fuente: slideshare.net/bethgeeseyholmes/discover-the-invisible-web-2011-presentation


Recursos de búsqueda en la Web Profunda


The WWW Virtual Library se considera el catálogo más antiguo en la web y fue iniciado por Tim Berners-Lee, el creador de la web. Hoy es un directorio de recursos mantenido por la Facultad de Artes y Humanidades de la Universidad de Gotemburgo, Suecia. Características categorías dedicadas a la Arqueología, Historia, ...

Infoplease es una Web de consulta con más de 57.000 artículos de la prestigiosa enciclopedia Columbia. Facilita la consulta de información con opciones de búsqueda por términos o por áreas de conocimiento. Proporciona una completa enciclopedia, almanaque, atlas, diccionario y tesauro. Contiene datos sobre todos los temas como deportes, entretenimiento, tecnología, educación, noticias del mundo, y el gobierno de los Estados Unidos y la historia. Y también tiene algunas ramificaciones interesantes como Factmonster.com para los niños y Biosearch, un motor de búsqueda sólo para biografías, o información de todo lo acontecido históricamente en un determinado día.

DeepWebTech ofrece cinco motores de búsqueda para temas específicos. Los motores de búsqueda abarcan la ciencia, medicina y negocios. El uso de estos motores de búsqueda específicos del tema, puede consultar las bases de datos subyacentes en la Web profunda.

TechXtra centra su información, en ingeniería, matemáticas e informática. Es posible navegar a través de una extensa lista de revistas gratuitas especializadas de ingeniería, documentos técnicos, descargas, sitios web, libros clave, las últimas noticias de la industria, anuncios de empleo, revistas electrónicas, EPrints, informes técnicos, la última investigación, tesis y disertaciones y podcasts.

ftplike motor de búsqueda de archivos en mas de 2.000 servidores FTP. Dispone de búsqueda avanzada de archivos en servidores ftp en todo el mundo, de software libre, gratis suave

Lookahead SurfWax buscador que rastrea mas de 140 fuentes RSS muy populares pudiendose efectuar un histórico de siete días. Ideal para monitorizar noticias. 

Pipl buscador de... personas! Para encontrar personas entre las redes sociales incluso a aquellas que han cudiado con esmero su privacidad. En este sitio aseguran que encuentras personas que no se encuentran con los motores de búsqueda habituales.

Torch Onion para buscar en lo mas profundo de la Deep Web. Es la versión web de la red Tor que es famosa por alojar contenidos desde lo mas inócuo hasta lo mas "oscuro" o "underground".




2 comentarios :

  1. Me ha encantado tu blog y tu presentación. Lo mejor de estos cursos es que compartimos experiencias y por supuesto aprendemos de todos.

    Gracias por tu excelente trabajo,

    ResponderEliminar
  2. Un blog excelente muy visual claro impactante en cuanto a imágenes de cada caso en el que deseas exponer por medio de imagens claras que contextualizan claramente tu exposición de conceptos.
    Felicidades!! Un trabajo genial.

    Sira.B.

    ResponderEliminar