Localización de Información Específica en Internet. 1ª Parte. La Web

7.- Directorios  
Esquema  

IntroducciónRevisión de DirectoriosIntroducciónODP, The Open Directory ProjectYahoo!LookSmartOtros DirectoriosEstadísticas sobre DirectoriosCuadro ResumenConclusionesRecuerda que...Errores más ComunesAplicación de conocimientosTallerEPOBibliografíaReferencias WebGlosario


Objetivos de la Unidad Pedagógica  

Después de estudiar esta unidad, el alumno deberá ser capaz de:

  1. Distinguir claramente entre directorio y buscador.
  2. Decidir qué tipo de información es factible localizar en un directorio.
  3. Recordar cuáles son los principales directorios y sus URLs.
  4. Utilizar detalladamente cada uno de los principales directorios.

Introducción  

Por mucho que nos empeñemos, no podemos olvidar que los buscadores son grandes cantidades de documentos seleccionados por una máquina y sin ordenar. ¿Qué preferís, poco y bueno o mucho y malo? Queramos o no, los directorios son una buena alternativa.


“Science is organized knowledge. Wisdom is organized life”.

“La ciencia es el conocimiento organizado. La sabiduría es la vida organizada”.

Immanuel Kant, 1888-1953, Filósofo.


OBJETIVO 1
Distinguir claramente entre directorio y buscador.

Llegamos (¡por fin!) a un recurso de información previamente organizado, para facilitar nuestras búsquedas Los directorios son índices organizados del contenido de la Web. Son bases de datos en donde cada una de sus entradas está clasificada e incluso valorada por un equipo de editores.

En ocasiones estos editores son voluntarios, como en el caso del ODP (Open Directory Project) y otras veces es el departamento de una corporación, como por ejemplo en Yahoo.

Como ya se introdujo en la unidad 4, los directorios son bases de datos con tres puntos diferenciadores respecto a los buscadores:

  • Sistema de selección de páginas. A través de editores en vez de automáticamente mediante un spider. Esto, en teoría, debe dar mayor calidad a la base de datos ya que un equipo de trabajo formado por profesionales es más difícil de “engañar” que un spider. La información que los editores decidan incorporar al índice tiene que ser de calidad, ya que en ello va la “marca de la casa”.
  • Tamaño. Mucho menor que un buscador, los más grandes alcanzan los 4,500.000 de documentos (en verano de 2004). Una de las consecuencias de este punto es que los directorios suelen limitarse a indexar las páginas principales de los sites; dejando fuera cualquier documento que se localice a varios niveles de profundidad. Por ejemplo:
    http://www.imsersomayores.csic.es/SENIINV/BASIS/seniinv/web/docu2/SF es una página web situada a 7 niveles de profundidad (el número de barras indicadoras de directorios +1), mientras que http://www.upv.es es una página principal o a nivel de profundidad 1.
  • Organización. Todas las páginas están clasificadas en alguna categoría que ordena los documentos según su temática.

Al igual que en la unidad anterior, éste va a estar dedicado a presentar los principales directorios con sus ventajas e inconvenientes para que cada uno de vosotros podáis probar su “usabilidad” en las búsquedas que os interesan.

La técnica recomendada en la unidad anterior para los buscadores, es de completa aplicación para los directorios. De hecho, en el Cuadro Comparativo al final del punto Revisión de Buscadores de la unidad 6, se incorporan también los directorios de forma que se puedan evaluar junto con los buscadores. A grandes rasgos os percataréis que, en general, los directorios no van a ofrecer una búsqueda avanzada con tanto detalle como los buscadores ya que al contar con bases de datos mucho más reducidas, no requieren de grades despliegues tecnológicos para poder reducir el número de éxitos a un valor “humanamente aceptable”.

Los epígrafes de esta unidad van a seguir la línea marcada por los buscadores. A continuación os presentaré cada uno de los principales directorios ordenados de mayor a menor tamaño. También os presentaré algunas estadísticas referentes a estos motores. Posteriormente, comentaremos el cuadro resumen de Greg Notess referente a los directorios y que podéis encontrar siempre actualizado en http://www.searchengineshowdown.com. Acabaremos la unidad con algunas conclusiones.


Revisión de Directorios  
Introducción  

OBJETIVO 2
Decidir qué tipo de información es factible localizar en un directorio.

A continuación se listan los principales directorios Web. Al igual que en la anterior unidad, os daré algunos datos sobre ellos y tendréis que dedicar un poco de tiempo a cada uno para familiarizaros con ellos y ver si os pueden ser útiles. Si queréis más información, leeros los reviews disponibles en: http://searchengineshowdown.com/dir/


ODP, Open Directory Project (http://www.dmoz.org)   

OBJETIVO 3
Recordar cuáles son los principales directorios y sus URLs.
Ventajas:
  • Actualidad. Es más nuevo que el de Yahoo y parece que se actualiza con mayor rapidez.
  • Gestión. Administrado y mantenido por un amplio número de voluntarios (más de 64,000 en verano de 2004)

Inconvenientes:
  • Calidad Inconsistente. Al estar rodado por voluntarios, éstos parece que suelen alimentar al directorio más de unas secciones o categorías que de otras. Esto es lógico. El perfil del voluntario para colaborar en este directorio es mucho más probable que sea el de un ingeniero técnico en telemática que el de un ingeniero agrónomo, por lo que algunos temas (como el de redes) están mucho más desarrollados que otros (como el de tecnología alimentaria).

Yahoo! (http://directory.yahoo.com)   

Ventajas:
  • Popularidad. Uno de los sites más conocidos de la Web con amplio contenido adicional.
  • Portal. Contenido adicional de portal que permite acceso a mucha información general sobre servicios y productos.

Inconvenientes:
  • Actualización. Debido probablemente a que ya no es el buscador por defecto de Yahoo, se ha descuidado la actualización del directorio y, en ocasiones, se encuentra contenido obsoleto o enlaces muertos?.
  • Comercial. El énfasis de este directorio es comercial ya que se ha desarrollado dentro de una corporación con ánimo de lucro.

LookSmart (http://search.looksmart.com)   

Ventajas:
  • Partners. Uno de sus partners es Zeal.com, que tiene el mismo objetivo que ODP, pero que cuenta con el mayor número de voluntarios en una plataforma de este tipo (188,000 en verano de 2004)

Inconvenientes:
  • Búsqueda Avanzada. No ofrece ningún interfaz de búsqueda avanzada.
  • Calidad inconsistente. Por las mismas razones que el ODP.

Otros Directorios  

Adicionalmente a estos tres líderes del sector, también se podrían listar otros que podrían ser considerados como aproximaciones a directorios y que vale la pena conocer:


El directorio con más popularidad que existe es el ODP, ya que es uno de los más conocidos en la red.
Verdadero.

Falso.

Estadísticas sobre Directorios  

OBJETIVO 4
Utilizar detalladamente cada uno de los principales directorios

En los últimos años, los directorios han ido perdiendo popularidad poco a poco. La irrupción de Google con su sistema de ordenación han apartado a la mayoría de los usuarios de la calidad de los datos almacenados en estas bases.

De la misma forma, no parecen haber muchos estudios empíricos sobre utilización de directorios, popularidad, actualización, superposición, etc.

La única comparativa que parece que se ha actualizado en los últimos años es la disponible en http://www.geniac.net/odp/, la cual compara la evolución histórica entre Yahoo y el ODP. A continuación os presento dos de los estudios desarrollados por Geniac y presentados en esta URL.

En la figura 7.3.1, podéis observar la evolución de ambos directorios desde junio de 1998 hasta junio de 2000. Aunque Yahoo fue creado en febrero de 1994, el primer dato relativo a su tamaño que se conoció está fechado en noviembre de 1997 y en ese momento Yahoo contaba con 730,000 páginas. Por su parte, el ODP se creó el 5 de junio de 1998 y por aquel entonces se llamaba GnuHoo. Poco después pasó a llamarse NewHoo y finalmente el 17 de noviembre de 1998, Netscape adquirió NewHoo y lo bautizó como lo conocemos ahora. El tamaño del ODP en ese momento era de 100,000 documentos y el de Yahoo, de 1,077,709?. A partir de este momento, Yahoo frena su velocidad de crecimiento, y ODP acelera, de tal forma que el 4 de abril de 2000, ODP iguala y supera a Yahoo. En ese momento ambos tenían 1,636,000 documentos.

El último estudio que se ha hecho data del 6 de enero de 2004, y podéis ver sus conclusiones en la figura 7.3.2. La escala de tiempos no está clara pero abarca desde la misma fecha que la figura 7.3.1(junio 1998), hasta septiembre de 2005. Se puede observar que el gap existente entre el ODP y Yahoo va a continuar ampliándose con el tiempo aunque a una menor velocidad. Y esto tiene dos causas: Yahoo ha aumentado su velocidad de crecimiento y a la vez, ODP ha ralentizado la suya.

Según el mismo estudio, se prevé que ODP alcance los 5 millones de documentos el 28 de abril de 2005 y Yahoo los 3 millones el 17 de septiembre de 2005.



Figura 7.3.1: Evolución de los directorios de Yahoo y ODP desde junio de 1998 hasta junio de 2000.

Fuente: http://www.geniac.net/odp/



Figura 7.3.2: Evolución de los directorios de Yahoo y ODP desde junio de 1998 hasta enero de 2004.

Fuente: http://www.geniac.net/odp/


Cuadro Resumen  

Este cuadro se ha obtenido, como los anteriores, de la web de Search Engine ShowDown (http://www.searchengineshowdown.com) y os vuelvo a recomendar que la visitéis para obtener una versión actualizada del mismo. Esta versión está fechada a 30 de octubre de 2003 y, como ya os habréis dado cuenta, los tamaños de los directorios están desfasados respecto a la fecha en la que escribo estas líneas (verano 2004). Una vez más, el cuadro es interactivo en lo relacionado a los principales directorios y podéis pinchar en cualquier parte para obtener más información sobre sus detalles?. También cuenta con tres reviews que ofrecen un análisis exhaustivo de cada motor. Además da acceso a los demás motores citados. Cuenta con la siguiente información para cada directorio:

  • Columna 1. Directorios. En esta columna aparecen los nombres de los principales directorios. Tiene enlaces tanto a sus respectivos sites como a informes de los mismos. En estos informes se pueden ver las bases de datos que son alimentadas en su totalidad o en parte por los resultados de cada directorio, las opciones de búsqueda que permite cada motor, estudios comparativos, sistemas de ordenación, etc.
  • Columna 2. Selección. Indica quién y cómo son seleccionadas las sites para su inclusión.
  • Columna 3. Tamaño. Se refiere al número de entradas únicas en la base de datos.
  • Columna 4. Booleanos. Informa sobre cómo pueden conectarse los distintos términos clave que forman una búsqueda.
  • Columna 5. Truncación. Se refiere a la posibilidad de buscar tan solo una porción de una palabra clave.
  • Columna 6. Campos. Se refiere a la posibilidad de que el usuario indique dónde quiere que un determinado término clave aparezca, en vez de buscarlo en cualquier parte de la página.
  • Columna 7. Ordenación. Informa sobre la manera de ordenar que se pueden seleccionar en cada motor.

Selección Tamaño Booleanos Truncación Campos Ordenación
Open Directory Review >59,000 editores >3,800,000 and, or, andnot, +, - Yes, * Ninguno Categorias y sites
Yahoo Review Remitidas por los editores >3,000,000 +, - Automatico, excepto en frase t:title
u:url
Categorias y Google
LookSmart Review Seleccionadas >2,300,000 Automatico
AND
Stemming automatico Ninguno Sites aleatorios e Inktomi
InfoMine Académico Bibliotecarios 120,000 and, or, and not, ( ), near4 Yes, * Subject, title, author, y más Relevancia, título
RDN Selecciones Académicas 30,000? and, OR, - No Ninguno Relevancia
Librarians' Index (LII) Bibliotecarios Publicos 10,000 and, or, not, ( ) "phrase" Yes, * Subject, title, author, y más Relevancia

Tabla 7.4.1: Características de los distintos directorios.

http://searchengineshowdown.com/


Conclusiones  

Cuando uno tiene que utilizar un determinado programa o aplicación en un PC, ya sea un procesador de textos o una hoja de cálculo, la mayoría de las veces nos dejamos llevar por la costumbre más que por la eficiencia. Si uno ya sabe manejar el Microsoft Office, ¿para qué probar con otro Office, por ejemplo el StarOffice, aunque sea una buena alternativa? Esto suele ocurrir para cualquier tarea que llevemos adelante con un ordenador… y la búsqueda de información no es una excepción. La utilización o no de los directorios es una opción personal de cada uno. A algunos les serán útiles y a otros no les gustarán. De todas formas, como ya he comentado en varias ocasiones, hay que ser conscientes de que este tipo de motores tiene algunas características diferenciadoras de los buscadores, sobre todo relacionadas con la calidad de la información y la ordenación de los datos. Por poco que os agraden los directorios, no hay que olvidarlos. En mi caso, puedo aseguraros que según qué búsquedas, son muy útiles ya que eliminan gran cantidad de resultados no relevantes cuando el tema objetivo es adaptable. Pensad que antes de que vosotros buscarais los datos, ya ha habido un equipo de profesionales ordenado el índice. Ahora, cuando el tópico buscado es muy específico, generalmente no son una opción.


Recuerda que ...  

  • Debemos saber distinguir entre lo que es un buscador y un directorio.

  • Hay que saber decidir si utilizar un directorio o un buscador para iniciar una búsqueda.

  • Es útil tener en mente diversos motores de búsqueda para alternar y complementar resultados…

  • Tienes que practicar para conocer todo lo posible el funcionamiento y relevancia de los distintos directorios y buscadores.


Errores más comunes  

  • Confundir buscadores con directorios.

  • Considerar que tanto los buscadores como los directorios sirven indistintamente para encontrar cualquier tipo de información.

  • No ser conscientes que según qué se esté buscando, en ocasiones es mejor iniciar la investigación por un directorio y otras veces es mejor empezar por un buscador.

  • Creer que por que un directorio tan solo contiene una milésima parte de documentos de los que contiene un buscador… ya va a ser peor.


Aplicación de conocimientos  

1. ¿Cuántos directorios de primera línea existen? RESPUESTA


2. ¿En qué se diferencian las bases de datos de un directorio y de un buscador? RESPUESTA


3. ¿Cuál es el directorio de mayor tamaño? RESPUESTA


4. ¿Qué tipo de búsquedas lanzarías a un directorio antes que a un buscador? RESPUESTA


5. Si quisieras buscar un documento que se titulara: “Hedge Funds”, ¿qué directorio podrías utilizar? RESPUESTA


6. Si lo que quieres es lanzar esta búsqueda: victor OR victoria, ¿qué directorio tendrías que seleccionar? RESPUESTA


[Imprimir el Cuestrionario Resuelto]


Taller  

El ejercicio de esta unidad es continuar aplicando los cuatro puntos indicados en la sección “Técnica para Seleccionar los Mejores Buscadores” de la unidad 6. Buscadores. Pero en este caso, utilizando los Directorios. Si seguís el Cuadro 20 dela unidad 6, dispondréis de información relevante no solo para comparar los directorios entre sí, sino para poder comparar éstos con los buscadores y ver hasta qué punto un buscador es mejor o peor que un directorio para cada uno de vosotros.


Bibliografía  

Existen diversidad de libros que explican como utilizar Yahoo. Al ser una potente empresa listada en el SP500, puede permitirse publicar libros de autobombo. De todas formas, son buenos libros relacionados con los directorios y por ello os los indico:

Newquist, HP (2002) Yahoo!: The Ultimate Guide to the Internet. I Books.

Hill, B (2000) Yahoo! for Dummies. For Dummies. (Este libro no solo trata el directorio de Yahoo, sino que contempla Yahoo como portal de servicios)


Referencias  

http://www.imsersomayores.csic.es/SENIINV/BASIS/seniinv/web/docu2/SF

http://www.upv.es

http://www.searchengineshowdown.com

http://searchengineshowdown.com/dir/

http://www.dmoz.org

http://directory.yahoo.com

http://search.looksmart.com

http://www.lii.org/

http://infomine.ucr.edu/

http://www.rdn.ac.uk/

http://www.about.com

http://vlib.org/Overview.html

http://www.goguides.org/

http://joeant.com/

http://www.geniac.net/odp/


Glosario  

Calidad
Consiste en la valoración óptima de los resultados obtenidos en una búsqueda.


Gnuhoo
Nombre que recibió ODP a partir del 5 de junio de 1998.


Looksmart
Directorio web.


Newhoo
Gnuhoo que pasó a llamarse después Newhoo.


Niveles de profundidad
Se refiere a la distancia que existe entre un enlace web y su web principal; si está muy escondida, difícil de encontrar, etc…


ODP
Open Directory Project (directorio).


Partners
“Compañeros”; se refiere a convenios entre buscadores, empresas colaboradoras entre sí, etc…


Tamaño
Es la medida de la cantidad de documentos que puede encontrar un motor de búsqueda.


Truncación
sistema de búsquqeda que permite lanzar consultas indicando tan solo una parte de la palabra clave. Por ejemplo: candid* ofrecería como éxito: candidato, cándido, candidatura candidata, etc.


Yahoo
Yahoo! (directorio, portal y motor de búsqueda).




Generado con H.A.U.P.A.© 2001-2002 UPA
Cursos on-line Universidad Politécnica Abierta