Localización de Información Específica en Internet. 1ª Parte. La Web

6.- Buscadores  
Esquema  

IntroducciónTécnica para Seleccionar los Mejores BuscadoresIntroducciónTutorial de AyudaFormulario de Búsqueda Avanzada (Advanced Search)Capacidades de Personalización (Customize)Búsqueda EspecíficaRevisión de BuscadoresIntroducciónGoogleYahoo!TeomaMSNHotbotWisenutGigablastCuadro ComparativoAlgunos Estudios Empíricos sobre BuscadoresIntroducciónTamaño RelativoTamaño AbsolutoActualizaciónSuperposición de datosUtilización de BuscadoresCuadro ResumenConclusionesRecuerda que...Errores más comunesAplicación de conocimientosTallerEPOBibliografíaReferencias WebGlosario


Objetivos de la Unidad Pedagógica  

Después de estudiar esta unidad, el alumno deberá ser capaz de:

  1. Distinguir los requisitos que tiene que cumplir un buen buscador.
  2. Revisar las principales ventajas e inconvenientes que presentan los buscadores de mayor tamaño.
  3. Conocer estudios que muestran la popularidad de los motores.
  4. Acceder a un cuadro resumen de Search Engine ShowDown que expone las diferencias más relevantes entre los distintos motores.

Introducción  

Conocida la estrategia de búsqueda, solo nos queda ponerla en práctica sobre el “tablero”. Pero, al contrario de lo que ocurre en el ajedrez, hay muchos tableros distintos. ¿Cómo seleccionar el buscador o tablero sobre el que ejecutar nuestra estrategia? ¿Cuál es el mejor?


“Obsessed by a fairy tale, we spend our lives searching for a magic door and a lost kingdom of peace.”

“Como obsesionados por un cuento de hadas, pasamos la vida buscando la puerta mágica que nos conduzca al reino de la paz”

Eugene O'Neill, 1888-1953, Escritor.


OBJETIVO 1
Distinguir los requisitos que tiene que cumplir un buen buscador.

¿Y qué tiene que ver la cita del inicio de esta unidad con la búsqueda de información? Pues bastante. Los alumnos de los seminarios de Localización de Información Específica en Internet, siempre me hacen la misma pregunta: “¿Cuál es el mejor buscador?”

Desgraciadamente, esta pregunta no tiene respuesta, porque no es algo objetivo.

Si la pregunta fuera “¿cuál es el más grande? o ¿cuál es el más rápido? es posible que sí hubiera una única respuesta, pero “el mejor”… no está claro. Alguien dijo que el mejor buscador es aquél que sabemos manejar con más maestría; en definitiva, es una decisión subjetiva y nuestro “mejor” motor va a ser distinto según quienes seamos, cómo seamos, e incluso según qué busquemos y cómo lo busquemos.

Con todo esto en cuenta, sólo puedo “presentaros” los principales buscadores y explicaros una técnica que os permite probar su efectividad, con el objetivo de que seáis vosotros mismos los que elijáis cuáles de ellos os gustan más y cuáles menos. El siguiente punto va a tratar las bases teóricas de esta técnica. A continuación iré revisando cada uno de los principales motores, ordenados de mayor a menor tamaño. Después, mostraré un conjunto de estadísticas relativas a los buscadores: tamaño, velocidad de actualización, utilización, etc. Por último, comentaremos un cuadro resumen que permite comparar las principales herramientas que ofrecen los buscadores analizados. Finalizaremos la unidad con las pertinentes conclusiones.

Es necesario recalcar que la mayor parte de la información relativa a los buscadores listados en esta unidad, siempre la podéis encontrar actualizada en http://www.searchengineshowdown.com.


Técnica para seleccionar los “mejores” Buscadores  
Introducción  

Ya he demostrado en una unidad anterior, que el tamaño de un buscador no es determinante para que sea mejor que los demás, aunque es en lo que más se basan los grandes motores para promocionarse?. Entonces, ¿en qué podemos basar la elección de un buscador? Considero que esta decisión ha de centrarse en las herramientas que el propio buscador nos ofrece. Una visión mucho más útil y cercana al usuario.

Así pues, esta técnica se basa en estudiar cuatro puntos básicos:


1. Tutorial de Ayuda (Help)  

En primer lugar, hay que dirigirse a las páginas de ayuda del buscador y ver aspectos como:

  • Facilidad de acceso a las mismas.
  • Claridad en la exposición.
  • Profundidad de la explicación.
  • Relevancia de los ejemplos.

En definitiva, en lo que hay que fijarse es en la calidad del servicio de ayuda. Tenemos que repasar las distintas páginas de este servicio y estudiar en detalle, cómo funciona el buscador. Por ejemplo, qué restrictores y operadores booleanos nos permite utilizar y cómo. El cómo es importante, porque distintos buscadores pueden ofrecer los mismos restrictores y operadores, pero para que funcionen hay que introducirlos de una determinada forma que puede ser distinta en cada motor. Pero, por otra parte, hay restrictores exclusivos de determinados motores. Hay que saber que existen, para poder utilizarlos, si los necesitásemos alguna vez.

En otros casos, en lugar de escribir un restrictor, hay que rellenar términos clave en una determinada celda y es el motor, el que se encargará de interpretar que esos términos se quieren buscar en el titulo (title:) o en la dirección del recurso (url:), etc. Cuando veáis el formulario de búsqueda avanzada de cada motor, estos detalles, os quedarán más claros.

Cuando os compráis un reproductor de DVD o un equipo estéreo para el coche… ¿no os leéis las instrucciones? Pues esto es igual. Hay que mirar la ayuda porque es el manual de manejo de un motor.


2. Formulario de Búsqueda Avanzada (Advanced Search)  

En segundo lugar, nos dirigimos a analizar la página de búsqueda avanzada y tenemos que ver qué servicios nos ofrece este formulario. Aspectos a tener en cuenta en este estudio podrían ser:

  • ¿De cuántas formas podemos restringir las búsquedas?
  • ¿Se trata de un cuadro amplio, en donde introducimos términos clave, restrictores y operadores, o por el contrario, es un formulario, en el que vamos rellenando celdas?
  • ¿Permite restricción por: lenguaje, fechas, tipo de archivo (cuáles), lugar del documento, dominio, máquina, etc.?
  • ¿Permite elegir los éxitos que queremos por página?
  • ¿Tiene un filtro de contenido explícito?
  • ¿Permite encontrar páginas relacionadas?
  • ¿Permite encontrar páginas con enlaces a una en concreto (link:)?
  • ¿Permite limitar a un rango de direcciones IP?
  • ¿Qué otras opciones de restricción ofrece?

Y lo que es más importante que todo el listado anterior:

  • ¿Nos interesan estos servicios o, para la forma en que nosotros vamos a utilizar el motor, son irrelevantes?

3. Capacidades de Personalización (Customize)  

En tercer lugar, tenemos que averiguar si el motor ofrece opciones de personalización de funcionamiento. Un buen motor de búsqueda ofrece a sus usuarios distintas opciones respecto a su forma de trabajar. Estas opciones suelen estar tras un enlace denominado: personalizar, preferencias, configuración, preferences, custimize, custom, etc.

En esta página, el usuario puede decidir algunas o muchas características de funcionamiento del motor. Por ejemplo:

  • El lenguaje del interfaz.
  • El remarcado de las palabras clave (on-off).
  • Las celdas que aparecerán en el formulario de búsqueda avanzada.
  • El tamaño de la letra.
  • Dónde prefieres que se abra la página de éxitos (en la misma ventana, en una nueva, etc.)
  • El catálogo (o base de datos) en el que se va a buscar por defecto.
  • El lenguaje en el que estarán escritas las páginas que se ofrezcan como éxito.
  • Cambiar el color de fondo o aplicar una “piel” al motor.
  • Seleccionar teclas de acceso directo, etc.

Dependiendo qué buscador visites, éste ofrecerá un mayor o menor número de opciones de personalización. Como siempre, cuanto más control nos ceda, mejor. Pero también hay que fijarse en si esas opciones nos son relevantes o no.

Por último, indicar que las tres páginas visitadas hasta ahora, pueden estar “mezcladas”. Es decir, las opciones que un motor nos ofrece en la personalización, otro nos las ofrece en la búsqueda avanzada. También suele ocurrir que un posible restrictor a utilizar solo se nombre en la ayuda y si no la leemos, no podremos utilizarlo, porque el formulario de búsqueda avanzada no da información sobre él.


4. Búsqueda Específica  

En cuarto lugar, como ya habréis visto las posibilidades que ofrecen los distintos motores (…si seguís las instrucciones en los tres puntos anteriores…) solo queda probarlos. El objetivo de esta cuarta prueba es comparar los resultados que ofrecen los distintos motores y decidir cuál de ellos ofrece éxitos más relevantes para cada uno de nosotros.

Así pues, en este punto lo que tenéis que hacer es plantear una búsqueda específica, concreta, que os interese. Del tema sobre el que trabajáis o sobre el que estudiáis, o algún trabajo o informe que tengáis que presentar en un futuro próximo. Algo que dominéis, de forma que podáis discriminar entre éxitos relevantes e irrelevantes.

Pensad en los términos clave, restrictores y operadores que vais a utilizar para esta búsqueda y planteadla exactamente igual en todos y cada uno de los motores que vayamos visitando. Es posible que, al utilizar restrictores, la forma de plantear la búsqueda haya que adaptarla a cada motor. Pero cercioraos que siempre sea la misma búsqueda.

En este caso, como el tema lo ponéis vosotros y la relevancia es subjetiva, no puedo orientaros sobre qué es lo que tiene que tener un resultado para ser más interesante o de mayor calidad, en definitiva: mejor que otro.


Revisión de Buscadores  
Introducción  

En este epígrafe voy a presentaros un listado con los principales buscadores a nivel mundial, ordenados según tamaño. Os daré algunos datos puntuales sobre ellos y vosotros tendréis que dedicarle algún tiempo a cada uno para poder formaros una idea sobre su utilidad aplicada al tema de vuestro interés. Para más información, visitar los reviews en: http://searchengineshowdown.com/features/


Google (http://www.google.com)   

OBJETIVO 2
Revisar las principales ventajas e inconvenientes que presentan los buscadores de mayor tamaño.
Ventajas:
  • Tamaño. Es el más grande e incluye archivos .pdf, .doc, .xls, .ppt, .ps y otros muchos.
  • Liderazgo. Ha sido el referente de innovación en el sector durante los últimos años y continúa mejorando continuamente sus servicios y prestaciones.
  • Relevancia u ordenación. Su sistema de establecer un ranking entre los éxitos está basado en los propios enlaces entre las páginas así como de la autoridad de la página que enlaza. Este es un punto determinante. Creo que este sistema de ordenación ha sido el que ha colocado a Google donde está, como líder indiscutible del sector y, por tanto, requiere de una explicación más detallada:

    Un documento que resulta éxito en una búsqueda en Google aparecerá más cerca del número 1 en el listado de éxitos cuanto:

    1. Más páginas la “recomienden”, es decir, más páginas tengan enlaces a ella.
    2. Más importante sea la página que “recomienda”. La página que tiene un enlace a otra (es decir, que está recomendando a otra) puede ser la principal de Microsoft o de Ford. Pero también podría ser la de la panadería de la esquina. Por ello no se da la misma importancia a todos los enlaces o “recomendaciones”.


    A partir de estas simples reglas de ordenación, Google se hizo con el mercado de búsquedas en muy poco tiempo, desbancando a los mastodónticos Altavista o Yahoo, hacia finales de los 90. Por aquel entonces Google no era, ni de cerca, el más grande, pero su sistema de ordenación supuso una revolución. Actualmente, todos los motores han imitado este sistema.
  • Caché. El motor da acceso a los documentos que tiene en su base de datos. Cuando el spider llega a un documento, hace una copia del mismo y la remite al buscador. Cuando nosotros hacemos una búsqueda en el motor, éste lo que hace es analizar las copias de documentos remitidas por el spider y nos dice cuántas de esas copias cumplen nuestros requisitos de búsqueda. A partir de ahí, nosotros pinchamos en uno de esos éxitos y somos remitidos hacia la dirección original del documento, saliendo por completo del site del buscador. Pero también podríamos acceder a la copia que, en este caso Google, tiene del documento, es decir, la copia que remitió el spider y que Google guarda en su base de datos o caché. La utilidad de esta herramienta es diversa: i) acceder a un documento que ya no existe en su ubicación original; ii) acceder a un documento que ha cambiado de dirección o que ha sido modificado en su ubicación original; iii) acceder a un documento que temporalmente es inaccesible en su ubicación original, por cualquier causa (fallo del servidor, no hay luz, no llega la red… etc.).
  • Bases de datos adicionales. Grupos, noticias, directorio, etc. El directorio de Google está basado principalmente sobre el ODP (http://www.dmoz.org), que es un directorio abierto mantenido por voluntarios. Lo estudiaremos en el próximo capítulo. En relación a los grupos y a las noticias, se analizarán con detalle en el segundo volumen de este libro.

Inconvenientes:
  • Restrictores limitados. No permite el anidado (los paréntesis) ni la truncación (el asterisco), además tampoco dispone de todos los booleanos (por ejemplo el NEAR, y el OR funciona solo parcialmente).
  • Restrictor link. Las búsquedas tienen que ser exactas.
  • Indexación parcial. Tan solo indexa los 101Kb primeros de cada página web y los 120Kb primeros de cada .pdf.
  • Stemming. Según se mire este servicio puede ser una ventaja o un inconveniente. Como sabéis, lo que hace es buscar singulares o plurales, sinónimos o variantes gramaticales del mismo término clave que nosotros escribimos… sin avisar. En mi opinión, el que busque el plural del término es una ventaja, pero sinónimos u otras variantes es delicado y puede ser contraproducente en algunos casos.

Yahoo (http://search.yahoo.com)  

Ventajas:
  • Tamaño. Es una de los índices más grandes.
  • Novedad. Además es uno de los índices más nuevos. Nació en febrero de 2004.
  • Caché. Permite el acceso al caché de las páginas.
  • Directorio. Incluye entre sus éxitos, los provenientes del directorio de Yahoo.
  • Booleanos. Incorpora la totalidad de los operadores booleanos.

Inconvenientes
  • Truncación. No dispone de truncación.
  • Indexación parcial. Tan solo indexa los primeros 500Kb de una página web. De todas formas, ya es más que Google que indexa tan solo 101Kb.
  • Restrictor link. Requiere la inclusión del “http://”
  • Acepta sites que pagan por aparecen en el listado de éxitos.

Teoma (http://www.teoma.com)   

Ventajas:
  • Identifica metasites. Son páginas que contienen gran cantidad de enlaces a otras páginas, generalmente sobre un tema concreto. Normalmente están mantenidas por usuarios independientes. Son como pequeños directorios.
  • Web communities. Dispone de una herramienta de “refinado” (refine) que facilita el filtrado de información. Agrupa documentos y páginas con contenidos similares para facilitar el acceso.

Inconvenientes:
  • Tamaño. Base de datos pequeña, comparada con los dos gigantes.
  • Remisión de URLs. No se puede remitir la dirección de una web para su inclusión en la base de datos, de forma gratuita.
  • Clustering. No permite ver más de dos resultados por site. Normalmente los motores limitan el número de éxitos que ofrecen desde un mismo site. La razón, como ya os expliqué en un capítulo anterior, es que los webmasters o administradores de un site, para que sus páginas aparecieran más en los listados de éxitos de los motores, colocaban varias páginas iguales en el servidor. De esta forma cuando un usuario hacía una búsqueda en un motor, en algunas ocasiones lo que obtenía era un listado de éxitos en donde todas las páginas eran la misma. Esto se solucionó con el límite de dos éxitos por site, de forma que si el administrador hace ese truco, el usuario no se vea perjudicado o piense que ese es el único o mejor documento que existe en relación al tema buscado. Lo que ocurre es que esta limitación de resultados a un solo site, normalmente puede ser eliminada si el usuario quiere ver más documentos de un mismo sitio. Google y Yahoo lo permiten, pero Teoma no.
  • Sin acceso al caché.

MSN (http://search.msn.com)   

Ventajas:
  • Limitación de la profundidad de la página. Permite indicar hasta qué nivel de profundidad se quiere buscar el documento: páginas principales, páginas secundarias, páginas a 6 niveles de profundidad, etc.
  • Búsqueda avanzada detallada. Cuenta con todos los operadores y restrictores booleanos comunes.

Inconvenientes:
  • Restrictor link. Las búsquedas de este tipo han de ser exactas.
  • Truncación. Su disponibilidad es inconsistente.
  • Caché. No ofrece acceso a caché.


Unir

(*)Introduzca el Orden del Concepto apropiado

Orden
Concepto
Pareja
(*)
1
Google
>>>
No ofrece acceso a caché
4
2
Yahoo
>>>
Indexa los primeros 500 Kb de una página web
2
3
Teoma
>>>
El buscador más grande
1
4
Msn
>>>
Dispone de una herramienta de refinado que facilita el filtrado de información
3

Wisenut (http://www.wisenut.com)  
Ventajas

Inconvenientes

Gigablast (http://www.gigablast.com)   
Ventajas
  • Caché. Ofrece acceso al caché.
  • Información sobre fechas. Indica cuándo se indexó la página y cuándo se modificó por última vez.
  • WayBack Machine(http://www.archive.org). Ofrece enlaces a este servidor de “historia” de páginas web?.
  • Tipos de archivos. Permite la búsqueda de .pdf, .doc y otros tipos de archivos.
  • Web communities. Dispone de una herramienta de “refinado” (refine) que facilita el filtrado de información. Agrupa documentos y páginas con contenidos similares para facilitar el acceso.

Inconvenientes
  • Tamaño. Base de datos pequeña y lenta en actualizarse.
  • Herramientas. No dispone de truncación, proximidad, y otros servicios de búsqueda avanzada.

Rellene con las palabras adecuadas
El buscador     solo muestra pocos éxitos de cada site, sin posibilidad de acceder al resto de documentos del mismo site que han resultado un éxito.
Exalead (http://www.exalead.com)  
Ventajas:
  • Operadores de truncación, proximidad y otros muy avanzados.
  • Incluye “thumbnails” o instantáneas de las páginas.
  • Provee diversas opciones de filtrado en la barra lateral izquierda.

Inconvenientes:
  • La compleja composición de la página puede confundir al usuario.
  • Base de datos pequeña.
  • Software en versión beta todavía.

Cuadro Comparativo  

A continuación os presento un cuadro comparativo que puede servir para ir fijando las valoraciones subjetivas que consideráis para cada motor. Una tabla similar a esta se utiliza en los seminarios para que los asistentes puedan sistematizar la comparativa. El resultado se puede obtener multiplicando la valoración subjetiva de cada aspecto en cada buscador por la importancia asignada a cada uno (última fila) y posteriormente, sumar el resultado obtenido para cada motor. Eso os dará un “valor resumen” en cada buscador y que podréis comparar unos con otros. La tabla incorpora también los directorios y metabuscadores, que estudiaremos con detalle en los próximos capítulos, pero que se analizan de forma prácticamente idéntica.

La tabla de evaluación considera los siguientes aspectos:

  • Prueba de Tamaño. Trata de hacer una búsqueda genérica simple para comprar el número de resultados obtenidos. El ejemplo que se propone es buscar la letra “a”. El número de éxitos de esta búsqueda es un indicador válido del tamaño absoluto del índice (o por lo menos relativo, a efectos compartativos).

    Para el caso de los directorios, hay dos pruebas de tamaño relevantes. La primera es la misma que para los buscadores. La segunda nos sirve para comparar el tamaño de una categoría. En este segundo caso, hay que navegar hasta una categoría de segundo nivel (atravesando dos menús, por ejemplo entrar en “Computers” y después entrar en “Internet” y contar el número de categorías que se encuentran allí).
  • Valoración de relevancia (1). Para rellenar esta columna, primero hay que seguir varios pasos: i) seleccionar un tema que dominemos, que conozcamos; ii) decidir un número máximo de éxitos que queramos revisar; iii) lanzar una búsqueda suficientemente específica, añadiendo tantos términos clave como sean necesarios, hasta obtener un número de éxitos inferior al máximo decidido; iv) revisarlos todos y cada uno de ellos; v) valorar, según vuestro criterio, la calidad o relevancia de los documentos encontrados.
  • Valoración de relevancia (2). En esta ocasión, se trata de hacer lo mismo que en el punto anterior pero utilizando siempre los MISMOS TÉRMINOS CLAVE. Haciendo la misma búsqueda. En este caso es posible que el número de éxitos localizados supere el máximo fijado en el punto anterior. Ahora esto es secundario. Lo importante es utilizar siempre la misma sintaxis exactamente. Obviamente habrá que ajustar la búsqueda a lo que cada motor acepta. Por ejemplo si utilizáis el restrictor “host:” en Altavista, tendréis que rellenar la casilla correspondiente en Google o utilizar el restrictor “site:” que sería lo equivalente.
  • Valoración del ranking. En este caso la búsqueda desarrollada en los dos puntos anteriores es válida. Ahora lo que tenéis que valorar es hasta qué punto los documentos más relevantes están cerca del éxito número 1 o, al contrario, el motor los ha listado más hacia el final.
  • Valoración del menú de preferencias, Búsqueda avanzada y Ayuda. En este punto la existencia o no y la calidad de cada uno de estos servicios que algunos motores ofrecen y otros no, así como a distinto nivel de detalle.

Cuadro Comparativo

Algunos Estudios Empíricos sobre Buscadores   Introducción  
OBJETIVO 3
Conocer estudios que muestran la popularidad de los motores.

Toda la información que a continuación se ofrece está basada en estudios de Greg Notess. Los estudios, sus conclusiones, así como información detallada, se puede encontrar en: http://searchengineshowdown.com/stats/


Tamaño Relativo  

Este estudio trata de contrastar el tamaño relativo de los motores de búsqueda con el objetivo de poder comparar los tamaños de las distintas bases de datos. El estudio lanza 25 búsquedas simples de una sola palabra. Google se coloca en primera posición ya que ofrece más éxitos que cualquier otro buscador. Además obtuvo más éxitos en 25 de las 25 búsquedas. AllTheWeb y Altavista son los que ahora forman Yahoo, con lo que se puede intuir que Yahoo se colocaría en segundo lugar, aunque a la fecha en que estoy escribiendo estas líneas, el estudio no se ha desarrollado desde que Yahoo lanzó su nuevo motor (de hecho, el estudio que os presento data del 31 de diciembre de 2002). En tercer lugar se afianza Wisenut, por encima del nivel marcado por los motores basados en el índice de Inktomi, es decir, Hotbot y MSN. A continuación, pero muy de cerca, se sitúa Teoma y finalmente, mucho más reducido es el tamaño de Gigablast.



Figura 6.4.1: Estudio del tamaño relativo de los diferentes motores de búsqueda.


Tamaño Absoluto  

Basado en el mismo estudio que el anterior ítem, este análisis trata de verificar si el tamaño “anunciado” por los distintos departamentos comerciales de los buscadores es creíble. Se puede observar que, en la fecha del estudio, los motores que parecen anunciar datos realistas son Google, AllTheWeb y WiseNut. En segundo lugar están los motores que parecen reclamar el tener un tamaño que en realidad no parece que exista: los basados en Inktomi: Hotbot y MSN. Por último hay algunos motores que parecen tener más tamaño del que anuncian: Altavista y Gigablast. En mi opinión, este último caso se produce por un error en la política de comunicación de la compañía. Es decir, la empresa mejora su base de datos y la amplía, pero no lanza ninguna noticia a la prensa, comunicando estas mejoras.


Buscador Estimación de Showdown(millones) Anunciado(millones)
Google 3,033 3,083
AlltheWeb 2,106 2,112
AltaVista 1,689 1,000
WiseNut 1,453 1,500
Hotbot 1,147 3,000
MSN Search 1,018 3,000
Teoma 1,015 500
Gigablast 275 150

Tabla 6.4.1: Veracidad del tamaño anunciado por los distintos motores de búsqueda.


Actualización  

Este estudio es algo posterior a los anteriores, data del 17 de mayo de 2003 y nos muestra la velocidad de actualización de las bases de datos de los distintos buscadores. Lo que uno desea es que un buscador se actualice lo antes posible para poder incorporar todos los nuevos documentos que van apareciendo en la Web. También es deseable que los índices mantengan los documentos el máximo tiempo posible, pero este estudio está hecho sobre páginas que requieren actualización diaria por lo que no nos sirve para evaluar este segundo aspecto.

Como se observa en la figura 6.4.2, los motores que menos tiempo tardan en actualizar la totalidad de su base de datos son los de Inktomi, Google y AllTheWeb (ahora Yahoo). También es interesante remarcar que Gigablast es el que mantiene más tiempo los documentos, ya que el dato de Altavista está afectado por ruido estadístico al contar con datos atípicos?.



Figura 6.4.2: Tiempo que tardan los distintos motores de búsqueda en actualizar la totalidad de sus bases de datos.


Las principales conclusiones de este estudio podrían resumirse en tres:

  • La mayoría de los resultados se han indexado en los últimos días.
  • La mayor parte de las bases de datos tienen como mínimo un mes de antigüedad.
  • Algunas páginas no se han re-indexado (actualizado) en mucho más tiempo.

Superposición de Bases de Datos  

Este análisis compara el resultado de cuatro búsquedas simples sobre diez buscadores diferentes. Las cuatro búsquedas localizaron 334 éxitos, 141 de los mismos eran únicos y el resto eran repeticiones de los anteriores. De esos 141 resultados específicos, 71 los encontró un solo motor de entre los diez (no siempre el mismo), mientras que 30 de ellos los encontraron 2 motores. El resto del gráfico se lee en los mismos términos. Así, tan solo hay 2 páginas que están en las 10 bases de datos.

Y de todo esto, ¿se puede extraer alguna conclusión interesante y útil? Pues lo cierto es que SÍ, y muy importante:

Actualmente NO existe una superposción relevante entre los índices de los distintos buscadores, que haría que la utilización de un solo motor fuese suficiente, ya que en el resto encontraríamos más o menos lo mismo.

Como se puede ver en la figura 6.4.3, la utilización de un segundo motor de búsqueda para complementar el número de resultados relevantes incrementa el número de éxitos DISTINTOS, hasta un 50%. El utilizar un tercer motor para complementar más éxitos tan solo incrementa los resultados en un 10%. Así pues, a partir de este estudio, la recomendación es clara: cuando utilicéis los buscadores para investigar sobre un tema, tenéis que utilizar DOS herramientas que os ayudarán a complementar los éxitos. Si tan solo utilizáis un buscador, os estaréis dejando el 50% de la Web por explorar. Con dos buscadores ya solo os dejaréis el 25%. Con tres, el incremento marginal es ya muy pequeño como para recomendaros su utilización, de todas formas, es decisión vuestra.



Figura 6.4.3: Relación entre número de motores de búsqueda empleados y tanto por ciento de web explorado.


Por otro lado, surge la pregunta: y de los 71 éxitos que ha dado un solo motor, ¿cuál ha sido el buscador que más resultados distintos ha ofrecido? Observad la figura 6.4.4.



Figura 6.4.4: Resultados distintos ofrecidos por un mismo motor.


Se puede ver, claramente, que el motor que más resultados únicos ofrece es Google con 57%. Entre otras razones, esta primera posición de Google viene dada por su mayor tamaño. Es lógico que si la base de datos es más grande, contenga documentos que no estén en las demás bases de datos. Pero sí sorprende que el segundo sea Wisenut y no AllTheWeb o Altavista ya que son los siguientes en tamaño. La explicación a este dato reside en que Wisenut, al ser un motor de más reciente creación (al igual que Teoma) ya nace bajo el predominio de Google y una de sus (pocas) posibilidades de competir, es diferenciar su base de datos, de forma que pueda ser utilizado como complemento a Google. Si su política fuera replicar al líder del sector, ¿quién los utilizaría? Los usuarios no lo gastarían si saben que su índice es un subconjunto de la de Google, así que intentan indexar contenido distinto.


Utilización de Buscadores  

En la dirección http://searchenginewatch.com/reports/index.php, podéis encontrar un amplio listado de estadísticas relacionadas con diversos aspectos de los motores de búsqueda. En este punto voy a resaltar algunos de los contenidos más relevantes.

Cuota de Búsquedas



Figura 6.4.5: Porcentaje de búsquedas hechas por usuarios estadounidenses en Mayo de 2004.


Los datos mostrados en esta figura se refieren a cualquier búsqueda hecha en un buscador del dominio, por ejemplo, en Google están consideradas tanto las búsquedas en el índice web como en el de imágenes.

Proveedores de Resultados

La figura 6.4.6, muestra las peticiones de búsqueda recibidas por cada motor. Como ya se ha explicado, no todos los motores utilizan su propio índice o base de datos. Algunos subcontratan las búsquedas a otras empresas y muestran los resultados. En esta figura se muestra la distribución según este criterio.



Figura 6.4.6: Porcentaje de peticiones de búsqueda recibidas por cada motor.


Popularidad de los Motores



Tabla 6.4.2: Porcentaje de las visitas a un motor de búsqueda por usuarios estadounidenses durante el mes de abril del 2004.


Se puede observar que Google es el motor más popular en EEUU, pero que Yahoo no está a una distancia excesivamente grande. En tercer lugar y tampoco tan alejado se encuentra MSN con la base de datos de Inktomi. Es remarcable que a parte de la búsqueda básica en web, tanto Google como Yahoo, aparecen más veces en el listado con sus buscadores específicos: Google Image Search, Yahoo Directory, Yahoo Yellow Pages, Yahoo Image Search.

Nielsen Net Ratings

Nielsen Net Ratings es uno de los servicios de análisis de audiencia de Internet más prestigioso. Provee ratings a nivel mundial sobre sitios web basándose en una muestra de 225,000 usuarios en 26 países. Estos usuarios tienen instalados cronómetros en sus computadoras que monitorizan los sites que visitan. Esta información sirve de base para las estadísticas. En la figura 6.4.7 se puede observar el motor utilizado en cada búsqueda por usuarios norteamericanos en Junio de 2004, tanto en casa como en el trabajo. Debido a que un usuario puede utilizar más de un motor para desarrollar su investigación, el resultado combinado supera el 100%.



Figura 6.4.7: Motor utilizado en cada búsqueda por usuarios norteamericanos en Junio de 2004.

KEY: GG=Google, YH=Yahoo, MSN=MSN, AOL=AOL, AJ=Ask Jeeves. OVR=Overture, MY=MyWay.com, INF=Information.com, LY=Lycos Networks, WS=WebSearch.com, IS=InfoSpace Networks, NS=Netscape Search, AV=AltaVista, MS=Microsoft.com, HB=HighBeam.com.

Para más información, ver http://searchenginewatch.com/links/article.php/2156221


Otra forma de medir la popularidad es computar la cantidad de tiempo que un usuario ha dedicado a utilizar un determinado motor en un periodo dado. La tabla 6.4.3 muestra el tiempo medio por persona invertido por los visitantes de un determinado motor en junio de 2004.


Motor Minutos
Google 0:29:57
AOL Search 0:28:28
Netscape 0:13:09
InfoSpace 0:11:41
Yahoo 0:11:04
Web Search 0:08:06
MSN Search 0:07:39
Ask Jeeves 0:06:29
Altavista 0:06:27
My Way Search 0:05:11
Overture 0:03:25
Lycos Network 0:02:53
Microsoft Search 0:02:22
HighBeamResearch 0:01:36
Information.com 0:00:50

Tabla 6.4.3: Tiempo medio por persona invertido por los visitantes de un determinado motor en junio de 2004.


Estadísticas para España

Las estadísticas para España, provenientes de la misma fuente que los datos anteriores, son algo sorprendentes. No solo no aparece Google en primer lugar, cosa que llama poderosamente la atención, sino que surge un nuevo motor llamado “i Internacional” del que no había oído hablar nunca.

El que MSN aparezca en primera posición tiene su explicación. En la mayoría de los sistemas operativos modernos basados en Windows, cuando nos equivocamos al escribir una URL en la barra de direcciones del navegador, el propio browser nos redirige automáticamente a MSN a buscar el texto que hemos escrito mal. Esto hace que los datos de búsquedas en MSN se disparen. Aunque en realidad no hemos hecho una búsqueda voluntariamente en ese motor, cuenta para las estadísticas.

Creo que considerando esas dos puntualizaciones, las estadísticas son creíbles.


Motor o Portal Porcentaje
MSN 35.6%
Google 30.2%
Terra Network 20.7%
Yahoo! 20.5%
Wanadoo 17.9%
Ya.com 13.5%
Lycos Europe 10.6%
eresMas 10.5%
i Intenational 9.9%
HispaVista 6.3%

Tabla 6.4.4: Motor utilizado en cada búsqueda por usuarios españoles en Junio de 2004.


Rellene con las palabras adecuadas
El buscador que más a menudo se actualiza es el    
Rellene con las palabras adecuadas
El segundo buscador más utilizado es    
Cuadro Resumen  

OBJETIVO 4
Acceder a un cuadro resumen de Search Engine ShowDown que expone las diferencias más relevantes

Este cuadro resumen de buscadores está actualizado a 16 de abril de 2004 y también se ha obtenido de la página web de Search Engine ShowDown (http://www.searchengineshowdown.com). Os recomiendo encarecidamente que la visitéis ya que en ella vais a poder encontrar mucha más información de la que os puedo resumir en este libro y además, es muy probable que se haya actualizado.

La tabla 6.4.5 es completamente interactiva y podéis pinchar sobre cualquier parte de la misma para obtener más información sobre ese aspecto. Cuenta con la siguiente información para cada buscador:

  • Columna 1. Motores. Cuenta con enlaces a las páginas principales de los distintos motores así como un informe detallado y actualizado sobre cada uno de ellos. En este informe se puede ver qué bases de datos utiliza cada motor, qué otros buscadores utilizan las bases de datos del motor analizado, qué información se muestra en la página de resultados, etc. También cuenta con enlaces a artículos que comentan especificaciones de cada motor. Incluso podéis encontrar referencias a herramientas ofrecidas por los buscadores, pero que al estar en fase de pruebas, todavía no se anuncian en la página de “ayuda” del propio motor.
  • Columna 2. Booleanos. Informa sobre cómo pueden conectarse los distintos términos clave que forman una búsqueda.
  • Columna 3. PorDefecto. Informa sobre qué operador booleano se considera cuando el usuario introduce distintos términos clave sin escribir ningún nexo entre ellos.
  • Columna 4. Proximidad. Se refiere a la posibilidad de especificar cuán cerca tienen que estar unos términos clave de otros.
  • Columna 5. Truncación. Se refiere a la posibilidad de buscar tan solo una porción de una palabra clave.
  • Columna 6. May/Min (Case). Informa sobre la relevancia de escribir los términos clave en mayúsculas o minúsculas. ¿Existe alguna diferencia entre escribir Alcoy, alcoy, ALCOY o aLcoY?
  • Columna 7. Campos. Se refiere a la posibilidad de que el usuario indique dónde quiere que un determinado término clave aparezca, en vez de buscarlo en cualquier parte de la página.
  • Columna 8. Limites. Informa sobre la posibilidad de reducir el número de éxitos, añadiendo alguna restricción específica a la búsqueda, como por ejemplo el idioma o la fecha de actualización.
  • Columna 9. Stop. Indica si existen palabras comunes y muy frecuentes que son filtradas de la búsqueda automáticamente. Ejemplos claros son artículos o conjunciones (el, un, de, y, etc.).
  • Columna 10. Ordenación. Informa sobre la manera de ordenar que se puede seleccionar en cada motor.

Motores Booleanos Por
Defecto
Proximidad Truncación May/
Min
Campos Limites Stop Ordenación
Google Review -, OR and Frase No, pero sí stemming, palabra
en frase
No intitle, inurl, link, site, y más Idioma, tipo de archivo, fecha, dominio Varios,
con + obligas
a buscar
Relevancia, sitio
Yahoo! Review AND, OR, NOT, ( ), - and Frase No, pero sí palabra
en frase
No intitle, url, site, inurl, link, y más Idioma, tipo, fecha, dominio Si, en frases Relevancia, sitio
Teoma Review -, OR and Frase No No intitle, inurl Idioma, dominio, fecha Si, con + … Relevancia, metasites
MSNSearch Review AND, OR, NOT, ( ), - and Frase No, pero sí stemming No title, link Idioma, tipo, fecha Algunas Relevancia
HotBot (Inktomi) Review AND, OR, NOT, ( ), - and Frase No No title, y más Idioma, fecha Algunas Relevance, site
WiseNut Review - only and Frase No No No Idioma Si, con +… Relevancia, sitio
Gigablast Review AND, OR, AND NOT, ( ),+, - and Frase No No title, site, ip, y más Dominio, type Varios, Relevancia

Tabla 6.4.5: Resumen de características de los diferentes motores de búsqueda.


Conclusiones  

Otro punto importante a la hora de enfocar las búsquedas es la selección del motor. En esta unidad se ha introducido un sistema que permite la comparación subjetiva entre las distintas herramientas. NO existe el “mejor” motor de búsqueda. Cada uno de nosotros va a asignar ese “título” a la herramienta que más le satisfaga en función de las preferencias respecto a qué servicios ofrece cada motor y cómo los ofrece. Lo que sí podemos hacer es sistematizar la comparativa siguiendo un mismo método para evaluar los distintos buscadores. Al final de todo el proceso hay que seleccionar como mínimo dos motores ya que, como se ha demostrado en los estudios empíricos reseñados, la utilización de un solo motor, nos está limitando el conjunto de oportunidad a un reducido 50%. Mientras que la utilización de 2 motores nos lo incrementa hasta el 75%.

Por otra parte, también se observa claramente que el motor más popular es Google seguido de Yahoo (ahora que Altavista y AllTheWeb han sido fusionados en éste). El tercero en esta pugna, MSN, a fecha de hoy todavía está preparando su “lanzamiento comercial a lo grande”. En cuanto lo haga, y se supone que ha de ser durante este año 2004, veremos qué ocurre.



Recuerda que ...  

  • Escribir el tipo de acceso a una máquina (http://, ) cuando se trata de un servidor web, no es necesario. Si lo es cuando es otro tipo de servidor (ftp://)

  • No debemos confundir entre tamaño relativo y tamaño absoluto de los buscadores; ya que el tamaño relativo trata de comparar las distintas bases de datos y el tamaño absoluto trata de verificar si el tamaño “anunciado” por los distintos departamentos comerciales de los buscadores es creíble.

  • No existe el “mejor” motor de búsqueda. Cada uno de nosotros va a asignar ese “título” a la herramienta que más le satisfaga en función de las preferencias respecto a qué servicios ofrece cada motor y cómo los ofrece.

  • Considerar que en cualquier buscador se va a encontrar la misma información.

  • Considerar que en un buscador se puede encontrar todo.


Errores más comunes  

  • Es muy útil reconocer qué motores de búsqueda, aparte de Google, gozan de popularidad en Internet.

  • Acceder a Search Engine ShowDown, eventualmente te va a permitir mantenerte actualizado sobre las principales diferencias existentes entre los motores más importantes.

  • Debes conocer qué ventajas e inconvenientes muestran los buscadores de información en la Web.

  • Hay que averiguar si el motor de búsqueda ofrece opciones de personalización de funcionamiento. Un buen motor de búsqueda ofrece a sus usuarios distintas opciones respecto a su forma de trabajar, de manera que trabajaremos más cómodamente y obtengamos búsquedas de mayor calidad.


Aplicación de conocimientos  

1. ¿Cuántos aspectos han de tenerse en cuenta a la hora de seleccionar el motor con el que vamos a trabajar (y por tanto vamos a pasar muchas y muchas horas con él)? ¿Qué aspectos son estos? RESPUESTA


2. ¿Porqué es tan importante el echar un vistazo al documento de “Ayuda” de un motor? RESPUESTA


3. ¿Qué otros términos podemos encontrar en los motores de búsqueda cuando estamos intentando acceder a la página de “ayuda”, a la página de “búsqueda avanzada”, o a la página de “personalización”? RESPUESTA


4. Los motores de búsqueda, cuando indexan una página, ¿la indexan en su totalidad? RESPUESTA


5. ¿Para qué puede servir el caché de un motor? RESPUESTA


6. ¿Y el stemming? RESPUESTA


7. ¿Qué son las metasites? RESPUESTA


8. ¿Y el clustering, para qué sirve? RESPUESTA


9. ¿Y qué me puedes decir de la truncación? RESPUESTA


10. ¿En qué motores podría buscar un archivo de Microsoft Word, en castellano y que contuviera una palabra que rimara con Antonio? RESPUESTA


11. ¿En qué motores podría buscar un archivo de Microsoft Word, en castellano y que contuviera la frase “Comunidad Valenciana”? RESPUESTA


12. ¿En qué motor puedo localizar listados de directorios publicados por los propios usuarios de la Red con direcciones sobre la temática buscada? RESPUESTA


[Imprimir el Cuestrionario Resuelto]


Taller  

El ejercicio de esta unidad es aplicar los cuatro puntos indicados en la sección “Técnica para Seleccionar los Mejores Buscadores”, en cada uno de los motores listados. Es un trabajo un poco pesado, pero que os va a servir para asimilar las marcadas diferencias entre los distintos motores que, por no usarlos, no las conocemos. Además, os obliga a utilizar herramientas de búsqueda que, si no fuera así, jamás utilizaríais y, ser conscientes así, de lo que os podéis estar perdiendo. Podéis utilizar el Cuadro Comparativo si os facilita el trabajo de síntesis.

Cuadro Comparativo

Cuadro Comparativo Solución


Bibliografía  

Una vez más, no existe ningún libro que tenga como objetivo prioritario el exponer las diferencias existentes entre los distintos motores de búsqueda y cómo seleccionar el “mejor”. El mejor contenido en este campo está en la web que os he recomendado en varias ocasiones a lo largo del capítulo: http://www.searchengineshowdown.com. De todas formas, voy a listaros un par de libros que comentan diferencias entre motores, aunque no con la misma profundidad:

Farb, D. et al (2003) Internet Searches Manual and CD: Computer Skills Development Program on the Use of the Internet for Optimal Searching, With an Emphasis on Healthcare, Pharmaceuticals, and Sales. University of Health Care.

<>Hock. R (2001) Extreme Searcher's Guide to Web Search Engines: A Handbook for the Serious Searcher. Information Today. (ya recomendado en capítulos anteriores)

Tomaiuolo NG. (2004) The Web Library: Building a World Class Personal Library With Free Web Resources. Cyberage Books. (Muy recomendable)

También os introduzco algunos libros que se centran en la utilización de Google.

Timesaver Books (2003) Google in 30 Pages or Less. Timesaver Books.


Referencias  

Glosario  

Advanced Search
Búsqueda avanzada mediante palabras clave o keywords. Son las herramientas que dispone el buscador para hacer una búsqueda más concreta.


Agrupación
Conjunto (Ver clústering).


Altavista
AltaVista (motor de búsqueda).


Anidado
restrictor que se utiliza para dar preferencias a unos operadores o restrictores sobre otros. Normalmente son los paréntesis: ()


AOL Search
America Online (Portal y Motor de búsqueda). Poco popular en Europa.


Ask Jeeves
Ask Jeeves (motor de búsqueda).


Booleanos
búsquedas más potentes mediante las herramientas denominadas operadores booleanos que influyen en la forma en el software evalúa tu consulta.


Búsqueda avanzada
Ver Advanced Search.


Caché
Copia que mantiene un ordenador de las páginas web visitadas últimamente de forma que si el usuario vuelve a solicitarlas, las mismas son leídas desde el disco duro sin necesidad de tener que conectarse de nuevo a la red; consiguiéndose así una mejora muy apreciable del tiempo de respuesta.


Campos
Espacio donde se pueden introducir carácteres.


Clustering
Es la agrupación que realizan los buscadores para no mostar más de un cierto número de páginas de un sitio web para una determinada búsqueda.


Custimize
ver Personalización.


Custom
ver Personalización.


Directorios
Las páginas que se incluyen en la base de datos del directorio son previamente revisadas por una persona, quien observa que se encuadre en la temática y en la política del sitio. No se agrega la página completa, sino únicamente algunos datos tales como el título, la URL y un breve comentario redactado especialmente que explique el contenido, y se la ubica en una categoría. Las consultas se realizan entrando en el árbol de las categorías o mediante palabras clave. En este último caso, el programa busca en la base de datos que la palabra clave anotada por el navegante se encuentre en la URL, en el título o en el comentario.


Lycos
motor de búsqueda.


Metasites
Son páginas que contienen gran cantidad de enlaces a otras páginas, generalmente sobre un tema concreto.


MSN
Microsoft Network (motor de búsqueda y portal)


My Way Search
Motor de búsqueda.


Nielsen Net ratings
es uno de los servicios de análisis de audiencia de Internet más prestigioso.


Ordenación
La “clasificación” que mediante unos patrones toma un buscador al evaluar los resultados tras una búsqueda.


Overture
Motor de búsqueda.


Personalización
Consiste en la posibilidad de “moldear” un buscador con herramientas que solemos gastar nosotros habitualmente, opciones ya configuradas por nosotros mismos, etc…


Personalizar
Ver Personalización.


Popularidad
Propiedad que adquieren los buscadores al ser cuanto más conocidos.


Por defecto
Se refiere a opciones o supuestos que entiende el ordenador o programa deben estar activadas o no desde un principio.


Preferences
Ver Personalización.


Preferencias
Ver Personalización.


Profundidad
Es la distancia que hay entre una superficie y su fondo. Referido a las webs, consiste en lo “alejada” (cantidad de enlaces a seguir) que se encuentran determinadas webs de la principal.


Proveedor
Entidad que proporciona y gestiona un enlace físico a Internet.


Enlaces
Hipervínculo que al hacer clic sobre él, nos lleva a otra dirección web.


EresMas
Portal de Internet. Actualmente de Wanadoo.


Gigablast
Motor de búsqueda.


Google
Google - Motor de búsqueda creado en la universidad de Stanford por Sergey Brin y Larry Page. Actualmente, quien maneja el mayor porcentaje de búsquedas del mercado.


Hotbot
Motor de búsqueda. Sus resultados son provistos por Inktomi y también funciona como meta-buscador.


Indexación parcial
acción por la que se da de alta un documento en los buscadores pero no de forma completa, sino que tan solo se incorporan los primeros X Kb de información.


Information.com
Motor de búsqueda.


InfoSpace
Motor de búsqueda.


Inktomi
Motor de búsqueda.


Refine
herramienta que facilita el filtrado de información.


Restrictor Link
Permite localizar documentos o sites que tengan un enlace a otro determinado por el usuario


Restrictores limitados
No permite el anidado (los paréntesis) ni la truncación (el asterisco), además tampoco dispone de todos los booleanos (por ejemplo el NEAR, y el OR funciona solo parcialmente).


Spider
Consiste en un software y miles de servidores que rastrean toda la Internet bajando y guardando todas las páginas que encuentran.


Stemming
buscar singulares o plurales, sinónimos o variantes gramaticales del mismo término clave que nosotros escribimos. Todo automáticamente.


Superposición
estudio de comparación entre motores de búsqueda que analiza la similitud de sus bases de datos.


Tamaño absoluto
este análisis trata de verificar si el tamaño “anunciado” por los distintos departamentos comerciales de los buscadores es creíble.


Tamaño Relativo
contrastar el tamaño relativo de los motores de búsqueda con el objetivo de poder comparar los tamaños de las distintas bases de datos.


Teoma
Motor de búsqueda.


Terra
Portal de Internet.


Tipos de Archivos
Diferentes extensiones de archivos.


Truncación
El uso de la truncación a la izquierda y a la derecha es útil para obtener resultados generales a partir de los que se puede limitar la búsqueda. La truncación se hace utilizando un signo de asterisco antes y/o después del término o fracción del término, así recuperará los títulos que contengan términos con cualquier carácter o caracteres antes y después que lo que hemos escrito.


Wanadoo
Wanadoo (motor de búsqueda).


Wayback
Servidor de “historia” de páginas web.


Web Communities
Agrupa documentos y páginas con contenidos similares para facilitar el acceso.


Wisenut
Motor de búsqueda.


Ya.com
Motor de búsqueda.


Yahoo
Motor de búsqueda, directorio y portal.




Generado con H.A.U.P.A.© 2001-2002 UPA
Cursos on-line Universidad Politécnica Abierta