|
Localización de Información Específica en Internet. 1ª Parte. La Web |
| 4.- Motores de Búsqueda Web | ||||||||||||||
| Esquema | ||||||||||||||
| ||||||||||||||
| Objetivos de la Unidad Pedagógica | ||||||||||||||
Después de estudiar esta unidad, el alumno deberá ser capaz de:
| ||||||||||||||
| Introducción | ||||||||||||||
Visto en la práctica cómo funciona un determinado motor de búsqueda y sus posibilidades, ahora vamos a profundizar en diversas características que definen y diferencian los motores, así como las formas de buscar información.
Aunque no lo parezca, la búsqueda de información en Internet tiene un componente estratégico muy importante. A medida que uno va adquiriendo más destreza en este campo se va dando cuenta de la importancia de este componente básico. A lo largo de lo que resta de curso, iremos viendo distintas recomendaciones estratégicas que pueden ser utilizadas a la hora de programar una búsqueda. Esta unidad sirve de introducción en este sentido. Además, también mostraremos un conjunto de útiles “herramientas” que algunos motores ofrecen a través de su interfaz para facilitar al usuario la localización de “su” información relevante. | ||||||||||||||
| Clasificación de los motores de búsqueda en el web | ||||||||||||||
| Introducción | ||||||||||||||
A la hora de ponernos a buscar información en el Web, podemos elegir entre tres tipos de herramientas principales. Veamos las características generales de cada una de ellas: | ||||||||||||||
| Buscadores | ||||||||||||||
Los buscadores se tratarán con detalle en la unidad 6.
| ||||||||||||||
| Directorios | ||||||||||||||
Estas herramientas, en ocasiones, se confunden con los buscadores. ¿Sabíais que Yahoo no es un buscador, sino un Directorio?(hasta febrero de 2004)? Un directorio es otra base de datos, al igual que un buscador, pero se diferencia de un buscador en tres puntos principalmente:
Los directorios se estudiarán en la unidad 7.
| ||||||||||||||
| Buscadores Híbridos | ||||||||||||||
Hoy en día, gran cantidad de buscadores y directorios se han convertido en motores híbridos. Es decir, a través de su interfaz, permiten la utilización de un buscador o de un directorio indiferentemente. Este movimiento ha sido, básicamente, una respuesta a la demanda de los usuarios. Ejemplos de motores que actúan de esta forma son: | ||||||||||||||
| Metabuscadores | ||||||||||||||
Estas herramientas no construyen una base de datos. No cuentan con un spider ni con un equipo de gente que va seleccionando los documentos. Estas herramientas utilizan las bases de datos creadas por otros motores de búsqueda. Así pues, los metabuscadores proporcionan páginas y documentos recopilados por spiders y personas. Otra característica básica de los metabuscadores es que permiten, al usuario, seleccionar qué motores de búsqueda quiere utilizar. Los metabuscadores se analizarán en la unidad 8. Por último, y como una última clasificación marginal, estarían los "motores de búsqueda con operativas especiales". Estos motores se incorporarían en alguno de los anteriores grupos pero, al contar con un procedimiento distinto de lo habitual a la hora de desarrollar las búsquedas, se pueden considerar en un quinto grupo de "operativa especial". Este quinto grupo lo comentaremos también en ella unidad 8. | ||||||||||||||
| Caso Estudio | ||||||||||||||
| ||||||||||||||
| Estrategias básicas para localizar información en el Web | ||||||||||||||
| Introducción | ||||||||||||||
| ||||||||||||||
| Estrategia 1: ¡Adivina! | ||||||||||||||
En primer lugar está la "adivinación". Esta estrategia es mucho más efectiva de lo que muchos pueden pensar. Ahora bien, es útil tan solo en unos casos muy concretos. Cuando utilizar esta estrategia: Para encontrar la página principal de una institución o una organización. Las siguientes indicaciones pueden ayudar:
| ||||||||||||||
| Estrategia 2: Directorios | ||||||||||||||
Buscar documentos en una base de datos construida por un equipo de editores mejora la calidad de la información de los documentos que pueden encontrarse ... si se encuentra algo. Ya se han comentado los pros y contras de los directorios, es decir calidad vs. cantidad o tamaño. Por tanto, en función del tipo de información que estemos buscando, es posible que sea recomendable utilizar un directorio. Los directorios son útiles para tópicos como:
En ellos, el usuario puede elegir cómo lleva a cabo la búsqueda. Puede utilizarlos navegando por las categorías o buscando mediante palabras clave. Algunos incorporan ratings de las páginas web almacenadas. El tamaño que alcanza actualmente uno de los directorios más grandes, supera los 4 millones de documentos. Una de las principales ventajas de los buscadores es precisamente el corto número de documentos. Como sabéis “el Objetivo de Toda Búsqueda? es obtener pocos éxitos relevantes”. Los directorios facilitan la parte de los “pocos éxitos” ya que son mucho más pequeños que los buscadores, pero además, al estar seleccionados por expertos, parten con la “presunción” de mayor calidad. Cuando hablamos de “mayor calidad” también nos estamos refiriendo a la mayor o menor credibilidad de la información que aparece en la página. Hasta cierto punto, la credibilidad puede ser uno de los criterios que pueden utilizar los editores de los directorios. Desde luego, no es una opción a poder tener en cuenta por el spider de un buscador. La tercera ventaja es que están ordenados, cosa que no ocurre con los buscadores. Los documentos, en los directorios, están organizados por categorías y podemos navegar por estas para localizar páginas similares o relacionadas entre ellas. Con los buscadores, esto es más difícil. | ||||||||||||||
| Estrategia 3: Buscadores | ||||||||||||||
La tercera estrategia básica reside en utilizar los índices más grandes: los buscadores. Como ya hemos indicado, estos índices incorporan gran cantidad de documentos, superando los 4,000 millones, pero con un sistema de filtro de mucha menor calidad que los directorios. Incluso en alguna ocasión se han detectado millones de documentos repetidos dentro de la misma base de datos, con lo que se falsea el tamaño y se engaña al usuario?. La búsqueda en una base de datos de tan gran cantidad de documentos no es sencilla. Al ser tan grande, la introducción de palabras clave, en ocasiones, no es suficiente para alcanzar el Objetivo de Toda Búsqueda?: obtener un número de éxitos "humanamente aceptable". Por ello, en los interfaces de los buscadores se ofrecen una gran cantidad de restrictores y operadores para limitar los éxitos al máximo. Ejemplos de estos restrictores se vieron en la unidad 3 Altavista. En general, estos motores son útiles para:
| ||||||||||||||
| Información NO incluida | ||||||||||||||
Sea cual sea la estrategia seguida para localizar información en el Web, hay que ser consciente de que no lo vamos a poder encontrar todo. Hay gran cantidad de datos que no son accesibles a través de ningún motor de búsqueda, ya sean directorios, buscadores o metabuscadores. Veamos con detalle qué tipo de información no podréis encontrar en ningún caso:
Además el número de documentos de estos tipos que se incorporan es mínimo comparado con el número de páginas web.
| ||||||||||||||
| ¿Qué hace que un motor de búsqueda sea mejor que otro? | ||||||||||||||
| Introducción | ||||||||||||||
| ||||||||||||||
| Tamaño del Índice de Referencia | ||||||||||||||
Hay una tendencia generalizada a pensar que cuanto más grande sea el motor en el que se lancen las búsquedas, mejores resultados se pueden encontrar. ¡Nada más lejos de la realidad! La única ventaja de un índice grande es que va a incorporar más información sobre más temas y es posible, que de esta forma, incremente la probabilidad de encontrar el tema que nosotros necesitamos, pero en absoluto nos asegura este extremo. La primera desventaja reside en que, cuanta más información hay, más hay que filtrar, por lo que nos vemos obligados a introducir más palabras clave que acoten mejor la búsqueda. En definitiva, un índice grande tiene sus ventajas y sus desventajas. En mi opinión, en general las ventajas superan las desventajas pero no a cualquier precio. Hay que tener en cuenta que es fácil encontrar motores o bases de datos más pequeñas que se ajusten mucho más a nuestras necesidades de información y que pueden proporcionarnos más éxitos relevantes que un motor gigante. Ahora, el alumno debe estar preguntándose: ¿Cómo puede ser que un motor de búsqueda con una base de datos mucho más pequeña pueda contener documentos web más ajustados a mis necesidades? Veamos la segunda característica diferenciadora: | ||||||||||||||
| Criterios para la construcción del Índice de Referencia | ||||||||||||||
Tanto los spiders como los equipos de editores de los directorios siguen unos criterios más o menos flexibles a la hora de decidir la incorporación de un documento web a su base de datos. ¡Ahí es donde está la clave! En esos criterios se puede definir cualquier cosa. Se puede hacer que la base de datos se especialice en un determinado tema o que busque un poco de cada cosa. Se puede hacer que se centre en documentos científicos o de divulgación. Se puede conseguir que incorpore únicamente información con menos de 24 horas de antigüedad. Se puede hacer de todo. De esta forma, si lo que nos interesa es, por ejemplo, la investigación científica, podemos buscar motores, portales verticales o webs especializados que se centren en esta temática. Por lo que no es de extrañar que en ellos encontremos más información científica que la disponible en uno de los grandes motores. Un motor especializado en un tema que sea por ejemplo 40 veces más pequeño que Google, todavía tendría un tamaño de 100 millones de documentos… seguro que ni Google, ni Yahoo, ni ninguno de los grandes motores de búsqueda tiene una base de datos de información financiera de 100 millones de documentos web. ¡Es lógico, los grandes han de "contentar" a todos los usuarios, no solo a los interesados en un determinado tema! | ||||||||||||||
| Ordenación de los éxitos después de la búsqueda | ||||||||||||||
En tercer lugar una característica que muchas veces se pasa por alto. Cuando el motor recibe nuestra petición de información y encuentra, pongamos, 76 documentos que contienen todas nuestras palabras clave, se ve en la imposibilidad de mostrárnoslas todas a la vez, porque no lo entenderíamos. El mismo motor ha de decidir cuál de los 76 documentos es el mejor y cuál el peor, aunque, en principio todos son igual de buenos ya que cumplen con los requisitos que nosotros le habíamos exigido. En este punto, un algoritmo se pone en marcha y, teniendo en cuenta diversos criterios, asigna una puntuación a cada uno de los 76 documentos. Posteriormente, nos presentará los documentos empezando por el que ha obtenido una puntuación más alta, siguiendo por el que haya quedado en segundo lugar y así. El problema es que nosotros no podemos controlar ese algoritmo de ordenación. El criterio de "relevancia" que utiliza cada motor es privado y no elegible por el usuario?. Además, se guarda bastante secreto con respecto a cómo funciona el algoritmo de ordenación. La cuestión aquí es: ¿Puede el motor de búsqueda saber qué es lo que estamos buscando? En realidad, las 76 páginas que ha localizado son óptimas según lo que le hemos indicado, no hay "mejores" ni "peores", todas cumplen nuestros requisitos. El motor no puede saber cuál de las 76 páginas es justo la que nos interesa, él nos hace una ordenación tentativa según sus criterios pero, es muy complicado que esos criterios coincidan con los nuestros, al menos de forma consistente. En definitiva, según sea el algoritmo de ordenación de éxitos, puede que encontremos entre los primeros resultados los que nos interesan o puede que no. Pero no lo podemos saber. Hay motores que tienen algoritmos de ordenación que son más afines a los gustos de unos determinados usuarios y otros motores cuyos algoritmos gustan más a otras personas. En este punto, solo podemos probar distintos motores y ver cuál nos presenta los éxitos relevantes, según nuestro propio punto de vista, más cerca de la primera posición. | ||||||||||||||
| ¡El tamaño NO es (tan) importante! | ||||||||||||||
Con las explicaciones del anterior epígrafe se elimina uno de los mayores bulos o leyendas urbanas que rondan por la Red y fuera de la Red y que está relacionada con que un motor es mejor cuanto más grande es su índice de referencia. Hemos visto que el tamaño es una de las tres grandes características a tener en cuenta, pero si solo tenemos en cuenta el tamaño estamos desestimando 2 de las 3 consideraciones relevantes. La importancia que se le concede al tamaño hoy en día, está relacionado con el secretismo que actualmente existe en relación a las otras dos características. Ningún motor da a conocer los algoritmos de selección de las páginas que aplica su spider. Y los criterios de ordenación de éxitos, aunque no tan secretos, parece que tampoco hay excesivo interés en que el público los conozca. Por ello, los buscadores más grandes: Google y Yahoo, incorporan en su página principal el número actualizado de documentos web que, según ellos, incorporan. A nivel operativo, la relevancia del tamaño se puede interpretar de la siguiente forma: ¿encontraremos más información en una base de datos más grande que en otra más pequeña? Depende:
La conclusión es que, aún con el mayor de los motores estamos buscando en el 1% de la información disponible. Y la cosa todavía es peor si tenemos en cuenta que en el mismo estudio se pronosticaba que la velocidad de incremento del denominador era mayor que la del numerador, por lo que si desde el año 2000 el contenido del mayor motor se ha multiplicado aproximadamente por 4, el del numerador debería haberse multiplicado por un número superior a 4, concretamente por 4.44. ¡¡¡Con lo que estaríamos buscando en el 0.0016 = 0.16% de la información disponible!!! Con todo, aunque los motores de búsqueda indexan miles de millones de documentos y ahí tenemos mucho donde buscar; no hay que olvidar que la información pública y accesible gratuitamente puede ascender a billones de documentos. | ||||||||||||||
| Otros criterios útiles para seleccionar un motor | ||||||||||||||
| Introducción | ||||||||||||||
A parte del tamaño del índice de referencia, que adolece de los problemas antes indicados, existen diversas herramientas ofrecidas por los distintos motores y que pueden hacer que un usuario se incline por un motor u otro. Vamos a ver algunos: | ||||||||||||||
| Reconocimiento de Keywords o Palabras Clave | ||||||||||||||
Algunos motores resaltan las palabras clave utilizadas en la búsqueda, en la página de éxitos o incluso en la página éxito, una vez abierta. Este servicio nos permite localizar rápidamente el lugar donde se aparece la palabra clave indicada y poder leer alrededor de la misma para decidir si nos interesa o no. No tiene ningún sentido el ponerse a leer todo el documento desde el principio. Es mucho más eficiente leer el contexto en el que se utiliza la palabra clave que hemos introducido y si nos interesa entonces dedicar más tiempo, si no nos interesa, pasar a revisar otro éxito. En caso de que un motor de búsqueda no ofrezca este servicio, podemos utilizar la herramienta "Buscar" del mismo navegador, para localizar la palabra en la página. Es un poco más lento, pero igual de efectivo. La herramienta "Buscar", está en el menú "Edición". También se puede acceder a ella con la tecla rápida: "Ctrl. + F". | ||||||||||||||
| Revisión de Ortografía | ||||||||||||||
Los motores que incorporan este servicio ofrecen palabras clave alternativas en aquellas búsquedas que consideran que tienen errores ortográficos en su formulación. Son muy útiles en lenguajes científicos (por ejemplo en medicina o farmacología). En caso de que se detecte un posible error, el motor no deja de lanzar la búsqueda, pero en la página de éxitos ofrece palabras clave alternativas. Si se quieren utilizar, tan solo hay que hacer clic sobre ellas. | ||||||||||||||
| Filtros de Contenido | ||||||||||||||
El más conocido es el filtro "ofensivo". Trata de filtrar resultados que contengan contenido pornográfico o similar. Estos filtros no acaban de funcionar bien del todo y a veces no filtran documentos ofensivos y sí eliminan algunos que no lo son. | ||||||||||||||
| Selección del Número de Éxitos por Página | ||||||||||||||
Esta herramienta nos permite seleccionar el número de éxitos que queremos que se nos presente en cada una de las páginas. Si seleccionamos un número bajo (10-20) tendremos que ir recargando páginas si entre los primeros éxitos no encontramos el que nos interesa. Si seleccionamos un número alto (75-100, >100) la página puede que tarde unas décimas de segundo más en aparecer, pero ya no tendremos que cargar ninguna página más. Esta selección, por tanto, depende tanto de las preferencias personales como de la velocidad de la conexión que uno tenga. | ||||||||||||||
| Abrir Resultados en una Nueva Ventana | ||||||||||||||
Esta herramienta nos permite tener la página de
éxitos siempre abierta y que cuando queramos entrar en una determinada
página de éxito que no nos desaparezca el listado de éxitos, sino que
se abra en otra ventana. Suele ser muy interesante. | ||||||||||||||
| Selección de Idioma | ||||||||||||||
Permite al usuario elegir el idioma del interfaz.
Podemos comunicarnos con el motor de búsqueda en inglés, español,
francés, etc. | ||||||||||||||
| Selección del Formato de la Página de Éxitos | ||||||||||||||
Con esta herramienta, el usuario pude elegir hasta qué información quiere que aparezca en la página de éxitos, para cada una de las páginas que han resultado en éxito:
También se suele permitir al usuario que decida si quiere que aparezcan algunos vínculos como por ejemplo la posibilidad de traducir la página a un idioma o la posibilidad de encontrar páginas relacionadas. | ||||||||||||||
| Ranking | ||||||||||||||
En general, los motores de búsqueda no ofrecen información sobre cómo ordenan los resultados pero, por lo que he averiguado, los criterios de ordenación suelen ser como los que siguen:
Existen más criterios de este estilo, pero el sistema en su conjunto adolece de un problema: el usuario no sabe cuáles de ellos tienen un mayor o menor peso en el algoritmo de ordenación final. Por lo que no va a poder seleccionar un motor u otro según este criterio. | ||||||||||||||
| Las Palabras Clave o Keywords | ||||||||||||||
Este punto es de máxima importancia. Diría que es el más importante de todos los que llevamos en el curso. Por ello, os aviso de antemano para que no os lo saltéis y lo leáis con detenimiento y atención. Lo voy a introducir en un cuadro para resaltarlo aún más.
| ||||||||||||||

| | ||||||||||
| Recuerda que ... | ||||||||||
| ||||||||||
| Errores más comunes | ||||||||||
| ||||||||||
| Aplicación de conocimientos | ||||||||||
[Imprimir el Cuestrionario Resuelto] | ||||||||||
| Taller | ||||||||||
Imaginad que queréis venir a visitarme a Alcoy. Alcoy es una ciudad de la provincia de Alicante, situada en el interior, entre montañas y circundada por dos parques naturales. Pero eso vosotros no lo sabéis. Venís, por ejemplo desde… A Coruña y vuestro destino es Alcoy. Queréis encontrar información sobre esta ciudad. Para ello, vamos a poner en práctica las tres estrategias que hemos visto.
|

Las conclusiones más profundas os las dejo a vosotros. Pero, a primera vista, podéis ver que a través del directorio, se nos da una visión general tanto de la Comunidad Valenciana, como de la provincia de Alicante, como de la comarca de L’Alcoià. Con acceso a distintos documentos de interés no solo de Alcoy, sino de su entorno. El buscador nos ofrece otro tipo de datos, como accesos a empresas o entidades alcoyanas. En definitiva, en función de cuál sea nuestro objetivo, habrá que elegir una herramienta u otra. |

| Bibliografía | ||
No hay mucha bibliografía en castellano que entre en profundidad en este tema en concreto. De todas formas, estos libros puede que ayuden. Mudry, R.J. (1997) Domine la Web. Thomson Paraninfo SA. Peters, T. (2002) La Inevitable Revolución de Internet: Estamos en el Mundo Web. Ediciones Nowtilus S.L. | ||
| Referencias | ||
| Glosario | ||
Alta densidad Gran cantidad de información en poco espacio. Asp Microsoft Active Server Pages. Buscador/-es Sitio web donde mediante podemos introducir palabras o frases y encontrar enlaces a nuestra búsqueda en toda la red de redes… Buscador Híbrido permite la utilización de un buscador o de un directorio indiferentemente. Directorio Sitio web que lista otros sitios web organizados por temas. Estratégias Básicas Son los diferentes métodos para poder encontrar información específica en Internet. Evidencia contextual criterios de ordenación; cuantas más veces se repitan los términos, más puntuación. Keywords Son las palabras que introducimos en los motores de búsqueda. Metabuscadores motores de búsqueda en la red que funcionan, por una parte de forma automatizada, pero posteriormente su información es indexada y ordenada con intervención de criterios establecidos por un moderador u organización. Motores Híbridos permiten la utilización de un buscador o de un directorio indiferentemente. Objetividad Describir información o hechos acaecidos tal y cómo han sucedido, sin apoyarse en ninguna postura determinada. Caché Copia que mantiene un ordenador de las páginas web visitadas últimamente de forma que si el usuario vuelve a solicitarlas, las mismas son leídas desde el disco duro sin necesidad de tener que conectarse de nuevo a la red; consiguiéndose así una mejora muy apreciable del tiempo de respuesta. Calidad de la información Consiste en la valoración óptima de los resultados obtenidos en una búsqueda. Categorías Subconjuntos del directorio que intentan agrupar páginas en función de su contenido, para facilitar su localización. CGI output Common Gateway Interface. Programa para generar contenido en tiempo real. Sus lenguajes de programación son, entre otros, Perl y C. Clasificación Ver ránking. Contraseña Clave secreta que da acceso a un sitio web. Crawlers Robot que indexará varias páginas de una web, siguiendo los enlaces que en ésta aparezcan. Palabras clave Ver keywords. Password Ver Contraseña. Ranking Mera clasificación de resultados de una búsqueda ordenados siguiendo algún patrón determinado. Robots.txt Programas que expulsan a los spiders cuando éstos aparecen. Spider Consiste en un software y miles de servidores que rastrean toda la Internet bajando y guardando todas las páginas que encuentran. Subjects Ver categorías. Tamaño Es la medida de la cantidad de webs que puede encontrar un buscador. Término clave Ver keywords. | ||
Generado con H.A.U.P.A.© 2001-2002 UPA
| ||
|
|
||