Localización de Información Específica en Internet. 1ª Parte. La Web

3.- Altavista.com  
Esquema  

IntroducciónBusqueda simpleBusqueda avanzadaHerramienta TraducirConfiguraciónRecuerda que...Errores más comunesAplicación de conocimientosTallerEPOBibliografíaReferencias WebGlosario


Objetivos de la Unidad Pedagógica  

Después de cursar el presente modulo o unidad, el alumno deberá ser capaz de:

  1. Distinguir entre los distintos formularios de búsqueda que ofrece un motor.
  2. Definir un mirror y citar alguna diferencia entre ellos.
  3. Utilizar, sin problemas, los restrictores del formulario básico de Altavista.
  4. Seleccionar los operadores booleanos y restrictores más adecuados y darles uso.
  5. Aplicar la herramienta “Traducir” de Altavista cuando sea necesaria.
  6. Editar las preferencias de Altavista a su gusto.

Introducción  

Dicen que la experiencia es la mejor herramienta de aprendizaje. Por ello, vamos a introducirnos en las herramientas avanzadas de búsqueda con un ejemplo. Antes de entrar en definiciones y características de los buscadores veremos, en este módulo, cómo trabaja uno de los buscadores más clásicos: Altavista.


“La práctica es la mejor de las maestras”.
“Practice is the best of all instructors”.
Publilius Syrus (≈ 100 AC) Syrius-Roman mimographer.
BrainyQuote.com


Entramos en materia. Para entrar en contacto con las herramientas de búsqueda, creo que lo mejor es practicar con detalle el funcionamiento de una de ellas. A lo largo de la unidad, aprenderéis a explotar todos los servicios que puede ofrecer, un buscador web de los más grandes? . Para esta primera toma de contacto, creo que la mejor opción es utilizar el buscador Altavista. La elección de Altavista no es casual, y se apoya en el particular sistema de búsqueda avanzada que este motor pone a disposición del usuario. La forma en que Altavista permite utilizar la búsqueda avanzada nos va a ayudar mucho en la asimilación y comprensión de los sistemas para localizar información a través de buscadores. Otra razón es evitar la “Googlerización” que estamos viviendo en estos últimos años. Parece que no existe otro motor de búsqueda que no sea Google y eso no es cierto. Un sesgo así, puede conducirnos a la ineficiencia en la localización de datos.


Búsqueda Simple  

OBJETIVO 1
Distinguir entre los distintos formularios de búsqueda que ofrece un motor.
Formulario

Empezamos por el formulario? de búsqueda simple que Altavista pone a disposición de los usuarios en su URL http://www.altavista.com. Al escribir esta dirección en el navegador, nos aparecerá la página principal del buscador Altavista. Probablemente, detectará el lenguaje de nuestro PC y nos cargará la página en castellano. Si no lo hace, podemos seleccionar nosotros el idioma que prefiramos, en el enlace de la parte superior derecha de la página “Altavista NombreDeUnPais ▼”.

La parte de la página que nos interesa es la que aparece en la figura 3.2.1.



Figura 3.2.1: Formulario de búsqueda en Altavista.

Fuente: http://www.altavista.com


Voy a comentar por encima algunas de las herramientas que Altavista nos ofrece en este, su formulario de búsqueda simple. En primer lugar, el lector puede ver que Altavista nos sirve para buscar información (texto) en la Web o también imágenes, audio o vídeo. Además, permite también acceder a un menú a través del enlace denominado “Directorio” que nos permitirá hacer búsquedas temáticas, como una alternativa a la búsqueda por palabra clave.

Inmediatamente debajo de este menú, aparece el formulario de introducción de las palabras clave a buscar. Aquí, deberemos introducir las palabras clave acerca del tema sobre el que queremos localizar información. Pero este formulario no solo acepta palabras clave, sino también permite que se le incorporen algunas características restrictivas, que permitirán acotar la búsqueda. También aparece un enlace a la “Búsqueda Avanzada” y a la “Configuración”. Ambas dos determinantes en un buscador. Les dedicaremos secciones enteras más adelante.

En la siguiente línea aparece la opción de buscar en “España” o “En todo el mundo”. En esta opción está dando a elegir al usuario entre buscar en la filial española de Altavista o buscar en la central que está situada en Los Ángeles (CA). Altavista tiene varios índices alrededor del mundo. Aunque lo veremos con más detalle en otra unidad, os puedo adelantar que un índice es algo así como el sistema de ordenadores que almacena la información que nosotros buscamos cuando hacemos clic sobre “Encontrar” en un buscador. Uno de estos índices está en Madrid y por tanto su contenido, aunque en gran parte es el mismo que el de su central en EEUU, está sesgado a propósito hacia las páginas hispanas. Es lo que se denomina en inglés un mirror. El problema de los mirrors reside en el tamaño. Es cierto que el mirror de Madrid tendrá más contenido en castellano o más relacionado con temas hispanos, pero es posible que la cantidad de información que contenga no sea comparable a la del mirror de Los Ángeles.

Para saber si el seleccionar “En todo el mundo” o elegir “España” es diferente o no, un truco muy útil (es una pena pero a veces nos engañan y no hay distinción), es hacer una búsqueda genérica en ambas opciones y ver si los resultados divergen o no. En mi caso he probado buscar el término “a” (como podéis ver, bastante genérica) y el resultado es que el mirror español es mucho más pequeño que el internacional.
Resultados “España”: 21,345,823
Resultados “Internacional”: 159,584,963

OBJETIVO 2
Definir un mirror y citar alguna diferencia entre ellos.

A continuación aparece la posibilidad de elegir el ver los resultados en “Todos los idiomas” o tan solo los resultados “español, inglés”.

De esta forma estamos limitando la búsqueda a aquellas páginas web que están en castellano e inglés o la ampliamos a todas las páginas que se localicen en cualquier idioma (chino, portugués, catalán, francés etc.).

Cuando las palabras clave que estamos introduciendo son suficientemente explícitas, esta restricción es inútil ya que si, por ejemplo, la palabra clave es “contabilidad”, implícitamente estamos indicando que el idioma es el castellano, porque por ejemplo, en inglés, la palabra “contabilidad” no existe (¡y no digamos en chino!), por tanto no se pueden encontrar páginas en inglés que contengan esa palabra (…siempre habrán excepciones que confirmen la regla…).

En la última fila, aparecen las herramientas de Altavista: “Traducir”, y “Toolbar”, entre otras. Algunas de éstas las comentaremos más adelante, en esta misma unidad.


OBJETIVO 3
Utilizar, sin problemas, los restrictores del formulario básico de Altavista.
Restrictores

Como he comentado antes, el formulario de búsqueda simple permite introducir algo más que sólo palabras clave y las herramientas que podemos utilizar en él, son muy interesantes. Para ver con detalle las instrucciones relacionadas con este formulario debéis ir a http://www.altavista.com/help/search/default#web y si esta dirección no funciona (porque haya cambiado) tenéis que ir al icono de Ayuda de la página http://www.altavista.com y desde allí a “Búsquedas” y después “Web”. Lo que encontraréis es algo muy similar a lo que aparece en la figura 3.2.2.



Figura 3.2.2: Sugerencias de búsqueda Web básica en Altavista.

Fuente: http://www.altavista.com


Este proceso de lectura y autoaprendizaje sobre cómo funciona un determinado buscador web, es muy recomendable y siempre interesante. Seguro que muchos de vosotros, habéis empezado a utilizar Google u otro buscador sin ni siguiera leer las instrucciones. ¿Haríais lo mismo con un aparato de DVD o con vuestro equipo de música? ¡Seguro que no! Cuando adquirimos un electrodoméstico nuevo y en el mando a distancia hay un botón que no sabemos para qué sirve… ¿no os pica la curiosidad y vais al manual de instrucciones a ver qué se puede hacer, para sacarle el máximo partido al aparato?

En el caso de un buscador web, la situación no es distinta. El saber cómo funciona un buscador va a ahorrarnos MUCHO tiempo, ya que podremos dirigir las búsquedas mejor y obtener resultados más precisos.

De todas las recomendaciones indicadas en la figura 3.2.2, considero que las más importantes a destacar son las que se refieren al restrictor comillas (“”) y a las tildes.

  • Las comillas. Delimitan una frase. Cuando utilicemos las comillas estaremos indicando al buscador que nos localice una frase en concreto. Nos buscará, por tanto, todas las palabras que le hemos indicado en el mismo orden que las hemos escrito. Si no colocamos las comillas, considerará las palabras como unidades distintas y las buscará en cualquier orden.
  • Las tildes. Si escribimos las tildes, el buscador se limitará a ofrecernos las palabras que contengan la tilde indicada. Si no las escribimos, considerará como éxito, todas aquellas páginas que contengan la palabra indicada con o sin tildes. La recomendación a partir de esta herramienta es:
    • Si queremos “amplificar” la búsqueda, es decir, si queremos obtener un número más alto de resultados, no escribiríamos las tildes.
    • Si queremos “restringir” la búsqueda, o sea, disminuir el número de resultados, usaremos las tildes.


Marcar las respuestas correctas: Si se quiere realizar una búsqueda de frase exacta deberemos escribirla en el buscador de la siguiente manera:
Casas de campo

“casas de campo”
Respuesta correcta pero incompleta.

.Casas de campo.

Casas.de/campo
Respuesta correcta pero incompleta.

La 2 y la 4.

La 3 y la 4.
La 3 no es una respuesta válida.



El Objetivo de Toda Búsqueda

Cuando nos ponemos “manos a la obra” a buscar algún tipo de información, no debemos olvidar que somos seres humanos y que no vamos a ser capaces de estudiar todas las páginas que tratan el tema que nos interesa. Por ello, uno de los principales objetivos de la búsqueda es minimizar el número de resultados. A primera vista, esta afirmación puede parecer contradictoria. “¿Por qué minimizar los resultados? Cuantos más, mejor; tendremos más donde elegir…” Razonamiento erróneo. Veamos, una pregunta: ¿Qué es mejor obtener 0 resultados o 200,000?

RESPUESTA


Búsqueda Avanzada  

Este formulario incorpora todas las capacidades de restricción que Altavista pone a disposición de sus usuarios. Nos permite limitar los éxitos de una forma mucho más eficiente que los anteriores formularios. Dominar las posibilidades que nos ofrece esta página, insisto, supone una gran ventaja porque, minimizará el tiempo que tardemos en localizar lo que buscamos. Las herramientas que nos ofrece son:

  • Construya una consulta con.... Como podéis ver en la figura 3.3.1, el primer bloque de la búsqueda avanzada coincide exactamente con lo explicado en el epígrafe anterior.
  • Buscar con… (Búsqueda booleana). Este segundo bloque que trata de hacer búsquedas con expresiones booleanas es lo mejor de este formulario de búsqueda avanzada y lo explicaré con detalle al final de este epígrafe.
  • Fecha…. Con esta herramienta podemos restringir los éxitos a aquellos documentos que se actualizaron por última vez en el rango de fechas indicadas. Si poseemos información relativa a la última vez que se actualizó una página o si sabemos cuándo se publicó en la Web y que desde entonces no se ha modificado, podemos utilizar esta herramienta para encontrarla.
  • Tipo de Archivo…. La web, aunque formado principalmente por páginas web (.html o .htm), también contiene enlaces a muchos otros tipos de archivos de texto, como por ejemplo el Portable Document Format, más conocido por .pdf . También pueden haber documentos de Microsoft Word, (.doc) o de Microsoft Excel (.xls), etc. En definitiva, con esta herramienta podemos limitar el tipo de documentos que queremos encontrar. Si sabemos, por ejemplo que el archivo que buscamos suele estar publicado en formato .pdf, podemos utilizar este servicio para limitar mejor la búsqueda.

    Los PDF (Portable Document Format)
    Este tipo de archivo se ha vuelto muy popular en Internet. Mucha de la información susceptible de ser localizada en la Web, está en este formato. Gran cantidad de instituciones han optado por publicar información en .pdf en vez de la clásica página web. ¿Porque? Dos son las causas principales:
    • Formato. Los documentos .pdf pueden abrirse por cualquier sistema operativo, en cualquier situación, y siempre tienen el mismo aspecto. Este era un problema grave del .html ya que según cómo y cuándo se abriera, muchas veces, el texto o las imágenes estaban cambiadas de lugar.
    • Seguridad. Al contrario que en un .html, el autor de un documento .pdf, puede especificar una serie de opciones de visualización del archivo. El autor puede decidir quién puede abrir el archivo, quién puede imprimirlo, quién puede extraer contenido de él, etc.


  • Ubicación…. Permite restringir los resultados a los servidores web de un determinado país o a un servidor concreto. Así pues, esta herramienta nos sirve para buscar sólo en servidores españoles, o italianos, o japoneses, etc. Para ello, colocaríamos en la celda “por dominio”, “.es”, o “.it”, o “.jp”. En el caso alternativo que quisiéramos buscar algo en la Universidad Politécnica de Valencia (UPV) o en el Ministerio de Educación, Cultura y Deporte, pondríamos en el celda “por URL”, lo siguiente: “www.upv.es” para la UPV o “www.mcu.es”, para el Ministerio.
  • Mostrar…. Por último, esta herramienta se puso en marcha porque algunos webmaster demasiado listos, colocaban muchas copias de una misma página en el un servidor, de forma que cuando se hacía una búsqueda en el motor, podía aparecer 30 ó 40 veces el mismo documento, desorientando a los usuarios noveles. Para evitar esta trampa, los buscadores pueden limitar el número de éxitos que provengan de un mismo sitio o servidor web. Finalmente, el número de resultados por página hace referencia al número de éxitos que queremos que nos liste en una misma página de resultados. Obviamente, cuantos más resultados podamos ver en un golpe de vista, sin necesidad de presionar el botón “Siguiente”, mejor, ya que menos tiempo perderemos pasando páginas.



Figura 3.3.1: Búsqueda Web avanzada en Altavista.

Fuente: http://www.altavista.com/web/adv


Analicemos con detalle el segundo bloque: “Búsqueda Booleana”. Como podéis ver, disponemos de una celda más grande que las demás en donde podemos escribir muchos términos. Los términos que incluiremos en esta celda serán las palabras claves y los restrictores que Altavista nos permite gastar. Si os fijáis, a la derecha de la celda aparece un enlace que nos informa sobre todos los términos que se pueden utilizar y cómo funcionan. La página donde lo explica, la he reproducido en el Cuadro 3.3.1:


OPERADORES BOOLEANOS Y DE TRUNCACIÓN
AND Encuentra documentos que contienen todas las palabras o frases especificadas. Cacahuete AND mantequilla encontrará documentos con ambas palabras, "cacahuete" y "mantequilla".
OR Encuentra documentos que contienen al menos una de las palabras o frases especificadas. Cacahuete OR mantequilla encontrará documentos que contienen o "cacahuete" o "mantequilla". Los documentos encontrados pueden contener ambas formas, pero no necesariamente.
AND NOT Excluye los documentos que contienen la palabra o frase especificada. "Cacahuete AND NOT mantequilla" encontrará documentos con "cacahuete" pero que no contienen "mantequilla". NOT debe ser utilizado con otro operador, como AND. AltaVista no acepta 'cacahuete NOT mantequilla'; especifique cacahuete AND NOT mantequilla.
NEAR Encuentra documentos que contienen ambas palabras o frases especificadas a una distancia máxima de 10 palabras entre sí. Cacahuete NEAR mantequilla encontrará documentos con "mantequilla de cacahuete", pero probablemente ningún otro tipo de "mantequilla".
* El asterisco es un comodín; cualquier secuencia de letras puede ser sustituida por el asterisco. Past* encontrará documentos con "pastel", "pastelero" y "pastelería".
Debe teclear al menos tres letras antes del *.
También puede colocar el * en el medio de una palabra. Esto es útil cuando no está seguro de la ortografía de la palabra.
Des*uciar encontrará los documentos que contengan desahuciar, desafuciar o desafiuciar.
( ) Utilice paréntesis para agrupar las expresiones booleanas complejas. Por ejemplo, (cacahuete AND mantequilla) AND (gelatina OR mermelada) encontrará documentos con las palabras "mantequilla de cacahuete y gelatina" o "mantequilla de cacahuete y mermelada" o ambas.
RESTRICTORES
Anchor:text Encuentra páginas que contienen la palabra o frase especificada en el texto de un hipervínculo. anchor:empleo +programación encontrará páginas con empleo en un vínculo y con la palabra programación en el contenido de la página.
No ponga ningún espacio antes ni después de los dos puntos. Debe repetir la palabra clave para buscar más de una palabra o frase; por ejemplo, anchor:empleo OR anchor:carrera encontrará páginas con anclas (anchors) que contienen la palabra "empleo" o la palabra "carrera".
applet:class Encuentra páginas que contienen un applet de Java especificado. Utilice applet:morph para encontrar páginas que utilicen applets llamados "morph".
object:class Encuentra páginas que contienen un objeto especificado creado por otro programa (ej. un objeto Flash). Utilice object:dinero para encontrar páginas que utilicen objetos llamados dinero.
domain:domainname Encuentra páginas dentro del dominio especificado. Utilice domain:uk para encontrar páginas del Reino Unido, o utilice domain:com para encontrar páginas de sitios comerciales.
host:hostname Encuentra páginas en un ordenador específico. La búsqueda host:www.shopping.com encontrará páginas que se hallen en el ordenador Shopping.com, y host:dilbert.unitedmedia.com encontrará páginas en el ordenador llamado "dilbert" dentro de unitedmedia.com.
image:filename Encuentra páginas con imágenes que tienen un nombre de archivo específico. Utilice image:playas para encontrar páginas con imágenes llamadas "playas".
like:URLtext Encuentra páginas similares o relacionadas con una URL especificada. Por ejemplo, like:www.abebooks.com encuentra sitios web que venden libros de viejo, similares al sitio www.abebooks. like:sfpl.lib.ca.us/ encuentra sitios de bibliotecas públicas o universitarias. like:http://www.indiaxs.com/ encuentra sitios sobre cultura en el subcontinente indio.
link:URLtext Encuentra páginas con un vínculo a una página con el texto de URL especificado. Utilice link:www.myway.com para encontrar todas las páginas con vínculos a myway.com.
text:text Encuentra páginas que contienen el texto especificado en cualquier parte de la página excepto las etiquetas de imagen, los vínculos, o las URL. La búsqueda text:graduación encontrará todas las páginas que contengan el término "graduación".
title:text Encuentra páginas que contienen la palabra o frase especificada en el título de la página (que aparece en la barra de título de la mayor parte de los navegadores). La búsqueda title:puesta de sol encontrará las páginas que contienen en el título la frase "puesta de sol".
url:text Encuentra páginas con una palabra o frase específicas en la URL. Utilice url:jardín para encontrar todas las páginas de todos los servidores que tengan la palabra jardín en cualquier parte del nombre del host, la ruta, o el nombre del archivo.

Cuadro 3.3.1: Operadores booleanos, de truncación y restrictores a emplear en el buscador de Altavista.

Fuente: http://www.altavista.com/help/adv_search/syntax


Si realizamos una búsqueda uniendo dos palabras con el termino _AND_ , el buscador encuentra documentos que contienen estas dos palabras especificadas.


No

Si realizamos una búsqueda uniendo dos palabras con el termino _OR_ , el buscador encuentra documentos que contienen al menos una de las palabras especificadas.


No




OBJETIVO 4
Seleccionar los operadores booleanos y restrictores más adecuados y darles uso.

A continuación, comentaré las herramientas que considero más útiles de las listadas en la figura 3.3.2:

Como he estado insistiendo a lo largo de la unidad, las herramientas más útiles van a ser casi siempre, las que nos permitan restringir de forma importante el número de éxitos. Por ello, entre los operadores booleanos listados, considero que los más útiles, para este fin, son:

  • Operador AND. Este operador, obliga a que todos los términos que une, aparezcan en la página éxito. Por ello, es de los más restrictivos. No es necesario escribirlo en mayúsculas.
  • Operador NEAR. En este caso, no solo obliga a que los términos que une, aparezcan, sino que además han de estar a una distancia máxima de 10 palabras. Sirve para buscar términos, que deban estar relativamente cerca, por ejemplo, dentro de una misma frase. No es necesario escribirlo en mayúsculas.

Con el operador AND, se pueden hacer la mayoría de las búsquedas, indicando todas las palabras clave (o frases clave) que queramos buscar. El operador NEAR, es útil tan solo en algunas ocasiones, cuando sabemos que las palabras clave (o frases clave), han de estar en la misma frase. Cuando digo “frase clave”, me refiero a colocar varias palabras clave en un orden determinado utilizando las comillas. Por ejemplo, “david pla santamaria” AND “universidad politecnica de valencia” sería un ejemplo del operador AND, uniendo dos frases clave. Según el motor en el que practiquéis con estos operadores, es posible que sea obligatorio que se escriban en mayusculas. Por ejemplo, en Altavista, mejor escribirlos en mayúsculas.



Figura 3.3.2: Elementos de la página de búsqueda en Altavista.


Con respecto a los restrictores es más difícil elegir, ya que su especificidad los hace interesantes según qué información estemos buscando. Comentaré algunos:

  • url:. Localiza palabras clave en la URL de la página? . Es útil cuando conocemos el nombre del archivo o de algún directorio de la ruta de acceso. Ver figura 3.3.2. El restrictor url: es el caso general, pero también existe un restrictor que limita la búsqueda tan solo a una parte del URL, la dirección de la máquina o el servidor:

    • host:. Con este restrictor podemos indicar que queremos buscar la palabra clave tan solo en la dirección DNS de la máquina, por lo que podemos restringir búsquedas a servidores concretos o a una empresa determinada.

      • domain: Por último, un caso particular del host:, es limitar la búsqueda al dominio de la máquina, es decir a la última parte de la dirección de máquina. Se utiliza para limitar la búsqueda a un tipo de organización concreta o a un país.

  • title:. Permite limitar la búsqueda tan solo al título de la página. El título es lo que aparece en la barra superior de la ventana del navegador, junto con el icono del navegador y a la misma altura que los botones de minimizar, maximizar y cerrar. Este restrictor permite buscar páginas que se titulen como nosotros queramos. Es mucho más probable que la página que tenga un título relacionado con nuestro interés, contenga información relevante para nosotros.

Cuando no colocamos ningún restrictor a la palabra clave, el motor, busca la palabra en cualquier parte de la página: título, URL o cuerpo, por ello puede ofrecer éxitos, pero cuya relevancia sea marginal. No es lo mismo encontrar una página cuyo título sea, por ejemplo, “Bolsa de Madrid” con la sintaxis: “title:bolsa AND title:madrid” o ‘’ title:”bolsa de madrid” ‘’ , que encontrar una página con la sintaxis: “bolsa AND madrid”, que podría referirse a una bolsa de empleo en la comunidad de Madrid.

El resto de restrictores, aunque interesantes, son algo técnicos, permiten localizar applets de java (applet:) u objetos de programación específica (object:) en páginas web. No voy a entrar en ellos, aunque recomiendo al alumno que desarrolle alguna prueba con estos restrictores para que conozca su existencia y, en un futuro, pueda utilizarlos, si los necesita.


En este cuadro, voy a introducir algunos ejemplos de sintaxis para la búsqueda de información, utilizando las herramientas vistas en este epígrafe.

  • bolsa AND madrid. Ofrecerá los documentos web que tengan la palabra bolsa y la palabra Madrid en cualquier parte (> 200,000 éxitos? ).
  • title:bolsa AND madrid. Ofrecerá los documentos web que contengan la palabra bolsa en el título de la página y la palabra Madrid, en cualquier parte (> 17,000 éxitos).
  • “bolsa de madrid”. Ofrecerá los documentos web que contengan la frase “bolsa de madrid” en cualquier parte de la página (> 17,000 éxitos).
  • title:”bolsa de madrid”. Ofrecerá los documentos web que contengan la frase “bolsa de madrid” en el título (> 20,000 éxitos).
  • host:bolsa AND title:madrid. Ofrecerá los documentos web que contengan la palabra bolsa en la dirección de la máquina y que en el título aparezca la palabra madrid (0 éxitos).
  • host:bolsa* AND title:madrid. Ofrecerá los documentos web que contengan palabras empezadas por bolsa____ en la dirección de la máquina y que en el título aparezca la palabra madrid (453 éxitos).
  • url:bolsa AND domain:es. Ofrecerá los documentos web que contengan la palabra bolsa en alguna parte de la dirección URL y pertenezcan a una máquina española (4,953 éxitos).
  • “bolsa de madrid” AND domain:mx AND url:bolsa. Ofrecerá los documentos web que contengan la frase bolsa de madrid en cualquier parte, estén almacenados en una máquina mexicana y en alguna parte de su dirección URL aparezca la palabra bolsa (1 éxito).
  • “bolsa de madrid” AND enlace AND domain:com. Ofrecerá los documentos web que contengan la frase “bolsa de madrid” en cualquier lugar de la página, tengan la palabra enlace también en cualquier parte y finalmente pertenezcan al servidor de una empresa comercial (154 éxitos).

Pistas

Utilizar comillas (“”) junto con el restrictor url:, host: o domain:, es un error. No podemos hacer la siguiente búsqueda: host:”bolsa de madrid”. Toda la dirección URL es una sola cadena de caracteres SIN espacios en blanco, por lo que no tiene sentido utilizar comillas, cuyo principal objetivo es el introducir espacios en blanco entre palabras.

Plurales (stemming). No utilizar nunca plurales ya que el singular de una palabra está, generalmente, comprendido en su plural. Si utilizamos el singular en lugar del plural, posibilitaremos que todas las páginas donde utilicen uno de los dos términos, aparezcan. De lo contrario, únicamente resultarán éxito los plurales y posiblemente perdamos información potencialmente relevante.

Tildes y mayúsculas. Utilizarlos con precaución. Como ya sabéis, los motores, generalmente trabajan en minúsculas y sin tildes. Por tanto si introducís una palabra de esta forma, resultarán como éxitos, esa palabra y todos sus derivados (en mayúsculas, con la inicial en mayúscula, con tilde, etc.). Si la introducís con la inicial en mayúscula o con la tilde, estáis restringiendo a esa palabra concreta, con la tilde o la inicial de esa forma. En este punto hay que tener en cuenta que si la persona que ha escrito la página web que estamos buscando, ha cometido faltas de ortografía al programarla, no la encontremos.



Unir

(*)Introduzca el Orden del Concepto apropiado

Orden
Concepto
Pareja
(*)
1
Campo AND casa
>>>
Ofrecerá documentos web que tengan la palabra “campo” y la palabra “casa” en cualquier parte.
1
2
tittle:campo AND casa
>>>
Ofrecerá documentos web que contengan la palabra “campo” en el título y “casa” en cualquier parte.
2

Herramienta Traducir  
OBJETIVO 5
Aplicar la herramienta “Traducir” de Altavista cuando sea necesaria.

Cuando Altavista nos ofrece el listado de éxitos, podemos ver hacia el final de cada uno, un enlace que indica “Traducir” o “Translate”. Este enlace nos facilita el acceso a un servicio, el cual permite elegir en qué idioma queremos cargar ese éxito, de entre una lista bastante amplia (chino, francés, alemán, italiano, japonés, coreano, portugués o español).

De esta forma, si estamos interesados, podremos traducir cualquier página del inglés, al castellano.



Figura 3.4.1: Página de RecerK en español.



Figura 3.4.2: Página de RecerK traducida al inglés.


El servicio no funciona a la inversa desde la página de éxitos, es decir, no ofrece la posibilidad de traducir un éxito del inglés a otro idioma. Pero sí que podemos traducir un documento desde diversos idiomas al inglés (y a la inversa) si vamos a la página principal del servicio de traducción. Tenéis un enlace a este URL en la propia página principal de Altavista (http://www.altavista.com) bajo el menú de herramientas: “Traducir”. Las traducciones que podéis hacer utilizando este servicio se detallen en la figura 3.4.3



Figura 3.4.3: Lista de traducciones posibles en Altavista.


Otros sitios web que ofrecen servicios similares son, por ejemplo, http://www.systransoft.com (que es la empresa proveedora del servicio de Altavista) o http://www.freetranslation.com. De estos dos sites, el que ofrece un mayor servicio, en el sentido de trabajar con más idiomas es el primero: Systran. Ver figura 3.4.4.




Figura 3.4.4: Lista de posibles traducciones en Systransoft.

Fuente: http://www.systransoft.com


Para concluir este epígrafe, tan solo resaltar que, gracias a este tipo de servicios, vamos a poder leer páginas que están en diferentes idiomas. Idiomas de los que podemos tener alguna noción, o incluso idiomas de los que no sabemos nada. Ahora bien, no se puede ocultar que la traducción instantánea que ofrecen estos servicios no es de gran calidad. Si hacéis alguna prueba, e intentáis traducir entre dos idiomas que dominéis, os daréis cuenta de que la versión traducida no se ajusta a la original. Los errores más comunes son la sintaxis y el vocabulario técnico o específico. Ver figuras 3.4.1 y 3.4.2.

Este tipo de servicios, considero que es útil cuando tratamos de leer un documento en un idioma que no dominamos en absoluto, como por ejemplo (en mi caso) el alemán, holandés o ruso. Pero no puede ser sustitutivo del inglés. Aquellos de vosotros que penséis que con esta herramienta, ya no necesitáis aprender inglés, siento daros malas noticias. Como habréis podido observar en las figuras 3.4.1 y 3.4.2, la traducción del castellano al inglés deja mucho que desear y la lectura de la versión traducida de la página puede ser casi tan desconcertante como la lectura del alemán. Además, el utilizar estos servicios supone una inversión en tiempo, que muchas veces no es eficiente. El idioma de Internet es el inglés y no podemos evitarlo. Hay que aprender inglés y cuanto antes se ponga uno a ello, mejor.

Ahora bien, tal como he dicho antes, cuando la página que queremos visitar está en un idioma desconocido por completo (y no es inglés), no tenemos otro remedio que traducirla (generalmente al inglés) para poder intentar comprender lo que dice. Otra solución, que es por la que personalmente opto, es dejar esa página y buscar otra que sí que esté en castellano o inglés. Pero cuándo no hay otra salida, cuando no hay otro documento en otro idioma más afín a nosotros, entonces, y solo entonces, es cuando este tipo de servicios son recomendables.

Otra situación en la que estas herramientas son interesantes es cuando estamos intentando visualizar una página escrita con otro alfabeto, por ejemplo el japonés o el chino. En un PC de los que normalmente utilizamos en casa o en cualquier lugar de nuestro país, el ordenador trabajará con el alfabeto latino y será incapaz de mostrar una página china o japonesa (todo el documento aparece lleno de cuadraditos y símbolos extraños). Ver, por ejemplo, la figura 3.4.5. No entramos ya en si la podremos leer o no, simplemente, no la podremos ni ver… a menos que… le indiquemos al traductor que nos muestre la página traducida al inglés (o instalemos en el sistema operativo, el paquete alfabético correspondiente). En ese caso sí podremos visualizar su contenido.




Figura 3.4.5: Arriba página original en chino. Abajo la misma página traducida al español.


Configuración  

OBJETIVO 6
Editar las preferencias de Altavista a su gusto.

En la página de configuración se puede seleccionar entre diversidad de opciones para que el trabajo de Altavista se ajuste un poco más a las preferencias del usuario. La práctica totalidad de los motores de búsqueda de prestigio tienen una herramienta similar, algunos con más posibilidades, otros con menos, pero todas útiles.

En el caso que nos ocupa, analicémoslas con detalle:

  • País. Permite provocar un cierto “sesgo” en los resultados de la búsqueda hacia el contenido proveniente de un determinado país. Este servicio puede ser útil cuando, la información que estamos buscando se refiere a un país determinado. Cuando no sea así, cuando estéis buscando información general sobre un tema, sin que tenga relación con ningún país en concreto, la mejor opción es seleccionar EEUU, ya que es el país que más contenidos ofrece.

  • Lengua de los Resultados de la Búsqueda. Nos permite limitar la lengua en la que estarán redactadas las páginas éxito. Siguiendo la línea esbozada anteriormente, utilizando esta opción podéis limitar las páginas a las escritas en castellano o español, pero no filtréis las páginas en inglés. Sino, ya estaréis limitando el 70%-80% del contenido de la Red. Si, en un momento dado, necesitáis buscar información en castellano, siempre podréis utilizar la restricción por idioma que aparece en la misma página de búsqueda avanzada.

  • Filtro Familiar. Permite limitar contenido ofensivo, pornográfico, etc. en los resultados, de cualquiera de los motores de Altavista.

  • Presentación de Resultados. Permite seleccionar qué tipo de información queremos ver resumida en el listado de éxitos, entre otros datos relevantes.


    • Formato de la página de resultados. En este submenú, se nos permite resaltar la palabra clave en el resumen, cosa normalmente muy útil ya que nos facilita la identificación de nuestra palabra clave y no tenemos que leer todo el resumen para ver en qué contexto se está utilizando. También podemos elegir el número de éxitos que queremos ver en cada página de resultados (desde 10 hasta 50). En relación a esta característica, yo siempre opto por la mayor cantidad, pero también es cierto que si la conexión que tenéis es lenta, puede tardar demasiado en cargar los resultados ya que estamos hablando de una página 5 veces más grande que la de 10 resultados. Por tanto, esta decisión también depende de la velocidad de acceso que tengáis contratada con vuestro proveedor. De todas formas siempre defenderé el mayor número de éxitos porque, aunque tarde más en cargar la página, ya no necesitáis cargar 4 páginas más para ver los 50 éxitos.

Las demás herramientas que aparecen en el menú de Altavista, que son “Mapas”, “Páginas Amarillas”, “Buscador de Personas”, son servicios subcontratados a MapQuest.com y SmartPages.com por lo que no las vamos a comentar. Tan solo indicar que a través de “Mapas” se accede a una base de datos GPS de Norteamérica y Europa y permite, entre otras cosas, conocer la situación exacta de una dirección postal. Las “Páginas Amarillas” y el “Buscador de Personas” están centrados en contenido estadounidense.



Recuerda que ...  

  • Para búsquedas específicas completas y serias, el único formulario válido es el avanzado.

  • Según qué búsqueda se hace, es interesante cambiar las preferencias de resultados hacia: “España” o “Todo el Mundo”. También hacia “Todos los Idiomas” o “Inglés/Español”.

  • Tienes que conocer los operadores booleanos básicos y saber cómo introducirlos en el formulario de búsqueda avanzada. Cada motor puede tener sus particularidades. Altavista, por ejemplo exige que se introduzcan en mayúsculas.

  • Altavista es el único motor que permite el uso del booleano NEAR.


Errores más comunes  

  • Utilizar únicamente el formulario de busqueda simple.

  • No conocer la existencia de booleanos y restrictores.

  • Buscar cualquier información utilizando tan solo términos en castellano.

  • No personalizar las preferencias de un buscador al gusto del usuario.

  • Creer que una búsqueda con 200.000 éxitos es “mejor” que una con 0 éxitos.

  • Utilizar la herramienta “Traducir” (translate) para idiomas para los que tenemos nociones básicas.


Aplicación de conocimientos  

1. ¿Cuántos formularios de búsqueda te permite utilizar Altavista? RESPUESTA

2. ¿Cómo se denomina cada uno e ellos? RESPUESTA

3. ¿Qué diferencia existe entre el mirror de Altavista en Los Angeles y el de Madrid? RESPUESTA

4. ¿Cuáles son los restrictores que pueden ser utilizados en el formulario básico de Altavista? RESPUESTA

5. ¿Cuáles son los restrictores del formulario avanzado que más disminuyen el número de resultados o éxitos? RESPUESTA

6. ¿Cuándo es útil la herramienta “Traducir” de Altavista? RESPUESTA

7. ¿Para qué sirven las Preferencias en un motor de búsqueda? RESPUESTA

[Imprimir el Cuestrionario Resuelto]


Taller  

El ejercicio para asentar los conocimientos adquiridos durante este capítulo solo puede ser uno: empezar a trabajar con Altavista e ir familiarizándose con su funcionamiento. Os propongo, por tanto, un ejercicio de búsqueda. Localizad cuántas universidades hay en Liverpool (UK) y averiguad cuántos alumnos tiene cada una de ellas. Una vez hecho esto intentad localizar la página web del servicio de intercambio de estudiantes y explorad la posibilidad de organizar por vosotros mismos un intercambio entre la UPV y la universidad que encontréis.

Muchos estudiantes universitarios españoles se quejan de que no pueden hacer intercambios con universidades de Gran Bretaña o Irlanda y que han de conformarse con países donde se habla inglés, pero no es la lengua materna. En mi opinión, este problema tiene una solución relativamente fácil: que los propios estudiantes consigan por si mismos una plaza en la universidad de su elección. Hoy en día, esta labor no es algo complicado, utilizando los medios que Internet nos ofrece. Es posible que si nos dirigimos directamente a la oficina de admisiones internacionales nos nieguen el acceso aludiendo a que ellos tratan con sus “iguales” en otras universidades concertadas (cosa que dudo), pero… esa no es la única vía. ¿Porqué no conseguir que un alumno de la universidad donde queramos ir, nos gestione todos los trámites necesarios para obtener una plaza? Actuando de esta forma, es todavía más difícil que la universidad de destino se niegue a aceptarnos ya que es alguien de “dentro” el que está haciendo las gestiones. Este ejercicio tiene como objetivo que exploréis esta posibilidad. Obviamente, lo de Liverpool es un ejemplo, buscad la universidad que más os atraiga. Pensad en ello.

¿Cómo vamos de inglés? … Otra posibilidad de ejercicio para este capítulo es que leáis con detenimiento un informe sobre las bondades y problemas de Altavista, preparado por Greg Notess, uno de los gurús del área que nos ocupa. La URL de este informe:

http://www.searchengineshowdown.com/features/av/review.html


Bibliografía  

La mayor parte de los contenidos de este capítulo pueden ampliarse en el propio site de Altavista: http://www.altavista.com. Os indico también un libro relativo a Altavista, aunque es un poco antiguo.

Seltzer, R., Ray, E.J., Ray, D.S. (1996) The AltaVista Search Revolution: How to Find Anything on the Internet. McGraw-Hill.


Referencias  

http://www.altavista.com

http://www.systransoft.com

http://www.freetranslation.com

http://www.searchengineshowdown.com/features/av/review.html


Glosario  

( )
El paréntesis en un buscador se utiliza para agrupar las expresiones booleanas complejas.


*
El asterisco en un buscador se utiliza como operador booleano. Es un comodín que puede sustituir a cualquier secuencia de letras.


Anchor
Dentro de la búsqueda booleana de Altavista, anchor es un restrictor. Encuentra páginas que contengan cierta palabra o frase especificada en el texto de un hipervínculo.


AND
Palabra que significa unión, y que utilizada en Altavista, encuentra documentos que contienen todas las palabras especificadas y unidas por este término.


AND NOT
Palabra que significa exclusión, y que utilizada en Altavista excluye los documentos que contienen la palabra o frase especificada.


Applet
Dentro de la búsqueda booleana de Altavista, applet es un restrictor. Encuentra páginas que contienen un applet de Java especificado.


Buscador de Personas
Servicio subcontratado a otra empresa por Altavista y que puede ser utilizado por el usuario como una herramienta más.


Búsqueda Avanzada
Opción presente en todos los buscadores. Es un formulario que incorpora todas las capacidades de restricción que Altavista pone a disposición de sus usuarios.


Búsqueda booleana
Es una de las herramientas que ofrece la búsqueda avanzada, y es lo mejor de ésta búsqueda avanzada, ya que dispone de una gran cantidad de operadores y restrictores.


Búsqueda por Dirección
Si se quiere buscar directamente en una dirección, en el apartado de búsqueda avanzada , en Ubicación, dentro de la celda URL , se indicaría la dirección.


Comillas
Las comillas, en un buscador como Altavista se utilizan para delimitar una frase. Indica al buscador que nos ha de localizar esa frase en concreto, con las palabras en el mismo orden en las que se han escrito.


Cualquiera de estas palabras
Opción de búsqueda que buscará documentos con cualquiera de las palabras especificadas.


Domain
Dentro de la búsqueda booleana de Altavista, domain es un restrictor. Encuentra páginas dentro del dominio especificado.


Esta secuencia exacta
Opción de búsqueda que buscará documentos todas las palabras especificadas y en el orden que se ha indicado.


Filtro familiar
Se puede configurar la página del buscador con este filtro, que permite limitar contenido ofensivo, pornográfico, etc en los resultados de las búsquedas.


Formato de la página de resultados
Es una forma de configurar la pagina del buscador, que lo que permite es resaltar la palabra clave en el resumen de información que se ha seleccionado anteriormente mediante la opción de “presentación de resultados”


Frases clave
Aquella frase que se indica al buscador que debe buscar, encerrada entre comillas para que busque las palabras en el orden que le indicamos.


Herramienta mostrar
herramienta de la búsqueda avanzada que permite limitar el número de éxitos que provengan de un mismo sitio o servidor web.


Herramienta traducir
herramienta que permite elegir en que idioma queremos cargar un éxito, de entre una lista bastante amplia.


Host
Dentro de la búsqueda booleana de Altavista, host es un restrictor. Encuentra páginas en un ordenador específico.


Image
Dentro de la búsqueda booleana de Altavista, image es un restrictor. Encuentra páginas con imágenes que tienen un nombre de archivo específico.


Lengua de los resultados de la búsqueda
Herramienta que se utiliza para configura el buscador, y que permite limitar la lengua en la que estarán redactadas las páginas éxito.


Like
Dentro de la búsqueda booleana de Altavista, like es un restrictor. Encuentra páginas similares o relacionadas con una URL especificada.


Link
Dentro de la búsqueda booleana de Altavista, link es un restrictor. Encuentra páginas con un vínculo a una página con el texto de URL especificado.


Mirror
Un mirror es un índice que tienen el buscador a parte de la central situada en los Angeles. Su contenido esta sesgado a propósito de páginas del país en el que este situado.


Near
Al unir varias palabras o frases con este termino, el buscador encuentra documentos que contienen estas palabras o frases a una distancia máxima de 10 palabras.


Ninguna de estas palabras
Restrictor que se utiliza para realizar una búsqueda, y que excluye de los éxitos aquellos documentos que contengan las palabras aquí especificadas.


Object
Dentro de la búsqueda booleana de Altavista, object es un restrictor. Encuentra páginas que contienen un objeto especificado creado por otro programa.


Objetivo de toda Búsqueda
El objetivo de toda búsqueda es minimizar el numero de resultados hasta conseguir una cantidad de éxitos humanamente aceptable, de forma que puedan ser estudiados de forma eficaz.


Operadores booleanos
son una serie de expresiones que se utilizan para facilitar la búsqueda, y que permiten buscar documentos con dos palabras, con una palabra pero que no contenga alguna otra, buscar documentos donde aparezcan palabras de las que solo conocemos un parte, buscar documentos que contengan palabras muy junta entre si…


Or
Expresión que se utiliza para unir varias palabras o frases, y que sirve para que el buscador encuentre documentos que contengan al menos una de las palabras o frases especificadas.


Paginas Amarillas
Es una herramienta de la que dispone altavista y cuyo servicio es subcontratado a otras páginas web.


País
Al configurar el buscador se puede realizar un sesgo en los resultados de la búsqueda hacia el contenido proveniente de un cierto país. Esto se hace mediante ésta herramienta.


Preferencias
Es un motor de búsqueda que permite limitar los resultados, seleccionando entre diversas opciones, para que el trabajo del buscador se adapte a lo que el usuario prefiere.


Presentación de resultados
Permite seleccionar qué tipo de información queremos ver resumida en el listado de éxitos.


Restricción por fechas
Se pueden restringir los éxitos a aquellos documentos que se actualizaron por ultima vez en el rango de fechas indicado.


Restrictores
Herramientas que permiten limitar los éxitos de las búsquedas realizadas a lo que realmente interesa al usuario.


Text
Dentro de la búsqueda booleana de Altavista, text es un restrictor. Encuentra páginas que contienen el texto especificado en cualquier parte de la página excepto las etiquetas de imagen, los vínculos…


Titles
Dentro de la búsqueda booleana de Altavista, title es un restrictor. Encuentra páginas que contienen la palabra o frase especificada en la barra de título de la mayor parte de los navegadores.


Tipo de archivo
Con esta herramienta se puede limitar el tipo de documento que queremos encontrar: .doc, .xls, .html….


Tildes
Al escribir las tildes de las palabras que estamos buscando, la búsqueda se restringe a únicamente los documentos en los que la palabra lleva tilde. En cambio, si no se pone, se busca esa palabra con o sin tilde, con lo que el numero de éxitos es mayor.


url
Encuentra páginas con una palabra o frase específicas en la URL




Generado con H.A.U.P.A.© 2001-2002 UPA
Cursos on-line Universidad Politécnica Abierta