Localización de Información Específica en Internet. 1ª Parte. La Web

4.- Motores de Búsqueda Web  
Esquema  

IntroducciónClasificación de los motores de búsqueda en el web  IntroducciónBuscadoresDirectoriosBuscadores HíbridosMetabuscadoresAplicación PrácticaIntroducciónEstrategia 1: ¡Adivina!Estrategia 2: DirectoriosGlosarioReferenciasBibliografíaEPOTallerAplicación de conocimientosErrores más comunesRecuerda que ...Las Palabras Clave o KeywordsRankingSelección del Formato de la Página de ÉxitosSelección de IdiomaOtros criterios útiles para seleccionar un motorAbrir Resultados en una Nueva VentanaSelección del Número de Éxitos por PáginaFiltros de Contenido Revisión de OrtografíaReconocimiento de Keywords o Palabras ClaveIntroducciónIntroducción¡El tamaño NO es (tan) importante!¿Qué hace que un motor de búsqueda sea mejor que otro?Ordenación de los éxitos después de la búsquedaCriterios para la construcción del Índice de ReferenciaTamaño del Índice de ReferenciaEstrategia 3: BuscadoresInformación no incluidaEstrategias básicas para localizar información en el Web
Objetivos de la Unidad Pedagógica  

Después de estudiar esta unidad, el alumno deberá ser capaz de:

  1. Distinguir un motor de búsqueda según su tipología.
  2. Saber utilizar y aplicar las tres estrategias básicas de búsqueda.
  3. Elegir o descartar un determinado motor de búsqueda en función de si ofrecen o no algunas herramientas que facilitan las búsquedas.

Introducción  

Visto en la práctica cómo funciona un determinado motor de búsqueda y sus posibilidades, ahora vamos a profundizar en diversas características que definen y diferencian los motores, así como las formas de buscar información.


"Aquel que ama la práctica sin teoría es como el navegante que comanda un barco sin timón ni brújula y nunca sabe adónde puede dirigirse."

"He who loves practice without theory is like the sailor who boards ship without a rudder and compass and never knows where he may cast."

Leonardo Da Vinci, 1452-1519, Artista.

BrainyQuote.com


Aunque no lo parezca, la búsqueda de información en Internet tiene un componente estratégico muy importante. A medida que uno va adquiriendo más destreza en este campo se va dando cuenta de la importancia de este componente básico. A lo largo de lo que resta de curso, iremos viendo distintas recomendaciones estratégicas que pueden ser utilizadas a la hora de programar una búsqueda. Esta unidad sirve de introducción en este sentido. Además, también mostraremos un conjunto de útiles “herramientas” que algunos motores ofrecen a través de su interfaz para facilitar al usuario la localización de “su” información relevante.


Clasificación de los motores de búsqueda en el web  
Introducción  

A la hora de ponernos a buscar información en el Web, podemos elegir entre tres tipos de herramientas principales. Veamos las características generales de cada una de ellas:


Buscadores  

OBJETIVO 1
Distinguir un motor de búsqueda según su tipología.

Los buscadores son los motores de búsqueda más conocidos. Son enormes bases de datos que pueden alcanzar los 4,000 millones de documentos?. Por otra parte, la selección de estos documentos para ser incluidos en la base de datos o índice del Web, la hacen unos programas que trabajan 24 horas al día, 7 días a la semana.

Estos programas denominados crawlers o spiders tienen como misión el ir visitando páginas web y seleccionando aquellas que deben incorporarse a la base de datos del buscador, siempre que cumplan con unos mínimos especificados por el propio spider. Los spiders van saltando de página en página siguiendo los hiperenlaces.

Los buscadores se tratarán con detalle en la unidad 6.


El spider es un programa que se encarga seleccionar las páginas web que deben ser incluidas en la base de datos del buscador.
Verdadero

Falso

Directorios  

Estas herramientas, en ocasiones, se confunden con los buscadores. ¿Sabíais que Yahoo no es un buscador, sino un Directorio?(hasta febrero de 2004)? Un directorio es otra base de datos, al igual que un buscador, pero se diferencia de un buscador en tres puntos principalmente:

  • Sistema de selección de las páginas que entran a indexarse en la base de datos. La selección de los documentos web que se indexan en un directorio no se pone en manos de un spider como en los buscadores. En este caso, la selección la hace un equipo de personas, que trata de crear una base de datos diversificada. El mismo equipo de personas introduce una pequeña descripción del contenido del documento, de forma que el usuario del directorio pueda contar con un pequeño resumen "independiente y objetivo". Debido a este extremo, la calidad de la información disponible a través de un directorio se supone mayor.

    Hablar de Calidad de Información siempre es abstracto. Cuando decimos que los directorios ofrecen una mayor calidad de información, ¿a qué nos referimos?

    Los requisitos básicos para definir "buena información" son:

    • Objetividad. Que la información se presente libre de propaganda o desinformación.
    • Completa. Que la información sea total, no una foto parcial del tema.
    • Plural. Que se comuniquen todos los aspectos del tema, que no se restrinjan a un determinado punto de vista (por ejemplo, la censura)?.

    En general, los resúmenes que los editores hacen de cada una de las páginas que forman el directorio, intentan seguir estos tres principios.

    Por otra parte, otro tipo de calidad que también tienen en cuenta es la de los enlaces (que funcionen), la velocidad de actualización, etc.

  • Tamaño. Es lógico pensar que el equipo de personas que mantienen vivo y en crecimiento un directorio, no puede trabajar al ritmo de un spider (24 horas / 7 días). Esta es la razón por la que el tamaño de la base de datos de un directorio es muy inferior a la de un buscador.
  • Organización. Todo el contenido de un directorio está ordenado y agrupado en lo que se denominan subjects o categorías. Todos y cada uno de los documentos que se incorporan a un directorio, se adscriben a una determinada categoría. Las categorías son subconjuntos del directorio que intentan agrupar páginas en función de su contenido, para facilitar su localización.

Los directorios se estudiarán en la unidad 7.


Seleccionar aquella ó aquellas características propias de los Directorios:
La selección de los documentos se pone en manos de un spider.

LA información que se considera buena ha de ser objetiva, completa y plural.
Respuesta correcta pero incompleta.

La selección de los documentos se pone en manos de un equipo de personas que crea una base de datos diversificada.
Respuesta correcta pero incompleta.

Su tamaño es superior al de un buscador.

La 2 y la 4.
Solo la 2 es válida.

La 2 y la 3.

Buscadores Híbridos  

Hoy en día, gran cantidad de buscadores y directorios se han convertido en motores híbridos. Es decir, a través de su interfaz, permiten la utilización de un buscador o de un directorio indiferentemente. Este movimiento ha sido, básicamente, una respuesta a la demanda de los usuarios. Ejemplos de motores que actúan de esta forma son:

  • Google: http://www.google.com / http://directory.google.com
  • Altavista: http://www.altavista.com / http://www.altavista.com/dir/default
  • MSN Search: http://search.msn.com / (ambos en la misma página)


  • Metabuscadores  

    Estas herramientas no construyen una base de datos. No cuentan con un spider ni con un equipo de gente que va seleccionando los documentos. Estas herramientas utilizan las bases de datos creadas por otros motores de búsqueda. Así pues, los metabuscadores proporcionan páginas y documentos recopilados por spiders y personas. Otra característica básica de los metabuscadores es que permiten, al usuario, seleccionar qué motores de búsqueda quiere utilizar.

    Los metabuscadores se analizarán en la unidad 8.


    Por último, y como una última clasificación marginal, estarían los "motores de búsqueda con operativas especiales". Estos motores se incorporarían en alguno de los anteriores grupos pero, al contar con un procedimiento distinto de lo habitual a la hora de desarrollar las búsquedas, se pueden considerar en un quinto grupo de "operativa especial".

    Este quinto grupo lo comentaremos también en ella unidad 8.


    Caso Estudio  

    Cómo Funcionan los Motores de Búsqueda

    Cuando escribimos unas palabras clave en un buscador y apretamos el botón "Buscar" ... ¿qué ocurre? ¿Creéis que las palabras clave "se van por Internet" a buscar páginas que las contengan? ¡Lógicamente no!

    En realidad, cuando nosotros introducimos una o varias palabras clave en la casilla adecuada de un motor de búsqueda y presionamos el botón "Buscar" las palabras se remiten a una base de datos situada en uno o varios servidores (uno o varios ordenadores) que generalmente están situados en un mismo lugar geográfico. Por ejemplo, las máquinas de Google están situadas en California y las de Alltheweb están en Noruega. Cuando los términos llegan a estos servidores, activan la base de datos para que busque aquellos documentos que los contengan. Esta búsqueda ofrecerá como resultado un número más o menos grande de éxitos, es decir, documentos web que contienen los términos clave especificados, por ejemplo 1,564. El siguiente paso, es su ordenación. El mismo servidor, utilizando algún tipo de algoritmo, decide cuál de los 1,564 resultados es el más relevante, cuál el segundo en importancia y así sucesivamente. Una vez resuelta la ordenación, ese listado se nos remite a nuestro navegador en pequeñas dosis de 10 en 10 éxitos (esta cantidad puede variar).

    Veamos ahora un pequeño ejercicio que trata de demostrar y aclarar las explicaciones de este punto:

    • Abrid vuestro navegador y dirigíos a la página principal de Google (http://www.google.com)
    • Buscad el siguiente texto (sin las comillas): "cache:nacion.com".
    • Veréis como lo que Google os abre es la página de un periódico Costarricense, pero ¡fijaos en la fecha! Veréis que es de dos o tres meses atrás.
    • Ahora visitad la página web del propio periódico: http://www.nacion.com. Veréis como la página es la del día que la visitáis, no uno anterior.

    ¿Qué ha pasado? El restrictor cache: de Google permite ver la página que su spider seleccionó y almacenó en su base de datos. Así pues, la página antigua es la que Google tiene en su base de datos y es la que podremos encontrar si hacemos una búsqueda en su motor. Pero desde que el spider de Google "pasó" por nacion.com ha transcurrido ya un tiempo y, por tanto, la información ha cambiado (página actual de nacion.com), pero Google no lo sabe.

    Si extraéis una frase clave larga (es decir, copiáis una frase de 8 o 12 palabras y la ponéis entre comillas) de la página actual de nacion.com y las introducimos en una búsqueda en Google, veréis como no encontráis la página de donde lo habéis copiado. La razón, como ya os he comentado, está en que Google no tiene indexada la página actual sino la antigua. Si hacéis la misma operación copiando una frase clave larga de la página antigua, sí que la encontraréis.

    Esto demuestra, que las palabras clave que introducís en una búsqueda no "se van por Internet" a buscar éxitos, sino que buscan en una base de datos que previamente se ha creado con unos criterios definidos y que tiene un tamaño limitado aunque grande.


    Estrategias básicas para localizar información en el Web  
    Introducción  

    OBJETIVO 2
    Saber utilizar y aplicar las tres estrategias básicas de búsqueda.

    En este punto se tratarán las tres estrategias básicas que deben utilizarse para buscar información en el Web?. Las tres son complementarias y el inclinarse por una u otra depende, en cada caso, de la información que queramos obtener, así como de los datos de que dispongamos para hacer la búsqueda.


    Estrategia 1: ¡Adivina!  

    En primer lugar está la "adivinación". Esta estrategia es mucho más efectiva de lo que muchos pueden pensar. Ahora bien, es útil tan solo en unos casos muy concretos.

    Cuando utilizar esta estrategia:

    Para encontrar la página principal de una institución o una organización.

    Las siguientes indicaciones pueden ayudar:

    1. Olvidar el http://, ya que los navegadores ya escribirán por defecto esta parte de la dirección URL.

    2. Probar el típico www al inicio de la dirección de la máquina. Las tres uves dobles aparecen en muchas ocasiones como inicio de la dirección DNS del servidor web, pero no siempre se utilizan. Por tanto aquí tendríamos dos posibilidades, con www y sin www.

    3. A continuación, añadiríamos el nombre, acrónimo o nombre abreviado de la institución u organización que queremos localizar como centro de la dirección DNS de la máquina o servidor web.

      • Escribiríamos (por ejemplo, si quisiéramos ver la web de la Biblioteca Nacional de España):

      En este punto habría que pensar un poco en cuál puede ser el nombre que la empresa habrá seleccionado para asignar a su sitio web. De todas formas no es en absoluto complicado. Aquí tenéis algunos ejemplos: Universidad Politécnica de Valencia = upv, Honda = honda, Banco Bilbao Vizcaya Argentaria = bbva, Telefónica Móviles = telefonicamoviles. (Recordad que nunca pueden haber espacios en blanco en una URL)

    4. Finalmente habría que añadir el dominio de la dirección, como por ejemplo los genéricos: .com, .net, .org; los propios de EEUU: .mil, .gov, .edu, etc.; o el que corresponda con el país donde la institución u organización tenga su sede oficial: .es, .fr, .it, .jp, .uk, etc.

      La elección del dominio a "probar", indiscutiblemente tiene relación con el tipo de empresa al que se refiere. Como ya vimos en el Capítulo 1, el .com es para empresas comerciales, por lo que en nuestro ejemplo no tendría sentido. Tampoco es una empresa de informática o de Internet, por lo que el .net, tampoco es muy probable. Tan solo habría dos posibilidades: .org ó .es. Así pues,

      Finalmente tendríamos tan solo cuatro posibilidades, las cuales pueden ser testadas en unos pocos segundos. La que sea válida, se reconocerá enseguida, por el contenido de la página que se nos abra.


    Estrategia 2: Directorios  

    Buscar documentos en una base de datos construida por un equipo de editores mejora la calidad de la información de los documentos que pueden encontrarse ... si se encuentra algo. Ya se han comentado los pros y contras de los directorios, es decir calidad vs. cantidad o tamaño. Por tanto, en función del tipo de información que estemos buscando, es posible que sea recomendable utilizar un directorio.

    Los directorios son útiles para tópicos como:

    • Tópicos generales
    • Eventos de actualidad
    • Productos comerciales
    • Direcciones de organizaciones
    • Sites que se actualicen periódicamente y/o cuyos enlaces funcionen adecuadamente
    • Páginas principales (home pages)

    En ellos, el usuario puede elegir cómo lleva a cabo la búsqueda. Puede utilizarlos navegando por las categorías o buscando mediante palabras clave. Algunos incorporan ratings de las páginas web almacenadas. El tamaño que alcanza actualmente uno de los directorios más grandes, supera los 4 millones de documentos.

    Una de las principales ventajas de los buscadores es precisamente el corto número de documentos. Como sabéis “el Objetivo de Toda Búsqueda? es obtener pocos éxitos relevantes”. Los directorios facilitan la parte de los “pocos éxitos” ya que son mucho más pequeños que los buscadores, pero además, al estar seleccionados por expertos, parten con la “presunción” de mayor calidad. Cuando hablamos de “mayor calidad” también nos estamos refiriendo a la mayor o menor credibilidad de la información que aparece en la página. Hasta cierto punto, la credibilidad puede ser uno de los criterios que pueden utilizar los editores de los directorios. Desde luego, no es una opción a poder tener en cuenta por el spider de un buscador.

    La tercera ventaja es que están ordenados, cosa que no ocurre con los buscadores. Los documentos, en los directorios, están organizados por categorías y podemos navegar por estas para localizar páginas similares o relacionadas entre ellas. Con los buscadores, esto es más difícil.


    Estrategia 3: Buscadores  

    La tercera estrategia básica reside en utilizar los índices más grandes: los buscadores. Como ya hemos indicado, estos índices incorporan gran cantidad de documentos, superando los 4,000 millones, pero con un sistema de filtro de mucha menor calidad que los directorios. Incluso en alguna ocasión se han detectado millones de documentos repetidos dentro de la misma base de datos, con lo que se falsea el tamaño y se engaña al usuario?. La búsqueda en una base de datos de tan gran cantidad de documentos no es sencilla. Al ser tan grande, la introducción de palabras clave, en ocasiones, no es suficiente para alcanzar el Objetivo de Toda Búsqueda?: obtener un número de éxitos "humanamente aceptable". Por ello, en los interfaces de los buscadores se ofrecen una gran cantidad de restrictores y operadores para limitar los éxitos al máximo. Ejemplos de estos restrictores se vieron en la unidad 3 Altavista.

    En general, estos motores son útiles para:

    • Combinaciones de palabras clave.
    • Limitaciones de palabras claves en campos (restrictores).
    • Páginas enterradas profundamente en un site.
    • Temas muy específicos o concretos.


    Si se realiza una búsqueda mediante DIRECTORIO, los resultado encontrados serán de un número menor que con un buscador, de mayor calidad y mayor credibilidad y mejor ordenación.
    Verdadero.

    Falso.

    Información NO incluida  

    Sea cual sea la estrategia seguida para localizar información en el Web, hay que ser consciente de que no lo vamos a poder encontrar todo. Hay gran cantidad de datos que no son accesibles a través de ningún motor de búsqueda, ya sean directorios, buscadores o metabuscadores. Veamos con detalle qué tipo de información no podréis encontrar en ningún caso:

    • Contenidos de sites que requieran una contraseña. Seguro que durante vuestra navegación por la Web, os habéis encontrado con alguna página web que ofrece información de libre acceso y gratuita, pero que exige que os deis de alta, introduciendo vuestros datos para poder acceder a ella. En muchas ocasiones, los datos que introducimos son falsos, pero de todos modos hay que indicarlos para que el servicio nos dé de alta y nos asigne un nombre de usuario (user name) y una contraseña (password). A partir de ese momento y utilizando estas dos palabras clave, podemos disfrutar de toda la información que el site ofrece gratuitamente a sus usuarios.
      El problema reside en que el spider, que va indexando el contenido en las bases de datos de los buscadores, no sabe rellenar el formulario de datos y no puede obtener un usuario y una contraseña para acceder a toda esa información disponible y incluirla en su base de datos.
      Por su parte, los directorios tampoco la incorporan porque no suelen profundizar demasiado en el interior de los sites. Además, si la incorporaran, el usuario no podría acceder a la información si antes no se hubiera dado de alta, por lo que desde la base de datos del directorio tampoco se podría saltar a la página donde estuviera disponible la información, sin antes darse de alta en el site en cuestión.
      Así pues, en general, de toda esta información públicamente accesible, lo único que podemos encontrar, son las páginas principales; aquellas en las que se informa en términos más genéricos sobre qué podemos encontrar dentro de ese site y cómo darse de alta.
      Un ejemplo de este tipo de site es el portal: http://www.universia.es
    • Datos obtenidos mediante un formulario. CGI output (.asp). Otro problema reside en los sites que disponen de la información almacenada en una base de datos del tipo asp. Este novedoso sistema de ofrecer información al público, y que está teniendo un crecimiento imparable en los últimos años, sufre del mismo problema que el anterior ítem. En este caso, no existen páginas web sino que hay tan solo un marco vacío que va rellenándose de información en función de las palabras clave que los usuarios van introduciendo en un formulario. Es un sistema de "información por demanda". En el momento en que el usuario rellena el formulario con su petición de información, el site rellena el marco con los datos que ha pedido el usuario y construye una página web ad-hoc. Esta página web desaparecerá en el momento en que el usuario cierre la ventana del navegador.
      Los spiders no saben qué información pedir a la base de datos, en definitiva no saben rellenar el formulario, por lo que no pueden extraer información desde estas bases de datos.
      Por ello, todos los datos disponibles en estas bases de datos asp, no se pueden encontrar a través de los motores de búsqueda. Tan solo podríamos encontrar las páginas principales donde se explica y presenta el servicio, pero no el contenido de las bases de datos.
      Un ejemplo de este tipo de site es la base de datos de los cursos de postgrado ofrecidos por la UPV: http://www.cfp.upv.es/oferta/index.html?z=x
      Hay una excepción. Una búsqueda en una asp se puede traducir a una dirección URL (aunque muy larga y con una estructura irregular), y esta dirección URL que hace referencia a una búsqueda en una base de datos asp puede colocarse como un hiperenlace en cualquier página web. En caso de que ese hiperenlace se encuentre en alguna página web, el spider sí puede seguirlo e indexar el contenido de esa información. Desgraciadamente este caso es lo dicho: una excepción.
      Un ejemplo de una base de datos en asp que utiliza direcciones largas como las indicadas en la de http://www.amazon.com. Y dentro de este site, el DVD de Animatrix tiene la siguiente dirección: http://www.amazon.com/exec/obidos/tg/detail/-/B00008LDPU/qid=1053675938/sr=8-2/ref=sr_8_2/002-2311149-6336855?v=glance&s=dvd&n=507846
    • Intranets o Páginas sin enlaces desde ningún sitio. Aunque se puede pensar que poco "profesionales" hay un alto número de páginas que, por una razón u otra, no están enlazadas desde ningún lugar. Como los spiders van visitando páginas saltando de enlace en enlace, nunca podrán encontrar e indexar estas páginas. Los directorios, tres cuartos de lo mismo. Si no pueden localizar la página para analizarla, no pueden estudiarla e incluirla, si llegara el caso.
    • Sites que utilizan robots.txt para mantenerse fuera de los índices. Por diversas razones, hay sites que no les interesa que su información pueda localizarse por el público global a través de los motores. Estos sites utilizan unos programas que expulsan a los spiders cuando éstos aparecen.
    • Recursos no web. Los motores tan solo incorporan documentos web. La Web, aunque es la subred más grande de Internet, no es la única. Hay gran cantidad de información y datos disponibles públicamente a través de otro tipo de redes. Toda esta información no está disponible a través de los motores web.Todas estas redes paralelas y cómo encontrar información en ellas, se tratará en cursos posteriores: “Localización de Información Específica en Internet”.
    • Formatos específicos. Hemos dicho que los motores de búsqueda indexan "documentos web". ¿Qué son documentos web? Pocos años atrás, no se hacía referencia a documentos web sino a páginas web, y las bases de datos de los motores de búsqueda incorporaban páginas web (extensiones .htm y .html). Pero poco a poco, al ir creciendo la Web, se han ido incorporando muchos otros formatos muy utilizados por los usuarios de Internet o simplemente de un PC, como por ejemplo .doc (documentos del procesador de textos Word de Microsoft), .xls (archivos de hoja de cálculo de Excel de Microsoft), .ppt (documentos de diapositivas de PowerPoint de Microsoft), .rtf (archivo de texto enriquecido), .ps (archivo de Adobe Postscript) y sobre todo .pdf (documento de Adobe Acrobat).
      Cuando ahora se habla de documento web, se hace referencia a un archivo de cualquiera de los formatos aludidos en el párrafo anterior. Pero no todos los motores de búsqueda permiten localizar todos estos tipos de documentos. Dependiendo de qué motor de búsqueda utilicemos podremos localizarlos o no.

    Además el número de documentos de estos tipos que se incorporan es mínimo comparado con el número de páginas web.


    Toda la información que deseemos obtener, está disponible mediante buscadores o directorios:
    Verdadero.

    Falso.

    ¿Qué hace que un motor de búsqueda sea mejor que otro?  
    Introducción  

    OBJETIVO 3
    Elegir o descartar un determinado motor de búsqueda en función de si ofrecen o no algunas herramientas que facilitan las búsquedas.

    A la hora de diferenciar entre las diversas herramientas de que disponemos para buscar información en la Web, cabe destacar tres características que van a definir la mayor o menor calidad de la respuesta del motor a nuestras búsquedas. A continuación se comenta cada una de ellas.


    Tamaño del Índice de Referencia  

    Hay una tendencia generalizada a pensar que cuanto más grande sea el motor en el que se lancen las búsquedas, mejores resultados se pueden encontrar. ¡Nada más lejos de la realidad! La única ventaja de un índice grande es que va a incorporar más información sobre más temas y es posible, que de esta forma, incremente la probabilidad de encontrar el tema que nosotros necesitamos, pero en absoluto nos asegura este extremo. La primera desventaja reside en que, cuanta más información hay, más hay que filtrar, por lo que nos vemos obligados a introducir más palabras clave que acoten mejor la búsqueda. En definitiva, un índice grande tiene sus ventajas y sus desventajas.

    En mi opinión, en general las ventajas superan las desventajas pero no a cualquier precio. Hay que tener en cuenta que es fácil encontrar motores o bases de datos más pequeñas que se ajusten mucho más a nuestras necesidades de información y que pueden proporcionarnos más éxitos relevantes que un motor gigante.

    Ahora, el alumno debe estar preguntándose: ¿Cómo puede ser que un motor de búsqueda con una base de datos mucho más pequeña pueda contener documentos web más ajustados a mis necesidades? Veamos la segunda característica diferenciadora:


    Criterios para la construcción del Índice de Referencia  

    Tanto los spiders como los equipos de editores de los directorios siguen unos criterios más o menos flexibles a la hora de decidir la incorporación de un documento web a su base de datos. ¡Ahí es donde está la clave! En esos criterios se puede definir cualquier cosa. Se puede hacer que la base de datos se especialice en un determinado tema o que busque un poco de cada cosa. Se puede hacer que se centre en documentos científicos o de divulgación. Se puede conseguir que incorpore únicamente información con menos de 24 horas de antigüedad. Se puede hacer de todo.

    De esta forma, si lo que nos interesa es, por ejemplo, la investigación científica, podemos buscar motores, portales verticales o webs especializados que se centren en esta temática. Por lo que no es de extrañar que en ellos encontremos más información científica que la disponible en uno de los grandes motores.

    Un motor especializado en un tema que sea por ejemplo 40 veces más pequeño que Google, todavía tendría un tamaño de 100 millones de documentos… seguro que ni Google, ni Yahoo, ni ninguno de los grandes motores de búsqueda tiene una base de datos de información financiera de 100 millones de documentos web. ¡Es lógico, los grandes han de "contentar" a todos los usuarios, no solo a los interesados en un determinado tema!


    Ordenación de los éxitos después de la búsqueda  

    En tercer lugar una característica que muchas veces se pasa por alto. Cuando el motor recibe nuestra petición de información y encuentra, pongamos, 76 documentos que contienen todas nuestras palabras clave, se ve en la imposibilidad de mostrárnoslas todas a la vez, porque no lo entenderíamos. El mismo motor ha de decidir cuál de los 76 documentos es el mejor y cuál el peor, aunque, en principio todos son igual de buenos ya que cumplen con los requisitos que nosotros le habíamos exigido. En este punto, un algoritmo se pone en marcha y, teniendo en cuenta diversos criterios, asigna una puntuación a cada uno de los 76 documentos. Posteriormente, nos presentará los documentos empezando por el que ha obtenido una puntuación más alta, siguiendo por el que haya quedado en segundo lugar y así.

    El problema es que nosotros no podemos controlar ese algoritmo de ordenación. El criterio de "relevancia" que utiliza cada motor es privado y no elegible por el usuario?. Además, se guarda bastante secreto con respecto a cómo funciona el algoritmo de ordenación. La cuestión aquí es: ¿Puede el motor de búsqueda saber qué es lo que estamos buscando? En realidad, las 76 páginas que ha localizado son óptimas según lo que le hemos indicado, no hay "mejores" ni "peores", todas cumplen nuestros requisitos. El motor no puede saber cuál de las 76 páginas es justo la que nos interesa, él nos hace una ordenación tentativa según sus criterios pero, es muy complicado que esos criterios coincidan con los nuestros, al menos de forma consistente.

    En definitiva, según sea el algoritmo de ordenación de éxitos, puede que encontremos entre los primeros resultados los que nos interesan o puede que no. Pero no lo podemos saber. Hay motores que tienen algoritmos de ordenación que son más afines a los gustos de unos determinados usuarios y otros motores cuyos algoritmos gustan más a otras personas. En este punto, solo podemos probar distintos motores y ver cuál nos presenta los éxitos relevantes, según nuestro propio punto de vista, más cerca de la primera posición.


    ¡El tamaño NO es (tan) importante!  

    Con las explicaciones del anterior epígrafe se elimina uno de los mayores bulos o leyendas urbanas que rondan por la Red y fuera de la Red y que está relacionada con que un motor es mejor cuanto más grande es su índice de referencia. Hemos visto que el tamaño es una de las tres grandes características a tener en cuenta, pero si solo tenemos en cuenta el tamaño estamos desestimando 2 de las 3 consideraciones relevantes.

    La importancia que se le concede al tamaño hoy en día, está relacionado con el secretismo que actualmente existe en relación a las otras dos características. Ningún motor da a conocer los algoritmos de selección de las páginas que aplica su spider. Y los criterios de ordenación de éxitos, aunque no tan secretos, parece que tampoco hay excesivo interés en que el público los conozca. Por ello, los buscadores más grandes: Google y Yahoo, incorporan en su página principal el número actualizado de documentos web que, según ellos, incorporan.

    A nivel operativo, la relevancia del tamaño se puede interpretar de la siguiente forma: ¿encontraremos más información en una base de datos más grande que en otra más pequeña? Depende:

    • Si lo que buscamos es un tópico general, lo más probable es que lo encontremos en cualquier motor. Todos los motores incorporarán información sobre algo poco específico o de relevancia mundial.
    • Si lo que buscamos es un tópico muy particular, cabe la posibilidad de que no lo encontremos, por muy grande que sea el motor, ya que si su spider no incorpora ese tópico como uno de los que ha de considerar, no lo indexará.
    • No hay que olvidar, que por muy grande que sea el tamaño de motor, estará indexando un porcentaje mínimo de la información disponible. Por ejemplo, el día que estoy escribiendo estas líneas (3 de septiembre de 2004), Google anuncia que su índice contiene 4,285,199,774 documentos web. Si comparamos este valor con el resultado de el estudio de Brightplanet, que vamos a utilizar en varias ocasiones a lo largo del curso, los resultados son preocupantes:
      Tamaño estimado de la Web en el 2000: 550,000,000,000.
      4,285,199,774 / 550,000,000,000 = 0.01 = 1%

    La conclusión es que, aún con el mayor de los motores estamos buscando en el 1% de la información disponible. Y la cosa todavía es peor si tenemos en cuenta que en el mismo estudio se pronosticaba que la velocidad de incremento del denominador era mayor que la del numerador, por lo que si desde el año 2000 el contenido del mayor motor se ha multiplicado aproximadamente por 4, el del numerador debería haberse multiplicado por un número superior a 4, concretamente por 4.44. ¡¡¡Con lo que estaríamos buscando en el 0.0016 = 0.16% de la información disponible!!!

    Con todo, aunque los motores de búsqueda indexan miles de millones de documentos y ahí tenemos mucho donde buscar; no hay que olvidar que la información pública y accesible gratuitamente puede ascender a billones de documentos.


    Otros criterios útiles para seleccionar un motor  
    Introducción  

    A parte del tamaño del índice de referencia, que adolece de los problemas antes indicados, existen diversas herramientas ofrecidas por los distintos motores y que pueden hacer que un usuario se incline por un motor u otro. Vamos a ver algunos:


    Reconocimiento de Keywords o Palabras Clave  

    Algunos motores resaltan las palabras clave utilizadas en la búsqueda, en la página de éxitos o incluso en la página éxito, una vez abierta. Este servicio nos permite localizar rápidamente el lugar donde se aparece la palabra clave indicada y poder leer alrededor de la misma para decidir si nos interesa o no. No tiene ningún sentido el ponerse a leer todo el documento desde el principio. Es mucho más eficiente leer el contexto en el que se utiliza la palabra clave que hemos introducido y si nos interesa entonces dedicar más tiempo, si no nos interesa, pasar a revisar otro éxito.

    En caso de que un motor de búsqueda no ofrezca este servicio, podemos utilizar la herramienta "Buscar" del mismo navegador, para localizar la palabra en la página. Es un poco más lento, pero igual de efectivo. La herramienta "Buscar", está en el menú "Edición". También se puede acceder a ella con la tecla rápida: "Ctrl. + F".


    Revisión de Ortografía  

    Los motores que incorporan este servicio ofrecen palabras clave alternativas en aquellas búsquedas que consideran que tienen errores ortográficos en su formulación. Son muy útiles en lenguajes científicos (por ejemplo en medicina o farmacología). En caso de que se detecte un posible error, el motor no deja de lanzar la búsqueda, pero en la página de éxitos ofrece palabras clave alternativas. Si se quieren utilizar, tan solo hay que hacer clic sobre ellas.


    Filtros de Contenido   

    El más conocido es el filtro "ofensivo". Trata de filtrar resultados que contengan contenido pornográfico o similar. Estos filtros no acaban de funcionar bien del todo y a veces no filtran documentos ofensivos y sí eliminan algunos que no lo son.


    Selección del Número de Éxitos por Página  

    Esta herramienta nos permite seleccionar el número de éxitos que queremos que se nos presente en cada una de las páginas. Si seleccionamos un número bajo (10-20) tendremos que ir recargando páginas si entre los primeros éxitos no encontramos el que nos interesa. Si seleccionamos un número alto (75-100, >100) la página puede que tarde unas décimas de segundo más en aparecer, pero ya no tendremos que cargar ninguna página más. Esta selección, por tanto, depende tanto de las preferencias personales como de la velocidad de la conexión que uno tenga.


    Abrir Resultados en una Nueva Ventana  

    Esta herramienta nos permite tener la página de éxitos siempre abierta y que cuando queramos entrar en una determinada página de éxito que no nos desaparezca el listado de éxitos, sino que se abra en otra ventana. Suele ser muy interesante.
    Selección de Idioma  

    Permite al usuario elegir el idioma del interfaz. Podemos comunicarnos con el motor de búsqueda en inglés, español, francés, etc.
    Selección del Formato de la Página de Éxitos  

    Con esta herramienta, el usuario pude elegir hasta qué información quiere que aparezca en la página de éxitos, para cada una de las páginas que han resultado en éxito:

    • El título.
    • La URL.
    • El tamaño.
    • La lengua.
    • Un pequeño resumen.
    • ... o cualquier combinación de los anteriores.

    También se suele permitir al usuario que decida si quiere que aparezcan algunos vínculos como por ejemplo la posibilidad de traducir la página a un idioma o la posibilidad de encontrar páginas relacionadas.


    Ranking  

    En general, los motores de búsqueda no ofrecen información sobre cómo ordenan los resultados pero, por lo que he averiguado, los criterios de ordenación suelen ser como los que siguen:

    • Completo. Cuantos más términos de los solicitados contenga la página, más puntuación. En este punto, los términos se refieren a las palabras clave o a sinónimos o derivados que el propio motor contemple como términos relacionados.
    • Evidencia contextual. Cuantas más veces se repitan los términos, más puntuación.
    • Proximidad. No es lo mismo que los términos estén dentro del mismo párrafo o que aparezcan muy distanciados dentro del documento. Por tanto, cuanto más cerca se encuentren, más puntuación.
    • Alta densidad. Cuanto más alto sea el ratio:
      términos clave / número total de palabras del documento ,
      más puntuación.

    Existen más criterios de este estilo, pero el sistema en su conjunto adolece de un problema: el usuario no sabe cuáles de ellos tienen un mayor o menor peso en el algoritmo de ordenación final. Por lo que no va a poder seleccionar un motor u otro según este criterio.


    Las Palabras Clave o Keywords  

    Este punto es de máxima importancia. Diría que es el más importante de todos los que llevamos en el curso. Por ello, os aviso de antemano para que no os lo saltéis y lo leáis con detenimiento y atención. Lo voy a introducir en un cuadro para resaltarlo aún más.

    Las Palabras Clave o Keywords

    Por muchos restrictores que sepamos utilizar, por muy bien que elijamos el motor de búsqueda más adecuado al tipo de información que queremos localizar, por muy expertos que seamos en el filtrado de éxitos sin relevancia real, etc. si no sabemos seleccionar las palabras clave más adecuadas para una búsqueda, estamos perdidos.

    Ante la problemática de una búsqueda, una vez seleccionado el motor más adecuado, lo siguiente es introducir las palabras clave más ajustadas a lo que necesitamos encontrar. A veces, no le dedicamos el tiempo suficiente a reflexionar sobre qué términos serían los mejores, y esto es un fallo imperdonable de consecuencias desastrosas. Estas fatales consecuencias son claras, dos posibilidades:

    a) encontrar demasiados resultados no demasiado relevantes para lo que a nosotros nos interesa
    b) no encontrar ningún resultado, o al menos, ninguno que sea relevante.

    Las palabras clave son DETERMINANTES. Todos los demás conocimientos referentes a funcionamiento de los motores de búsqueda, restrictores, herramientas, etc. que hemos estado estudiando hasta ahora y que continuaremos viendo con detalle en las siguientes unidades no son tan importantes como la capacidad de acertar con las palabras clave que se deciden utilizar.

    Existen estrategias que ayudan a la selección de las palabras clave. Veamos algunas:


    Técnica 1. Tecnicismos.

    Vamos a ver esta estrategia mediante un ejemplo real que surgió durante un seminario:

    En este seminario, uno de los alumnos estaba interesado en encontrar información sobre motores hidráulicos para un trabajo de clase. No paraba de introducir las palabras "motores hidráulicos" o +motores +hidráulicos, etc. en distintos motores de búsqueda pero los éxitos que encontraba (miles) no eran, ni mucho menos, relevantes para su objetivo.

    Mi recomendación aludía a que se planteara qué podía estar haciendo mal. Claramente, la información que necesitaba era suficientemente amplia como para poder encontrarla en un buscador genérico… por lo que el motor no era el problema. Las opciones eran dos: a) utilizar algún restrictor que ajustara la búsqueda y b) reformular la búsqueda con otras palabras clave. En ambos casos, se requería que el alumno pensara en nuevos términos clave que introducir ya junto con restrictores o por si solos. El caso es que no había forma de hacer que el alumno en cuestión pensara en otras palabras clave que motor e hidráulico.

    Finalmente le hice pensar un poco más allá. ¿Qué términos clave o tecnicismos o vocabulario específico debería aparecer necesariamente en ese trabajo sobre motores hidráulicos? O dicho de otra forma: dime el título de alguna de los capítulos o secciones del trabajo, algo sobre lo que el trabajo tiene que tratar necesariamente. La respuesta del alumno, no se hizo esperar: El Ciclo de Carnot.

    Con este nuevo input, y retocando las palabras claves para no utilizar plurales, ni acentos, permitiendo que el motor encuentre motor y motores, así como hidráulico e hidráulicos; plantemos la búsqueda de la siguiente forma:

    motor hidraulico "ciclo de carnot"

    ¡Lanzando estas palabras, el primer documento que apareció ya era el trabajo terminado!

    Otro ejemplo que surgió también durante un seminario. En este caso el seminario se impartía a profesores de la Universidad Politécnica de Valencia. Uno de los profesores estaba interesado en encontrar bibliografía sobre turismo, en general. El pensamiento lineal al que estamos acostumbrados le dictaba que tenía que introducir búsquedas con las palabras: "bibliografía" o "referencias", etc. y "turismo". ¿Qué ocurría? Lo de siempre, no encontraba nada relevante entre los miles de éxitos. Hay que ser un poco más imaginativos y ponerse en la piel del motor de búsqueda.

    El caso de la bibliografía hay que enfocarlo de forma distinta al anterior. En este caso hay que ponerse en el lugar del motor de búsqueda e intentar pensar como él, o lo que es lo mismo, pensar cómo podemos pedirle la información que queremos, para que nos ofrezca éxitos relevantes.

    En el caso de la bibliografía, hemos de ser conscientes de que hay diversas formas generalmente aceptadas de escribir una referencia o cita bibliográfica. Por ejemplo:

    Apellido, I. (Año) Título del libro o documento. Nombre de la Revista o Editorial. Vol., Núm., pp.8

    Cuándo se trata de bibliografía científica (como era el caso) este es el modelo más utilizado. A veces el año se coloca hacia el final, el nombre de la revista o editorial en vez de en cursiva va entre comillas etc. pero en esencia es lo mismo. De hecho, lo que a nosotros nos interesa siempre estará: el vol., el num. el pp. aparecerán siempre. Estos acrónimos aparecerán muchas veces en una bibliografía específica y científica y no aparecerán muy a menudo en ningún otro sitio. Por ello, es recomendable utilizarlos junto con el tipo de bibliografía que se quiera encontrar. Por ejemplo:

    Turismo gandia vol. num. pp.

    Por descontado que la aplicación de esta estrategia surtió los efectos deseados en el profesor que formuló la pregunta.


    Técnica 2. Feedback.

    Hay que saber aprovechar la información que vamos encontrando a medida que vamos examinando los éxitos. Esta información puede ser de mucha utilidad para restringir la búsqueda a resultados más relevantes. Es relativamente sencillo encontrar determinados términos clave que no conocemos antes de iniciar la búsqueda, pero que cuando empezamos a revisar los éxitos, se nos pueden ocurrir o podemos aprender. Es muy recomendable introducirlos como palabras clave.

    Por ejemplo: queremos encontrar proveedores o importadores de productos textiles en Polonia. Una primera aproximación a esta búsqueda incluiría una restricción por dominio al país en cuestión: .com.pl ó .pl. También es lógico introducir tecnicismos textiles como por ejemplo: textile, upholstery. Por último, como lo que nos interesa es contactar con esas empresas, lo que estamos buscando es información de contacto: teléfono, dirección, fax, correo electrónico, etc., por ello no está de más introducir una palabra clave que aparecerá en la página donde estén estos datos: contact. Así pues, la búsqueda se podría iniciar con

    .pl textile contact upholstery

    Pero a poco que empecemos a ojear los éxitos veremos que la contacto en polaco, se escribe: Kontakt, por lo que podemos introducir esta palabra, que antes desconocíamos como término clave:

    .pl textile contact upholstery kontakt

    reduciendo de esta manera en gran medida el número de éxitos.


    Técnica 3. Sites Verticales.

    En este caso, vamos a utilizar el mismo ejemplo que en el caso anterior. En vez de plantear la estrategia de búsqueda basada en la localización de las páginas de contacto de las empresas, no es difícil darse cuenta que todas esas direcciones deben estar agrupadas en un mismo site que es el de la Cámara de Comercio de Polonia o el equivalente a esta institución. Por ello, podemos iniciar la búsqueda con:

    chamber commerce poland
    que, como se puede ver, es una estrategia totalmente diferente de la anterior, para obtener el mismo objetivo.

    Concluyendo, esta técnica se basa en que los buscadores genéricos sirven para encontrar bases de datos mucho más específicas y concretas sobre el tópico que nos interesa. A partir de ahí, debemos utilizar los buscadores genéricos para encontrar una base de datos (mucho más pequeña, pero...) específica de los datos que nos interesan, por lo que los éxitos serán mucho más relevantes.

    En definitiva, hay que plantear la búsqueda en general, y en particular, la elección de las palabras clave como un ejercicio de estrategia. En ocasiones, tenemos que seleccionar cuidadosamente tecnicismos clave, en ocasiones tenemos que intentar "pensar" como lo hacen los motores de búsqueda y otras veces, tenemos que buscar bases de datos específicas más ajustadas a los datos que necesitamos. ¡¡A quien le gusten los juegos de estrategia, desde luego, aquí tiene un filón para disfrutar!!



    Recuerda que ...  

    • Debes saber distinguir los motores de búsqueda entre todos sus tipos.

    • Debes entender y saber aplicar cuando corresponda las tres estrategias básicas de búsqueda en Internet.

    • Debes saber cuándo abandonar un motor de búsqueda si no te facilita tu búsqueda, con las herramientas necesarias, etc...

    • Existen datos que nunca podrás encontrar en la Web; por ejemplo intranets (acceso con contraseña), formatos específicos, recursos no web, etc...

    • Los documentos que encontramos en un motor de búsqueda cuando lanzamos una consulta, son todos iguales de buenos, es decir, todos contienen los términos clave solicitados. Por lo tanto, la ordenación que ofrece el motor de los éxitos, no considera nuestras preferencias, es artificial y hay que ser cuidadoso con ella.


    Errores más comunes  

    • Existen 3 tipos básicos de motor de búsqueda: buscadores, directorios y metabuscadores.

    • Debes seleccionar los motores en función de los servicios que ofrecen y cómo (y cuánto) estos servicios, sirven para facilitarte el proceso de búsqueda.

    • Recuerda que los spiders “no saben” qué información pedir a una base de datos (por ejemplo en formato asp), “no saben” rellenar el formulario de solicitud de información, por lo que no pueden extraer información desde estas bases de datos e incorporarlas al índice

    • No te limites a seleccionar y utilizar los buscadores por su tamaño, ya que el tamaño no es tan importante. Lo verdaderamente relevante es la calidad del resultado obtenido.

    • Los filtros de contenido no acaban de funcionar bien y a veces no filtran documentos “ofensivos” pero sí eliminan algunos que no lo son.


    Aplicación de conocimientos  

    1. Enumera los distintos tipo de motores de búsqueda que existen y comenta brevemente sus similitudes y diferencias. RESPUESTA

    2. ¿Qué permite ver el restrictor cache: de Google? RESPUESTA

    3. ¿Qué es un spider? RESPUESTA

    4. ¿Cuál es la información que no podremos encontrar en los motores de búsqueda web? RESPUESTA

    5. ¿Cuáles son las 3 diferencias que hacen que un buscador sea distinto de otro? RESPUESTA

    [Imprimir el Cuestrionario Resuelto]


    Taller  

    Imaginad que queréis venir a visitarme a Alcoy. Alcoy es una ciudad de la provincia de Alicante, situada en el interior, entre montañas y circundada por dos parques naturales. Pero eso vosotros no lo sabéis. Venís, por ejemplo desde… A Coruña y vuestro destino es Alcoy. Queréis encontrar información sobre esta ciudad.

    Para ello, vamos a poner en práctica las tres estrategias que hemos visto.

    1. Probad http://www.alcoy.com, http://alcoy.com, http://www.alcoy.net, http://www.alcoy.org, etc. a ver si van…

    2. Buscad en un directorio (http://www.dmoz.org) la palabra “alcoy” a ver que tal funciona. Nota: Veréis que cuando el directorio os ofrece los resultados, podéis ver las categorías en donde se encuentran los mismos, por lo que si, en vez de ir directamente a la página, os dirigís primero a la categoría podéis ver un conjunto de páginas estrechamente relacionadas. Este conjunto de posibilidades, probablemente os oriente bastante.



    1. Buscad la palabra “alcoy” en algún buscador. A ver qué os ofrece.

    Las conclusiones más profundas os las dejo a vosotros. Pero, a primera vista, podéis ver que a través del directorio, se nos da una visión general tanto de la Comunidad Valenciana, como de la provincia de Alicante, como de la comarca de L’Alcoià. Con acceso a distintos documentos de interés no solo de Alcoy, sino de su entorno. El buscador nos ofrece otro tipo de datos, como accesos a empresas o entidades alcoyanas.

    En definitiva, en función de cuál sea nuestro objetivo, habrá que elegir una herramienta u otra.



    SOLUCIÓN AL TALLER


    Bibliografía  

    No hay mucha bibliografía en castellano que entre en profundidad en este tema en concreto. De todas formas, estos libros puede que ayuden.

    Mudry, R.J. (1997) Domine la Web. Thomson Paraninfo SA.

    Peters, T. (2002) La Inevitable Revolución de Internet: Estamos en el Mundo Web. Ediciones Nowtilus S.L.


    Referencias  

    http://www.google.com

    http://www.nacion.com

    http://directory.google.com

    http://search.msn.com

    http://www.bne.es

    http://www.universia.eshttp://www.cfp.upv.es/oferta/index.html?z=x

    http://www.amazon.com

    http://www.amazon.com/exec/obidos/tg/detail/-/B00008LDPU/qid=1053675938/sr=8-2/ref=sr_8_2/002-2311149-6336855?v=glance&s=dvd&n=507846

    http://www.alcoy.com

    http://www.dmoz.org


    Glosario  

    Alta densidad
    Gran cantidad de información en poco espacio.


    Asp
    Microsoft Active Server Pages.


    Buscador/-es
    Sitio web donde mediante podemos introducir palabras o frases y encontrar enlaces a nuestra búsqueda en toda la red de redes…


    Buscador Híbrido
    permite la utilización de un buscador o de un directorio indiferentemente.


    Directorio
    Sitio web que lista otros sitios web organizados por temas.


    Estratégias Básicas
    Son los diferentes métodos para poder encontrar información específica en Internet.


    Evidencia contextual
    criterios de ordenación; cuantas más veces se repitan los términos, más puntuación.


    Keywords
    Son las palabras que introducimos en los motores de búsqueda.


    Metabuscadores
    motores de búsqueda en la red que funcionan, por una parte de forma automatizada, pero posteriormente su información es indexada y ordenada con intervención de criterios establecidos por un moderador u organización.


    Motores Híbridos
    permiten la utilización de un buscador o de un directorio indiferentemente.


    Objetividad
    Describir información o hechos acaecidos tal y cómo han sucedido, sin apoyarse en ninguna postura determinada.


    Caché
    Copia que mantiene un ordenador de las páginas web visitadas últimamente de forma que si el usuario vuelve a solicitarlas, las mismas son leídas desde el disco duro sin necesidad de tener que conectarse de nuevo a la red; consiguiéndose así una mejora muy apreciable del tiempo de respuesta.


    Calidad de la información
    Consiste en la valoración óptima de los resultados obtenidos en una búsqueda.


    Categorías
    Subconjuntos del directorio que intentan agrupar páginas en función de su contenido, para facilitar su localización.


    CGI output
    Common Gateway Interface. Programa para generar contenido en tiempo real. Sus lenguajes de programación son, entre otros, Perl y C.


    Clasificación
    Ver ránking.


    Contraseña
    Clave secreta que da acceso a un sitio web.


    Crawlers
    Robot que indexará varias páginas de una web, siguiendo los enlaces que en ésta aparezcan.


    Palabras clave
    Ver keywords.


    Password
    Ver Contraseña.


    Ranking
    Mera clasificación de resultados de una búsqueda ordenados siguiendo algún patrón determinado.


    Robots.txt
    Programas que expulsan a los spiders cuando éstos aparecen.


    Spider
    Consiste en un software y miles de servidores que rastrean toda la Internet bajando y guardando todas las páginas que encuentran.


    Subjects
    Ver categorías.


    Tamaño
    Es la medida de la cantidad de webs que puede encontrar un buscador.


    Término clave
    Ver keywords.




    Generado con H.A.U.P.A.© 2001-2002 UPA
    Cursos on-line Universidad Politécnica Abierta