5. Recuperación de la información de los buscadores. Google

TEMA 5: RECUPERACIÓN DE LA INFORMACIÓN DE LOS BUSCADORES. GOOGLE

 

Diego de María Martínez Alcalde

César Castillo García

Santiago Alejandro Marcos Martínez

 

1.: Introducción. Big Data

Fuente: https://bbvaopen4u.com/es/actualidad/cuatro-propuestas-interesantes-de-big-data

Gracias a la evolución tecnológica, existen muchos dispositivos conectados a Internet por los cuales se pueden mover gigantescas cantidades de información. No obstante, ¿dónde se guarda? Una gran parte se guarda en centros de datos que poseen una gran cantidad de servidores, que están formados a su vez por discos duros de altísima capacidad. Esa información se va trasladando de centro en centro y se realizan copias de seguridad para que la información no desaparezca debido a cualquier causa inesperada (terremoto, atentado…). (Masterweb, 2016)

Como datos curiosos, empresas gigantes como Facebook y Google poseen varios centros de datos, pero la empresa Digital Realty, que se dedica a comprar centros de datos, posee en Chicago el mayor centro de datos de todo el mundo, el cual ocupa 100.000 m2 y en el que hay 50 generadores eléctricos diferentes. (Masterweb, 2016)

 

2.: Recuperación de la información

Fuente: http://recuperaciondeinformacionsalle.blogspot.com/2010/09/sistemas-de-recuperacion-de-informacion_17.html

Recuperar información consiste en usar ciertas técnicas para extraer información, ya sea a través de Internet o una red interna (intranet), y leerla como imágenes, vídeo, audio u otros. (Búsqueda y Recuperación de la Información, s.f.) 

Puede ocurrir que, cuando se busca algo, se muestren muchos resultados o ninguno. Esto da lugar a dos fenómenos: (Pinto, 2018)

  • Silencio documental. Grupo de resultados que no han sido recuperados debido a una búsqueda demasiado específica o a que no se han utilizado las palabras adecuadas al definir la búsqueda.
  • Ruido documental. Grupo de resultados que no son relevantes, o sea, no tienen nada que ver con lo que se quiere buscar. Esto pasa debido a una búsqueda demasiado general.

Existen varios modelos de recuperación de información que se pueden combinar para recuperar de forma más precisa. Estos modelos se clasifican en 3 grandes grupos: (Information retrieval: a la búsqueda del saber, 2018)

  • Basados en la teoría de conjunto, calculando las relaciones de semejanza mediante el modelo booleano (operadores AND, OR y NOT).
  • Algebraicos, calculando las semejanzas siguiendo el modelo de espacio vectorial.
  • Probabilísticos, calculando los parecidos considerando los conjuntos de datos como experimentos casuales.

 

3.: Google

Fuente: https://www.elcolombiano.com/redes-sociales/lo-mas-buscado-en-google-colombia-en-2018-LY9809296

Google es, sin duda, el buscador más usado del mundo y, con diferencia, el que más resultados ofrece en menos tiempo, ofreciendo, en una fracción de segundo, millones de resultados. Pero, ¿por qué es así?

Para empezar, Google puede recuperar desde páginas web hasta archivos escaneados. Para devolver los resultados, Google hace lo siguiente: (Arteaga, 2019)

  1. Rastreo e indización o indexación. Para esto, Google se sirve de unos programas llamados rastreadores que analizan el contenido de cada página que encuentran por si algo ha cambiado. También siguen los enlaces que contienen y detectan los obsoletos. Después, Google tiene que ordenar toda esa información, tomando como referencia una serie de indicadores que cada página posee (como las palabras clave usadas) para incluirla en su índice de búsqueda, que posee más de 100 PB (o sea, más de 100.000.000 GB) de datos.
  2. Respuesta a la pregunta del usuario. Una vez encontradas las páginas, Google utiliza una serie de algoritmos con los que analiza las palabras clave que el usuario ha introducido en el cuadro de búsqueda, analizando qué quiere decir con ellas, es decir, qué tipo de información deseas encontrar. Durante este proceso, el buscador sabrá encontrar errores ortográficos y, si los hubiera, corregirlos para dar un resultado más satisfactorio. Después, elige qué resultados se van a mostrar buscando las palabras clave en cada página, así como teniendo en cuenta aspectos como la ubicación del usuario y su historial, asegurándose de dar un resultado más preciso.
  3. Ordenación de los resultados. Por último, Google ordena los resultados que ha seleccionado (por orden de relevancia, popularidad). A cada pagina se le asigna una “puntuación global” en función de esos factores, y en función de esa puntuación la página saldrá primera, segunda o 15ª.

Referencias

Arteaga, S. (30 de marzo de 2019). ¿Cómo funciona Google? Recuperado el 24 de agosto de 2020, de https://computerhoy.com/reportajes/tecnologia/como-funciona-google-392371

Búsqueda y Recuperación de la Información. (s.f.). Recuperado el 23 de agosto de 2020, de https://es.wikipedia.org/wiki/B%C3%BAsqueda_y_recuperaci%C3%B3n_de_informaci%C3%B3n#

Information retrieval: a la búsqueda del saber. (7 de junio de 2018). Recuperado el 24 de agosto de 2020, de https://www.ionos.es/digitalguide/online-marketing/marketing-para-motores-de-busqueda/information-retrieval-como-funcionan-los-buscadores/

Masterweb. (3 de agosto de 2016). Big Data: ¿Dónde se almacena tanta información? Recuperado el 7 de agosto de 2020, de https://fractaliasystems.com/2016/08/03/big-data-donde-se-almacena/

Pinto, M. (13 de diciembre de 2018). Búsqueda y Recuperación de Información. Recuperado el 24 de agosto de 2020, de http://www.mariapinto.es/e-coms/busqueda-y-recuperacion-de-informacion/

Comentarios

Entradas populares de este blog

Tipos de Almacenamiento (César)

2. Lenguajes de programación (César)

- Diferencia entre contenido SEO y contenido SEM. Qué información sale en cada caso, el porqué una información si y otra no, el orden de la información, etcétera. (César Castillo, Santiago Marcos y Diego Martínez)