5. Recuperación de la información de los buscadores. Google
TEMA 5: RECUPERACIÓN DE LA INFORMACIÓN DE LOS BUSCADORES. GOOGLE
Diego de María Martínez Alcalde
César Castillo García
Santiago Alejandro Marcos Martínez
1.: Introducción. Big Data
![]() |
Fuente: https://bbvaopen4u.com/es/actualidad/cuatro-propuestas-interesantes-de-big-data |
Gracias a la evolución tecnológica,
existen muchos dispositivos conectados a Internet por los cuales se pueden
mover gigantescas cantidades de información. No obstante, ¿dónde se guarda? Una
gran parte se guarda en centros de datos que poseen una gran cantidad de
servidores, que están formados a su vez por discos duros de altísima capacidad.
Esa información se va trasladando de centro en centro y se realizan copias de
seguridad para que la información no desaparezca debido a cualquier causa
inesperada (terremoto, atentado…).
Como datos curiosos, empresas gigantes
como Facebook y Google poseen varios centros de datos, pero la empresa Digital
Realty, que se dedica a comprar centros de datos, posee en Chicago el mayor
centro de datos de todo el mundo, el cual ocupa 100.000 m2 y en el
que hay 50 generadores eléctricos diferentes.
2.: Recuperación de la información
![]() |
Fuente: http://recuperaciondeinformacionsalle.blogspot.com/2010/09/sistemas-de-recuperacion-de-informacion_17.html |
Recuperar información consiste en usar
ciertas técnicas para extraer información, ya sea a través de Internet o una
red interna (intranet), y leerla como imágenes, vídeo, audio u otros.
Puede ocurrir que, cuando se busca
algo, se muestren muchos resultados o ninguno. Esto da lugar a dos fenómenos:
- Silencio
documental. Grupo de
resultados que no han sido recuperados debido a una búsqueda demasiado
específica o a que no se han utilizado las palabras adecuadas al definir la
búsqueda.
- Ruido documental.
Grupo de resultados que no son
relevantes, o sea, no tienen nada que ver con lo que se quiere buscar. Esto
pasa debido a una búsqueda demasiado general.
Existen varios modelos de recuperación
de información que se pueden combinar para recuperar de forma más precisa.
Estos modelos se clasifican en 3 grandes grupos:
- Basados en la
teoría de conjunto, calculando las
relaciones de semejanza mediante el modelo booleano (operadores AND, OR y NOT).
- Algebraicos, calculando las semejanzas siguiendo el modelo
de espacio vectorial.
- Probabilísticos, calculando los parecidos considerando los
conjuntos de datos como experimentos casuales.
3.: Google
![]() |
Fuente: https://www.elcolombiano.com/redes-sociales/lo-mas-buscado-en-google-colombia-en-2018-LY9809296 |
Google es, sin duda, el buscador más
usado del mundo y, con diferencia, el que más resultados ofrece en menos
tiempo, ofreciendo, en una fracción de segundo, millones de resultados. Pero,
¿por qué es así?
Para empezar, Google puede recuperar
desde páginas web hasta archivos escaneados. Para devolver los resultados,
Google hace lo siguiente:
- Rastreo e
indización o indexación. Para esto,
Google se sirve de unos programas llamados rastreadores que analizan el
contenido de cada página que encuentran por si algo ha cambiado. También siguen
los enlaces que contienen y detectan los obsoletos. Después, Google tiene que
ordenar toda esa información, tomando como referencia una serie de indicadores
que cada página posee (como las palabras clave usadas) para incluirla en su índice
de búsqueda, que posee más de 100 PB (o sea, más de 100.000.000 GB) de datos.
- Respuesta a la
pregunta del usuario. Una vez encontradas
las páginas, Google utiliza una serie de algoritmos con los que analiza las
palabras clave que el usuario ha introducido en el cuadro de búsqueda,
analizando qué quiere decir con ellas, es decir, qué tipo de información deseas
encontrar. Durante este proceso, el buscador sabrá encontrar errores
ortográficos y, si los hubiera, corregirlos para dar un resultado más
satisfactorio. Después, elige qué resultados se van a mostrar buscando las
palabras clave en cada página, así como teniendo en cuenta aspectos como la
ubicación del usuario y su historial, asegurándose de dar un resultado más
preciso.
- Ordenación de los
resultados. Por último, Google ordena los
resultados que ha seleccionado (por orden de relevancia, popularidad). A cada pagina
se le asigna una “puntuación global” en función de esos factores, y en función de
esa puntuación la página saldrá primera, segunda o 15ª.
Referencias
Arteaga,
S. (30 de marzo de 2019). ¿Cómo funciona Google? Recuperado el 24 de
agosto de 2020, de https://computerhoy.com/reportajes/tecnologia/como-funciona-google-392371
Búsqueda y Recuperación de la Información. (s.f.). Recuperado el 23 de agosto de 2020, de https://es.wikipedia.org/wiki/B%C3%BAsqueda_y_recuperaci%C3%B3n_de_informaci%C3%B3n#
Information retrieval: a la búsqueda del saber. (7 de junio de 2018). Recuperado el 24 de agosto
de 2020, de https://www.ionos.es/digitalguide/online-marketing/marketing-para-motores-de-busqueda/information-retrieval-como-funcionan-los-buscadores/
Masterweb. (3 de agosto de 2016). Big Data:
¿Dónde se almacena tanta información? Recuperado el 7 de agosto de 2020,
de https://fractaliasystems.com/2016/08/03/big-data-donde-se-almacena/
Pinto, M. (13 de diciembre de 2018). Búsqueda y Recuperación de Información. Recuperado el 24 de agosto de 2020, de http://www.mariapinto.es/e-coms/busqueda-y-recuperacion-de-informacion/
Comentarios
Publicar un comentario