Tema 5




LA INFORMACIÓN DE LOS MOTORES DE BÚSQUEDA






    Existen varios métodos de recuperación de información, siendo los más usados los siguientes:

  • Técnica de recuperación de lógica difusa: permite establecer consultas con frases normales, de forma que la máquina al realizar la búsqueda elimina signos de puntuación, artículos, conjunciones, plurales, tiempos verbales, palabras comunes (que suelen aparecer en todos los documentos), dejando sólo aquellas palabras que el sistema considera relevantes. La recuperación se basa en  valores de verdadero y falso, teniendo en cuenta la localización de la palabra en el documento.
  • Técnicas de ponderación: es común que unos criterios en la búsqueda tenga más valor que otros, por tanto la ponderación pretende darle un valor adecuado a la búsqueda dependiendo de los intereses del usuario. Los documentos recuperados se encuentran en función del valor obtenido en la ponderación. El valor depende de los términos pertinentes que contenga el documento y la frecuencia con que se repita. De forma que, el documento más pertinente de búsqueda sería aquel que tenga representado todos los términos de búsqueda y además el que más valor tenga repetidos más veces, independientemente de donde se localice en el documento.
  • Técnica de retroalimentación por relevancia: esta técnica pretende obtener el mayor número de documentos relevantes tras establecer varias estrategias de búsqueda. La idea es que, tras determinar unos criterios de búsqueda y observar los documentos recuperados se vuelva a repetir nuevamente la consulta pero esta vez con los elementos interesantes, seleccionados de los documentos primeramente recuperados.
  • Stemming: stemming significa "lexema" en inglés. Lo que pretende es eliminar las posibles confusiones semánticas que se puedan dar en la búsqueda de un concepto, truncando la palabra y buscando sólo por la raíz.






El proceso de recuperación se lleva a cabo mediante consultas a la base de datos donde se almacena la información. Es necesario tener en cuenta los índices, palabras clave y los fenómenos que se pueden dar en el proceso como son el ruido y silencio documental. 

Uno de los problemas que surgen en la búsqueda de información es que dependiendo del tipo de búsqueda se pueden recuperar multitud de documentos o un número muy reducido. A este fenómeno se denomina Silencio o Ruido documental.

-Silencio documental: Son los documentos almacenados en la base de datos pero que no han sido recuperados, debido a que la búsqueda ha sido muy específica o que las palabras clave utilizadas no han sido las adecuadas para la búsqueda.

La solución para no obtenerlo es: 
 ->Añadir palabras clave
 ->Truncamientos
 ->Utilizando operador booleano "OR" para combinar varios términos para que aparezcan unos u otros
 ->Búsqueda genérica

-Ruido documental: Se inicia en búsqueda y recuperación de información en relación con cantidad documentos recuperados al realizar una búsqueda, cuando no suelen ser relevantes.

La solución para no obtenerlo es:
->Usar operador booleano "Y" para recuperar registros que contengan términos específicos
->Filtros para determinar por criterios: Fecha,etc...

-Buscadores: Conjunto de programas coordenados que se encargan de visitar cada uno de los sitios que integran la Web, empleando hipervínculos en dichas páginas para buscar y leer otros sitios.

En general, nosotros ponemos un término de búsqueda llamadas palabras clave y los motores de búsqueda nos responden con listados de páginas web en las que se encuentran esas palabras con la información que estamos buscando.

Los motores de búsqueda utilizan unas aplicaciones llamadas “robots/arañas” para que lean estos millones de documentos que existen en la web y los almacena en su base de datos para luego mostrarlos en sus resultados. Los robots/arañas ya que se van moviendo por los miles de millones de enlaces que conectan unos sitios webs con otros.

Una vez que estos robots encuentran los sitios webs, tienen que descifrar el contenido y almacenar parte en discos duros, para que así cuando busquemos algo ya lo tengamos disponible.

Un motor de búsqueda, además de buscar documentos, busca que estos sean importantes y relevantes para la búsqueda, la mayoría de los motores de búsqueda determinan que un sitio web es importante si es popular. Cuanta más gente lo visite, el motor de búsqueda lo interpreta como que tiene un mejor contenido.

Todo esto se realiza mediante algoritmos muy complejos y con muchos factores que analizan los sitios webs y los organizan en un “ranking”. Una mejor posición en el ranking te hará estar entre los primeros resultados de búsqueda.
                              Resultado de imagen de como funciona los buscadores

                       https://sites.google.com/site/itqlandauno/buscadores-de-internet/-como-funcionan-los-buscadores


- Google: 

-->Rastreo:
Tiene pequeños robots que rastrean la red y anotan todo lo que van encontrando. Es un trabajo constante en el que no solo van explorando las nuevas webs que se van creando, sino que tienen que volver a pasar por todas las que ya lo han hecho para revisar posibles modificaciones, todo eso utilizando unos programas informáticos llamados rastreadores web para encontrar portales de acceso público.
Cuando sus robots pasan por nuestra web recopilan toda la información que Google estima importante.

--->Indexación:
Después de descubrir una página, Google interpreta su contenido. Analiza el contenido de la página, catalogan sus archivos de imagen y vídeo y tratan de entenderla. Toda esta información se guarda en el índice de Google, una enorme base de datos almacenada en muchísimos ordenadores.

--->Publicación y Posicionamiento:
Cuando los usuarios introducen sus consultas, Google encuentra la respuesta más pertinente en su índice en función de muchos factores. 

Determinan las respuestas de mayor calidad y muchos aspectos, como la ubicación, el idioma y el dispositivo de los usuarios, para averiguar qué resultado ofrecerá la mejor experiencia de usuario y la respuesta más adecuada.

Se tiene en cuenta el nivel de relevancia y la popularidad de la página, en relevancia se establece un listado y respecto a popularidad, si se empata en relevancia se clasifica según la popularidad que haya recibido la página.

Estos factores combinados determinan el puntaje global de la página.
                                    Imagen relacionada                   
                                      https://t-position.com/toreando-a-google-3/google/funcionamiento-basico-de-google/



                          Resultado de imagen de como funciona google   
   


María Pinto (15 octubre, 2004). Búsqueda y Recuperación de la Información. Recuperado de http://www.mariapinto.es/e-coms/busqueda-y-recuperacion-de-informacion/

Guillermo Gascón (Fecha desconocida). ¿Cómo funciona Google? Una respuesta que vas a 

Google (Fecha desconocida). ¿Cómo funciona la búsqueda en Google? Ayuda de Search Console. Recuperado de https://support.google.com/webmasters/answer/70897?hl=es-419

Esepestudio. (22 abril, 2014). ¿Cómo funciona un buscador? Recuperado de https://www.esepestudio.com/noticias/como-funciona-un-buscador

sjjramillo (11 de julio de 2010) Recuperación de la información [Diapositivas de Prezi]

Milenium ¿Que son los Buscadores de Internet? [Web blog spot] Recuperado de https://www.informaticamilenium.com.mx/es/temas/principales-buscadores-de-internet.html

Sandra Arteaga (30 de marzo de 2019) [Web blog spot] Recuperado de https://computerhoy.com/reportajes/tecnologia/como-funciona-google-392371

Leidy Jimenez (24 octubre 2014) SILENCIO DOCUMENTAL [Diapositivas de Prezi] Recuperado de https://prezi.com/zbaf8o4jkuwv/silencio-documental/

cursoseopreofesional (Fecha Desconocida) Buscadores de Internet¿Qué es un buscador? [Web blog spot] Recuperado de https://www.cursoseoprofesional.com/buscador-web/

Comentarios

Entradas populares de este blog

Tipos de Almacenamiento (César)

2. Lenguajes de programación (César)

- Diferencia entre contenido SEO y contenido SEM. Qué información sale en cada caso, el porqué una información si y otra no, el orden de la información, etcétera. (César Castillo, Santiago Marcos y Diego Martínez)