Google: la matriz de datos más grande del mundo

El autor explica cómo es que se convirtió en la máquina de búsqueda más utilizada.

|
“La estadística está presente siempre en aspectos tan frecuentes de la vida diaria, como una búsqueda”. (Agencias)
Compartir noticia en twitter
Compartir noticia en facebook
Compartir noticia por whatsapp
Compartir noticia por Telegram
Compartir noticia en twitter
Compartir noticia en facebook
Compartir noticia por whatsapp
Compartir noticia por Telegram

Raúl Rojas/Milenio
MÉXICO DF.-Google no inventó las máquinas de búsqueda, pero pudo convertirse en la máquina más usada debido, sobre todo, al método de clasificación de resultados llamado “Page Rank”.

Recordemos: las primeras máquinas de búsqueda fueron Altavista y después Inktomi. Lo que hacían estos servicios era “leer” toda la web. Revisaban página por página almacenándolas en una supercomputadora o en una red de (computadoras) PC, para poder después ofrecerlas como resultado de las búsquedas.

Google, sin embargo, introdujo algo muy importante: la clasificación de la “importancia” relativa de las páginas. Si Altavista respondía a un rastreo con 100 resultados sin jerarquía, Google respondía con 100 resultados, pero los primeros en la lista eran los más relevantes, de acuerdo con la popularidad de las páginas.

La estrategia utilizada por Google es lo que en la estadística se conoce como un “modelo de Markov”, en honor al matemático ruso Andrey Markov (1856-1922). Una cola en el banco, por ejemplo,  es un modelo de Markov. En la cola vamos avanzando poco a poco, de un “estado” al siguiente, hasta “salir” a la ventanilla.

El tiempo que pasamos en cada “estado” (es decir, la posición específica en la cola) es aleatorio y depende de cómo van siendo atendidos los usuarios. Un problema importante para un proceso de Markov como éste es, por ejemplo, el largo promedio de la cola durante un día.

Los dos fundadores de Google, Larry Page y Sergey Brin, tuvieron la siguiente idea: si un internauta comienza en una página de internet y va saltando de esa página a otra (siguiendo las ligas en la página y escogiendo una liga específica usando un dado) irá recorriendo toda la red.

Si llega a una página web sin salida (sin ligas para continuar), elige otra página cualquiera y sigue surfeando por la red. Ahora bien, si el internauta repite este procedimiento una y otra vez, habrá páginas a las que solo entrará muy ocasionalmente y otras páginas que serán visitadas muchas veces. Las páginas más visitadas son aquellas que tienen más y mejores vías de entrada, es decir, aquellas a las que muchas otras páginas importantes apuntan.

Si el internauta se queda un segundo en cada página antes de saltar a la siguiente, ¿cuáles son las páginas en las que pasaría más tiempo en total? Este tiempo de permanencia promedio en la página en este proceso de saltos aleatorios es lo que Page y Brin llamaron el “rango” o importancia de la página. Las páginas de mayor rango son aquellas que se le presentan primero al usuario de Google, es decir, aquellas que el hipotético internauta visitaría más frecuentemente.

Obviamente que este método de cálculo de la importancia de las páginas web requiere de muchísimas horas de procesamiento. Hay millones y millones de páginas en internet. Estar saltando de una a otra, como pide el algoritmo, sería demasiado engorroso.

Entonces, lo que se puede hacer para simplificar los cálculos es utilizar una técnica clásica en el estudio de procesos de Markov. Para ello se requiere definir una tabla de “transiciones”. Si solo hubiera 100 páginas web, por ejemplo, se podría armar una tabla de 100 renglones por 100 columnas.

Matriz de transición 

En procesos de Markov esta tabla se llama la “matriz de transición” entre estados (las páginas web en este caso). Lo interesante es que se puede calcular el tiempo promedio en el que nuestro internauta pasaría en cada página sin tener que realizar la simulación de los saltos entre páginas.

Para ello se puede calcular la distribución estacionaria asociada a la matriz, lo que nos da directamente el tiempo de permanencia promedio de un proceso de Markov en cada estado, es decir, el tiempo porcentual que nuestro surfeador pasaría en cada página si fuera saltando de una a otra en la forma descrita más arriba.

La matriz de transición de Google es enorme: tiene miles de millones de renglones y de columnas. Es la matriz de datos más grande que se ha recopilado hasta ahora (aunque en la teoría se trabaje con matrices aún más grandes).

Es por eso que Google ha reclutado a muchos especialistas en estadística y en métodos de cálculo matriciales: para dar un mejor servicio al usuario tomando en cuenta una matriz de datos que todos los días crece de tamaño rompiendo el propio récord del día anterior. Las computadoras de Google trabajan día y noche calculando los rangos a ser utilizados en las búsquedas de los usuarios.

La estadística, como se ve, está presente siempre en aspectos tan frecuentes de la vida diaria como es realizar una simple búsqueda en Internet. 
 

Lo más leído

skeleton





skeleton