Sixto Romero

Lingüística matemática: Palabras y Número. Ley de Zipf (II)

tiempo de academia

02 de octubre 2021 - 01:31

En la anterior entrega finalizábamos con un breve comentario a la ley formulada por el lingüista de la Universidad de Harvard George Kingsley Zipf en 1940, que define con qué reiteración aparecen determinadas palabras en una lengua. Usamos miles de palabras cada día, con significados de todo tipo y pertenecientes a categorías gramaticales muy variadas. Sin embargo, no todas ellas se usan con la misma frecuencia. En función de cómo de importantes son para la estructura de la oración, hay palabras que son más recurrentes que otras.

En el idioma español, las diez palabras más frecuentes según la RAE son de, la, que, el, en, y, a, los, se, del por lo tanto, la aparece la mitad de veces que de, que un tercio de veces que de, en un cuarto de veces… Se trata de una ley de potencias, es decir, que da igual el tamaño del texto porque la proporción se seguirá cumpliendo y se aplica a todos los idiomas. Podemos decir entonces que la proposición de Zipf muestra un patrón en la repetición de palabras.

Con una simple prueba utilizando el programa Texstat, programa de libre distribución y que puede el lector descargar, si lo desea en https://sourceforge.net/projects/textstat/, se puede comprobar con mucha aproximación que la afirmación de Zipf es cierta. Para aquellos que no quieran complicarse la vida, utilícese, naturalmente de manera más rudimentaria, el programa de procesador de textos Word. Un ejemplo con el texto de la primera entrega: de las 793 palabras del artículo de la pasada semana (representan 5295 caracteres con espacios) la palabra de aparece 78 veces. La palabra la aparece 42 veces. La palabra que aparece 22 veces. Y la palabra del aparece 8 veces.

Una entretenida y curiosa explicación podéis encontrarla en la dirección https://www.smythacademy.com/6546/la-ley-zipf-explicada/.

La ley de Zipf es un postulado que tiene en cuenta este fenómeno y especifica cómo de probable es que una palabra sea utilizada en base a su posición en el ranking del total de palabras utilizadas en un determinado idioma, según el cual en una determinada lengua la frecuencia de aparición de distintas palabras sigue una distribución que puede aproximarse por donde Pn representa la frecuencia de la n-ésima palabra más frecuente y el exponente a es un número real positivo, en general ligeramente superior a 1. (Para ampliar https://statweb.stanford.edu/~owen/courses/306a/ZipfAndGutenberg.pdf). Esto significa que el segundo elemento se repetirá aproximadamente con una frecuencia de 1/2 de la del primero, el tercer elemento con una frecuencia de 1/3 del primero y así sucesivamente.

¡No deja de ser curioso como la ley de Zipf se cumple para la mayoría de las lenguas!

Desde el punto de vista del rigor de la investigación, aunque lo observado por George Zipf, hasta hace relativamente poco no se había podido abordar empíricamente los postulados de la ley. No porque fuera materialmente imposible analizar todas las conversaciones o textos del inglés, o de cualquier otro idioma, sino por la tarea desmedida, colosal y gigantesca por el gran esfuerzo que esto conlleva. Gracias a la presencia de los ordenadores actuales y su gran capacidad de procesamiento junto a los cada vez más afinados programas informáticos, ha sido posible investigar si esta ley se daba en la forma en que Zipf la propuso en un principio o si existían variaciones.

Mención especial son los trabajos de investigación realizados por el Centro de Investigación Matemática (Centre de Recerca Matemàtica) asociado a la Universidad Autónoma de Barcelona, concretamente por Álvaro Corral, Isabel Moreno García y Francesc Font que han llevado a cabo un análisis a gran escala, consistente en el análisis de cientos de textos digitalizados (en inglés) para comprobar el comportamiento de la ley de Zipf. Su trabajo, en el que se analizó un extenso corpus de cerca de 30.000 volúmenes, permitió obtener una ley equivalente a la de Zipf, en la que se vio que la palabra más utilizada era el doble de utilizada que la segunda, y así sucesivamente.

La Ley de Zipf, que algunos la han catalogado como de cierta opacidad matemática, también ha sido utilizada, a modo de pronóstico, para diseñar el tamaño de las grandes ciudades en todo el planeta en el siglo XX. La ciudad con mayor población de cualquier país es generalmente el doble de grande que la siguiente con mayor número de habitantes, y así siguiendo el patrón citado ut-supra.

Cabe preguntarse por qué sucede esto. Zipf descubrió su principio observando el uso de las palabras en una lengua determinada, pero después vio que su ley era aplicable a la generación de riqueza. ¡Y todo esto sin una clara explicación lógica que lo sustente al menos por el momento!

Puede parecer sorprendente e increíble, pero la ley de Zipf ha servido para las ciudades de todos los países del mundo durante el siglo pasado. Basta con echar un vistazo a las ciudades con mayor población en España, Madrid, Barcelona y Valencia. En el censo de 2021, Madrid tiene 3.334.730, Barcelona 1.664.182, Valencia 800.215. Se puede ver que obviamente las cifras no son exactas, pero bajo una óptica de datos estadísticos parecen ser de gran consistencia y muy coherentes con los vaticinios de Zipf.

stats