El coordinador del grup de sistemes complexos del Centre de Recerca Matemàtica de la UAB, Alvaro Corral, explica en què consisteix la llei de Zipf, i afegeix que el seu funcionament podria estar relacionat amb els punts crítics de les transicions de fase.
Escolta’l aquí:

Aquesta és la transcripció aproximada d’aquest fragment:
Josep Maria Camps Collet (JMC): Sí, sí, i he vist a més que destaques la teva dedicació a la llei de Zipf, i que té relació amb coses que havia fet en Mandelbrot, oi?
Alvaro Corral (AC): Sí, sí, de fet en Mandelbrot els anys 50 abans dels fractals va començar mirant la llei de Zipf. Bueno la relació una mica és el que… quan et parlava dels punts crítics, els punts crítics el que tens, per exemple, si consideres un model d’epidèmies, el número de persones que es contagien en un outbreak (com es diu?)
JMC: no és un blow up, però va per aquí, oi?
AC: És igual, el número de persones que es contagia si, per exemple, R0 aquest de les epidèmies és més petit que 1, aquest número serà petit, 10 o 20 persones com a molt. Per altra banda en un model, com aquest tan senzill de ramificació, el número de persones que teòricament es podrien contagiar és infinit. Això és en el model hipotètic que no té límit, pot anar fins a l’infinit, però en el punt crític, la distribució, això és aleatori,a la distribució del número de persones que es poden contagiar és una llei de potències, és una cosa que decau molt lentament, de fet no té escala característica, poden ser 10 persones, 100 persones, 1.000 persones, 10.000 persones, cada cop la probabilitat és més petita però… és molt peculiar perquè si tu calcules la mitja d’aquesta distribució, resulta que és infinit, és una distribució de probabilitat que està ben definida però el valor esperat és infinit, i una mica la connexió amb la llei de Zipf és aquesta, a la llei de Zipf passen coses semblants.
Lluís Marimon (LM): Per cert, està demostrada estadísticament? Perquè veig que l’has treballada molt, i he vist que bastants estudis ho posen en dubte.
AC: Hi ha batalla, hi ha batalla, sí.
LM: Ho dic també perquè de vegades quan veus coses que es diuen, per exemple, que la població de les ciutats segueix la llei de Zipf, però veus exemples i dius: no hi haurà un biaix de confirmació? O realment estan estudiant una llei que es compleix?
AC: Es clar, és una llei estadística, en el fons, crec que la llei de Zipf és una bona descripció qualitativa, qualitativament et descriu el que està passant. Si tu vols fer un test estadístic rigorós per dir si això segueix… per exemple, la població de les ciutats, és un exemple que es dona de llei de Zipf, llavors si fas un test estadístic…
Eva Miranda (EM): La fiabilitat depèn una mica de la ciutat, i del número de persones…
AC: Sí, i hi pot haver altres distribucions, en el fons hi ha dues escoles, hi ha els que diuen que és una llei de potències i altres que diuen que és loc normal (?), que és la distribució loc normal, i aquest debat està una mica… per exemple, en el cas de les ciutats és una mica delicat…
JMC: Podries definir-la perquè quedi explicat, la llei de Zipf en què consisteix?
AC: En què consisteix? Per exemple, mires un text i comences a comptar paraules, posem en anglès, la paraula que més surt és «the», l’article, després pot dependre una mica, la segona que més surt és «of», la tercera és «to». Pot dependre una mica del text, no és el mateix un text de matemàtiques que un de poesia, però la llei es compleix igualment, les paraules canvien, però els números no canvien. Llavors, si la paraula «the» al teu text surt 10.000 vegades, la següent paraula, que és «of», sortirà 5.000 vegades. I la següent quina hem dit que era?
EM: «For» o «to».
AC: La que sigui, sortirà 3.300 vegades, més o menys, òbviament no és exacte, t’ho explicat amb les tres paraules més comunes, la llei s’observa millor no en aquesta zona, del rang de freqüències, no en les freqüències més altes, sinó en les més…
JMC: Intermedies?
AC: Bé, sí, també… És una mica complicat, perquè s’ha de mirar d’una altra manera… també amb les ciutats, si te’n vas als Estats Units, quina ciutat té més població? Doncs Nova York, què té? 10 milions d’habitants, no? I després quina hi ha? Los Angeles, 5 milions, després Chicago, 3 milions… m’estic inventant una mica els números…
EM: San Francisco on està aquí?
AC: No, San Francisco és més petita, un milió potser, no? Els Estats Units no té ciutats molt molt grans, traient aquestes tres o quatre… Però vaja, tens aquesta distribució, que la pots mirar així, com et dic, això es diu mirar per rangs, o es pot mirar com la distribució de probabilitat de la grandària de les ciutats en funció del número d’habitants, això és el que dèiem l’outbreak aquest de les epidèmies, encara no em ve la paraula al cap…
EM: Com que no s’està gravant en vídeo no saben que ho estem buscant a…
AC: Trampa, trampa!
EM: Però m’he de posar les ulleres…
AC: Doncs això, en quina distribució de grandària estem? Doncs una distribució que ve donada per una llei de potències… no sé si ara t’estic contestant la pregunta o no…
JMC: Sí, llavors, el que t’havia preguntat en Lluís que no…
EM: Brote, i en català com és? Brot.
AC: Gràcies, a veure si no se m’oblida. La pregunta era com de bé mires això? Es clar, quan tu mires això en termes de distribució de probabilitats vols dir que tens una ciutat que té una grandària de 10 milions, però només en tens una, després en tens una de 5 milions, però només en tens una també, o sigui que des del punt de vista estadístic això no és problema, et dona igual que siguin 10 milions que 11 milions, perquè només és una, això per fer un test estadístic no et dona problema, el problema són, per exemple, els pobles molts petits: quants pobles de 1.000 habitants tens? Doncs en tens molts, en tens moltíssims, ara no et sabria dir el número als Estats Units, però clar aquí com que tens estadística és quan venen desviacions de la llei aquesta, perquè no és el mateix tenir 10.000 pobles que 11.000, perquè quan tens moltes dades les desviacions compten molt, si tens una o dues coses molt grans, des del punt de vista estadístic et dona igual, però si en tens 10.000 o 11.000 coses molt petites, és molt diferent.
Llavors des del punt de vista de les ciutats grans no importen molt els números, però per ciutats intermedies sí que s’observen aquestes relacions molt bé. Inclús jo diria que s’observen millor en lingüística que en ciutats, és una mica… Clar, la gent pensa que en la llei de Zipf hi ha d’haver un mecanisme general, perquè és una llei que s’observa molt, en lingüística, en ciutats, nosaltres l’hem vist en música, canviant paraules per notes musicals, també en empreses, la grandària de les empreses, quants treballadors té una empresa? Doncs n’hi ha moltes que tenen molt pocs treballadors i hi ha poques empreses que tenen moltíssims treballadors. Però no hi ha una separació natural entre empresa gran i empresa petita, perquè la mateixa llei t’ho descriu tot, no tens una cosa bimodal, no tens un bony aquí i un bony allà, no, no, tens una corba suau que ho abasta tot. Llavors hi ha molta gent que pensa que hi ha un mecanisme universal que explica la llei de Zipf, tant en lingüística, com en paraules, com en empreses, i que també podria estar relacionat amb els punts crítics de les transicions de fase, però potser has de fer models una mica particulars, perquè potser no és el mateix… Hi ha gent que ha fet servir els mateixos models per ciutats que per textos, però potser no és molt realista, per ciutats hi ha un efecte de… és el model de Simon, que quan una persona neix, neixen més persones a les ciutats més grans, i neixen menys persones a les ciutats més petites, no?
JMC: Sembla lògica, no?
AC: Doncs Simon va aplicar això als textos: quan tu estàs escrivint un text la probabilitat que repeteixis una paraula és proporcional a la freqüència d’aparició d’aquella paraula, és un model que et dona la llei de Zipf, però clar, des del punt de vista cognitiu no és un model molt realista, perquè quan tu estàs escrivint no mires enrere i tires un dau i agafes una paraula de totes les que havies escrit. Llavors, els models aquests poden ser molt senzills, però el seu poder explicatiu o…
EM: De predicció? És limitat?
AC: Sí, en la pràctica també és molt difícil validar el model… com escrivim nosaltres? És molt curiós que al final si nosaltres escrivim un text, qualsevol, fem un exercici, escrivim una redacció lliure, el tema que vulgueu, allò esperable és que el vostre text segueixi la llei de Zipf, i cadascú haurà escrit el que vulgui. De fet, en això només es troben desviacions en persones…
EM: En els dadaistes, amb els poemes dels dadaistes. (riures)
AC: Això ho hauria de mirar, no ho sé… Es troben desviacions en persones que tenen problemes psiquiàtrics.
EM: Ah! És una prova de detecció possible?
AC: Tampoc sé si és molt fiable, no ho sé això, no sé si pots…
JMC: Es fa servir?
AC: No ho sé, no sé si pots fer servir un diagnòstic a partir d’un text així… Bé, òbviament una persona que no està bé del cap escriu una cosa i…
Aquest és un fragment del quart programa de Sistema Gaia, escolta’l sencer en aquest podcast:
I aquí trobaràs la transcripció completa:
SISTEMA GAIA 4 – MÉS ENLLÀ DEL CAOS
També et pots subscriure a Sistema Gaia a IVOOX i escoltar-lo allà.
