Zipfs lag

Teorem, sannolikhetsfördelning
Användning	frekvensanalys
Uppkallad efter	George Kingsley Zipf
Studeras inom	sannolikhetsteori
Upptäckare eller uppfinnare	George Kingsley Zipf
Definierande formel
Används av	bibliometri, lexikografi, demografi

Zipfs lag (uttalas zɪfs) är en empiriskt visad statistisk lag som säger att inom många tillämpningsområden inom såväl samhällsvetenskap som naturvetenskap gäller att vid stora mängder diskreta data är rankingfrekvensen (förekomsten av det vanligaste värdet, näst vanligaste värdet, osv) approximativt Zipf-fördelade. Lagen är bland annat giltig på frekvensen av ord i ett språk eller en längre text, på städers folkmängd i ett land, på massmediers popularitet, på webbplatsers besöksstatistik, på inkomststorlekar, företagsstorlekar, med mera. Lagen återspeglar att det finns några få mycket vanliga ord och många ovanliga, få stora städer och många små, och så vidare.

Zipfs lag är uppkallad efter den amerikanske lingvisten George Kingsley Zipf^(en) som föreslog lagen (Zipf 1935, 1949) för att beskriva förekomsten av olika ord i språk. Emellertid tycks JB Estoup^(fr) ha lagt märke till detta mönster innan Zipf.^[1]^[2] Fördelningen av städers folkmängd studerades av Felix Auerbach redan 1913.^[3]

Zipfs ursprungliga formulering av lagen säger att frekvensen av, eller sannolikheten för, ett visst ord eller värde är omvänt proportionell mot dess ranking. Det näst vanligaste värdet inträffar således hälften så ofta som det vanligaste värdet och så vidare. Idag är emellertid lagen generaliserad så att frekvensrankingen är upphöjd med en exponent s. Exponentens värde bestäms empiriskt och skiljer mellan olika tillämpningsområden. Lagens ursprungliga formulering motsvaras av s=1, medan s=0 motsvarar likformig sannolikhetsfördelning. Exempelvis vid städers befolkningstal har god matchning visats med s = 1,07. Vid webbplatsers besöksstatistik är s ungefär 2.

Zipffördelningen tillhör en familj av besläktade diskreta potenslagsfördelningar, som samtliga karaktäriseras av skalinvarianta egenskaper.

Tillämpning inom lingvistik

Enligt Zipfs lag gäller att vid en viss korpus (stor och strukturerad samling av uttryck inom ett naturligt språk), så är frekvensen av ett visst ord omvänt proportionell mot ordets frekvensranking. Det mest frekventa ordet inträffar således ungefär dubbelt så ofta som det näst vanligaste ordet, tre gånger så ofta som det tredje vanligaste ordet, etc. Till exempel är i modern engelska (enligt Browns korpus) "the" det mest frekventa ordet, med en förekomst på 6,9%, medan det näst vanligaste ordet, "of", står för drygt 3,6% av ord (överensstämmer approximativt med 6,9%/2=3,4% enligt Zipfs lag), följt av "and" med 2,8% av förekomsterna (borde vara 6,9%/3=2,3% enligt Zipfs lag).

Matematisk formulering

Antag att N olika värden eller ord förekommer, och att det vanligaste värdet (värdet med ranking 1) har frekvensen $f_{1}$ , det näst vanligaste (med ranking 2) frekvensen $f_{2}$ , osv. Rankingtalen kan ha värdena $k\in \{1,2,\ldots ,N\}$ .

Om värdena följer Zipfs lag har de approximativt följande diskreta fördelning:

f_{k}=\Pr(k)={\frac {c}{k^{s}}},

där $c={\frac {1}{\sum _{k=1}^{N}{\frac {1}{k^{s}}}}}$ .

Om antalet värden N är oändligt måste exponenten s vara större än 1 för att summan av fördelningen ska konvergera.

Analys av datamängd

En datamängd kan testas empiriskt för att se om den följer Zipfs lag genom att plotta värdenas frekvens som funktion av deras ranking (1 för vanligaste värdet, 2 för näst vanligaste värdet, osv) i ett log-logdiagram. Om resultatet approximativt är en rät linje uppfyller värdena Zipfs lag. Matematisk innebär det att man gör regressionsanalys på följande samband:

\log k=\log c-s\log f_{k}

,

där k är datats ranking och $f_{k}$ dess statistiska frekvens. Parametrarna log c (linjens nollgenomgång) samt s (linjens lutning) estimeras med linjär regressionsanalys. För att Zipfs ursprungliga formulering ska vara tillämplig skall parametern s vara 1.

En modifierad variant av Zips lag förekommer där exponenten s antas ha olika värden i olika delintervall, exempelvis ett lågt värde för rankingtal under en viss brytpunkt, och ett högt värde vid högre rankingtal. I log-logdiagrammet motsvarar det en bruten linje.

Se även

Benfords lag

Källor

^ Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0262133609, p. 24
^ JB Estoup, Gammes sténographiques (3d ed. 1912)
^ Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76

Vidare läsning

Henri Guiter, Michail V. Arapov (Hrsg.): Studies on Zipf's Law (= Quantitative Linguistics. Bd. 16). Studienverlag Brockmeyer, Bochum 1982, ISBN 3-88339-244-8.

Externa länkar

Wikimedia Commons har media som rör Zipfs lag.
Bilder & media

[1] Christopher D. Manning, Hinrich Schütze Foundations of Statistical Natural Language Processing, MIT Press (1999), ISBN 978-0262133609, p. 24

[2] JB Estoup, Gammes sténographiques (3d ed. 1912)

[Auerbach1913-3] Auerbach F. (1913) Das Gesetz der Bevölkerungskonzentration. Petermann’s Geographische Mitteilungen 59, 74–76

[1]

[2]

[3]