Archive for the ‘Allgemein’ Category

Kurze Wiederholung, weil es etwas komplizierter ist: beim letzten Mal stellte ich vor, dass sich die Relevanz von Wikipediaartikeln im Wesentlichen dadurch ausdruecken laeszt, indem man zaehlt wie oft ein Artikel zitiert wird. Der Einfachheit halber nenne ich hier Wikipeidaseiten mit kleinen Relevanzwerten „irrelevant“ (mit Anfuehrungszeichen). Das bedeutet nicht, dass die irrelevant (ohne Anfuehrungszeichen) sind.
Desweiteren stellte ich fest, dass die Wikipediartikel an den beiden Enden der Relevanzskala (die Artikel mit den kleinsten bzw. grøszten Relevanzwerten) vor allem von „irrelevanten“ Seiten zitiert werden. Daraus folgte, dass zumindest fuer die zwei meistzitierten Artikel die Relevanz nur deswegen zustande kommt, weil es die „irrelevanten“ Seiten gibt.
Das waren aber nur vier Beispiele und ich setzte mich mal hin und schaute mir das fuer _alle_ Wikipediaseiten an. Dies hier ist das Ergebnis:

Wenn das Bild geklickt wird, dann wird das grøszer.

Was sieht man hier eigentlich? Die Abszisse repraesentiert den oben erwaehnter Relevanzwert einer Seite. Bis 2075 Zitierungen entspricht das der Anzahl der Zitierungen die eine Seite erhalten hat. Danach weichen die Relevanzwerte von der Anzahl der Zitierungen ab. Der Grund ist, dass die Werte der Abszisse das Resultat einer Abbildung einer Grøsze mit ungleicher „Schrittweite“ (Anzahl der Zitierungen) auf eine Grøsze mit konstanter „Schrittweite“ (Relevanzwert) ist. Ein kurzes Beispiel: es gibt keine Seite die 2076 mal zitiert wurde aber 2 Seiten die 2077 mal zitiert wurden. Der Relevanzwert zaehlt also „OHNE Luecken“.
Von der Bedeutung aendert sich aber nichts: je mehr Zitierungen eine Seite hat, desto relevanter ist diese (wohl) und entsprechend grøszer ist der Relevanzwert.

Die Ordinate repraesentiert im Wesentlichen die gleiche Grøsze, aber fuer die zitierende Seite.

Der Farbwert entspricht nun wie oft Seiten gefunden wurden, die einen bestimmten Relevanzwert haben und von einer (anderen) Seite mit einem (anderen) bestimmten Relevanzwert zitiert wurde.
Wenn also Seite A drei mal zitiert wurde von drei anderen Seiten die selber drei, elf und siebzehn mal zitiert wurden, dann zaehlt der Wert bei den „Koordinaten“ (3, 3), (3, 11) und (3, 17) ein mal hoch.
Wenn nun Seite B auch drei mal zitiert wurde, von Seiten die drei, sechs und sieben mal zitiert wurde, zaehlen die Werte bei den entsprechen „Koordinaten“ eins hoch. Der Wert bei (3, 3) ist nun zwei.
Diese Zaehlung habe ich nun fuer alle Wikipediaseiten gemacht und tritt fuer eine „Koordinate“ kein „Ereigniss“ auf, so bleibt das „Pixel“ fuer diese Koordinate schwarz.

Achtung: das obige Bild ist eine quadratische Matrix! Aufgrund gegebener Limitierungen in der Praesentation habe ich mich aber entschieden die Abszisse „laenger“ zu machen als die Ordinate.
Nochmal Achtung: Das ist zwar eine quadratische, aber keine symmetrische Matrix! Auch wenn auf den Achsen beide Male Relevanzwerte dargestellt sind, so ist die Bedeutung geringfuegig anders (wie oben beschrieben).

Wir sehen im Bild nun, dass das ueberwiegend schwarz ist. Bei den meisten Koordinaten zaehlt also nix hoch, weil es keine Seiten mit dem jeweiligen Relevanzwert gibt, die zitiert werden von Seiten mit dem (anderen) jeweiligen Relevanzwert. Schaut man genau hin, ist da „Rauschen“ drin. Ich komme da spaeter drauf zurueck.

Desweiteren sieht man, dass sich alles an der linken und unteren Kante abspielt — der blaue „Saum“. Das ist wichtig, denn dies ist eine Bestaetigung der beim letzten Mal getroffenen Aussage. Egal wie wichtig eine Seite ist (Wert auf der Abszisse), diese erhaelt ihre Wichtigkeit vor allem dadurch, weil sie von „irrelevanten“ Seiten zitiert wird (Wert auf der Ordinate). Das ist das blaue Band am unteren Rand.

Das blaue Band am linken Rand besagt nun, egal wie wichtig eine Seite (Ordinate) ist, diese zitiert vor allem „irrelevante“ Seiten (Abszisse). Und das ist krass!
Warum ist das krass? Nun ja, die erste Aussage (Wichtigkeit nur durch die Zitierung von „irrelevanten“ Seiten) ist ja eindeutig. Aber das Ganze geht noch weiter! Denn die zweite Aussage bedeutet, dass selbst die relevantesten Seiten ueber irrelevante Sachen schreiben (weil man ja zitieren muss worueber man schreibt).
Und DAS bedeutet dann nicht nur, dass relvante Seiten nur durch die Zitierungen irrelvanter Seiten relevant werden, sondern dass es relevante Seiten gar nicht geben wuerde, wenn diese nicht ueber „irrelevante“ Seiten schreiben kønnten!

DAS ist so krass, denn dies setzt der Relevanzdiskussion ein Ende und die Inkludisten sind die eindeutigen Gewinner!

Das ist das Resultat. Nun ist’s aber nicht ganz so einfach … und warum geht die Farbskala eigentlich bis ueber 120-tausend Ereignisse, wenn im Bild entweder alles schwarz oder blau (ein paar tausend Ereignisse) ist?
Nun ja, deswegen ist da ein Pfeil im Bild.

Ich zoome mal rein:

AHA! Da wird’s rot. Im Bereich bis zu Relvanzwerten von 100 passiert alles … bzw. nix, denn der schwarze Balken bei einer Relevanz von Null liegt natuerlich daran, dass diese Seiten null mal zitiert werden … aber ich schwoff ab.
Koordinaten fuer Seiten die ein bis zehn mal zitiert werden, von Seiten die selber null bis zwei Zitierungen haben sind im gelb/roten Bereich. Das sind also 10 mal 3 mal 100-tausend „Ereignisse“ die sich dort „versammeln“. Diese Gruppe ist umgeben von einem deutlich breiteren, gruenen „Halo“ welche Ereignisse mit Zaehlungen bis ca. 60-tausend beinhaltet.
Die Vielzahl der „irrelevanten“ Seiten die sich selber zitieren fuehrt zu so krass vielen Zitierungen (Ereignissen), dass das was in diesem Bereich angehaeuft ist vom absoluten Wert alles andere in den (blauen) Schatten stellt. Und weil die „Ausdehnung“ dieser Gruppe so klein ist, sieht man das im ersten Bild nicht.

Das ist jetzt natuerlich ein Problem in Bezug auf die obigen Aussagen. Die schiere Menge an Zitaten von (und an) „irrelevante(n)“ Seiten erdrueckt das Signal der Seiten mit grøszeren Relevanzwerten.

Aber zum Glueck ist dies mit einer simplen mathematischen Transformation sehr leicht in Betracht zu ziehen: jede Spalte muss normiert werden.
Das hørt sich jetzt fancy-pancy an, was das bedeutet ist aber, dass alle Werte in einer Spalte durch den grøszten Wert dieser Spalte geteilt werden. Besagter grøszter Wert wird dann natuerlich zu 1. Das Gute ist nun, dass ALLE grøszten Werte ALLER Spalten den Wert 1 haben. Dadurch wird das „Gewicht“ von der Farbskala genommen und Spalten mit groszen Relevanzwerten kønnen mit Spalten mit kleinen Relevanzwerten verglichen werden. Dabei ist natuerlich immer im Hinterkopf zu behalten, dass dies relative Vergleiche sind, im Gegensatz zum Vergleich der absoluten Werte in den obigen beiden Bildern.
Und so sieht das dann aus:

Haeh? What? Das ist doch das Gleiche! … Nun ja, nicht, wenn man ganz genau auf den unteren Rand schaut (ACHTUNG: die Ordinate geht nur noch bis 200 „Ereignisse“):

AHA! Das sieht doch schon ganz anders aus. Durch die Normierung wird (wie vorgesehen) der erdrueckende Anteil der Ereignisse bei kleinen Relevanzwerten irrelevant (tihihi). Das Resultat ist nun das rot gruene Band am unteren Rand. Dieses haelt die obige (erste) Aussage aufrecht: fuer ALLE Seiten, vøllig unabhaengig davon wie grosz (oder klein) die absolute Anzahl der Zitierungen ist, gilt, dass diese hauptsaechlich von „irrelevanten“ Seiten zitiert werden.
Das ist zwar das Selbe wie oben schon erkannt, aber es ist gut, dass diese Kontrolle nicht zu einem anderen Ergebis gefuehrt hat.

Aufmerksamkeit møchte ich richten auf die Tatsache, dass ein mal zitierte Seiten (Relevanzwert = 1, auf der Abszisse)  interessanterweise weniger haeufig andere Seiten zitieren als null mal bzw. drei mal zitierte Seiten. Dies drueckt sich in dem duennen gruenen Streifen parallel zur Abszisse aus, der eingequetscht ist zwischen den roten Streifen bei Relevanzwerten (der zitierenden Seiten, also auf der Ordinate) von null bzw. zwei.
Man sieht das auch bereits in den nicht normierten Daten im obigen Bild. Dort sieht man dann auch einen Grund: der Wert bei der Koordinate (1, 1) hebt sich deutlich hervor im Vergleich zu den Werten bei (1, 0) bzw. (1, 2).
Dies wiederum deutet darauf hin, dass meine Erklaerung des „im Kreis zitieren“ vom letzten Mal …

[s]ozusagen wenn Hintertupfingen Vordertupfingen zitiert, weil’s das Nachbardorf ist (und umgekehrt), aber beide von keiner anderen Seite zitiert werden

… schon in die richtige Richtung geht fuer viele dieser Seiten. Denn wenn die ihr eines Zitat fuer die „Nachbardorfseite“ verbrauchen und umgekehrt, dann fehlt das „Signal“ natuerlich an anderer Stelle.

Dies wiederum waere dann aber auch ein Hinweis auf (mehr oder weniger) tataechliche Nichtrelevanz, da diese Seiten dann ja in keinem Diskurs teilnehmen, sondern nur eine Nabelschau sind. Ich persønlich wuerde die aber trotzdem drin behalten.

Genug dazu … wie sieht das nun mit der zweiten Aussage aus? Ueber was schreiben die (nicht nur relevanten) Seiten eigentlich? Dafuer muss man natuerlich alle Zeilen normieren und das sieht dann so aus:

Aha! Ein bunter Streifen, der sich an die Ordinate schmiegt. Wenn man rein zoomt, dann sieht das so aus:

Im Allgemeinen bleibt also auch die zweite Aussage bestehen: ALLE Seiten zitieren hauptsaechlich „irrelevante“ Seiten. Das ist die Bedeutung des gruen-roten Bereichs am linken Rand. Aber das muss etwas genauer betrachtet werden.

Zum Ersten ist das, anders als beim obigen Fall, kein eindeutiges „rotes Band“ (parallel zur Ordinate in diesem Fall). Das „duennt aus“ je grøszer die Relevanzwerte der zitierenden Seite wird. Dies wiederum bedeutet, dass das „Signal“ bei høheren Relevanzwerten (auf der Abszisse) grøszer werden muss zu høheren Relevanzwerten auf der Ordinate. Nun sieht man das im Gesamtbild aber wieder nicht, weil das Gesamtsignal bei kleinen Relevanzwerten von vielen Seiten stammt, waehrend es bei groszen Relevanzwerten von wenigen, oft nur einer Seite „generiert“ wird. Die angesprochene Beobachtung geht also im „Rauschen“ unter.

Aber tatsaechlich, schaut man sich mal die Ecke bei den 1000 grøszten Relevanzwerten an …

… dann scheint sich da Information zu verstecken! In den zeilenweise normierten Daten geht das „Rauschen“ oft in den blauen und gar gruenen Bereich (manchmal gar in den roten). Hier ist also noch „was zu holen“.
Aber darum soll es beim naechsten Mal gehen: wie man das Mehr an Information aus den Daten kitzeln kann :)

Zum Zweiten liegt das Maximum des „roten Bereichs“ nicht bei Relevanzwerten von 1 oder 2 sondern eher bei Relevanzwerten von 5, 6 und 7. Dies ist zum Glueck einfach zu erklaeren.
Seiten mit den kleinsten Relevanzwerten werden zwar total gesehen am haeufigsten zitiert (die Anzahl der Seiten die nur ein mal zitiert werden ist grøszer als fuer alle anderen Relevanzwerte), aber wenn eine Seite mit Relevanzwert 1 ihr eines Zitat erhalten hat, dann ist diese Seite „verbraucht“. Die naechste Zitierung muss also zu einer anderen Seite mit Relevanzwert 1 gehen. Bis wir durch sind mit denen. Dadurch „verschmiert“ sich das Gesamtsignal fuer alle Seiten mit Relevanzwert ueber den kompletten Wertebereich.
Hingegen wenn eine Seite mit Relevanzwert 6 eine Zitierung bekommt, dann kann die noch fuenf weitere Male zitiert werden. JA, die Anzahl der Seiten mit Relevanzwert 6 ist geringer, aber das Produkt aus erhaltenen Zitaten und Anzahl der Seiten ist grøszer. Bei Relevanzwerten ueber sieben ist’s dann aber wieder so, dass die Anzahl der Seiten so stark abnimmt, dass besagtes Produkt wieder kleiner wird.
Das sieht man uebrigens auch im Bild mit dem „reingezoomten“ Bild mit den total Zahlen und deswegen erscheint das Maximum des „roten Bereichs“ der (zeilenweise) normierten Daten eher dort.

Dieses Wechselspiel aus totalen und normierten Zahlen bzw. vielen Seiten und vielen Zitierungen (bzw. dem Produkt aus beiden) muss alles im Kopf behalten werden waehrend der Interpretation dieser Diagramme. Ich gebe zu, dass dies nicht immer einfach ist. Ich sasz oft laenger da, ohne dass mir die Erklaerungen „ins Gesicht gesprungen“ ist. Vielmehr musste ich alle Gegebenheiten auseinanderklamuesern, mir genau ueberlegen was die Normierung (oder die Achsen, oder der Farbwert) eigentlich bedeutet, und total aufpassen, dass mir da nix durcheinander kommt um das Signal zu interpretieren und die Zusammenhaenge zu erkennen.
Und das ist einer der Gruende, warum ich das so toll finde. Einfach, kann ja jeder :)

Die Darstellung der kumulativen Anteile der Anzahl Links pro Seite erinnerte mich, dass ich das bei den Zitierungen nur indirekt und mit Worten machte. Hier nun als Graph:

Im Hintergrund habe ich wieder die Verteilung reingelegt, wieviele Seiten wie oft zitiert wurden. Die rote Kurve stellt dann dar, wie vielen Seiten das insgesamt bis zum gegebenen Argument entspricht (in Prozent). Dito fuer die Zitierungen (blaue Kurve). Wie der Graph zu lesen ist erklaerte ich beim letzten Mal, ich markierte wieder die 50 % Werte.
Verglichen mit den Kurven beim letzten Mal ist der Unterschied zwischen den Anteilen VIEL krasser! Das sieht man noch deutlicher im Diagramm auf der rechten Seite, wo der Anteil der Seiten sich praktisch an die Ordinate anschmiegt und dann „sofort“ bei 100 % ist. Das ist eine Sache, die bei der Beschreibung mit Worten gar nicht soooo dolle rueber kam.
Kleine Abschweifung: beide Diagramme enthalten die gleiche Information (oder gar die Selbe?). Aber erst durch die verschiedenen Abszissen wird man erst auf bestimmte Dinge aufmerksam.

Warum zeige ich das hier? Nun ja, davon abgesehen, dass das ’n cooles Diagramm ist, ist es auch wichtig fuer das was ich im Folgenden besprechen werde. Denn diese Darstellung brachte mich auf die Idee, dass man die beruehmt-beruechtigte Relevanz mglw. messen kann. Nicht dass ich denke, dass das irgendwen umstimmen wuerde, aber es ist mal interessant anzuschauen.

Die Grundlage der „Messbarkeit der Relevanz“ ist ganz einfach: ein Artikel ist relevant wenn er ein wichtiger Teil der Diskussion ist. Ein wichtiger Teil der Diskussion ist ein Artikel, wenn dieser oft zitiert wird. Wie oft ist oft? Das ist dann im Allgemeinen nicht mehr so einfach zu quantifizieren.
Aber das ist auch nicht wirklich nøtig, denn im Speziellen denke ich, dass ein Konsens darin gefunden werden kann, dass die paar Seiten (lila Punkt im linken Diagramm) die 50 % der Zitierungen (gruen/lila Punkt) auf sich vereinen mit Sicherheit relevant sind. Einfach aus der (messbaren und damit objektiven (?)) Tatsache, dass die so krass viele Zitierungen auf sich vereinen, obwohl es sich dabei um nur ein bisschen mehr als 1.5 % aller Wikipediaseiten handelt. Zur Erinnerung: hier hatte ich die 50 meistzitierten Seiten aufgelistet.

Damit stellt sich dann als naechstes die Frage: wer zitiert diese Seiten eigentlich so oft? Oder anders: „wer“ sorgt eigentlich dafuer, dass diese Seiten relevant werden (sind)? Und DAS ist messbar … wird aber ein dreidimensionales Datenfeld mit 32,433,025 Millionen Werten … aber ich greife vor.

Zunaechst einmal: wie kann das gemessen werden?
Nun ja, das ist (mehr oder weniger) ganz einfach. Ich habe fuer jede Seite die Zitate (vulgo Links zu anderen Wikipediaseiten). Nun gehe ich zum ersten Mal durch die Daten, schaue fuer jede Seite wie oft die von anderen Seiten zitiert wird und merke mir das. Damit habe ich nun ein Masz fuer die „Wertigkeit“, „Wichtigkeit“ oder eben „Relevanz“ einer Seite. Je mehr Zitierungen desto „relevanter“.
Dann gehe ich ein zweites Mal durch die Daten und fuer jede zitierte Seite merke ich mir dann, von welcher Wichtigkeit die Seite war, welche diese Zitierung ausgesprochen hat. Letzteres weisz ich ja vom ersten Durchgang.

Das muss ich zwar fuer jede Seite in Erfahrung bringen, aber die Information wird zusammengefasst in Gruppen nach ihrer Relevanz. Also bspw. wann immer eine Seite die fuenf Mal zitiert wurde von einer anderen Seite die drei Mal zitiert wurde zitiert wird, dann zaehlt der Zaehler dieser 3-5-Gruppe einen hoch. Damit habe ich 3596 mal 3596 Gruppen. Wie? Nur so wenige? Mindestens eine Seite wird doch deutlich mehr als 300-tausend mal zitiert. Die Erklaerung liegt darin (wie man im Diagramm auf der rechten Seite sieht), dass da ganz schøn viel „Luft“ zwischen den Balken mit groszer Anzahl an Zitierungen ist.

Lange Rede kurzer Sinn: der Relevanzwert entspricht der Anzahl der Zitierungen ohne Luecken. Dabei muss man dann im Kopf behalten, dass die Relevanzwerte von 0 bis 2075 tatsaechlich dem entsprechen wie oft eine Seite zitiert wurde. Hingegen entspricht der Relevanzwert 5695 der einen Seite, die mehr als 325-tausend mal zitiert wurde und der Relevanzwert von 5694 eben jener Seite die „nur“ ein bisschen mehr als 231-tausend mal zitiert wurde; usw. rueckwaerts is alle Luecken geschlossen sind.
Das ist gar nicht so verwirrend, wie es sich erstmal anhøren mag. Ich bilde nur die groszen Werte auf kleineren Werten nach einer gegebenen (determinischen) Zuordnungsfunktion ab. Im Wesentlichen zaehle ich nur etwas anders.

Auch wenn das eine deutliche Reduktion des Problems ist, so sind das dennoch die weiter oben erwaehnten 5695 mal 5695 = 32,433,025 Millionen Werte.
Als ich das das Erste Mal programmierte hackte ich nur kurz zusammen, was mir gerade in den Kopf kam. Die beiden Durchlaeufe brauchten zwei Tage. Dann merkte ich, dass ich einen Fehler gemacht hatte, korrigierte den und liesz das nochmal zwei Tage laufen.
Dann hatte ich die Idee, dass ich das Ganze ja gleich in eine Matrix schreiben kønnte. Die eine Dimension der Matrix ist die „Relevanz“ einer Seite (in ganzen Zahlen mit oben erwaehnter Zaehlung). Die andere Dimension ist die Relevanz der zitierenden Seite. Und der Wert eines Felds ist dann wie oft diese bestimmte „Gruppe“ in den Daten auftauchte. Der Code wure dadurch viel einfacher und leichter zu verstehen und mit dieser (grundlegend alles veraendernde) Modifikation brauchte das dann nur noch 15 Minuten anstatt 2 Tage.
Das mit der Matrix ist ja eigentlich eine naheliegende Idee und da haette ich auch gleich drauf kommen kønnen. Aber als ich anfing hatte ich noch keine klare und eindeutige Vorstellung davon, was ich eigentlich untersuchen wollte. Also ich hatte das schon, aber „nur“ in Worten. Mein Geist brauchte ein paar Tage um das intern zu mathematisieren. Aber dann ging’s fix :) … also zumindest das Datensammeln. Zu interpretieren was ich da eigentlich sehe dauerte dann noch einige Tage mehr.

Und so sieht das aus fuer alle (!) Seiten die ein bzw. zwei Mal (schwarze und rote Punkte) zitiert wurden und fuer die zwei Seiten mit den Relevanzwerten von 5694 bzw. 5695 (lila und blaue Punkte):

ACHTUNG: Die Linien sind nur zur Orientierung (der Richtung)! Es gibt keine Werte zwischen den ganzen Zahlen. Aber aufgrund der logarithmischen Abzsisse kann die Null nicht dargestellt werden und deswegen benøtigt es eine Orientierung der Richtung fuer den Verlauf vom Relevanzwert 1 zum Relevanzwert 0.
Fuer diese vier Beispiele sieht man, dass alle Seiten vor allem von „nicht relevanten“ Seiten zitiert werden. Fuer die selber „nicht relevanten“ Seiten bedeutet das mglw., dass die sich „im Kreis zitieren“. Sozusagen wenn Hintertupfingen Vordertupfingen zitiert, weil’s das Nachbardorf ist (und umgekehrt), aber beide von keiner anderen Seite zitiert werden.
Interssant ist, dass Seiten mit einem Relevanzwert von 1 vor allem von Seiten mit einem Relevanzwert von 0 zitiert werden, also von Seiten die ihrerseits NICHT zitiert werden.
Uebrigens tut das nix zur Sache, dass der høchste lila Punkt (von der am zweitmeisten zitierten Seite) deutlich høher ist als der høchste blaue Punkt. Das Integral unter der Kurve entspricht der Anzahl aller Zitierungen und die blauen Punkte sind zu groszen Relevanzwerten hin immer ueber den lila Punkten. Das sieht man aber in der linearen Darstellung nicht, weil die Werte unter 1000 liegen.
Die schwarzen und roten Punkte liegen da uebrigens nochmal drueber, denn alle Seiten die ein mal zitiert wurden sind ja viel mehr als die (buchstaeblich) zwei meistzitierten Seiten … oder anders: Kleinvieh macht auch Mist.

Bemerkenswert ist nun, dass auch die zwei meistzitierten (und damit die zwei relevantesten) Seiten am haeufigsten von „nicht relevanten“ Seiten zitiert werden. Wait! What? Das wuerde doch bedeuten, dass die nur deswegen relevant sind weil sie von „nicht relevanten“ Seiten zitiert werden! Was im Umkehrschluss bedeutet, dass die ganze Relevanzdiskussion fuer’n Arm ist, weil es die einen nicht ohne die anderen geben kann.

Aber das sind nur vier Beispiele. Fuer die Gueltigkeit dieser Aussage muss ich das fuer alle (oder zumindest die Mehrheit) der relevanten Seiten zeigen. Nun weisz ich aber aus Erfahrung, dass man nix mehr erkennt, wenn man fast 5700 Kurven darstellt. Ich kann das aber als Falschfarbenbild darstellen. Dazu aber mehr beim naeachsten Mal  … … … Na gut … hier schon mal ein Spoiler … tihihi:

Keine Sorge, das wird noch spannend :) .

Im ersten Artikel zu den Zitierungen gab ich nur wørtlich (bzw. als Zahlen im Diagramm) an, wieviele (oder vielmehr wie wenige) Seiten so und so viel Prozent der Zitierungen ausmachen. Ungefaehr nur ein Drittel aller Seiten vereinen ueber 90 Prozent aller Zitierungen auf sich.

Fuer die Anzahl der Links sieht das aehnlich aus, diesmal aber als Diagramm (zur besseren Orientierung habe ich im Hintergrund die doppeltlogarithmische Verteilung vom letzten Mal herein gepackt, die hat aber keine zugehørige Ordinate!):

.oO(endlich mal keine Verteilung.)

Wie ist dieses Diagramm zu lesen?
Die Kurven stellen jeweils den aufaddierten Anteil aller Seiten (rote Kurve), bzw. aller Links, bis zum gegebenen Argument dar. Als Beispiel nehme man die zweifarbigen Punkte, welche bei jeweils 50 % verortet sind.
Der rot/gruene Punkt liegt bei 14 Links pro Seite und die Haelfte alle Seiten hat so viele oder weniger Links. Folgt man diesem Punkt nach unten, landet man bei ca. 15 % auf der blauen Kurve. Dies bedeutet also, dass 50 % aller Seiten, nur ca. 15 % aller Links auf sich vereinen.
Nun der gruen/lila Punkt. Dieser liegt bei 51 Links pro Seite. Man muss also alle Seiten mit 51 Links oder weniger zusammen nehmen um 50 % aller Links auf der Wikipedia (zu anderen Wikipediaseiten) zu bekommen. Dafuer muss ich aber fast 90 % aller Wikipediaseiten besuchen (lila Punkt auf der roten Kurve).

Umgekehrt bedeutet dies, dass nur ca. 10 % aller Seiten die Haelfte aller Links enthalten! Wiederum werden die Zahlen also von wenigen Seiten dominiert.

Dies hingegen macht eine einfache Abschaetzung der benøtigten Schritte fuer eine „Rundreise“ auf dem kompletten Linknetzwerk fuer mich nicht møglich. Ich schreibe „fuer mich“, weil es bestimmt mathematische Werkzeuge gibt, mit denen man das unter den gegebenen Umstaenden machen kann, aber die sind mir nicht bekannt.
Aus den vielen Seiten mit wenigen Links wuerde ich vermuten, dass man relativ viele Schritte per Rundreise braucht. Wenn man aber nur ein paar wenige Seiten mit vielen schon anfangs erreicht, dann sollte man nur wenige Schritte brauchen. Das hier sind also entgegengesetzte „Prozesse“.

Es sei denn, wenn die Ersteren vor allem sich selber und die Letzteren auch vor allem sich selber zitieren. Wenn also diese zwei Gruppen „unter sich bleiben“.
Aha! … Da muss ich doch glatt mal schauen ob ich da was rausfinden kann.

Deswegen genug fuer heute.

Ach so … Was fuer Seiten das sind, die extrem viele Links enthalten, hatte ich bereits hier besprochen. Und Seiten die keine Links haben werden (wie hier erwaehnt) in meinen Betrachtungen nicht rausgeschmissen wenn diese noch auf anderen Seiten zitiert sind. Drei Beispiele waeren Clematis marmoraria (natuerlicherweise zitiert auf Clematis), Serbian proverbs (zitiert auf Culture of Serbia), oder Third-party software component (zitiert auf Easy Chirp, Shareaza, Foobar2000 und 83 anderen Seiten).

Von grøsztem Interesse bzgl. des Linknetzwerks ist die (durchschnittliche) Anzahl der Links pro Seite. Je grøszer diese Zahl ist, desto weniger Schritte brauche ich im Schnitt um das komplette Netzwerk „abzuschreiten“.

Deswegen schaute ich mir genau das mal an und die Verteilung …

… ueberraschte mich.

In der doppeltlogarithmischen Darstellung auf der rechten Seite sieht man (wieder), dass das Verhalten (wieder) ueber einen weiten Bereich mittels eines Potenzgesetzes beschrieben werden kann. Ich wuesste zwar immer noch keinen Mechanismus warum das so sein muesste, aber das ist ja von den Zitierungen bekannt.
Bei genauerer Betrachtung sieht man, dass die Anzahl der Seiten in Abhaengigkeit von der Anzahl der Links im Bereich zwischen ca. 100 und 500 Links etwas von der Geraden abweicht. Phaenomenologisch ist das in dem hiesigen Zusammenhang nicht relevant. Ich bin nur an einer Abschaetzung interessiert. Aber so eine kleine Diskrepanz ist auch, wie das Higgs-Boson entdeckt wurde (siehe Abbildung 1 in diesem Artikel).
Und Phaenomenologie … mhmmm … das kann manchmal auch eine der Intention komplett entgegengesetzte Reaktion zur Folge haben … tihihihi

Das unerwartete ist aber im linken Diagramm zu sehen. Wie bei allen vorherigen Verteilungen haette ich ein deutlich ausgepraegtes Maximum bei einem Wert erwartet. Aber das Maximum bei 8 Links „verschmiert“ sich zu 6 und 7 und 9 Links. Auch die Zaehlungen bei 4 und 5 bzw. 10 und 11 Links sind nur ca. zehn Prozent geringer als der Maximalwert … und 10 % Unterschied wuerde ich normalerweise in den bereits øfter erwaehnten Fehler-bei-Daten-aus-der-echten-Welt einordnen (zumindest wenn kein Trend zu erkennen ist) … ich wuerde das „Maximum“ also eher als Plateau von 5 bis 11 Links sehen.
Bei den Untersuchungen zu den Zitierungen stellte ich fest, dass extrem viele Artikel sehr selten zitiert werden. Ich gab ein paar Beispiele und dabei handenlte es sich um sehr oder relativ kurze Artikel. Da ich die mehr (mehr oder weniger) zufaellig auswaehlte, kann man das durchaus als repraesentativ ansehen. In einem kurzen Artikel gibt es natuerlich auch nicht so viele Gelegenheiten was anderes zu zitieren. Aus der Menge der (wenig zitierten) kurzen Artikel erklaert sich dann auch die grosze Anzahl der Artikel die 5 bis 11 Links haben.

Und dann kommt ganz unerwartet nochmal ein signifikanter „Ausschlag“ bei 12 Links! What the what? Das sieht aus als ob das so ’ne unbewusste, kollektive, psychologische Grenze ist: .oO(Ach jetzt habe ich 11 Links, einer geht noch) … ein kurioses Phaenomen.

Genug fuer heute.

Beim vorletzten Mal stellte ich nicht die Gruppe von Artikeln mit den wenigsten Zitierungen, weniger als zehn, vor. Das sei hiermit nachgeholt:

Diesmal ist die Ordinate linear, und man sieht, warum ich beim vorletzten Mal die logarithmische Darstellung waehlte. Die dort diskutierten Gruppen wuerden bei einer linearen Ordinate nur als ganz flache Balken, und damit wenig relevant erscheinen. Warum der subjektive Eindruck falsch ist, wurde beim letzten Mal ausgiebig diskutiert.

Wieauchimmer, in diesem Diagramm zeigt sich, dass die weitaus meisten Seiten entweder gar nicht, oder høchstens zwei Mal zitiert werden. Das hørt sich fuer mich sehr danach an, dass da jemand ueber „lokale Themen“ geschrieben und die untereinander zitiert hat (oder auch nicht). Das kann man aber nur bedingt oft machen. In Zahlen: 64.4 % aller Wikipediaseiten vereinen nur 7.6 % aller Zitierungen auf sich.

Die Frage ist dann, was das fuer Seiten sind. Aber dadurch, dass die nicht (oft) zitiert werden, gelangt man dort nicht durch Zufall hin. Und weil man davon keine Ahnung hat, sucht man die auch nicht direkt auf. Deswegen ein paar Beispiele.

Die 2014 Sark general election wird nur 2 mal zitiert. Aber nachdem ich das gefunden hatte, bin ich einigen der dortigen Links gefolgt und nun møchte ich die Gegend mal voll gerne besuchen. Das spricht doch total fuer die Relevanz dieser Seite, nicht wahr.
Das Dørflein Zaprężyn wird nur ein Mal zitiert … auch hier habe ich jetzt Lust da mal hinzufahren.
Ein anderes Dorf, Mirikənd wird ebenso nur ein Mal zitiert … øhm … dito … aber ich denke nicht, dass das mal was wird … auszerdem lernte ich dabei, dass Aserbaidschan eine Exklave hat.
Die Motte Eucrostis pruinosata wird ueberhaupt nicht zitiert und …
… das gleiche Schicksal ereilt Miss Lithuania 2008: Gabrielė Martirosian … die arme Dame.

Das Beispiel mit der Motte ist uebrigens eine gute Veranschaulichung eines fundamentalen Problems unserer Zeit. Die Menschheit weisz total viel, aber ein einzelner Mensch kann das gar nicht alles speichern. Es gibt so urst krass viel Wissen, welches in den Lagern (und Kellern) von Bibliotheken und Museen liegt. Deswegen gibt es auch sehr oft neue Entdeckungen aufgrund von Zeug was wir (als Menschheit) seit 100 Jahren oder laenger haben, was aber seitdem in besagten Kellern liegt. Manchmal gibt es dann eine (oft pensionierte) Person, welche die weltweite Authoritaet bzgl. bspw. einer bestimmten (praehistorischen) Spezies von Familie der Mollusken ist. Und wenn diese Person stirbt, geht all dieses Wissen verloren. Im Grunde genommen selbst dann, wenn das aufgeschrieben wurde, weil man Erfahrung (und die Zusammenhaengen zwischen verschiedenen Dingen) nicht wirklich (effektiv) kodifizeren kann.

Und das ist ueberhaupt eines der grøszten Probleme der Menschheit (und war es schon immer). Jeder Mensch muss alles selbststaendig und alleine lernen. Anders als im Film Matrix kann man Wissen leider nicht schnell in unsere Køpfe uebertragen. Was Sabine lernt kann Peter noch lange nicht.
Aber Computer kønnen das. Und wenn es mal richtige kuenstliche Intelligenzen gibt, dann kønnen die das mglw. auch. Oder anders (und viel konkreter): wenn ein selbstfahrendes Auto lernt, wie man im Berliner Stadtverkehr andere autofahrende Idioten erkennt, dann kønnen alle anderen selbstfahrenden Autos das ueber Nacht herunter laden und die wissen das dann einen Tag spaeter auch.

Andererseits bedeutet das aber auch das Folgende: sollten wir dieses Problem jemals geløst bekommen, dann wird die Post aber mal voll abgehen fuer die Menschheit! Der Fortschritt seit der Renaissance oder der industriellen Revolution wird dagegen aussehen wie’n Glass Wasser im Ozean.
Und ich halte das durchaus fuer durchfuehrbar. Denn ein anderes Menschheitsproblem ist in unserer Zeit (im Wesentlichen, wenn auch noch nicht ueberall im Praktischen) geløst worden: die Verteilung von Wissen. Wenn man was obskures wissen wollte, dann war das frueher alles ziemlich umstaendlich. Klar, gab (und gibt) es Bibliotheksverbuende, welche auch Buecher von einem Land ins andere schicken. Sicherlich kann man viel in Fachbuechern nachlesen. Aber hat man das auch gemacht? Sind diese Møglichkeiten des Informationstransfers auch massenhaft (vulgo: von der gesamten Menschheit) in Anspruch genommen worden? Oder war es doch eher so, dass nur ein paar hunderttausend (oder lass es auch ein paar Millionen sein) Menschen, welche (mehr oder weniger) zur (Wissens)Elite gehør(t)en, diesen Informationstranfermechanismen auch benutzten? Hier bestand also prinzipiell ebenso die Møglichkeit des Informationstransfers, aber praktisch war das massenhaft (sowohl von der Menge der Information, als auch von der Menge der Rezipienten) nicht zu gebrauchen.
Aber dieses Problem hat das Internet geløst. Und selbst Zensur, oder dass da laengst nicht alles obskure Zeit zu finden ist, aendert nichts an der Tatsache, dass der Informationsfluss tatsaechlich ein Fluss wurde in den letzten 20 Jahren und kein trøpfelndes Rinnsal ist wie vorher. Voll krass wa! Wir leben in ’ner voll geilen Zukunft!!!

Und da macht das dann auch nix, dass das nur einmal zitiert wird. Und es macht auch nix, wenn man die Erfahrung der oben erwaehnten Molluskexpertin nicht kodifizieren kann. Solange es auffindbar ist im Informationstransfernetzwerk, kann sich wer anders besagtes Wissen wieder relativ schnell aneignen … neue Erfahrung kann auf den Dokumenten alter Erfahrung aufbauen und dort fortsetzen (selbst wenn Letztere fuer immer verloren ist) … und das ist Fortschritt … *freu*.

Das war’s jetzt erstmal mit den Sachen, die ich aus den Titeln der Wikipediaseiten (und was damit zusammenhaengt) herausziehen kann. Beim naechsten Mal behandle ich dann noch die Anzahl der Links pro Wikipediaseite … Hurra! Noch eine neue Verteilung auf die ihr, meine lieben Leserinnen und Leser, euch bereits jetzt freuen kønnt :).

Beim letzten Mal stellte ich vor, wie oft Wikipediaseiten auf anderen Wikipediaseiten zitiert werden. Wenige Seiten die oft erwaehnt werden und viele Seiten die selten erwaehnt werden.

Das wirklich Interessante kommt aber jetzt erst … in der doppeltlogarithmischen Darstellung:

Cool wa! Wie man mit Hilfe einfacher, mathematischer Werkzeuge total viel Information in nur ein Bild kondensieren kann … ich gebe aber zu, dass meist erst ganz am Ende der Bearbeitung einer Fragestellung steht, nachdem man besagte Information (mindestens halbwegs) verstanden hat.

Das erwaehnte wirklich Interessante ist durch die rote Linie angedeutet: zwischen 50 und 5000 Zitierungen (also ueber zwei Grøszenordnungen) scheint sich die Verteilung in der doppeltlogarithmischen Darstellung linear zu aendern. Dies deutet darauf hin, dass sich die Abhaengigkeit der Anzahl der Seiten pro Anzahl Zitierungen nach einem Potenzgesetz bechreiben laeszt … ich finde uebrigens, dass der englische Begriff „Power law“ deutlich cooler und maechtiger klingt … das passt viel besser zur Relevanz der Wissenschaft :) … wieauchimmer … total viel Zeug verhaelt sich nach Potenzgesetzen und das ist total wichtig, denn diese sind immer ein Hinweis darauf, dass ein Phaenomen skaleninvariant ist — dass es sich also im Groszen wie im Kleinen gleich verhaelt. Ein Beispiel waere der Flaecheninhalt eines Quadrats in Abhaengigkeit von der Seitenlaenge. Klar, bei langen Seiten sind die Zahlen grøszer, aber Ersteres ist immer als das Quadrat von Letzterem auszudruecken … da aendert sich also nix mit der Grøsze.
Bzw. geht das dann sogar noch weiter zur Universalitaet — dass sich unterschiedlichste Phaenomene auf (mehr oder weniger) die gleiche Art beschreiben lassen (bswp. die Anzahl von Reiskørnern auf einem Schachbrett und das (ungebremste) Wachstum von Bakterien). Diese beiden Sachen (und das wir (als Menschheit) das erkannt haben) sind ganz fundamental wichtig fuer den Erfolg der modernen Wissenschaften und warum wir das heutzutage so gut haben.

Die Steigung der Geraden ist ungefaehr minus zwei (zwei Grøszenordnungen auf der Abzysse und (minus) vier Grøszenordnungen auf der Ordinate). In diesem Bereich ist also die Anzahl der Seiten umgekehrt proportional zum Quadrat der Zitierungen. Vom Bauchgefuehl ergibt das erstmal Sinn. Das interessante an diesem Faktor ist dann weiter, dass dies keine wohldefinierte Varianz zulaeszt (lohnt sich durchaus zu lesen, wenigstens teilweise, weil viel schøne Beispiele gegeben werden). Dies hat wiederum zur Folge, dass sogenannte Black Swans auftreten kønnen; dass also total krasse Ausreiszer zwar aueszerst selten, aber durchaus zu erwarten sind. Dies gilt im Uebrigen fuer sehr viele natuerliche Phaenomene. Und damit schlieszt sich der Kreis zum letzten Mal, wo genau diese das Thema waren. Wobei die „Black Swans“ in diesem Fall begrenzt sind, weil es nur eine endliche Anzahl von Wikipediaseiten gibt.

Dazu abschlieszend sollte ich sagen, dass ich mit der Annahme einer umgekehrten Proportionalitaet auch falsch liegen kønnte. Linearitaet in einer doppeltlogarithmischen Darstellung ist zwar eine notwendige, aber keine hinreichende Bedingung dafuer. Der Grund ist, dass es sich hierbei um eine endliche Datenmenge handelt. Man kann auf verschiedenste Arten endlliche Datenmengen generieren, die scheinbar einem Potenzgesetz folgen; es bei der Erweiterung ins Unendliche dann aber zu (mehr oder wenige subtilen, mathematisch definitiv wichtigen) Unterschieden kommt.
Auszerdem sagte schon der beruehmte Prof. Klos zwischen zwei Zigaretten: „Wer es nicht schafft bei doppeltlogarithmischer Darstellung eine gerade Linie durchzuziehen, der muss schon ziemllich minderbemittelt sein.“

In diesem Zusammenhang habe ich habe bisher nicht die Gruppe von Wikipediaseiten die am allerwenigsten zitiert werden besprochen. Weil der der Beitrag jetzt aber schon so lang ist, verschiebe ich die Besprechung dieser letzten Gruppe auf das naechste Mal.

Jippie! Noch eine Verteilung! … Ich weisz, ich weisz … das sieht immer gleich aus … so ist das nun mal mit dem Wissensgewinn. Man braucht ganz viel Kram der (fuer die meisten Menschen) immer gleich aussieht und (fuer die meisten Menschen) schnell langweilig wird. Erst wenn alles beisammen ist, kann man daraus die coolen Schlussfolgerungen ziehen die dann zum Erkenntnisgewinn fuehren … ich sage da: cool wa! … aber ich raeume ein, dass ich da vermutlich eher zur Ausnahme gehøre.
Das war bei der Entdeckung der Theorie der Elektrizitaet damals vor vielen hundert Jahren nicht anders. Watt und Volta und Ampere haben bestimmt total viele Katzen (und andere Materialien) gerubbelt (aber nicht Galvani! Der hat Frøsche aufgeschlitzt) und alles minutiøs aufgeschrieben, um dann erst nach Jahrzehnten des Datensammelns ihre bahnbrechenden und fundamentalen Beobachtungen (und Theorien) zu verøffentlichen.
Wissenschaft wird immer als so glamourøs dargestellt — sexy Wissenschaftler in ihren coolen Laboratorien mit den abgefahrenen Geraeten und Instrumenten und dem krassen Code, die dann in supersozialen Zusammenkuenften angeregt ueber die neuesten Ergebnisse diskutieren. Das ist ja alles komplett richtig, dabei darf aber nicht vergessen werden, dass da auch jede Menge „langweiliges“ Zeug dazu gehørt, ja, dass das sogar die Hauptsache ist, womit sich Wissenschaft beschaeftigt.
Und das war auch ein Grund fuer mich, dieses Wikipediaprojekt (anders als sonst) so genau zu dokumentieren.

Aber ich schwoff ab … und mir faellt gerade auf, dass ich das was ich da eben schrieb tatsaechlich meine (und vermutlich schon immer so empfand) … tihihihihi

Beim letzten Mal praesentierte ich die 50 am meisten zitierten Wikipediaseiten und erkannte, dass diese sich leicht in ein paar wenige Kategorien einsortieren lassen. Das Endresultat war das Folgende.

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich.

Die natuerliche Frage ist dann, wie das bei den restlichen 5,798,262 Seiten aussieht. Zur Erinnerung: insgesamt betrachte ich 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 (jeweils) andere Wikipediaseiten zitiert werden. Und so sieht die Verteilung der Zitierungen aus:

Das ist viel auf einmal, deswegen der Reihe nach. Zunaechst ein paar grundsaetzliche Erklaerungen (die zwar offensichtlich sind, wo es aber auch nicht schadet, die mal gesagt zu haben).
1.: In jedem Diagramm trage ich die Anzahl der Seiten auf, die so oft wie auf der Abzysse angegeben zitiert wurden.
2.: Die Abzysse jedes Diagramms faengt bei null Zitierungen an, ich konzentriere mich aber auf unterschiedliche Gruppen. D.h. dass die x-Achse nach einem bestimmten Wert abgeschnitten und fuer jedes Diagramm unterschiedlich ist. Die Gruppierng ist jeweils angegeben.
3.: Die Ordinate ist fuer alle Diagramme gleich … und logarithmisch. Letzteres bedeutet, dass 10 mal so viele Seiten mit der entsprechenden Anzahl Zitierungen gezaehlt wurden, wenn ein Balken doppelt so hoch ist wie die einzelnen Striche im ersten Diagramm. Entsprechend bei 3-facher Høhe usw.
4.: Das sind rote Balken mit schwarzen Raendern. Weil die Balken so dicht stehen, sieht man in den ersten drei Diagrammen nur die schwarzen Raender … das macht aber nix.
5.: Die angegebenen Zahlen per Diagramm sind wieviele Seiten insgesamt in der jeweiligen Gruppe gezaehlt wurden und wie viele Zitierungen diese auf sich vereinen. Die kumulativen Werte sind entsprechend aufaddiert fuer alle Gruppen bis zu der jeweils im Diagramm dargestellten (bei hohen Zitierungen anfangend).
6.: Semantisch sind die einzelnen Gruppen eigentlich nicht so strikt getrennt. Da gibt es sicherlich jede Menge Ueberlapp. Aber auf Grund mathematischer Notwendigkeiten musste ich Grenzen setzen fuer jede Gruppe und da dachte ich mir, dass das erstmal nicht unvernuenftig ist im Wesentlichen immer eine Grøszenordnung per Gruppe abzudecken.

Das erste Diagramm visualisiert die beim letzten Mal diskutierten Extreme — Seiten die zwischen 10,000 und 325,128 mal zitiert wurden. An den Zahlen sieht man ganz deutlich, dass man, wenn man zufaellig einem Link auf Wikipedia folgt, in ca. 10 Prozent aller Faelle auf einer von nur 703 Seiten landet. Das ist eine ziemlich krasse Dominanz dieser wenigen vielzitierten Seiten! Und der lange duenne „Strich“ am linken Ende … nun ja, …

… bei dem sieht man im zweiten Diagramm, Seiten die zwischen 1,000 und 10,000 mal zitiert wurden, dass es sich dabei nicht im einen „Strich“ handelt. Vielmehr versammeln sich dort mehr und mehr Seiten die die gleiche Anzahl von (wenigen) Zitierungen haben. Von rechts kommend macht sich das zunaechst aber gar nicht bemerkbar.
In dieser Gruppe geschieht auch noch nicht so viel; nur eine Seite mit 8056 Zitierungen und nur vier Seiten mit 4880 Zitierungen. Aber ab 2000 und weniger Zitierungen zaehlt die Verteilung dann schon haeufiger 10 oder mehr Seiten und um ca. 1000 Zitierungen geht der Zaehler in die Zwanziger. Das ist das Truegerische an einer logarithmischen Darstellungen da sieht das mehr aus.
Zaehlt man diese beiden ersten Gruppen zusammen, dann hat man ca. 15-tausend Wikipediaseiten. Die Chance auf einer von diesen zu landen betraegt zusammengenommen fast ein Drittel! Ach du meine Guete! Bei beinahe jedem dritten Klick lande ich auf einer von nur 0.26 % aller Wikipediaseiten. Und drei (oder dreizehn) Wikipediatabs sind bei mir ganz schnell mal offen.

In der naechsten Gruppe, 100 bis 1,000 Zitierungen, befinden sich 3.67 % aller Wikipediaseiten und mit den vorherigen Gruppen zusammen ziehen diese nur ca. 4 % aller Seiten ueber 60 % aller Zitierungen auf sich.
Bei der Anzahl von Seiten pro Haeufigkeit-der-Zitierung erreichen wir ab ca. 500 (und weniger) Zitierungen die Hunderter um bei ca. 150 Zitierungen dann auch schon tausende Seiten zu zaehlen.

Bei der letzten Gruppe, 10 bis 100 Zitierungen, ist aus dem duennen Strich des ersten Diagramms eine hohe „Wand“ roter Balken geworden. Wir zaehlen am rechten Rand ca. 2500 Seiten und erreichen die Zehntausender bei 49 Zitierungen und die Hunderttausender bei 12 Zitierungen. Kumulativ vereinen diese ca. 35 % aller Seiten ueber 90 % aller Zitierungen … tja … das ist auf der Wikipedia wie im richtigen Leben: wir wissen wenig, aber darueber reden wir die ganze Zeit.
Und das ist dann auch des Pudels Kern der sogenannten Relevanzdiskussion der dtsch. Wikipedia. Diejenigen die Relevanzkriterien befuerworten haben die Fakten auf ihrer Seite, ganz konkret im Sinne des Wortes „Relevanz“. Ich persønlich finde es aber viel zu toll, dass ich Bacon, Ohio auf der Wikipedia finden kann. Dies auch dann, wenn ich die aller-aller-aller-allermeisten dieser Seiten niemals sehen werde.

Ohne Analyse des Linknettzwerks konnte ich mir auch mal anschauen welche Wikipediaseiten denn am meisten (auf Wikipedia) zitiert werden. Hier ist die Liste, mit der dazugehørigen Nummer, wieviele der insgesamt 165,913,569 zitierten Links auf den jeweiligen Eintrag entfallen, und kurzen Kommentaren.

PlatzTitelAnzahl ZitierungenKommentar
1.United States325,128Die Wikipedia ist "westlich ausgerichtet" und da wundert mich das ueberhaupt nicht, dass die USA implizit oder explizit oft erwaehnt werden.
Ebenso ist vermutlich das was ich zu "France" auf Platz 6 sage auch hier gueltig.
2.List of sovereign states231,196Ich denke, dass dies von den Infokaesten an der Seite kommt, in denen Kurzinfos zu bestimmten Sachen stehen. Jede(s/r) Stadt, Land, Fluss gibt's nunmal in 'nem Land.
3.Association football187,590Fuszball ist urst beliebt in der Welt … kurzer Uberschlag: 150 Laender x 10 (mehr oder weniger beruehmte) Fuszballteams x 10 Spieler x 50 Jahre / 5 Jahr pro Spieleraustausch = 150,000 mal die das Wort "Fuszball" erwaehnt wird.
4.World War II168,323Sehr viele Aspekte der Kultur, Wirtschaft, Wissenschaft, prinzipiell des Lebens der "westlichen Welt" sind bis heute zutiefst gepraegt durch die Ereignisse des 2. Weltkriegs.
5.France148,004Mhmmm ... die "westliche Welt" ist durchaus sehr stark durch Frankreich gepraegt, aber dass das so stark ist, dachte ich nicht.
Allerdings ist auf Platz 86 "Communes of France". Da hat sich wohl mal wer hingesetzt und all den kleinen Kommunen Frankreichs eine Wikipediaseite eingerichtet. Diese Kommunen beinhalten (mehr oder weniger) beruehmte Dørfer und da wird dann natuerlich "France" sehr oft erwaehnt.
6.Animal146,783Sehr viele Viecher haben wenigstens kurze Wikipediaseiten. Und alle Viecher sind "Animals".
7.India134,738Indien hat viel Kultur, wir kriegen davon nur nicht so viel mit. Aber ich vermute, dass diese grosze Zahl an Zitierungen eine aehnliche Erklaerung hat wie bei Frankreich.
8.The New York Times126,873Diese Zeitung wird oft als Quelle im Text zitiert wobei erwaehnt wird, dass es von der NYT kommt.
9.New York City124,834Mhmmm … schwer zu sagen, aber kulturell gesehen (bzgl. der "westlichen Welt") passiert schon krass viel in NYC.
10.Germany124,204Siehe "France".
11.United Kingdom116,353Dito
12.Arthropod115,756Siehe "Animals" und echt viele Viecher sind Gliederfueszer.
13.Insect112,683Dito
14.London110,488Siehe "NYC".
15.AllMusic105,235Eine Datenbank wenn man irgendwas zu (moderner) Musik wissen will. Deswegen wird das sicherlich oft als Quelle herangenommen und entsprechend oft zitiert.
16.England100,034Siehe "France".
17.U.S. state97,697Siehe "List of sovereign states"
18.Italy95,747Siehe "France".
19.Australia94,704Dito
Aber ab hier wuerde ich sagen, dass Zitierungen durch kulturellen Einfluss weniger, aber durch Eintraege "beruehmter" Dørfer grøszer wird.
20.Iran93,917Siehe "Australia".
Aber siehe auch der Kommentar zu "Bakhsh".
21.Russia92,585Siehe "Australia".
22.Canada92,232Dito
23.Village91,064HA! Da sind sie, die ganzen Dørfer.
24.Japan90,303Zunaechst wuerde ich auch auf das Kommentar zu "Australia" verweisen. Dies hier kønnte aber eine Ausnahme sein, weil echt krass viel internetrelevantes Zeug aus Japan kommt.
Nicht zuletzt viele (oft gar nicht so sehr) Nischeninteressen, deren "Konsumenten" aber sehr internetaffin sind und dann zu jedem Detail eine eigene Wikipediaseite schreiben.
25.World War I89,374Siehe "World War II"
26.China83,106Siehe "Australia".
27.California80,179Dito, aber auch der erste Teil des Kommentars zu "Japan".
28.Moth79,915.oO(Ausgerechnet) … aber echt viele Krabbelviecher fallen in diese Tiergruppe.
29.National Register of Historic Places79,852Man denke nur, wie viele denkmalgeschuetzte Bauten es in Dtschl. gibt. Kein Wunder, dass das (US-amerikanische) Register so oft erwaehnt wird.
30.Catholic Church79,411Selbst Atheisten duerften zugeben, dass die "westliche" Kultur zutiefst gepraegt ist durch die katholische Kirche.
31.Poland77,109Siehe "Australia".
32.Midfielder71,978Siehe "Association football", wenn man in Betracht zieht, dass vermutlich die Haelfte aller Fuszballspieler irgendwann mal auf dieser Position gespielt haben.
33.Los Angeles70,852Hollywood ist dort … ansonsten siehe "NYC".
34.Spain70,150Siehe "Australia" … mit einer Tendenz zu siehe "France".
35.Lepidoptera64,204Siehe "Moth". Interessant ist, dass Motten eine Familie in dieser Ordnung sind, aber øfter zitiert werden.
36.Paris63,574Siehe "NYC".
37.Bakhsh63,325Haeh? Was?
Zusammen mit "Provinces of Iran" auf Platz 38, "Counties of Iran" auf Platz 39, "Dehestan (administrative division)" auf Platz 44 und "Iran Standard Time" auf Platz 48 dachte ich zunaechst, dass es sich hierbei um eine Propagandaoperation handeln muss. Aber dann sah ich ein aehnliches Muster bei den USA und bei Frankreich und aenderte meine Meinung dahingehend, dass da vermutlich ein paar Nerds freie Zeit hatten und die investiert haben etliche (zehn)tausend kurze Artikel zu alles und jedem im Iran zu schreiben. Das ist bei allen anderen Laendern vermutlich genauso.
Wir wissen, dass die Wikipedia von verhaeltnismaeszig wenigen Schreibern dominiert wird (ein paar Tausend). Deswegen wuerde ich diese Erklaerung fuer durchaus plausibel halten.
38.Provinces of Iran62,838Siehe "Bakhsh".
39.Counties of Iran62,763Siehe "Bakhsh".
40.Geographic Names Information System62,525Siehe "National Register of Historic Places".
41.Species62,452Siehe "Animal".
42.Brazil62,261Siehe "Australia".
43.The Guardian62,202Siehe "The New York Times".
44.Dehestan (administrative division)61,782Siehe "Bakhsh".
45.Billboard (magazine)61,428Siehe "AllMusic".
46.English language61,148Das Bedarf vermutlich keines Kommentars … oopsie.
47.Soviet Union60,530Das ist etwas ueberraschend. Die Soviet Union ist ein nicht mehr existierender Staat. Damit kann das nicht durch "Zeug das es in dem Land gibt" erklaert werden. Das muss dann wohl der historische kulturelle Einfluss sein.
48.Iran Standard Time60,447Siehe "Bakhsh".
49.Defender (association football)58,476Siehe "Midfielder", nur dass mglw. nicht ganz so viele Fuszballspieler mal auf dieser Position gespielt haben.
50.Washington, D.C.56,589Noch eine Ueberraschung, denn diese Stadt wuerde ich nicht als kulturell sehr einflussreich beschreiben. Mal abgesehen davon, dass diese Einschaetzung vøllig falsch sein kann, ist aber der "politische" Einfluss dieser Stadt gewaltig, deswegen wundert mich das dann doch nicht so sehr.

Im Wesentlichen haben wir also Zitierungen durch „Stadt / Land / Fluss / Tier“ und „beruehmte“ Leute (meist Sportler … *seufz*). Ab und zu auch durch eine uebergeordnete Kategorie wie „Englisch Language“. Dieses Muster setzt sich dann auch die naechsten 50 Plaetze fort.

Lustig ist, dass Polen dann „einen Iran pullt“ mit „Powiat“ und „Gmina„. … womit ich dann aber auch wieder bei dem bereits hier angesprochenen Elitenproblem bin und wie diese das Wissen der Welt kontrollieren.

Im Nachhinein betrachtet sind die Kategorien unter der die meistzitierten Seiten fallen dann aber keine grosze Ueberraschung (mit den angesprochenen Ausnamen (bspw. „Iran“, oder (aus anderen Gruenden) die Motte).

Diese 50 Wikipediaseiten werden 4,894,941 mal zitiert. Damit vereinen 0.00086 % aller Wikipediaseiten 2.95 % aller Zitierugen auf sich. Das entspricht einem Faktor von 3,500.

Hierbei handelt es sich aber nur im die paar Eisbrocken an der Spitze des sprichwørtlichen Eisberges. Deswegen zeige ich beim naechsten Mal die Verteilung der Zitierungen.

Beim Uebungsbuch in der Fahrschule war eine Schablone mit der man seine eigenen Antworten kontrollieren konnte. Diese Schablone war im Wesentlichen ein Papierstreifen mit Løchern drin und einer Markierung. Besagte Markierung musste an eine andere Markierung auf die Seite mit der jeweiligen Frage gehalten werden und das Papier deckte dann die falschen Antwortmøglichkeiten ab. … Ich habe mal kurz geschaut und die gibt es sogar heutezutage noch .oO(das haette ich jetzt nicht erwartet).
Nun war aber das Lochmuster der Schablone auswendig lernen viel einfacher und schneller als sich die Fragen durchzulesen und ueber die richtige Antwort nachzudenken. Klar, im Endergebnis hilft das nicht fuer die richtige Pruefung, aber es optimiert die Aufgabe innerhalb der gegebenen Rahmenbedingungen.

Ein anderes Beispiel ist, dass heutzutage (aber mehr oder weniger auch schon bei uns) Schueler und Studenten eben gerade NICHT mehr „fuer’s Leben“ lernen, sondern das Lernen darauf optimieren gute Noten zu haben. Klar, das sieht im Zeugnis und auf dem Diplom gut aus. Aber wenn diese Leute dann das Wissen in der Praxis selbststaendig anwenden und erweitern muessen ist’s damit oft nicht weit her.

Als Letztes seien hier Steuerschlupfløcher genannt. Die Steuererklaerung kann ja vøllig legal (wenn auch nicht moralisch richtig) sein und dennoch werden der Gemeinschaft Milliarden vorenthalten, weil das Finanzverhalten insb. reicher Akteure auf die Gegebenheiten (in diesem Fall die Steuergesetze) optimiert werden.

Worauf will ich eigentlich hinaus? Ganz einfach! Die drei Beispiele (und andere Dinge die in diese Kategorie fallen) werden im Allgemeinen zwar als Schummeln angesehen, aber von der Gesellschaft oft genug mit dem Kompliment „clever nachgedacht“ bedacht (wenn auch meist nicht direkt ausgesprochen). Es ist also ein zutiefst menschlicher Wesenszug kreativ zu sein, um das Verhalten derart zu optimieren, sodass es zum besten Resultat unter den jeweils gegebenen Umstaenden fuehrt. Selbst wenn dies NICHT bedeutet, dass das langfristig gut ist und vielmehr oft ein Hinweis auf falsche Anreize in besagten Umstaenden ist.

Nun wundert es mich aber, dass zum gleichen Verhalten gesagt wird, dass dieses „laecherlich“ oder „eine schlecht definierte Zielfunktion“ waere, oder dass man daran sieht, „wie weit weg kuenstliche Intelligenz noch vom Menschen ist“. Warum wird kreative Interpretation der gegebenen Umstaende zur Optimierung des eigenen Verhaltens so unterschiedlich bewertet?

Hier gibt es einen laengeren Artikel dazu (Achtung: der scheint wissenschaftlich, ist es aber nach (gar nicht mal so) strengen Kriterien NICHT). Dort werden 32 Anekdoten diesbezueglich erzaehlt. Ich gebe ein paar Beispiele.

Die Entwicklung starrer, langer Kørper welche sich durch Rad schlagen fortbewegen (durch Impulserhaltung) anstatt der Entwicklung von Schlaengelbewegungen. Was im Uebrigen auch die Evolution getan hat.

Algorithmen mit „falschen Funktionen“ welche durch die Tests kamen, weil besagte Algorithmen „tot spielten“ waehrend des Tests. Tot spielen ist in dem Falle, dass besagte Funktionen zufaellig aktiviert wurden und manchmal eben nicht waehrend des Tests und somit wurde der „defekte Algorithmus“ dann als vøllig OK betrachtet.

Ein anderes Beispiel (nicht aus dem Artikel) ist der Algorithmus der Tetris dadurch nicht verliert, indem das Spiel kurz vor dem Game Over (fuer immer) pausiert wird.

Dann war da auch der unbrauchbare Greifarm, der durch einen Trick dennoch benutzt werden kann.
Und dies faellt dann auch schon gar nicht mehr in die Kategorie „Schummeln“, sondern wuerde bei Menschen direkt mit dem (diesmal sogar ausgesprochenen) Lob „das war eine gute Idee“ bedacht.

Ein anderes Beispiel waere auf den „Ellbogen“ laufen. Kønnte man jetzt sagen: „na so eine dumme Idee“. Bis man drauf kommt, dass ja die „Fuesze“ durch irgendwelche Umstaende mglw. unbrauchbar sind. Und wenn ein Algorithmus dann von selbst drauf kommt, ohne dass ein Mensch bei der Programmierung dran gedacht hat, dann ist das meiner Meinung nach schon eine ziemlich kreative Leistung.

Worauf ich hinaus will ist das Folgende: wenn etwas wie ein Stueck Kuchen aussieht, sich wie ein Stueck Kuchen anfuehlt und wie ein Stueck Kuchen schmeckt, dann ist es vermutlich ein Stueck Kuchen.
Nur weil bei Computern und Robotern noch nicht alles in jeder denkbaren Situation zusammenspielt, wie bei uns biologischen Algorithmen und Maschinen nach Milliarden, zumindest hunderten von Millionen von Jahren evolutionaerer Optimierung, bedeutet das nicht, dass die das niemals kønnen werden.

Geburtstagsbeitrag! Und wie so oft zu dieser Gelegenheit lasse ich mich lang ind breit ueber ein Thema aus, was mich im Detail beschaeftigt(e), aber mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Beim letzten Mal in dieser Reihe schrieb ich:

Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. […]

Und darum soll es heute gehen.

Wenn man sich die Popularitaet besagter 13 Vornamen anschaut, die seit 1880 am haeufigsten in den USA vergeben wurden, erhaelt man das linke Diagramm in diesem Bild:

Hier sieht man auch, warum ich erstmal annahm, dass Moden zwar kommen und gehen, dies aber ueber laengere Zeitraeume keinen groszen Unterscheid machen sollte. Sicher, Anfang des 20. Jahrhunderts waren „John“ und „Robert“ viel beliebter als „Michael“ oder „Christopher“ aber die Høhe der einzelnen Kurven aendert sich jetzt nicht so stark … auszer so ab ca. 2000 … mhmmm … das machte mich etwas stutzig und ich schaute mir mal die kumulative Wahrscheinlichkeit fuer diese 13 meistvergebenen Namen an (Diagramm auf der rechten Seite).
Dort scheint die Aussauge „da aendert sich nicht viel“ bis ungefaehr 1980 zu stimmen. Innerhalb gewisser Variation erhalten 15 % der Neugeborenen einen der dreizehn meistvergebenen Namen. Aber mit dem Beginn meiner Generation aenderte sich das … drastisch! … Das letzte Adjektiv ist durchaus angebracht, wenn man mal betrachtet wie stark die aufsummierte Wahrscheinlichkeit fuer die dreizehn (vormals) meistvergebenen Namen herunter geht.

Das ist dan auch der Grund, warum ich schrieb, dass gesellschaftliche Entwicklungen (traditionelle) Namen dann doch verdraengen. Die gesellschaftliche Entwicklung hier kønnte sein, dass die Jugendlichen welche von den sogenannten 69’ern gepraegt wurden. Damit meine ich weniger die Studenten welche „mittendrin“ waren, sondern die (oft deutlich) juengeren, sympathisierenden Jugendlichen, die noch zur Schule gingen. Ab Mitte der 70’er Jahre fingen diese an Kinder zu haben. Besagte Zeit hat das Vertrauen in und das Gehorchen von (traditionellen) Autoritaeten nachhaltig geschwaecht. Es ist nicht all zu weit hergeholt, dass sich das auch in der Namensgebung ausgedrueckt hat, denn die (damals) „frischen“ Eltern fuehlten sich nicht mehr so stark daran gebunden, den Sohn nach dem Opa zu benennen.

ABER: man kønnte durchaus argumentieren, dass die Entwicklung schon ab ca. dem den 50’er Jahren (schwer zu verorten ob Anfang, Mitte oder Ende) losging, wenn auch zunaechst zøgerlich. Dies kommt ziemlich genau zusammen mit der Etablierung des Individualismus (insbesondere in den USA), als „Gegenstueck“ zum sog. Kommunismus, im kalten Krieg. Im oberen Diagramm macht sich das nicht so bemerkbar innerhalb der (natuerlichen) Variation vor ca. 1980. Es ist aber deutlicher zu erkennen, wenn man sich anschaut, wie vieler Vornamen es bedurfte um 50 % der neugeborenen Kinder eines Jahres zu benennen:

Das ist zwar keine gerade Linie, aber dennoch bis ca. den 50’er Jahren eine ziemlich flache Kurve. Es brauchte nur ca. 75 Namen (plusminus ein paar) um besagte 50 % aller Kinder zu benennen. Ab den 50’er Jahren steigt die Kurve kontinuierlich und ab den 60’er Jahren uebersteigt es die vorherigen, etliche Jahrzehnte vorherrschenden (kleinen) Schwankungen. Mit dem Start der 80’er Jahre „geht dann die Post ab“.

Ach so, beim ersten Bild ist nur ein Frauenname dabei (der 14 Name waere auch ein Frauenname gewesen, aber mir gingen die Farben aus). Ich vermute, dass dies zwei Hauptursachen hat. Zum Einen denke ich, dass Maenner lange Zeit etablierte (darob eines besseren Wortes) Namen bekommen haben um eine „Familientradition“ beizubehalten oder einen Vater zu „ehren“ oder sowas. Kennt man ja aus Film und Fernsehen, mit den vielen Juniors. Von Frauen kenne ich das eigentlich gar nicht. Das Anhaengsel „Junior“ scheint es nur fuer Maenner zu geben. Dies fuehrt natuerlich zu mehr Vielfalt bei den Frauennamen und somit insgesamt weniger Frauen die den gleichen Namen haben (Ausnahme: „Mary“).
Zum Zweiten ist das mglw. auch ein Defizit in den Daten, denn ich habe insgesamt weniger Frauen in den Daten, es wurden also weniger Maedchengeburten gemeldet. Das wundert mich ueberhaupt nicht, denn Hausgeburten waren noch sehr sehr lange der Standard:

In the United States […] around 1900, when close to 100% of births were at home. Rates of home births fell to 50% in 1938 […].

Es gab also keine automatische Datenaufnahme. Und hier spielt dann der bereits beim letzten Mal erwaehnte historische Sexismus rein. Die Geburt eines Jungen wurde auch bei einer Hausgeburt gemeldet, denn dieser sollte ja mal der Erbe werden und das musste rechtlich abgesichert sein.

Fuer das urspruengliche Problem (Laenge der Wikipediatitel) spielt das aber aus zwei Gruenden keine Rolle. Zum Ersten ist die Verteilung der Laenge der Frauen und Maennernamen so gleich, dass man (beinahe) deckungsgleich sagen kønnte. Zum Zweiten ist die Meldung von der Geburt eines Maedchsen dann trotzdem immer noch ein gleichverteilter Prozess. Das bedeutet, dass die Wahrscheinlichkeit fuer die Meldung eines bestimmten Maedchennamens gleich bleibt, auch wenn die totale Anzahl gemeldeter Maedchengeburten geringer ist.

Ach so … der Titel dieses Beitrags wird ersichtlich, wenn man bedenkt, dass ca. 20- bis 30-jaehrige uns im 2. Weltkrieg von den Nazis befreiten. 20 bis 30 Jahre vorher war aber „John“ beliebter als „James“. Das kehrte sich erst ab den 30’er Jahren um. Der Unterschied war nun aber auch nicht so grosz … deswegen ist der Titel des Film zu 85 % richtig … tihihihi.
Es passt dann aber, dass James Dean als _DER_ Filmstar der 50’er bis heute bekannt ist.

Nun wollte ich aber wissen ob diese Veraenderungen einen bleibenden Effekt haben und wie stark dieser ist.

Bei meinen urspruenglichen Betrachtungen, bzgl. der Verteilung der Laenge der Wikipediaartikel und wie das Maximum erklaert werden kønnte, habe ich alle Vornamen, und wie oft diese in den letzten 140 Jahren vergeben wurden, aus allen Jahren zusammengezaehlt und die Waehrscheinlichkeit fuer meinen Namensgenerator nach diesen „totalen Zahlen“ berechnet. Ich erstellte 1 Million Frauen- und 1 Million Maennernamen und das (normalverteilte) Resultat ist im verlinkten Beitrag zu finden.
Nun kam oben aber heraus, dass sich die beliebtesten Namen eben doch aendern und ich wollte wissen, ob das einen deutlichen Einfluss auf die Verteilung der Laenge der Namen hat. Deswegen modifizierte ich den Namensgenerator derart, sodass fuer jedes Jahr jeweils 100-tausend Maenner- und Frauennamen erstellt wurden (mit den sich jaehrlich aendernden Wahrscheinlichkeiten). In den Resultaten sah ich einen Trend und dachte mir, dass das schon stimmen kønnte. Weil der Effekt aber relativ klein war, wollte ich nicht ausschlieszen, dass es sich mglw. doch um ein Artefakt handelt und nicht echt ist. Deswegen liesz ich meinen Laptop nochmal 15 Stunden oder so rødeln und erstellte pro Jahr jeweils 300-tausend Frauen- und Maennernamen. Die Statistik wurde dadurch viel besser … und die erwaehnten Resultate wurden reproduziert. Im Folgenden zeige ich die Resultate des 600-tausend Namen pro Jahr Laufes.

Die 140 Verteilungen bzgl. der Laenge der Namen sehen so aus:

Uffda! Das ist viel auf einmal und muss der Reihe nach betrachtet werden.
Erstens „verschmieren“ sich die Punkte sehr. Das war zu erwarten und faellt in der Physik immer erstmal unter das beruehmte „Rauschen“. Die Frage war nun, ob das Rauschen ein Signal enthaelt? Bspw. liegt die kleinste Anzahl der Namen mit 10 Buchstaben liegt im Jahre 2015 und die grøszte Anzahl im Jahre 1891. Bei den Namen mit 15 Buchstaben hingegen dreht sich das um (høhere Anzahl zu spaeteren Jahren).
Gibt es mglw. ueber die Jahre einen Trend hin zu laengeren Namen? Das waere dann ja genau das was ich wissen will. Weil nur zwei Buchstabenlaengen  nicht ausschlaggebend sind, schaute ich mir deswegen die aufsummierte Anzahl alle Namen mit Buchstabenlaengen links bzw. rechts des Maximums an.
Und hier kommt dann die zweite Beobachtung dazu. Jede individuelle Verteilung laeszt sich mit einer Normalverteilung beschreiben. Das ist gut, denn wenn es tatsaechlich eine „Umverteilung“ hin zu laengeren Namen gibt, dann sollte sich die Position des Maximums der jaehrlichen Gaussverteilung zu grøszeren Werten verschieben. Und diese beiden Resultate sind hier zu sehen:

Zwischen der letzten Dekade des 19. Jahrhunderst bis ca. zu den 40’er Jahren des 20. Jahrhunderts wurden kuerzere Namen (schwarze Punkte) unbeliebter. Dies ging einher mit erhøhter Popularitaet laengerer Namen (rote Quadrate). Beide Kurven scheinen aber nur auf den ersten Blick symmetrisch. Wenn man genauer hinschaut sieht man, dass die Popularietat laengerer Namen im besagten Zeitraum linear ansteigt und der Anstieg ziemlich kontant ist. Der Rueckgang der Popularitaet kuerzerer Namen hingegen verlaeuft in zwei Phasen. Zunaechst „zøgerlich “ bis ca. 1912 um danach umso staerker vonstatten zu gehen.

In den schwarzen Kurven betrachte ich aber nur die Daten links und rechts vom Maximum (Namen mit 12 und 13 Buchstaben). Die Beobachtung liesze sich erklaeren, wenn sich die Zunahme der laengeren Namen zunaechst aus besagtem Maximum „speist“. Dass Namen also nicht einheitlich bspw. einen Buchstaben laenger wurden, sondern die ersten 20 Jahre Namen der Laenge 12 (oder 13) staerker durch laengere Namen „ersetzt“ wurden als Namen mit weniger Buchstaben. Wie oben erwaehnt verschieben beide Prozesse die Position des Maximums. Ein „Schaufeln der Daten“ vom Maximum nach rechts sollte aber eine langsamere Aenderung zur Folge haben, denn der Anteil links vom Maximum ist ja „noch da“ und muss bei der Anpassung mit einer Normalverteilung beruecksichtigt werden.
Und das ist dann auch genau was ich in der blauen Kurve sehe. Die Position des Maximums der jaehrlichen Gausskurve verschiebt sich nach rechts, aber bis ca. 1912 ist die Aenderung dieser Aenderung langsamer als danach (bis ca. 1930, wenn dieser Prozess sich allgemein deutlich verlangsamt).
Dies macht sich natuerlich auch in der Amplitude (schwarze Punkte) und Breite (rote Quadrate) der jaehrlichen Gausskurven bemerkbar:

Bis ca. 1912 nimmt die Breite der Gausskurve zu und die Amplitude derselben ab. Genau so wie es nach der obigen Erklaerung sein sollte. Danach „erholt“ sich die Amplitude und die jaehrliche Gausskurve wird wieder schmaler. Letztere Beobachtungen bedeuten, dass es ab ca. 1912 NICHT zu einer gemeinsamen Verschiebung-um-einen-Buchstaben der gesamten Verteilung (oder zumindest des „kurzen“ Teils) kommt. Vielmehr ist es so, dass die Umverteilung vom Maximum (stark?) nachlaeszt und besagtes Maximum ab dann wieder (von links) aufgefuellt wird. Die „primaere Quelle“ des Umverteilungsprozesses „tauscht“ sozusagen den Platz mit der vormals „sekundaeren Quelle“ (und zwangslaeufig vice versa).

Interessant ist, dass die Amplitude auch nach 1940 weiter waechst, waehrend die Breite der Kurve weiter abnimmt. Es kommt also bis ca. 1960 zu einer teilweisen „Rueckbesinnung“. Laengere Namen werden zugunsten von Namen der Laenge 12 (oder 13) „aufgegeben“. Dies gilt auch (aber nicht so stark) fuer noch kuerzere Namen, wie man im Diagramm mit der aufsummierten Anzahl sieht.
Ab ca. den 70’er Jahren nimmt die Popularitaet laengere Namen weiter zu, aber laengst nicht so stark wie Anfang des 20. Jahrhunderts und ab ca. 2000 hat sich der Prozess stabilisiert.

Das hier sind zwar eher subtile Veraenderungen aber diese sind robust. Zwei Sachen (welche mir vermutlich fuer immer verborgen bleiben werde) wuerde ich gerne wissen.
1.: Fand das auch im echten Leben statt (denn die Namen hier sind ja nur simuliert)? Und als Modifikation: wie sieht das in anderen, vergleichbaren, westlichen Laendern aus?
2.: Was sind die Gruende fuer die Veraenderungen? Die Trends sind definitiv keine kurzfristigen Moden. Das zieht sich teilweise ueber Generationen hin. Aber ich spekulierte da bereits oben.

Damit sind diese Nebenbetrachtungen abgeschlossen. Beim naechsten Mal dann endlich wieder mehr zu den eigentlichen Wikipediadaten (denn das ist ja noch lange nicht abgeschlossen).

Apropos, die hier gesehenen Veraenderungen sind zwar robust, aber so gering, dass sich das in den Wikipediatiteln wenn ueberhaupt nur sehr wenig bemerkbar machen sollte. Dies vor allem deswegen, weil bereits das Vorhandensein von Doppelnamen (oder Berufsbezeichnungen) deutlich staerkere Auswirkungen haben sollten. Sowohl von der Menge (weil das 100-tausende sind) als auch vom Effekt (weil die „Verlaengerung“ eines Namens durch diese zwei Prozesse mehr als 10 mal grøszer ist als die oben beobachtete Verschiebung um 0.4 Buchstaben ueber 130 Jahre.

Aber das soll nun genug sein … ein wuerdiger Geburtstagsbeitrag in meinen Augen :)