… dieser Maxiserie ist noch nicht da, denn ich meine das Ende der Gesamtverteilung der totalen Links per Linklevel … hier nochmal zur Erinnerung:
Den „Schwanz“ der Verteilung (ich sag jetzt mal ab ca. LL25) sieht man natuerlich nur in der logarithmischen Darstellung und der verlaeuft ziemlich flach. Mit dem Wissen was wir bereits haben kønnen wir dies relativ leicht mittels einer Fermi-Abschaetzung erklaeren.
Wenn ich die Zahlen ganz grob aus dem Diagramm ablese, dann sehe ich, dass ich nach 25 Schritten nur noch ca. 500 totale Links habe. (Nicht vergessen: der grosze Wert auf der Ordinate muss durch ca. 6 Millionen dividiert werden, denn die Summe der totalen Links bildete ich ja ueber die Summe der Verteilungen aller Seiten). Zu dem Zeitpunkt habe ich dann aber die allermeisten Seiten schon besucht. Mein „Bauchgefuehl“ sagt mir, dass ich bei LL25 90 % dieser Links deswegen nicht weiter verfolge. Bleiben noch 50 neue, nicht besuchte Links uebrig.
Bei so hohen Linkleveln befinden sich vermutlich nur noch wenig zitierte Seiten (denn wenn die oft zitiert werden wuerden, haette ich die schon eher gesehen). Von frueher wissen wir, dass wir bei dieser Ueberschlagsechnung mit durchschnittlich 10 Links pro Seite rechnen kønnen. Das bedeutet dann, dass ich dann beim LL26 wieder 500 totale Links habe.
Schwuppdiwupp, ist der flach verlaufende Schwanz der Verteilung qualitativ (!) erklaert. Dabei ist zu bedenken, dass man bei einer Fermi-Abschaetzung versucht die Grøszenordnung richtig hin zu bekommen. Also waere ein Ergebniss von 50 oder 5000 auch gut gewesen.
Das ist ein guter Punkt, um endlich auf die naechste gemessene Grøsze ueber zu gehen: die Anzahl der _neuen_ Links pro Linklevel. Im linken Diagramm sieht man die Verteilung der Summe aller neuen Links pro Linklevel als rote Kurve:
Die Summe ist wieder so zu verstehen, dass ich die Anzahl der neuen Links aller Seiten aufaddiert habe, um obige Kurve zu erhalten.
Die rote Kurve ist sehr aehnlich der Verteilung der Summe der totalen Links (schwarze Kurve) … was zu erwarten war. Der grøszte Unterschied ist, dass die Amplitude pro Linklevel geringer ist … aber das muss ja so sein. Ebenso wird das Maximum (die zwei (!) høchsten Punkte) ein Linklevel eher erreicht … auch das war zu erwarten, wenn man mal drueber nachdenkt.
Im Diagramm auf der rechten Seite habe ich diese Verteilung mal grob „normiert“ auf die Anzahl aller Wikipediaseiten. Grob deswegen, weil ich 6 Millionen als Teiler genommen habe und nicht die wahre Anzahl (welche auch beruecksichtigen muesste, dass Seiten „rausfallen“ wenn deren Linkkette aufhørt). Das ist aber genug um die durchschnittliche Anzahl der neuen Links pro Linklevel zu sehen.
Der Verlauf dieser Kurve ist selbstverstaendlich (!) der Selbe. Aber durch die deutlich kleinere Skala sieht man (wieder), dass man zwischen Linklevel 20 und 45 durchaus mit ca. 10 neuen Links rechnen kann.
Auszerdem sieht man, dass die (normierte) Kurve ab LL48 parallel zur Abzsisse verlaeuft mit einem Wert von 1. Dies ist natuerlich Ausdruck des ausfuehrlich besprochenen Artefakts und soll nicht nochmal Thema sein.
Ich denke nicht, dass ich hier noch viel rausholen kann, aber ich schicke diese Zahlen mal durch die gleichen Analysen wie vorher. Daraus mach ich dann ’ne Zusammenfassung, auszer, wenn ich auf was Ungewøhnliches stosze.
Leave a Reply