Ich hatte zwar bereits individuelle Linkfrequenzverteilungen gezeigt, aber noch nicht die „kollektiven“ Linkfrequenzverteilungen per Linklevel, so wie es „Tradition“ ist. Das hole ich heute nach.
Bei den totalen Links war nicht viel. Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben. Es gab keine Seite die wenige totale Links hatte, waehrend andere sehr sehr sehr viele hatten (und umgekehrt).
Eine Idee die mir in dem Zusammenhang in den kopf kam fuehrte mich in eine Sackgasse. Aber letztlich wurde ich dadurch auch das erste Mal auf das „São Paulo FC“-Artefakt aufmerksam und das Wissen darum half mir ein paar Mal weitere Seltsamkeiten richtig einzuordnen.
Weil die neuen Links letztlich zu aehnlich den totalen Links sind, gab es da entsprechend nix Neues zu holen.
Die Selbstreferenzen hatten ganz andere Verteilungen. Die Andersartigkeit folgte aber aus der Natur der Selbstreferenzen und der Wikipedia. Es ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat und dies folgt einem maechtigen Gesetz. Letztlich entdeckte ich dadurch aber die Gesetzmaeszigkeit wie schnell die thematische Aehnlichkeit der Wikipediaseiten von Linklevel zu Linklevel abnimmt, was eine urst coole Entdeckung ist. Ebenso brachte mich das auf die Idee mich mal an einer Simulation des Ganzen zu versuchen.
Ich will damit auf das Folgende hinaus: auch wenn diese Verteilungen immer erstmal eher langweilig sind, so bin ich aber letztlich dadurch immer auf coole Sachen aufmerksam geworden. Deswegen heute die Verteilungen der Linkfrequenzen pro Linklevel anhand repraesentativer Beispiele:
Hier passiert viel, aber der Reihe nach, beginnend mit dem linken oberen Diagramm in dem die Verteilungen von LL0 bis LL4 zu sehen sind.
Zunaechst einmal scheint mir hier (mehr oder weniger fuer alle Veteilungen) eine Mischung im Verhalten vorzuliegen, welches man bei den totalen Links und den Selbstreferenzen sieht. Die Verteilungen von LL0 (welche uebrigens wieder nur eine alte Beobachtung auf andere Weise repliziert ist) bis LL2 sind qualitativ noch naeher an den Selbstreferenzen. Aber ab LL3 „zerfasert“ sich die Verteilung ab Linkfrequenzen ueber ca. 1000 (Zitierungen von anderen Seiten), was man daran sieht, dass die blauen Punkte ein breites Band bilden. Dadurch gibt es in der Summe mehr Seiten mit vielen bis sehr vielen Zitierungen von anderen Seiten als solche mit wenigen. Aber die gehen nicht alle in „Zustaende“ nahe dem Ende der Abszisse (wie bei den totalen Links), sondern verteilen sich ueber (fast) die ganze Breite ab ca. 1000 Zitierungen (das ist was ich mit „Zerfaserung“ meine).
Dieses Verhalten verstaerkt sich noch fuer LL4 und LL5 (dann schon im Diagramm rechts oben). Immer mehr Seiten mit wenigen Zitierungen gehen ueber in das „zerfaserte Band“. Die „Amplitude“ des linearen Teils nimmt ab.
Dann aber kehrt sich das Verhalten um. Zunaechst waechst auf LL6 ein „Buckel“ zwischen ca. 100 und ca. 10,000 Zitierungen. Von LL7 bis LL9 nimmt die „Amplitude“ des linearen Teils wieder zu, waehrend das „zerfaserte Band“ nicht verschwindet, aber die Høhe abnimmt.
Im linken unteren Diagramm sieht man dann, dass sich diese Entwicklung ueber etliche Linklevel fortsetzt. Zu beachten ist aber, dass die Amplitude des linearen Teils wieder abnimmt, denn die Seiten „wandern“ in den „Nullzustand“; dem Punkt der sich links oben an die Ordinate schmiegt.
Am Ende haben wir ein bereits bekanntes Bild in anderer Form. Alle zitierenden Ursprungsseiten befinden sich um Artefakt und nur noch ca. 75 Seiten werden ueberhaupt zitiert (davon aber einige sehr sehr oft).
Die Verteilungen sind nicht so eindeutig wie bei den Selbstreferenzen oder den totalen Links. Deswegen wollte ich gerne mal sehen, wie die Seiten sich von niedrigen zu hohen Linkfrequenzen „bewegen“. Also nicht einzelne Seiten, sondern wie die „kollektive Bewegung“ aussieht. Nun kann ich mir aber nicht alle fast 6 Millionen Seiten anschauen. Ich musste also einen Weg finden die Information zu komprimieren.
Dabei kommt mir (ausnahmsweise) zur Hilfe, dass bei den Werten fuer die Linkfrequenz (aber auch bei den totalen Links und den Selbstreferenzen) mehrere Grøszenordnungen „ueberstrichen“ werden. Da bot sich førmlich an, dass ich mir mal anschaute, wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“; das Ganze natuerlich pro Linklevel … … … HAEH?
In kurz und knapp, schaute ich mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. (also von einem langen Strich auf der Abszisse zum naechsten) auf jedem Linklevel erhalten haben. Dadurch kann ich die Information von ueber 12 Millionen Datenpunkten (verteilt ueber mehr als 70 Linklevel) auf nur 8 Datenpunkte pro Linklevel reduzieren.
Aber das wuerde zu viel werden fuer heute. Deswegen erklaer ich das Ganze beim naechsten Mal nochmal an einem Beispiel (und hoffe, dass dann klarer wird worauf ich hinaus will). Auszerdem fange ich am Besten auch nicht gleich mit dem Schwersten (also den Linkfrequenzen) an, sondern erstmal „nur“ mit den totalen Links und den Selbstreferenzen. Die sind naemlich leichter zu verstehen.
So, das soll genug sein fuer heute.
Leave a Reply