Im ersten Artikel zu den Zitierungen gab ich nur wørtlich (bzw. als Zahlen im Diagramm) an, wieviele (oder vielmehr wie wenige) Seiten so und so viel Prozent der Zitierungen ausmachen. Ungefaehr nur ein Drittel aller Seiten vereinen ueber 90 Prozent aller Zitierungen auf sich.
Fuer die Anzahl der Links sieht das aehnlich aus, diesmal aber als Diagramm (zur besseren Orientierung habe ich im Hintergrund die doppeltlogarithmische Verteilung vom letzten Mal herein gepackt, die hat aber keine zugehørige Ordinate!):
.oO(endlich mal keine Verteilung.)
Wie ist dieses Diagramm zu lesen?
Die Kurven stellen jeweils den aufaddierten Anteil aller Seiten (rote Kurve), bzw. aller Links, bis zum gegebenen Argument dar. Als Beispiel nehme man die zweifarbigen Punkte, welche bei jeweils 50 % verortet sind.
Der rot/gruene Punkt liegt bei 14 Links pro Seite und die Haelfte alle Seiten hat so viele oder weniger Links. Folgt man diesem Punkt nach unten, landet man bei ca. 15 % auf der blauen Kurve. Dies bedeutet also, dass 50 % aller Seiten, nur ca. 15 % aller Links auf sich vereinen.
Nun der gruen/lila Punkt. Dieser liegt bei 51 Links pro Seite. Man muss also alle Seiten mit 51 Links oder weniger zusammen nehmen um 50 % aller Links auf der Wikipedia (zu anderen Wikipediaseiten) zu bekommen. Dafuer muss ich aber fast 90 % aller Wikipediaseiten besuchen (lila Punkt auf der roten Kurve).
Umgekehrt bedeutet dies, dass nur ca. 10 % aller Seiten die Haelfte aller Links enthalten! Wiederum werden die Zahlen also von wenigen Seiten dominiert.
Dies hingegen macht eine einfache Abschaetzung der benøtigten Schritte fuer eine „Rundreise“ auf dem kompletten Linknetzwerk fuer mich nicht møglich. Ich schreibe „fuer mich“, weil es bestimmt mathematische Werkzeuge gibt, mit denen man das unter den gegebenen Umstaenden machen kann, aber die sind mir nicht bekannt.
Aus den vielen Seiten mit wenigen Links wuerde ich vermuten, dass man relativ viele Schritte per Rundreise braucht. Wenn man aber nur ein paar wenige Seiten mit vielen schon anfangs erreicht, dann sollte man nur wenige Schritte brauchen. Das hier sind also entgegengesetzte „Prozesse“.
Es sei denn, wenn die Ersteren vor allem sich selber und die Letzteren auch vor allem sich selber zitieren. Wenn also diese zwei Gruppen „unter sich bleiben“.
Aha! … Da muss ich doch glatt mal schauen ob ich da was rausfinden kann.
Deswegen genug fuer heute.
Ach so … Was fuer Seiten das sind, die extrem viele Links enthalten, hatte ich bereits hier besprochen. Und Seiten die keine Links haben werden (wie hier erwaehnt) in meinen Betrachtungen nicht rausgeschmissen wenn diese noch auf anderen Seiten zitiert sind. Drei Beispiele waeren Clematis marmoraria (natuerlicherweise zitiert auf Clematis), Serbian proverbs (zitiert auf Culture of Serbia), oder Third-party software component (zitiert auf Easy Chirp, Shareaza, Foobar2000 und 83 anderen Seiten).
Leave a Reply