Ich weisz, dass ihr, meine lieben Leserinnen und Leser ganz gespannt auf die Ergebnisse wartet. Aber ihr seht ja auch, dass ich z.Z. ein bisschen mit anderen Projekten abgelenkt bin.
Weil ich das Kevin Bacon Projekt nicht ganz ruhen lassen will, habe ich mir gedacht zwei kurze Beitraege bezueglich den Daten die ich eingesammelt habe zu schreiben. Mich duenkt dass ich das in diesem sehr detaillierten und technischen Beitrag bereits erwaehnte.
Bisher ging es aber nur um das (super spannende und interessante) „Vorspiel“ … also die Erklaerung was ich eigentlich gemacht habe, um das Linknetzwerk der Wikipedia zu analysieren … abgesehen von der Analyse die nicht das „Abschreiten“ des Linknetzwerks benøtigte.
Dies wurde dann alles in ein Programm implementiert und besagtes Programm lieferte die gewuenschten Resultate — die oben erwaehnten eingesammelten Daten. Drei dieser Grøszen sind einfach zu verstehen. Die vierte erhaelt ihren eigenen (kurzen) Beitrag.
Am anschaulichsten scheint mir zu sein, den Prozess des „Abschreitens“ des Linknetzwerks nochmal durchzugehen und fuer jede Grøsze zu besprechen.
Am Anfang nehme ich einen Wikipediabeitrag (oder Titel wie ich es auch nenne). Dieser ist auf Linklevel 0 und hat eine gewisse Anzahl Links als „Ausgaenge“ zum Linklevel 1. Die _totale_ Anzahl dieser Links notiere ich mir fuer Linklevel 0. Als Beispiel nehme ich an, dass es 23 Ausgaenge waren zu 23 verschiedenen Wikipediaseiten.
Linklevel 1 besteht nun aus ALLEN diesen 23 Seiten. Diese 23 Seiten haben INSGESAMT wieder eine gewisse Anzahl Links. Nehmen wir als Beispiel an, dass es im Durchschnitt 10 Links pro Seite sind. Damit is die _totale_ Anzahl Links fuer Linklevel 1 zu Linklevel 2, fuer diesen ganz spezifischen, am Anfang gewaehlten, Wikipediabetrag, 230.
Nun nehmen wir weiter an, dass 5 von den 23 Seiten jeweils einmal auf besagten urspruenglichen Wikipediabetrag zurueck verlinken. Das hat zwei Folgen.
Zum Einen sehe ich ein Zurueckverlinken-zum-Ursprung als Selbstreferenz und die Summe aller Selbstrefrenzen notiere ich mir pro Linklevel. Das machte ich auch schon bei Linklevel 0, aber dort ist die Anzahl der Selbstreferenzen meist Null.
Zum Zweiten folge ich nur Links zu Seiten die ich vorher noch nicht besucht habe. Als Beispiel nehme ich an, dass die restlichen 225 Links alle zu verschiedenen Seiten gehen. Diese Zahl, die Anzahl aller _neuen_ (einzigartigen) Links, notiere ich mir auch per Linklevel (und urspruenglichen Wikipediabetrag).
Auf Linklevel 2 habe ich nun 225 Seiten. Ich nehme wieder 10 Links pro Seite (im Durchschnitt) an. Das macht dann 2250 _totale_ Links auf Linklevel 2. Desweiteren nehme ich an, dass da 50 Selbsreferenzen dabei sind. Auszerdem sehe ich, dass fuer dieses Fantasiebeispiel im Schnitt jede Seite auf Linklevel 2 eine Seite zitiert, die ich schonmal auf Linklevel 1 besucht habe. Das waeren also 225 „Zurueckverlinkungen“, die NICHT zum Urpsrung gehen (und somit keine Selbstreferenzen sind) denen ich aber ebenso nicht folge, damit ich nicht in Schleifen gerate. Die Anzahl der _neuen_ (einzigartigen) Links ist also: 2250 Links – 50 Selbstreferenzen – 225 Zurueckverlinkungen = 1975 Links
Auf Linklevel 3 habe ich nun 1975 Seite und das Spiel geht immer weiter, so lange, bis es keine Verlinkungen (oder Ausgaenge) mehr, zu Seiten auf denen ich noch nicht war, gibt .
In Tabellenform sieht das Fantasiebeispiel so aus:
Linklevel | totale Links | Summe der Selbstreferenzen | neue Links |
---|---|---|---|
0 | 23 | 0 | 23 |
1 | 230 | 5 | 225 |
2 | 2250 | 50 | 1975 |
… | … | … | … |
75 | 1 | 0 | 1 |
76 | 0 | 0 | 0 |
Das Ganze geschieht nun fuer alle (beinahe) 6 Millionen Wikipediatitel und wie die Verteilung dieser Grøszen pro Linklevel aussieht ist das, was mich interessiert. Aber das soll genug sein fuer heute.
Leave a Reply