Die Frage „wie vielen Links muss eine Wikipediaseite im Durchschnitt folgen um eine andere Wikipediaseite zu sehen“ wurde sowohl von der einen Richtung (ausgehend von einer Seite), als auch von der anderen Richtung (kommend von anderen Seiten) beantwortet. Beide Ergebnisse stimmen ueber alle Wikipediaseiten gesehen ueberein (zumindest so lange, wie „Mehrfachsichtungen“ die Linkfrequenz nicht zu sehr dominieren).
Andererseits wissen wir, dass nicht alle Seiten gleich sind und es stellt sich dann die Frage, ob Seiten mit vielen Links (oder Zitaten) frueher beliebige andere Seiten sehen (von anderen Seiten gesehen werden), als Seiten mit wenigen Links (oder Zitaten). Rein logisch und auch intuitiv wuerde ich das mit Ja beantworten. Das will ich aber in den Daten sehen und deswegen arbeitete ich beim letzten Mal aus, wie bspw. „wenige Links“ oder „mittelviele Zitate“ objektiv zu interpretieren sind. Die entsprechenden Seiten wurden in die sechs Untergruppen UWL, UWZ, UML, UMZ, UVL und UMZ zusammengefasst.
In den Abkuerzungen steht das „U“ fuer „Untergruppe“, „W“, „M“ und „V“ fuer „wenige“, „mittelviele“ und „viele“ und „L“ und „Z“ ensprechend fuer „Links“ und „Zitate“. Das ist leicht verstaendlich; dennoch gebe ich zwei Beispiele, denn ich werde ab sofort nur noch diese Abkuerzungen verwenden.
Die Seiten in der „UWL“ kennzeichnen sich alle dadurch aus, dass sie … in der Tabelle vom letzten Mal nachschau … null bis maximal 5 … also Wenige, Links zu anderen Seiten haben. Wieviele Zitate die Seiten in der UWL haben ist aber NICHT festgelegt (das wird an spaeterer Stelle uebrigens nochmal wichtig).
Die Seiten in der „UMZ“ kennzeichnen sich alle dadurch aus, dass sie 20 bis maximal 1000, also Mittelviele, Zitate zu anderen Seiten haben. Wieviele Links die Seiten in der UMZ haben ist NICHT festgelegt.
Nach der Vorrede kann ich ohne weitere Abschwiffe gleich das erste Ergebniss zeigen. Dieses Diagramm zeigt, wie schnell die Seiten in den Untergruppen beliebige (!) andere Seiten (also auch die der eigenen Gruppe) sehen (die Linien dienen wieder nur der besseren Visualisierungen, denn es gibt keine gebrochenen Linklevel):
Die Kurven beginnen natuerlich bei LL0 und gehen deutlich weiter als bis LL6. Von Interesse ist aber nur der Punkt, an dem die Seiten in den Untergruppen (als (Untergruppen)Ensemble gesehen) im Durchschnitt die Haelfte aller Seiten gesehen haben. Zur Erinnerung: wenn man alle Seiten zusammen betrachtet, lag dieser Uebergang zwischen dem 3. und 4. Linklevel (aber etwas naeher an LL3 als an LL4).
Es gibt natuerlich kein „zwischen“ zwei Linkleveln. Das ist so zu verstehen, dass im Durchschnitt bis LL3 die meisten Seiten noch NICHT 50 % aller anderen Seiten gesehen haben, waehrend auf LL4 die meisten Seiten (im Durchschnitt) sehr wohl 50 % aller anderen Seiten gesehen haben.
„Naeher an LL3“ ist so zu verstehen wie der Ordinatenwert fuer diese Stelle ist: bis dahin wurden (im Durchschnitt) fast 40 % aller anderen Seiten schon gesehen. Es sollten also bereits merkbar viele Seiten auftreten (aber noch nicht die Mehrzahl), bei denen (im uebetragenen Sinne) bereits ein Muenzwurf ausreicht um zu entscheiden ob (im Durchschnitt) eine beliebige andere Seiten gesehen wurde oder nicht. Waehrend die ueber 80 % auf LL4 bedeuten, dass das Ensemble aller Seiten diesbezueglich einen riesigen Schritt gemacht hat und nun die Mehrzahl der Seiten (im Durchschnitt) vier von fuenf beliebigen andere Seiten gesehen hat.
Hier nun sehen wir zwei wichtige Dinge:
1.: die Ergebnisse fuer die Gruppen (wenige, mittelviele, viele Links / Zitate) unterscheiden sich wie erwartet; Seiten mit mehr Links sehen eine beliebige andere Seite eher als Seiten mit weniger Links. Das war erwartet (siehe oben). Dennoch freut es mich, dass die Unterschiede so deutlich sind … ich waere etwas ratlos gewesen, wenn dem nicht so gewesen waere.
2.: die Ergebnisse fuer die der paarweisen Untergruppen liegen nahe genug beisammen, sodass ich das als „das ist innerhalb des Fehlers gleich“ betrachten, und zunaechst nicht auseinanderklamuesern muss. Man sieht zwischen den paarweisen Untergruppen kleine Unterschiede (am grøszten sind die fuer die zwei Gruppen mit den wenigen Links / Zitaten), aber darauf gehe ich an anderer Stelle ein.
Prima! Nun andersrum: wie schnell werden die Seiten der Untergruppen von anderen Seiten gesehen:
Im linken Diagramm zunaechst eine „grøbere“ Uebersicht um zu zeigen, dass die Untergruppen bzgl. des kumulativen Anteils jeweils høhere „Schlussprozente“ erreichen. Zur Erinnerung: ueber alle Seiten gesehen wird im Durchschnitt ueber das gesamte Linknetzwerk aller Seiten jede Seite fast 2 1/2 Mal von jeder anderen Seite gesehen.
Fuer die Untergruppen war zu erwarten, dass die nach der Anzahl der (von anderen Seiten erhaltenen) Zitate sortierten Gruppen auch entsprechend høhere Schlussprozente haben. Ist ja logisch, eine Seite die nur ein Mal zitiert wird, wird letztlich auch nur ein Mal von allen anderen Seiten gesehen (wenn auch vermutlich auf unterschiedlichen Linkleveln). Eine Seite die 1000 Zitate von anderen Seiten erhaelt hat hingegen eine (hohe) Chance im Linknetzwerk einer Urpsrungsseite mehrfach aufzutreten und wird somit mehrfach von jeder (Ursprungs)Seite gesehen. Dieses Phaenomen spiegelt sich in den „Schlussplateaus“ der hellfarbigen Kurven im linken Diagramm wider.
Das gleiche Verhalten ist ebenso im Durchschnitt der Untergruppen zu erwarten, die nach der Anzahl der Links sortiert wurden. Zur Erinnerung: (im Durchschnitt!) gibt es (wie wir seit langem wissen) einen Zusammenhang zwischen der Anzahl der Links und der Anzahl der Zitate, welche mittels eines maechtigen Gesetzes mit positivem Exponenten beschrieben werden kann. Das bestaetigt sich in der (normal) roten und (normal) blauen Kurve.
Fuer die (normal) lila Kurve, also die Seiten der UVL, gilt dies jedoch nicht. Das ist ein wichtiger Unterschied und ich komme darauf an anderer Stelle zurueck.
Im rechten Diagramm zeige ich den hier und heute interessanten Bereich von Nahem. Von den Ergebnissen fuer die UVL abgesehen gilt i.A. das Gleiche was ich bzgl. den Ergebnissen zum kumulativen Anteil der neuen Links sagte. Die Unterschiede sind deutlich zu sehen und verhalten sich wie erwartet. Paarweise gesehen sind die Kurven fuer die UWL / UWZ bzw. UML / UMZ zwar nicht so schøn beisammen wie beim kumulativen Anteil der neuen Links aber hier und heute sind mir die Diskrepanzen klein enug genug um das innerhalb des Fehlers als das Gleiche zu betrachten. Letzteres gilt wie gesagt fuer die UVL und UVZ nicht.
Somit ist fuer heute festzuhalten: Seiten die bestimmten Untergruppen zuzuordnen sind, verhalten sich anders und die Andersartigkeit ist i.A. wie erwartet.
Nichtsdestotrotz gibt es unerwartete Unterschiede die erklaert gehøren. Das dauerte eine Weile bis ich die Erklaerung beisammen hatte und ist das was ich in diesem Beitrag schon mehrfach andeutete. Mehr dazu beim naechsten Mal.
Leave a Reply