Damals wurde mir ziemlich spaet erst bewusst, dass ich zwar fuer ein gegebenes Linklevel (und eine gegebene Grøsze von Interesse) die Summe ueber alle Seiten untersucht hatte, es mir bis dahin aber nie in den Sinn gekommen ist, mir mal die Summe ueber alle Linklevel einer gegebene Seite (und einer gegebenen Grøsze von Interesse) anzuschauen. Eine einzelne Summe ist natuerlich nicht von Interesse, aber die Verteilung aller Summenwerte aller Seiten schon.
Das hab ich nochmal gemacht und hier sieht man den Vergleich dieser Verteilungen bzgl. der totalen Links fuer die 2020-Daten und die 2023 Daten:
Bei doppellogarithmischer Darstellung (linkes Diagramm) sieht das gleich aus. Bei linearer Abzsisse sind die „Balken“ bei hohen Summenwerten gewaltig verschoben. Der Grund liegt natuerlich mal wieder daran, weil die 2023 Wikipedia mehr Seiten enthaelt.
Bereits damals hatte ich mir besagten „Balken“ genauer angeschaut und es stellte sich heraus, dass das gar kein Balken ist. In diesem Diagramm …
… hab ich nicht nur in die „Balken“ „reingezoomt“, sondern auch den 2023-Daten eine von den 2020-Daten unabhaengige Abzsisse gegeben (die obere). Das sieht dann wie eine „Verschiebung“ aus und erleichtert den Vergleich der Daten. Siehe da: die „Dynamik“ ist die Gleiche (gar die Selbe wuerd ich sagen), sowohl bei kleinen, als auch bei hohen Summwerten.
Obacht: bei den hohen Summen handelt es sich um weniger als 2000 Datenpunkte, die nicht mal 10 % aller Wikipediaseiten repraesentieren! Wie zu erwarten ist, haben die allerallerallermeisten Seiten die selbe Anzahl an totalen Links (das ist der eine Datenpunkt, welcher der oberen Abzsisse am naehsten kommt). Das besprach ich damals detailliert (siehe der Beitrag hinter dem obigen Link) und werde das an dieser Stelle nicht nochmal wiederholen.
Fuer die neuen Links hatte ich mir das damals nie angeschaut, aber da gibt es keine Ueberraschungen (wenn man sich schonmal die totalen Links angeschaut hat):
Die „Dynamik“ bei hohen Summenwerten scheint (deutlich?) schneller runter zu gehen als bei den totalen Links und das sollte vielleicht mal wer anders genauer untersuchen. Wie schon oben, gibt es auch hier wieder keinen echten Unterschied zwischen den beiden Datensaetzen.
Ebenso nicht angeschaut hatte ich mir die Verteilung der Summe(n) ueber die Linklevel fuer die Selbstreferenzen. Die sind hier im linken Diagramm zu sehen:
Høh? Das sieht ja (fast) so aus wie die Summer ueber alle Seiten auf einem gegebenen niedrigen Linklevel (siehe bspw. hier). Das stimmt, das sieht so aus, aber wenn man sich das mal genauer anschaut, dann ist dem nicht so. Die Aehnlichkeit kommt durch die starke „Begrenztheit“ der Selbstreferenzen zustande. Zum Einen gibt es ohnehin nicht sehr viele Selbstreferenzen und zum Anderen nimmt das „Selbstreferenzensignal“ sehr schnell ab. Ab LL23 ist da (fast) nix mehr (man kønnte argumentieren, dass ab LL10 praktisch nix mehr ist. Im Gegensatz zu den totalen (oder neuen) Links wo das Signal immer irgendwie hoch-ish ist, dominiert fuer diese Summe bei den Selbstreferenzen das Signal der ersten paar Linklevels und deswegen sehen sich die Verteilungen dieser zwei, konzeptionell vøllig unterschiedlichen (!), Summen so aehnlich.
Ansonsten ist nur zu sagen, dass die 2023-Daten den 2020-Daten so aehnlich sind, dass man beinahe von „deckungsgleich“ sprechen kønnte.
Als Letztes ist dann die Verteilung dieser Summenwerte fuer die Linkfrequenz im rechten Diagramm zu sehen. Das war damals der „Aufhaenger“, wie ich auf diese (andere) Summer ueberhaupt erst aufmerksam geworden bin, weil man damit ganz leicht „Archipelagoseiten“ identifizieren kann.
Wie man sieht, reproduzieren auch hier die 2023-Daten die 2020-Daten … mehr hatte ich damals dazu gesagt, was ich hier aber nicht wiederholen werde.
Beim naechsten Mal: die „Archipelagos“ an sich.




















