Ohne lange Vorrede, knuepfe ich recht direkt beim letzten Mal an.
Urspruenglich schaute ich nur auf die Zitate die eine Wikipediaseite auf sich vereinte und betrachtete diese als ein Masz fuer die „Relevanz“ besagter Seite. Ich definierte (nicht formal, aber irgendwie schon) dann, dass der „Relevanzwert“ eine Art „Projektion“ der Anzahl der Zitate auf eine kontinuierliche Verteilung ist. Hier bin ich damals naeher darauf eingegangen; dennoch zur Wiederholung zwei kurze Beispiele.
– Seiten mit wenigen Zitaten werden 1:1 „projiziert“. Es gibt Seiten mit, zwei, drei, vier, oder fuenf Zitaten und deren „Relevanzwert“ entspricht dann auch 2, 3, 4 oder 5.
– Bei vielen Zitaten kommt es aber zu Luecken. Bspw. kønnte es (eine) Seite(n) mit 235 Zitaten geben, was dann (noch) einem „Relevanzwert von 235 entspricht. Wenn es nun keine Seiten mit 236 oder 237 Zitaten gibt (eine Luecke) sondern erst wieder mit 239 Zitaten, so werden Letztere einem „Relevanzwert“ von 236 (ohne Luecke!) zugeordnet.
Soweit zur Auffrischung alter Sachen. Aber eigentlich will ich vom Begriff „Relevanzwert“ weg kommen. Der Grund liegt in dem was ich beim letzten Mal schrieb: auch die Anzahl der Links die eine Seite hat ist von Interesse. Die kønnen aber nicht mehr (oder vielmehr nicht auch) als Relevanzwert angesehen werden. Dennoch møchte ich gerne zwischen Anzahl Zitaten und Anzahl Links unterscheiden kønnen.
Das oben beschriebene Prinzip hilft aus dem Dilemma heraus, denn alle Seiten welche die selbe Anzahl an Zitaten / Links haben (je nachdem, was man betrachtet) werden in eine Gruppe „geschmissen“. Und das was dann auf der jeweiligen Achse des zweidimensionalen Falschfarbenbildes abgetragen ist, entspricht der Bedeutung der Achse. Somit kommt man leicht zu den Bedeutungsgruppen, bzw. ganz konkret: Zitategruppen bzw. Linksgruppen. Am Prinzip aendert sich aber nix, nur der Name ist anders und die Interpretation bzgl. dessen fuer was besagtes Prinzip steht ist verallgemeinert worden.
An der Stelle kann ich mich um den Reproduzierbarkeitsteil des Anhangs kuemmern. Fuer die Daten von 2020 gab es nur 5,696 verschiedene Møglichkeiten wieviele Zitate eine Seite haben konnte. Weil man bei der Null anfaengt zu zaehlen (denn es gibt Seiten die keine Zitate haben), entspricht das einem høchsten Relevanzwert von 5,695. Hier ist der Vergleich mit den Daten von 2023:
Man sieht, dass sich die 2023 Daten (rote Punkte) ab ca. 3-tausend Zitaten ueber die 2020-Daten erheben. Die Vielfalt in der Anzahl der Zitate die eine Seite haben kann ist also grøszer in den neueren Daten (und damit steigt die Anzahl der Zitategruppen). Wie oben erwaehnt, werden Seiten mit wenigen Zitaten 1:1 auf die entsprechende Gruppe „projiziert“ … am Grafen kann man ablesen, dass „wenig“ bis ca. 3-tausend Zitate bedeutet.
Insgesamt gibt es in den 2023-Daten 6164 Zitategruppen, also nicht ganz 500 mehr als in den 2020-Daten.
Die S-Form hat nix zu sagen und kommt durch die halblogarithmische Darstellung zustande. Diese waehlte ich aus zwei Gruenden. Zum Einen, weil eine Seite (es ist die Hauptseite … ich frage mich uebrigens, warum die nie in den 2020-Daten auftauchte … vielleicht hat sich seitdem was in der Wikipedia an sich geaendert … oh … ich schwoffte ab) ueber 5 Millionen Zitate erhaelt und man bei linearer Abzsisse nix Relevantes sehen wuerde (nur eine Kurve die senkrecht nach oben geht und dann flach verlaeuft). Zum Zweiten, weil es bei einer logarithmischen Ordinatebei hohen Zitategruppen(zahlen?) zur „logarithmischer Komprimierung“ kommt und man dadurch auch wieder nix Relevantes (naemlich den Unterschied) sieht.
Alles in allem wuerde ich dies als reproduziert ansehen. Die Aenderung der Anzahl der Zitategruppen war zu erwarten und die Aenderung liegt jetzt nicht vøllig wild ganz woanders (bei 5 Trillionen oder so … oder auch nur ’nem Faktor 2 wenn man mal drueber nachdenkt).
Und nun kommt was Neues … und Altes was aber auch neu ist, weil ich’s vorher noch nicht gezeigt hatte: die „Projektion“ der Anzahl der Links die eine Seite haben kann auf die Linksgruppen:
Man beachte die andere Skalierung! Weil die Anzahl der Links nicht so hohe ExtremMaximalwerte hat, konnte ich beide Achsen linear belassen. Man kann aber erahnen, was ich oben mit „senkrecht nach oben und dann flach“ meine; bzw. wie nuetzlich die „logarithmische Komprimierung“ ist … aber das zog sich ja immer wieder durch diese Serie. Desweiteren sieht man eine andere, bereits erwaehnte Sache: bis ca. 1500 Links ist der Anstieg der Kurve linear und das entspricht einer (im Wesentlichen) 1:1 „Projektion“.
Ansonsten ist nur noch zu sagen, dass die Anzahl der Linksgruppen nur ca. 1/3 der Anzahl der Zitategruppen betraegt und dass besagte Anzahl auch hier (leicht) zunimmt in den 2023-Daten.
Alles in allem ist das zwar neu, aber gleichzeitig auch eine Reproduktion … toll wa! Der fruehe Wurm faengt gleich zwei Spatzen auf dem Dach :) .
Juti … das soll reichen fuer heute. Beim naechsten Mal … … … *ueberleg* … … … gibt’s dann endlich wieder bunte Bilder. Da muss ich aber noch ueberlegen, wie ich das aufziehe.
Leave a Reply