Die Sachen die ich beim letzten Mal reproduzierte (und leicht erweiterte) machten mich damals stutzig, denn die Kurven hatten fuer meinen Geschmack einen viel zu starken Anstieg. Deswegen untersuchte ich (damals) wie stark Seiten mit unterschiedlichen Anzahlen an Zitaten und Links auf Linklevel 0 zur Anzahl der totalen Links auf Linklevel 1 beitragen.
Das wollte ich jetzt natuerlich nochmal machen und die entsprechenden Programme hatte ich schon vor Monaten geschrieben. Leider habe ich diesmal nicht richtig hingeschaut und das als „Beitrag zur Anzahl der total Links auf LL0“ (man beachte den Linklevelindex!) gelesen (anstatt „auf LL1„). Dadurch hab ich dann Zeit verschwendet, weil besagte Programme vermeintlich falsche Zahlen lieferten. Der Fehler klaerte sich nach ca. 2 Stunden auf.
Aber der Reihe nach und als Erstes nochmal kurz worum es heute geht. Wenn ich an ’ne Sache rangehe, mache ich oft erstmal ’ne Fermi Abschaetzung. Etwas genauer: ich schau mir Mittelwerte an und ueberlege mir wie diese Sache aussehen sollte, wenn man nur mit den Mittelwerten rechnet. Damals kam aber ganz schnell heraus, dass die durchschnittliche Anzahl der Links und Zitate, gemittelt ueber ALLE Seiten, einen VIEL kleineren Anstieg der totalen Links verursachen sollte. Ich hatte dann relativ schnell die Idee, dass mglw. Seiten die extrem oft zitiert werden einen ueberproportionalen Anteil an dem Anstieg haben kønnten, der mitnichten mittels einer Mittelwertsueberschlagsrechnung erfasst werden kann.
Oder anders (mit Zahlen): eine Seite die auf LL0 fuenf mal zitiert wird und die fuenftausend Links hat, traegt auf LL1 25-tausend (totale) Links bei. Der Beitrag einer Seite mit nur einem Link, die aber 250-tausend Mal zitiert wird, ist hingegen zehn Mal so hoch.
Das soll reichen zu dem was man hier (wieder) sieht; mehr Details gibt es in den entsprechenden Artikeln von damals.
Ach ja, wenn ich schon dabei bin sollte ich auch auf einen Fehler hinweisen. Bei der Kurve bzgl. des kumulativen Beitrags habe ich damals die Werte fuer NULL mal zitierte Seiten mit dazugezaehlt. Die tragen aber NICHT bei, weil die ja nicht zitiert werden. Das fuehrt aber NICHT zu einer Aenderung des Anstiegs der Kurve, sondern nur zu einer konstanten Verschiebung von weniger als 1 Million … da die Ordinate bis fast 40 Milliarden geht, sieht man das gar nicht und HIER ist das jetzt alles richtig!
Aber nun die Diagramme. Zunaechst das zur Reproduzierbarkeit …
… bei der (wie damals) als Unterscheidungsmerkmal der betrachteten Seiten die Anzahl der Zitierungen herangenommen wurde. Die schwarzen Punkte (linke Ordinate) repraesentieren die Summe aller Produkte von Anzahl Links und Anzahl Zitierungen aller Seiten mit einer gegebenen Anzahl Zitate auf LL0. Die Punkte der 2023 Daten sind im Wesentlichen die Gleiche wie die fuer die 2020 Daten.
In den 2023 Daten gibt es aber mehr Seiten mit unterschiedlichen Anzahlen an Zitierungen. Wegen der logarithmischen Komprimierung sieht man die entsprechendne Punkte nicht. Die sind aber ein Grund, warum die kumulative Anzahl Links auf LL1 (blaue Punkte, rechte Ordinate) der 2023 Daten schneller waechst als die der 2020 Daten. Desweiteren liegen die schwarzen Punkte ein bisschen ueber den grauen Punkten. Man muss genau hinschauen und sieht es vermutlich am besten am Anfang um 10 Zitate rum … der Unterschied ist gering, aber echt. Oder anders: es gibt in den 2023 Daten nicht nur mehr Seiten mit anderen / unterschiedlichen Zitaten als in den 2020 Daten, sondern auch mehr Seiten die bspw. 5 Zitate haben. Und das „haut dann rein“ bei den kumulativen Kurven … denn das liegt ja schon in der Definition der kumulativen (!) Kurven.
Aber alles „geht mit rechten linken Dingen zu“, denn die Form der Anstiege (im Wesentlichen linear) aendert sich nicht.
Damals nicht betrachtet hatte ich, wie das Ganze aussieht, wenn man die Anzahl der Links herannimmt als Unterscheidungsmerkmal der betrachteten Seiten. Aber das ist ja das Schøne, wenn man die entsprechenden Programme nochmal neu schreibt und dabei allgemeiner fasst; es „fallen mehr Sachen raus“. Auf den ersten Blick das sieht das …
… erstmal sehr aehnlich zum obersten Diagramm aus, sowohl qualitativ als auch quantitativ. Letzteres natuerlich nur bzgl. der Ordinate. Insb. verhalten sich die 2023 Daten nicht anders als die 2020 Daten (innerhalb der zu erwartenden Grenzen).
Auf den zweiten Blick sieht die Verteilung der schwarzen Punkte dann aber doch anders genug aus, sodass ich da mal „reingezoomt“ habe:
Tatsaechlich! bei vielen Zitaten „gehen die Punkte hoch“, waehrend sie „runter“ gehen bei vielen Links … da kann wer anders mglw. was mit machen, ich lasse das hier nur noch ohne weitere Kommentare stehen.
An der Stelle liesz ich damals die durchschnittliche Anzahl Links (bei gegebener Anzahl an Zitaten) folgen. Das verschiebe ich auf den naechsten Beitrag, weil dies eines der wichtigsten Ergebnisse ueberhaupt war, welches oft zur Erklaerung anderer Phaenomene herangezogen wurde.
Ich kam dann damals nochmals auf die Beitraege der einzelnen Seiten (gruppiert nach der Anzahl der Zitate) zurueck und schaute mir das in einem zweidimensionalen Grafen an, in dem Information ueber eine dritte Dimension (besagte Gruppierung) in den einzelnen Punkten „versteckt“ war.
Das war wichtig, denn diese Kurve zeigte ungeheuer beeindruckend wie stark _ganz_ wenige Seiten mit vielen Zitaten die Dynamik der total Links insb. am Anfang beeinflussen … womit der Grund der oben erwaehnten Stutzigkeit gefunden war.
Hier sind die entsprechenden Kurven:
Bzgl. dessen wie dieses Diagramm zu lesen ist verweise ich auf den damaligen, verlinkten, Beitrag. Nur drei Sachen seien gesagt.
Zum Einen schaue ich mir nicht nur die Gruppierung nach Anzahl der Zitate (rote Punkte) an, sondern auch nach Anzahl der Links (schwarze Punkte).
Zum Zweiten unterscheiden sich die 2023 Daten nur insofern, dass sie sich weiter nach rechts „ausdehnen“. Das liegt natuerlich wieder daran, weil es in den 2023 Daten mehr Seiten gibt.
Zum Dritten scheint die Dynamik der Kurven in denen die Seiten nach der Anzahl der Links gruppiert sind, etwas „ruhiger“ zu sein als die der Kurven in denen die Seiten nach Anzahl der Zitate gruppiert sind. Oder anders: die roten Kurven verlaufen ab ungefaehr 5 Millionen auf der Abzsisse etwas „flacher“ (nicht viel) als die schwarzen Kurven um dann zum Ende einen „Extraschub“ hinzulegen und staerker zu „beschleunigen“. Am Endergebnis aendert das nix, kønnte aber mglw. durchaus von Interesse sein sich mal naeher anzuschauen … fuer andere … nicht (mehr) fuer mich.
Das soll genug sein fuer heute. Wie bereits erwaehnt: beim naechsten Mal dann die durchschnittlichen Links / Zitate bei gegebener Anzahl Zitate / Links.
Leave a Reply