Als naechstes hatte ich mir damals die Histogramme bzgl. der Zitate die eine Seite erhaelt und danach bzgl. der Links die eine Seite hat angeschaut. Beim naeheren Anschauen des Histogramms bzgl. der Zitate wurde ich zum ersten Mal bewusst auf maechtige Gesetze aufmerksam. Hier und heute vergleiche ich in diesen beiden Diagrammen …
… die angesprochenen Histogramme, gebildet mit den alten und mit den neuen Daten (man beachte die unterschiedlichen Abzsissen!). Man sieht, dass sich nix Wesentliches veraendert hat.
Bei den Zitierungen gibt es nur zwei neue Seiten, die mehr als 1 Million Zitate haben. Insb. die zweite Seite davon, mit ueber 5 Millionen Zitaten, spielt gleich nochmal eine Rolle. Bei den Links hat sich die Anzahl der Seiten mit wenigen Links etwas vermindert. Keine dieser Aenderungen wuerde ich jetzt aber derart einschaetzen, dass qualitativ, oder auch quantitativ (innerhalb gegebener Grenzen), andere Schlussfolgerungen aus den Daten zu ziehen sind.
Danach hatte ich mir den kumulativen Anteil der Seiten und Zitate / Links angeschaut (als Diagramm kuriosweise zuerst bzgl. der Links und dann nachgeliefert bzgl. der Zitate). Hier der Vergleich der alten Kurven mit den neuen Kurven diesbezueglich (man beachte wieder die unterschiedlichen Abzsissen):
Wieder kann im Wesentlichen gesagt werden, dass sich nix geaendert hat. Wie auch, denn diese Kurven folgen ja aus den obigen Histogrammen.
Im Detail geschaut scheint bzgl. der Zitate die blaue Kurve fuer grosze Werte auf der Abzsisse etwas „abzusacken“. Das ist schnell geklaert und einzig und allein durch die eine, oben erwaehnte Seite zurueckzufuehren. Diese haeuft naemlich ueber 5 Millionen Zitate nur auf sich selber an und das macht dann den „Knick und Sprung“ ganz am Ende und „schiebt“ den Rest der Kurve nacht unten. Weil’s nur eine einzige Seite ist, hat das keine Auswirkungen auf die rote Kurve und nimmt man diese Seite raus, sind die blauen Kurven beinahe deckungsgleich.
Bzgl. der Links ist die leichte „Verschiebung nach unten“ bei der neuen roten Kurve durch die gerungfuegig geringere anzahl an Seiten mit wenigen Links zu erklaeren.
Das soll reichen fuer heute :) . Ich bin mir noch nicht sicher, ob ich mir die Relevanzbetrachtungen nochmal anschaue, denn diese folgen mittelbar ja auch nur aus obigen Histogrammen. Auszerdem hatte ich da „nur“ bunte 2D-Falschfarbendarstellungen bei denen ich genau „reinzoomen“ musste um Details zu besprechen. Oder anders: bei denen sieht man bei so kleinen Veraenderungen ohnehin keinen Unterschied (und „reingezoomt“ hatte ich nur bei Anomalien die vermutlich immer noch da sind und wenn nicht mir auch nix ueber das Grosze und Ganze verraten). Solche „bunten Karten“ kann ich auch nicht zum besseren Vergleich uebereinander legen. Vermutlich werd ich da also nicht nochmal drueber schauen mit den neuen Daten … allerdings dachte ich zunaechst genau so bzgl. der Simulation von Namen … mhm mhm mhm.
Leave a Reply