Beim letzten Mal bemerkte ich, dass es so aussieht, als ob die individuellen Verteilungen der totalen bzw. der neuen Links mglw. um einen konstanten Faktor „springen“.
Deswegen schaute ich mir mal das Verhaeltnis aus der Anzahl der totalen und der neuen Links an:
An diesem Bild ueberraschte mich zunaechst, dass meine Vermutung sogar richtig war. Desweiteren ueberraschte mich wie grosz das Verhaeltnis ist. Auf den ersten Blick haette ich aus den erwaehnten Spruengen so Pi-mal-Daumen einen Faktor zehn vermutet. Bei genauerem Hinschauen wuerde ich aber sagen zwischen ca. 10 und 100. Und das ist ja auch das was man hier sieht.
Von Anfang und Ende abgesehen, wuerde ich den Grafen prinzipiell in drei Abschnitte einteilen. Die roten horizontalen Linien stellen den Mittelwert dieser Abschnitte dar.
Als Erklaerung fuer den ersten Abschnitt wuerden wieder vielzitierte Seiten mit vielen Links herhalten. Weil diese oft zitiert werden, tragen sie sehr stark zur Anzahl der totalen Links bei. Aber aus dem selben Grund tragen sie nicht zu den neuen Links bei, denn oft geschieht deren Zitierung schon auf den allerersten Linkleveln.
Der zweite Abschnitt kønnte durch „mittelhaeufig“ zitierte Seiten zustande kommen, wird aber immer noch durch die vielzitierten Seiten beeinflusst. Diese mittelhaeufig zitierten Seiten haben weniger totale Links und das Verhaeltniss geht runter. Dafuer gibt es davon mehr und der Bereich zieht sich auf der Abszisse laenger hin. Prinzipiell kønnte „mittelhaeufig“ durch grosze, weitschweifende, sich ueber viele Seiten verteilende, aber nicht super wichtige Themengebiete zustande kommen. Ein Beispiel waere Skisport oder Wissenschaft.
Im dritten Abschnitt dann haben wir mehr oder weniger obskure Seiten die selten zitiert werden und mit wenigen totalen Links. Die Ursachen der ersten beiden Abschnitte wirken natuerlich auch hier noch mit rein.
Andererseits sind die Unterschiede in den durchschnittlichen Verhaeltnissen dieser Abschnitte jetzt auch nicht sooooo grosz; nicht mal ein Faktor zwei. Auszerdem habe ich mit dem Ausdenken zu den Ursachen von visuellen Abschnitten schonmal gehørig daneben gegriffen. Deswegen bilde ich mal nur den Durchschnitt ueber alle drei dieser Abschnitte und erhalte einen (durchschnittlichen) konstanten Faktor von ca. 44.
Das bedeutet, dass ich, nach dem „explosiven“ Anfang, im Durchschnitt schon 44 Links gesehen habe, bevor ich auf einen treffe, der neu ist. Auch wenn mir das jetzt ziemlich viel vorkommt, so wundert es mich auch nicht so richtig. Denn die vielzitierte Seiten mit vielen Links dominieren das Linknetzwerk gerade ganz zu Anfang komplett … aber das wurde ja bereits mehrfach diskutiert.
Wieauchimmer, ich habe mal die Anzahl der neuen Links per Linklevel mit diesem konstanten Durchschnittsfaktor multipliziert. Das ist die rote Kurve in dieser Abbildung:
Der visuelle Vergleich mit der schwarzen Kurve, welche die schon so oft gezeigte Summe der totalen Links per Linklevel darstellt, ist erstaunlich gut.
Fuer die blaue Kurve (rechte Ordinate) sah ich die Summe der totalen Links als „wahren“ Wert an. Dann bildete ich die Differenz der beiden zuerst erwaehnten Kurven und setzte diese Differenz mit dem „wahren“ Wert ins Verhaeltnis. Dieser Wert ist dann die prozentuale Abweichung der Abschaetzung vom wahren Wert.
Wie man sieht, ist die Abschaetzung gar nicht mal so uebel und die Abweichung liegt ueber weite Bereiche um 20 %. Nur 20 % Abweichung ist bei Daten aus der echten Welt, sehr groben Vereinfachungen und aeuszerst simplen Annahmen durchaus gut. Zu beachten ist auch, dass selbst eine Abweichung von 100 % nur einem Faktor (der nichts mit dem konstanten Faktor zu tun hat) von zwei entspricht.
Ganz am Anfang ist die Abschaetzung natuerlich deutlich schlechter. Das liegt daran, dass dort im Wesentlichen die Anzahl der neuen Links der Anzahl der totalen Links entspricht. Dies mit einem konstanten Faktor zu multiplizieren fuehrt natuerlich zu Quark.
Abschlieszend sei zu sagen, dass es mitnichten haette so sein muessen, dass die eine Grøsze aus der anderen mithilfe eines konstanten Faktors berechnet werden kann. Genausogut haette der Faktor auch stetig (im Sinne von Differenzierbarkeit) abnehmen kønnen. Eine unstetige Abnahme wird so’n bisschen durch die erwaehnten drei Abschnitten suggeriert. Aber ich bin, wie gesagt, diesmal lieber etwas vorsichtiger mich da festzulegen.
Spaeter komme ich unter Umstaenden aber vielleicht doch nochmal auf die drei Abschnitte zurueck. Die hier im Detail erklaerte Messgrøsze kønnte mir mglw. erlauben solche Gruppen zu erkennen. Wenn dem aber nicht so ist, werde ich das still und schweigend einfach nicht mehr erwaehnen :P
Damit bin ich mit den neuen Links durch. Beim naechsten Mal geht’s dann mit den Selbstzitierungen los.
Leave a Reply