Selbstzitierungen … habe ich urspruenglich als Selbstreferenzen bezeichnet und dabei bleibe ich auch … konnte mir die Benutzung des anderen Wortes (mit gleicher Bedeutung) aber aufgrund der zeitlichen Naehe zu dieser Miniserie nicht verkneifen.
Wieauchimmer, mit Selbstreferenzen sind alle Links gemeint, die auf den Ursprung (also die Seite dessen Linknetzwerk ich gerade untersuche) (zurueck) verweisen. Das Konzept ist ja recht einfach zu verstehen.
Nach dieser kurzen Auffrischung bereits bekannter Dinge steige (wie immer) als Erstes ein mit der Summe aller Selbstreferenzen ueber alle Seiten pro Linklevel. Es ist die rote Kurve im linken Diagramm in diesem Bild:
Zum Vergleich habe ich wieder die gleiche Grøsze fuer die totalen Links in schwarz dazu gepackt. Wie zu erwarten ist die Anzahl der Links die zum Ursprung zurueck gehen massiv kleiner als die Anzahl aller Links auf einem Linklevel.
Interessant ist, dass das Maximum augenblicklich auf LL1 erreicht wird. Das das schnell hoch geht ist jetzt nicht soooo ueberraschend, denn die Anzahl der Selbstreferenzen ist natuerlich eine Funktion der Anzahl der totalen Links. Je mehr ich von Letzteren habe um so mehr Selbstreferenzen sollten (naiv angenommen) auftauchen. Aber dass diese Aussage dann nur noch bedingt gilt, die Anzahl der totalen Links nimmt weiter zu, die der Selbstreferenzen aber nicht, ist aber (wie gesagt) interessant.
Auszerdem ist das Maximum doppelt so breit im Vergleich mit allen anderen Verteilungen und zieht sich von LL1 bis LL4. Wieder: da die Anzahl der totalen Links weiter zu nimmt, wuerde das darauf hindeuten, dass die relative Anzahl der Selbstreferenzen ebenso schnell abnehmen muss. Ich komme darauf beim naechsten Mal zurueck.
Ansonsten ist die Form und der Verlauf der Kurve keine Ueberraschung und folgt im Wesentlichen der ausfuehrlich besprochenen Kurve der totalen Links.
Zu erwaehnen sei, dass die ca. 80k Selbstreferenzen auf LL0 Artefakte sind. Das sind Seiten, die Links zu anderen Abschnitten auf der selben Seite haben. Die haetten rausgeschmissen werden sollen und ich liesz mich darueber bereits an anderer Stelle aus.
Im linken Diagramm habe ich (wieder) die rote Kurve grob auf 6 Millionen Seiten normiert, denn ich wollte (wieder) mal wissen, wie vielen Selbstreferenzen ich im Durchschnitt pro Linklevel begegne.
An dieser normierten Kurve kann man ein paar Sachen deutlicher sehen, als an den absoluten Zahlen der vorher besprochenen Summe der Selbstreferenzen … normierte Daten haben das oft so an sich, dass man Sachen besser sieht; deswegen ist Normierung ja sehr oft auch das Erste was ich mit Daten mache.
Wieauchimmer, man sieht bei LL0, dass nur ca. 1 von 100 Seiten zu Sektionen auf der selben Seite (also sich selbst verweisen). Das ist zwar ein Artefakt, aber es ist gut zu wissen, wie grosz der Einfluss ist und dieses Resultat bestaetigt mein hier ausgedruecktes Bauchgefuehl, dass ich das „in den Fehler druecken“ kann.
Danach habe ich dann von LL1 bis LL4, im Durchschnitt 6 Selbstreferenzen. Da haette ich auf LL1 (deutlich) mehr erwartet; dies aus dem Grund, weil ich dachte, dass es mehr hin-und-wieder-zurueck-Linkschleifen gibt.
Bei „mittleren“ Linkleveln um ca. LL30 kann ich eine Selbstreferenz nur noch bei zwei von hunderttausend Seiten erwarten. Das scheint sinnvoll zu sein, denn so weit weg vom Ursprung, sollte eine (neue) Seite rein gar nix mehr mit dem Anfang zu tun haben. Weswegen sollte diese dann aber auf eben jenen verweisen?
Das Ende der Kurve ruehrt (immer noch) von dem ausfuehrlich besprochenen Artefakt her und Selbiges erklaert auch die Werte. Ich erinnere daran, dass besagtes Artefakt die Saisons eines suedamerikanischen Fuszballklubs sind. Desweiteren lande ich am Ende immer auf den selben Seiten; eben jene Saisons. Ich kann mir durchaus vorstellen, dass im Durchschnitt bei jeder dieser Saisonseiten fuer fuenf Urspruenge (andere Saisons, Fuszballspieler oder (andere) -klubs) eine Selbstreferenz erscheint. Das wuerde zu ca. 100 Seiten im Dunstkreis dieses Fuszballklubs fuehren … diese Abschaetzung scheint plausibel.
Nun ja, das soll genug sein. Wie bei den neuen Links werde ich auch diese Zahlen durch die (relevanten) Auswertungen schicken. Ich denke nicht, dass ich dabei was Neues entdecken werde.
Beim naechsten Mal normiere ich dann aber zunaechst diese Summe der Selbstrefernzen auf die Anzahl der totalen Links (pro Linklevel) … denn das habe ich ja oben bereits (indirekt) angekuendigt.
Leave a Reply