Beim letzen Mal fing ich an mir die Linkfrequenz anzuschauen. Bei der Position des Maximums der einzeilnen Verteilungen der Linkfrequenzen gibt es einen langen Schwanz. Dieser kommt durch Seiten zustande, die im Linknetzwerk aller anderen Seiten konsistent spaet zitiert werden. In der Tabelle des letzten Beitrags fuehrte ich alle Seiten auf, deren Maximum bei LL30 oder darueber liegt und dort taucht immer das uns bekannte „São Paulo FC“-Artefakt auf. Aber das sind nicht die einzigen Seiten die erst spaet im Linknetzwerk zitiert werden und entsprechend wunderte ich mich:
[w]as ist denn mit […] [den anderen Seiten] und wieso stehen die da, waren aber nicht zu sehen als das „São Paulo FC“-Artefakt untersucht wurde?
Bevor ich darauf zurueck komme muss ich zunaechst zeigen, wie denn die Verteilung der Linkfrequenz einiger Seiten aus denen das Artefakt besteht aussehen:
Anstatt Balken benutze ich diesmal Punkte und die Linien zwischen diesen dienen (wie so oft) nur um etwas mehr visuelle Ordnung fuer die Augen zu schaffen.
Und Aha! Hier passieren mehrere Sachen die aber alle leicht zu verstehen sind. Ich bespreche die 1931 São Paulo FC season (schwarze Kurve) etwas ausfuehrlicher.
Auf LL0 wird 1931 São Paulo FC season zwei Mal zitiert. Wir nahmen bei der Untersuchung dieses Artefakts an, dass die entsprechenden Seiten (im Wesentlichen) nur von den direkt dahinter bzw. davor liegenden „Jahren“ zitiert werden. Hier wird diese direkt Annahme bestaetigt, denn wuerde noch eine andere Seite 1931 São Paulo FC season zitieren, so wuerde Letztere auf LL0 mehr als ein Zitat haben.
Um mir im Folgenden das Schreiben vieler Worte zu ersparen, fuehre ich eine Kurzform fuer das eben Geschriebene ein: „1932 zitiert 1931“ bzw. „1930 zitiert 1931“. In der Kurzform steht die Ursprungsseite zuerst, gefolgt von der Seite die zitiert wird. Ein weiteres „zitiert“ entspricht dann dem naechsten Glied in der Linkkette und das allererste „zitiert“ in dieser Kette ist immer mit LL0 gleichzusetzen.
Auf LL1 gibt es insgesamt zwei Zitate und eins kommt zustande weil „1933 zitiert 1932 zitiert 1931“.
Das andere Zitat folgt aus einer Selbstreferenz. Hier haben wir aber zwei Ketten die nur ein Mal gezaehlt werden, denn denn diese haben die selbe Ursprungsseite: „1931 zitiert 1932 zitiert 1931“ und „1931 zitiert 1930 zitiert 1931“. Das sieht ein bisschen aus wie eine Reflexion. Als ob die Seite an der ich interessiert bin (im Beispiel 1931) zwischen zwei halbdurchlaessigen Spiegeln steht und Zitate die von hier weg gehen eben reflektiert werden.
Nun wird’s spannend, denn auf LL2 ist der Wert der Linkfrequenz 3. Dank der Kurznotation ist das schnell aufgeklaert.
„1934 zitiert 1933 zitiert 1932 zitiert 1931“ (nicht vergessen, das erste „zitiert“ entspricht LL0), „1932 zitiert 1931 zitiert 1930 zitiert 1931“ und „1930 zitiert 1931 zitiert 1932 zitiert 1931“. Die letzten beiden sind wieder „Reflexionen“
Als Letztes haben wir ab LL3 wieder nur zwei Zitate: „1935 zitiert 1934 zitiert 1933 zitiert 1932 zitiert 1931“ und „1933 zitiert 1932 zitiert 1931 zitiert 1930 zitiert 1931“.
Warum gibt es keinen „1931 zitiert 1932 zitiert 1933 zitiert 1932 zitiert 1931“-„Zustand“. Nun ja, bis „1931 zitiert 1932 zitiert 1933 zitiert 1932“ existiert dieser schon, aber weil in der Kette 1932 bereits besucht wurde, wird dem Link nicht wieder gefolgt. Somit kann der Schritt der zurueck zu 1931 zeigen wuerde nicht ausgefuehrt werden.
Und so geht es in der schwarzen Kurve weiter, bis dann ab LL62 auch andere Seiten der Wikipedia unsere 1931 São Paulo FC season erreichen (in ihrem jeweils eigenen Linknetzwerk). Dies fuhert zu einem raschen Anstieg der Linkfrequenz bzw. dann wieder Abstieg, wenn die letzten Nachzuegler auch endlich dort ankommen.
Dass die Spitze zweigeteilt ist, ist wieder auf die „Reflexion“ zurueck zu fuehren. Das zweite Maximum ist etwas kleiner als das Erstse. Auf den Grund dafuer gehe ich beim naechsten Mal genauer ein.
Aber ACHTUNG! Hierbei ist zu beachten, dass diese Abfolge aus Anstieg / Maximum / Abstieg sich ueber mehrere Linklevel hinzieht. 11 an der Zahl wobei nur 9 oder gar nur 7 relevant sind.
Ich sage ACHTUNG deswegen, weil das fuer die Løsung des Mysteriums aus dem letzten Beitrag (warum die Linkfrequenz und die Anzahl der totalen Links (fast) gleich sind) wichtig wird.
OK, das war die 1931 São Paulo FC season. Die 1941 São Paulo FC season und 1951 São Paulo FC season sind relativ schnell abgehandelt. Der Anstieg zum Anfang auf einen Wert von 4 ergibt sich daraus, dass diese Seiten (zunaechst!) nicht vom Ende der Kette limitiert sind; hier fuehren also Linkketten sowohl sowohl vorwarts als auch rueckwaerts hin, was zusammen mit den Reflexionen (auch von beiden Seiten) zu einem Wert von 4 fuehrt.
Der Peak ist genau der Selbe (!) wie bei der 1931 São Paulo FC season; nur eben nach links verschoben. Letzteres weil spaetere Jahre im Linknetzwerk anderer Seiten frueher erreicht werden. Hier sehen wir also (wieder) eine schøne direkte Bestaetigung bereits vor langer Zeit indirekt beobachteter Phaenomene. … cool wa!
Ich musste das so ausfuehrlich machen um alles in den Grafen zu erklaeren, aber eben auch weil ich immer ein Auge auf besagtes Mysterium habe.
Aber nun zurueck zum obigen Zitat. Dafuer muss ich erstmal die entsprechenden Grafen einiger dieser Seiten zeigen, …
… aber das muss laengst nicht so detailliert besprochen werden denn des Raetsels Løsung ist einfach.
Es sei zunaechst daran erinnert, dass bei der ersten detaillierten Untersuchung des „São Paulo FC“-Artefakts die Anzahl der totalen Links per Linklevel betrachtet wurde.
Desweiteren wissen wir aus der Tabelle vom letzten Mal, dass es noch andere Seite als die Saisons des São Paulo FC gibt, deren Maxima der Linkfrequenzverteilungen erst auf (sehr) spaeten Linkleveln liegen. Dies unterliegt aber einer wichtigen Einschraenkung.
Ja, diese Seiten werden sehr oft zitiert zum Ende der Linknetzwerke anderer Seiten. Das liegt daran, dass solche Seiten dem brasilianischen Fuszball zuzuordnen sind und sicherlich auf den Seiten einer (oder mehrer) Saisons des São Paulo FC zitiert werden. Weil Letztere erst zum Ende der Linkkette der allermeisten Wikipediaseiten auftreten und dort aber dann mit „voller Wucht“, fuehrt dies auch zu vielen Zitaten bei den nicht-São-Paulo-FC-Seiten die von denen zitiert werden.
Aber gleichzeitig werden die selben Seiten bereits frueh in den Linknetzwerken anderer Seiten zitiert. Und das beinahe (aber nicht ganz!) maximal oft, was aus der sehr schnellen Verzweigung des Linknetzwerkes folgt. Das ist dann der Nachteil, wenn man die Informationsmenge reduziert (in diesem Fall auf nur das Maximum) um derer habhaft zu werden; da muss man alles wieder auseinanderfriemeln, wenn irgendwas komisch erscheint.
Wieauchimmer, durch die fruehe Zitierung wird denen dann aber auf spaeteren Linkleven nicht mehr gefolgt (damit es nicht zu Schleifen kommt). Damit kønnen diese Seiten nicht mehr zu den totalen Links auf spaeteren Linkleveln beitragen und deswegen habe ich die bei der ersten ersten Untersuchung des „São Paulo FC“-Artefakts nicht gesehen.
Bei diesem Phaenomen handelt es sich also um ein Meta-Artefakt, denn es kommt nur dadurch zustande, weil es ueberhaupt erst das „São Paulo FC“-Artefakt gibt.
So, nun ist der Artikel schon so lang, weswegen ich heute nicht weiter darauf eingehen werde, wie das alles mit dem Mysterium des letzten Beitrags zusammenhaengt. Aber das ist ja auch was Schønes, denn da kønnt ihr, meine lieben Leserinnen und Leser euch da laenger drauf freuen.
Leave a Reply