Die Untersuchung der Position des Maximums hat mich auf die Idee gebracht, dass ich ja auch mal schauen kann, bei welchem Linklevel ein Linknetzwerk endet. Streng genommen muesste ich mir dafuer die Anzahl der neuen, also noch nicht besuchten, Links anschauen. Soweit bin ich aber noch nicht. Wenn ich mit den totalen Links pro Linklevel arbeite, denn hat das Linknetzwerk einer Seite pløtzlich ueberhaupt keine Links mehr. Das ist dann ganz genau der „Stop-Punkt“ wenn die letzte(n) besuchte(n) Seite(n) tatsaechlich ueberhaupt keine Links haben. Beim letzten Mal gab ich dafuer ein paar Beispiele.
In den allermeisten Faellen wird der Stop-Punkt aber ein Linklevel vorher erreicht, naemlich dann wenn noch Links vorhanden sind, aber diese bereits alle besucht wurden. In diesem Fall geht’s nicht weiter. Das bedeutet, dass ich beim naechsten Schritt keine Seite mehr besuche und keine Seite ist sozusagen die „Nullmenge“. Und die „Nullmenge“ enthaelt natuerlich keine Links, weil sie keine Elemente enthaelt die Links enthalten kønnen.
Meine Erwartung an die Verteilung ist die Folgende: Zunaechst sollten wir ca. 5,500 Seiten sehen, die bereits bei LL0 „aussteigen“. Diese ruehren natuerlich aus dem Wissen vom vorigen Mal.
Ungefaehr hundert Seiten sollten bei LL1 oder LL2 (und in ganz wenigen Faellen LL3) aussteigen. Das wissen wir auch vom letzten Mal, denn das sind die Seiten die nur auf sich selber im Kreis zeigen. In diesen Faellen kønnen es eigentlich tatsaechlich nur solche Seiten sein, die beim letzten mal das Maximum bei sehr kleinen Linkleveln hatten. Der Grund ist, dass wenn eine Seite viele Links auf LL0 oder LL1 hat, mit hoher Wahrscheinlichkeit einer zu einer Kaskade fuehrt und somit kein Aussieg bei kleinem Linklevel møglich ist.
Es ist møglich, dass ein paar wenige Seiten erst bei LL4 oder LL5 aussteigen. Das waeren dann sehr grosze Ketten von im-Kreis-auf-sich-selber-zeigen. Aber die Chance dafuer ist sehr klein.
Dann sollte ’ne Weile nix passieren. Denn sobald eine Kaskade beginnt, steht im Wesentlichen das komplette Weltwissen zur Verfuegung. Vom Anfang der Betrachtungen der totalen Links wissen wir, dass es bei ca. LL70 eine steile „Abbruchkante“ in der Verteilung gibt. Das passiert natuerlich dann, wenn die allermeisten Seiten ans Ende ihrer Linknetzwerke kommen. Wiederum vom letzten Mal wissen wir, dass mindestens eine Seite bis LL73 kommt; aber sehr viel mehr sollten das nicht sein.
Ich ueberlegte all dies, bevor ich mich an die eigentliche Auswertung machte. Ich wollte naemlich sehen, ob ich, mit meinem bisherigen Wissen ueber die Vernetzung des Weltwissens, die Verteilung dieser „Groesze“ hervorsagen kann. All das was ich hier mache ist natuerlich wenig formal, aber eine der Eigenschaften die ich an der Wissenschift (und Forschung) so toll finde ist, dass wissenschaftliche Theorien nicht nur Beobachtetes beschreiben, sondern ebenso noch nicht Beobachtetes vorhersagen kønnen.
Genug der Vorrede; hier ist die Verteilung bzgl. wieviele Seiten keine totalen Links mehr haben pro Linklevel.
Aha! Da lag ich doch ziemlich gut mit meinen Vorhersagen. 5,570 Seiten steigen bei LL0 aus und 113 zwischen LL1 und LL3. Dann kommt nix und ab LL47, geht’s dann wieder los. Zunaechst zøgerlich, dann aber ganz gewaltig zwischen LL67 und LL71. Interessant ist, dass beinahe 77 % aller Seiten auf LL69 enden! Bzw. ein kleines bisschen mehr als 99 % aller Seiten enden zwischen LL68 und LL70! Wieder einmal sind hier Hinweise, dass zum Ende der Linkkette ein Prozess am Wirken ist, der ueber fast alle Seiten zum selben (!) Resultat fuehrt. Heute spekuliere ich da zum ersten Mal drueber, aber die genaue Untersuchung verschiebe ich (mal wieder) auf spaeter.
Eine Erklaerung fuer dieses Phaenomen kønnten ein paar Seiten sein, die insgesamt eine lange Kette von Links zueinander bilden, OHNE dass das eine Zitierung im Kreis wird. Aber der Zugang zu dieser Kette ist so seltsam, dass er immer erst nach vielen (mglw. 50 oder so) Schritten erreicht wird, egal von wo man in der Wikipedia beginnt.
So etwas kønnte man durchaus konstruieren. Nur dass der Zugang in (fast) allen Faellen immer erst so spaet geschieht erfordert sorgsame Planung.
Ein Hinweis kønnte der kleine Peak bei LL47/48, sein fortgefuehrt durch die Kette von einzelnen Seiten bis LL64/65. Dabei handelt es sich um 66 Seiten insgesamt (48 Seiten) im Peak. Das ist jetzt Spekulation ohne irgendwelchen Hinweise, aber diese kønnten die Ausstiegspunkte der Glieder der oben erwaehnten, sorgfaeltig geplanten Kette sein. Denn wenn diese die Titel bilden, deren Linknetzwerk konkret untersucht wird, dann wird die Kette ja schon ganz am Anfang abgeschritten und ist somit zum Ende nicht mehr vorhanden. Die (normal einsetzende) Kaskade an Links sorgt dann dafuer, dass auch keine anderen Links zum Ende mehr uebrig sind.
Ich schrieb dies … und dann schaute ich mir die Seiten die den kleinen Peak (und den „Schwanz“) bilden mal an … ja, ausnahmsweise hatte ich nicht schon vorher alles fertig … Heraus kam dabei, dass jede einzelne dieser Seiten vom Typ XXXX São Paulo FC season war, wobei das XXXX fuer ein Jahr steht. Beispielsweise 1944 São Paulo FC season oder 1980 São Paulo FC season oder 1994 São Paulo FC season usw. usf.
Ich kann mir durchaus vorstellen, dass (fast) alle Seiten dies am Ende ihrer Linkkette haben. Diese Seiten haben mehrere Links, aber in den Beispielen die ich mir anschaute, sehen die alle so aus, als ob die vorher schonmal besucht wurden (bspw. die Namen von Fuszballcubs). Aber in der Infobox ist dann der Link zur Saison des naechsten Jahres. In diesem Fall fuehrt nur dieser Link (und immer nur dieser eine Link) weiter und das in einer genau „definierten“ Reihenfolge und NICHT im Kreis (wie oben spekuliert). Das wuerde auch erklaeren, warum die Werte der letzten zwanzig Linklevel bei den Beispielen vom letzten Mal absolut identisch waren.
Es verbleibt die Frage nach dem Einstiegspunkt und warum dieser fuer (fast) alle Seiten so spaet auftaucht und immer der Selbe ist. Wobei es sich dabei nicht unbedingt um nur einen einzigen Zugang zu dieser Kette handeln muss, aber sehr viele kønnen es auch nicht sein.
Wieauchimmer, das bekomme ich an dieser Stelle nicht geklaert und beende den Beitrag fuer heute.
Ach ja … ACHTUNG: Sollte die obige Vermutung stimmen, so ist das auch ein Artefakt, denn die Infobox haette ignoriert werden sollen (was aber nicht der Fall war, weil diese anders als normal im Quellcode der entsprechenden Seiten eingebunden ist).
Leave a Reply