Beim letzten Mal stoppte ich die Zusammenfassung genau vor dem Beginn zu den Untersuchungen bzgl. der sog. Selbstzitierungen (pro Linklevel) … also auf welchem Linklevel die Ursprungsseite einer Linknetzwerkanalyse (von anderen Seiten) wie oft zitiert wird. Bevor ich damit anfing dachte ich nicht, dass da all zu viel zu holen sei und Kapitel XXVIII und XXIX schienen das zunaechst zu bestaetigen.
Doch dann schaute ich mir in Kapitel XXX ein relativ kleines Detail genauer an; buchstaeblich nur ein einziger Balken in einem Balkendiagramm voll mit Balken, der etwas høher war als erwartet … und das war der Anfang eines (intellektuell) wunderbaren Abstechers, denn dadurch wurde ich auf ein komplett neues, bisher vøllig verstecktes Phaenomen im Linknetzwerk der Wikipedia aufmarksam: Wissensarchipelen.
Ich wollte die Diskrepanz in der Høhe des oben erwaehnten Balkens erklaeren kønnen und den Mechanismus der dazu fuehrt aufklaeren. Ich begann die Entdeckungsreise mit der einfachsten Idee, dass es Seiten gibt die nicht vom Rest der Wikipediaseiten zitiert werden. Diese allererste „Insel“ des „Archipels“ erfuhr unmittelbar eine Erweiterung um solche Seiten, die zwar auch nicht von „auszen“ zitiert werden, aber sehr wohl von besagter ersten Insel.
Mit diesem einfachen Mechanismus konnte ich ueber 95 % der Diskrepanz des Balkens erklaeren. Ich ueberlegte ernsthaft, ob ich mich dem Rest widmen sollte, denn das faellt doch alles in den 10-Prozent-Fehler. Aber da packte mich die Entdeckerlust noch mehr und ich erweiterte das einfach Archipelmodell erheblich.
Ich bin bis heute stolz auf die Ideen und auch (wieder) die Diagramme, denn noch einmal sind diese eine so schøne Illustration, wie wissenschaftlicher Erkentnissgewinn zustande kommt: eine kleinen Diskrepanz weckt die Kuriositaet der Forscherin welche sich das mal genau anschaut um dann zunaechst einfache Ideen „daran“ auszuprobieren, welche im Verlauf der Untersuchungen weiterentwickelt werden. Und am Ende ist die Diskrepanz erklaert, aber das eigentlich coole ist nicht die Erklaerung an sich, sondern dass man etwas vøllig Neues und Unerwartetes entdeckt hat, von dessen Existenz man vorher nichts ahnte.
Ich baute dann noch ein schøn rekursives Programm, mit dem ich alle Inseln des Archipels finden konnte und schwuppdiwupp … war nicht nur die Gueltigkeit des erheblich erweiterten Archipelmodells nachgewiesen, sondern (nach ein paar weiteren, einfacheren Ueberlegungen) die Diskrepanz zu 99.996788 % erklaert … Hurrah … Wait! What? … 15 Seiten die zur Diskrepanz beitragen entzogen sich den Erklaerungen und ich benøtigte einen Spaziergang um eine Idee zu bekommen was das fuer Seiten sein kønnten … die Idee stellte sich zum Glueck als richtig heraus … Spaziergaenge sind voll fetzig und regen mein Gehirn oft an :) .
Das war’s dann mit der Aufklaerung des Diskrepanz in der Høhe eines Balkens und das einzige Mal, bei dem ich mich nicht nur mit einer Erklaerung zufrieden gab die gut genug ist, sonder alles bis auf die letzte Zahl genau untersuchte.
Aber das das war’s noch nicht mit den Archipeln. Denn nach deren Entdeckung habe ich natuerlich deren Eigenschaften untersucht und mir eine zugehørige Kuriositaet angeschaut.
Dies alles zaehlt definitiv zu den schønsten Dingen die mir im Laufe des Kevin Bacon Projektes passiert sind … und der Besprechung dieser Erfahrung widmete ich einen eigenen Weihnachtsbeitrag :) .
Zu den Selbstreferenzen schloss ich in Kapitel XXXII ein paar lose Enden ab und dachte das war’s dann … um genau dort festzustellen, dass die einzelnen, linklevelabhaengigen Verteilungen der Selbstreferenzen sich vøllig anders verhalten als bei den totalen (oder neuen) Links.
Das fuehrte mich auf eine weitere laaange Abschweifung, denn ich hatte deswegen die Idee, dass man dieses Verhalten ja mglw. mittels relativ einfacher Formeln und nur ein paar wenigen Parametern simulieren kønnte.
Deswegen untersuchte ich zunaechst ab Kapitel XXXIII die Eigenschaften dieser Verteilungen um besagte Parameter naeher zu bestimmen. Dabei entdeckte ich, dass das Sprichwort „Vom Hundertsten ins Tausendste kommen“ eine empirische Grundlage hat und sogar quantifizierbar ist … und erstellte das vllt. schønste Diagramm der ganzen Maxiserie.
In Kapitel XXXVI Teil 3 und Teil 4 fand dann endlich die Simulation statt, die eigtl. recht ordentlich ist. Gruende fuer Abweichungen von den Messungen diskutierte ich in den Kapiteln XXXVII und XXXVIII.
Das war zwar alles ganz nett und ich habe viel Zeit damit verbracht, aber ich bin selber nicht so richtig zufrieden mit dem Ganzen. Das ist aber nicht falsch zu verstehen. Ich bin zufrieden, dass das klappte und die Ergebnisse ganz gut sind. Aber es stellte sich kein so supertolles Entdeckergefuehl ein wie bei den Archipelen zuvor. Aber so ist das ja oft, man kann nicht immer nur und jederzeit das Allerfetzigste machen.
Die Selbstreferenzen schloss ich in Kapitel XXXIX mit dem Blick auf (mehr) Kuriositaten ab um in Kapitel XL nochmal kurz auf die totalen (und neuen) Links zurueck zu kommen. Letzteres geschah, weil ich im Zuge der vorherigen Betrachtungen eine Untersuchung der Daten durchfuehrte, die mir vorher nicht in den Sinn kam. Das ist ja nur natuerlich und sollte noch øfter passieren. Dabei kam aber nicht viel raus … bis auf Kapitel XLI, in dem ich wieder einmal (die Ursache von) Fehler(n) genauer betrachtete.
So … nun ist auch dieser Beitrag schon wieder so lang … ich dachte, dass ich die Zusammenfassung in nur einem (wenn auch etwas laengeren) Beitrag packen kønnte … aber das ist fuer Herr Bacon ja nix Neues, dass es mal (deutlich) laenger als erwartet dauert und laenger wird. Deswegen geht’s beim naechsten Mal mit den Untersuchungen zur letzten Grøsze, der sog. Linkfrequenz weiter. Und vielleicht bin ich dann ja auch beim naechsten Mal mit der Zusammenfassung fertig.
Leave a Reply