Beim vorletzten Mal stellte ich die Entwicklung der zitierten Seiten vor. Diese Grøsze kann man nicht direkt als Ordnungsparameter benutzen aber beim letzten Mal zeigte ich, dass der daraus gewinnbare „Volumenanteil“ der Kettenseiten an allen Zitaten sehr wohl als ein solcher benutzt werden kann.
Heute nun zeige ich, dass das viel einfacher geht. Ich wollte aber den „Volumenanteil“ zuerst abgehandelt haben, denn ich denke, dass dieser intuitiver als Ordnungsparameter zu verstehen ist.
Wieauchimmer, viel leichter aus den Messungen „herauszuziehen“ ist die Entwicklung der UNzitierten Seiten und weil die Daten nicht so zappeln sieht der entsprechende Graf auch viel besser aus als der Graf vom „Volumenanteil“ vom letzten Mal:
Vor der Normierung der Daten wurde von diesen der Wert aller Seiten die niemals zitiert werden abgezogen; Letztere entsprechen nur einem „Offset“ und ich wollte das Nulllevel auch auf Null haben.
Aber moment Mal! Die Anzahl der UNzitierten Seiten ist doch nur die Anzahl aller Seiten minus die zitierten Seiten … also das „umgedrehte“ Ergebnis vom vorletzten Mal. Wieso war Letzteres kein Ordnungsparameter, das „Umgedrehte“ aber doch?
Um diese Frage zu beantworten, musste ich eine ganze Weile gruebeln, aber im Grunde ist es gar nicht so kontraintuitiv. In kurz: in einem Gas herrscht UNordnung, denn dort wuseln alle Teilchen umher und kollidieren die ganze Zeit mit allen anderen Teilchen. Wenn das Gas zur Fluessigkeit kondensiert ist, herrscht Ordnung, denn die selben Teilchen wuseln nicht mehr so dolle umher und kollidieren entsprechend nicht mehr mit allen anderen Teilchen.
Fuer das System des Wikipedialinknetzwerkes habe ich < Kollision > mit < wird zitiert > gleichgesetzt. Die Anzahl der UNzitierten Seiten drueckt dann aus, wieviele Seiten aus dem „Gewusel“ heraus genommen wurden und somit auch nicht mehr zur Unordnung beitragen kønnen. Entsprechend ist die Anzahl der UNzitierten Seiten ein direktes Masz fuer die Ordnung … … … und das geht sogar ganz von allein in die richtig Richtung (von wenig zu viel).
Nun war es aber so, dass bei der Entwicklung der zitierten Seiten …
[…] noch ziemlich viel „nach hinten raus“ passiert […] [,]
… was man in der logarithmischen Darstellung sah. Das war ein wichtiger Punkt bzgl. der Ungeeignetheit der „zitierten Seiten“ als Ordnungsparaemter. Wieso scheint sich das nicht auf die „umgedrehten“ Daten zu uebertragen (siehe die rote Kurve im Diagramm)? Nun ja, das Wørtchen „scheint“ ist wichtig, denn natuerlich uebertraegt sich das auch auf die „umgedrehten“ Daten. Aber die relative Aenderung dreht sich AUCH um und deswegen spielt das keine Rolle mehr.
Eine kurze Erklaerung fuer jeweils LL65 zu LL37. Bei den zitierten Seiten betraegt der jeweilige Wert 92 bzw. 4572. Das ist ein absoluter Unterschied von 4480 (zitierten) Seiten und ein relativer Unterschied von fast 5000 (!) Prozent … also dreieinhalb Grøszenordnungen! Bei den UNzitierten Seiten betragen die Werte 5,798,220 Seiten und 5,793,740 Seiten, was AUCH einem absoluten (!) Unterscheid von 4480 Seiten entspricht. Das MUSS ja zwingend (!) so sein. ABER der der relative Unterschied betraegt gerade mal 0.077 Prozent … normiert kønnen diese Werte also mit einem guten Gewissen als Eins gesetzt werden.
Das fetzt wa! Und weil sich der „Volumenanteil“ der Kettenseiten an allen Zitaten aus dem „umgedrehten“ der obigen Kurve berechnet muss da auch das Gleiche bei rauskommen … … … nur wenn man die zwei Kurven miteinander vergleicht (linkes Diagramm) …
… dann sieht das so aus, als ob der Start (und eingeschraenkt auch das Ende) des Phasenuebergangs an sich um zwei Linklevel verschoben ist. Das muss diskutiert werden und da widme ich mich zunaechst dem „Ende“ des Phasenuebergangs.
Mit einer gestrichelten Linie legte ich beim letzten Mal den durchschnittlichen Plateauwert des „Volumenanteils“ (nach dem Phasenuebergang) fest. Dieser lag bei 0.002 und der „Volumenanteil“ passiert diesen Wert zwischen LL11 und LL12 wo es ungefaehr 1000 Familien gibt. Die ca. 1000 Familien muss ich mit der Breite der Antwortfunktion multiplizieren und dann noch mal mit den (fuer Kettenseiten) 50 durchschnittlichen Links (cf. die Diskussion diesbezueglich beim letzten Mal). Das ergibt 500k zitierte Links an dieser Stelle was ungefaehr 10 % aller Wikipediaseiten entspricht. Im Umkehrschluss bedeutet dies, dass die Kurve fuer die Anzahl der normierten Links zwischen LL11 und LL12 von unter 90 % auf ueber 90 % springen muss.
Im linken Diagramm legte ich gestrichelte Linien rein, mit deren Hilfe man (leichter) sieht, dass dies der Fall ist (der Wert von 0.002 beim letzten Mal entspricht in der der normierten Kurve einem Wert von ungefaehr 0.5).
Leider ist die Sache bzgl. des Starts des Phasenuebergangs nicht so einfach. Es scheint, dass der Anteil der UNzitierten Links ab LL8 ansteigt, waehrend das fuer den „Volumenanteil“ erst bei LL10 der Fall ist. Eine logarithmische Darstellung aendert daran auch nix.
Dazu sage ich frei heraus: auch mein geuebter Blick wurde getaeuscht, denn ich bin auf die Aenderung absoluter Grøszen hereingefallen. Anders gesagt: hier gilt eine Art Umkehrung dessen was ich oben schrieb bzgl. der relativen Aenderung und der Sachverhalt ist im rechten Diagramm gezeigt. Aber der Reihe nach denn was ich da gemacht habe ist etwas komplizierter.
Natuerlich bin ich letztlich an absoluten Aenderungen interessiert, aber diese werden durch relative Aenderungen von einem Linklevel zum naechsten „getrieben“. Deswegen habe ich fuer die Kurven im rechten Diagramm zunaechst die Differenz der entsprechenden Werte von einem Linklevel zum vorhergehenden Linklevel berechnet. Danach schaute ich, wie grosz diese Aenderung im Vergleich zum absoluten Wert des vorhergehenden Linklevels war. Wie gesagt, dass ist im Wesentlichen das Gleiche wie weiter oben erklaert (nur „umgedreht“).
Die relative Aenderung ist uebrigens sowas wie die zweite Ableitung. Ich schaue also wie sich die Aenderung aendert.
In der rechten Abbildung erkennt man, dass die „Wuselphase“ (mit vielen Kollisionen / Zitaten) bei kleinen Linkleveln sehr stabil ist und bis LL6 immer stabiler wird. Die Werte des „Volumenanteils“ bzw. der UNzitierten Links aendern sich weniger und weniger im Vergleich zum vorherigen Linklevel. Deswegen ist das in der linken Abbildung eine gerade Linie. Bei LL7 nimmt die relative Aenderung fuer beide Kurven leicht zu. Dadurch dass es vorher einen eindeutigen Trend in beiden Grøszen gibt, kønnte man argumentieren, dass der Phasenuebergang hier los geht. Ich bin mit dieser Aussage aber eher vorsichtig, denn der „Sprung“ entspricht nur einem Faktor vier zum LL6 und das liegt definitiv innerhalb der Schwankungsbreite. Dann auf LL8 springen BEIDE Kurven pløtzlich um einen Faktor von ueber 100 nach oben. Hier wuerde ich also definitiv sagen, dass der Phasenuebergang los geht und man sieht, dass dasfuer beide Grøszen zum selben Linklevel geschieht. Das ist gut, denn das muss ja (wie oben gesagt) so sein, weil der „Volumenanteil“ aus der „Umkehrung“ der UNzitierten Links berechnet wird.
Aber warum sieht man das nicht im linken Diagramm?
Auch das ist einfach erklaert, am Beispiel der Aenderung der Werte von LL7 zu LL8. Der Wert der relativen Aenderung des „Volumenanteils“ betraegt ca. 0.02 % und des Anteils der UNzitierten Links 0.69 %. Ersteres bedeutet, dass sich erst die fuenfte Nachkommastelle des absoluten Wertes des „Volumenanteils“ aendert, waehrend bei den UNzitierten Links bereits die dritte Nachkommastelle (des absoluten Wertes) betroffen ist. Wenn der erste Wert um einen Faktor 100 zu nimmt, dann ist das zwar eine grosze relative Aenderung auf 2 % aber letztlich ist auch dann nur die dritte Nachkommastelle betroffen und solch kleine Aenderungen sieht man eben nicht im linken Diagramm waehrend sich eine Aenderung um (ueber) 69 % deutlich bemerkbar macht.
Aber eigtl. gibt es hier gar kein Mysterium denn wie gesagt ist der „Volumenanteil“ abhaengig von den (UN)zitierten Links. Ich habe die Diskussion dennoch so lang und breit durchgefuehrt, weil es im linken Diagramm der zweiten Abbidung nicht so aussieht und solche Diskrepanzen muss man verstehen bevor man weitergehen kann.
Festzuhalten ist das Folgende: anstatt des „Volumenanteils“ der Kettenseiten an allen Zitaten kann die Anzahl der UNzitierten Links als Ordnungsparameter genutzt werden. Das ist prima, denn Letzteres ist eindeutiger und man muss dafuer nicht die Anzahl der Familien bestimmen.
SO … genug fuer heute … und auch genug bzgl. der Ordnungsparameter … und auch genug bzgl. der Phasen … ich kann hier also ohne viel Pomp abschlieszen, dass ich tatsaechlich einen Phasenuebergang im Wikipedialinknetzwerk gefunden habe … das ist schon ziemlich famos!
Nun muss ich mal schauen, was ich als naechstes machen kann … viel ist nicht mehr ueber … aber das dachte ich schon vor einem Jahr.
Leave a Reply