Beim letzten Mal kuendigte ich eine Untergruppenanalyse an … natuerlich mit Blick auf die Frage wieviele Schritte eine Seite im Durchschnitt machen muss um eine andere Seite zu erreichen.

Bzgl. der Untergruppen schrieb ich zunaechst was von „wichtigen“ und „unwichtigen“ Seiten, aber das sind natuerlich schwer (bzw. gar nicht) zu quantifizierende Begriffe.
Hier kommt mir nun zu Hilfe, dass ich mich bereits an einem aehnlich schwer zu quantifizierenden Begriff, naemlich der Relevanz, abgearbeitet habe. Dort nahm ich einen „Umweg“ ueber die Anzahl der Zitate die eine Seite erhielt um dieser dann einen „Relevanzwert“ zuzuordnen. Ungefaehr so mache ich das hier auch.

Wie in den letzten beiden Artikeln dargelegt muss die Frage aus zwei „Richtungen“ beantwortet werden; wie schnell erreicht eine Seite andere Seite und wie schnell erreichen andere Seiten (die) eine Seite.
Die Zugehørigkeit einer Seite zu einer bestimmten Gruppe laeszt sich dann durch die Anzahl der Links die die Seite hat bzw. die Zitate die diese (direkt) von anderen Seiten bekommt bestimmen. Anstatt Gruppen fuer „unwichtige“, „mittelwichtige“ und „wichtige“ Seiten habe ich nun also Gruppen fuer Seiten mit „wenigen“, „mittelvielen“ und „vielen“ Links bzw. Zitaten.

Wieviele Links bzw. Zitate das jeweils sein muessen scheint zunaechst immer noch subjektiv zu sein, aber ich versuche heute darzulegen inwieweit das „objektiviert“ werden kann (um mich dann beim naechsten Mal der eigtl. Untergruppenanalyse zu widmen).
Dazu nehme ich zwei vorhergehende Resultate zu Hilfe: die Kurven der kumulativen Links / Zitate per Seite in (logarithmischer) Abhaengigkeit von der Anzahl eben diesen Links / Zitate.

Zur Erinnerung: die Kurven berechnete ich aus den Histogrammen. Bei Letzteren war die Anzahl der Links pro Seite bzw. Zitate die eben diese erhielt auf der Abzsisse abgetragen, waehrend die Ordinate nur „zaehlte“, wie oft eine Seite mit so vielen Links / Zitaten in der Wikipedia vorkommt.
Fuer die „kumulativen Kurven“ wird die Abzisse beibehalten. Fuer jeden Wert auf der Abzsisse rechnete ich dann zunaechst das Produkt aus diesem Wert (also die Anzahl der Links / Zitate) mit dem entsprechenden „Zaehler“ des Histogramms aus. Das Produkt deswegen, weil bspw. 23 Seiten mit jeweils 10 Links zum kumulative-Links-Signal 230 „Punkte“ beitragen. Wie fuer kumulative Kurven ueblich, addierte ich schlussendlich die Werte von links (also null) beginnend auf und nach „Normierung“ auf 100 % hatte ich die entsprechenden Diagramme.

Von Interesse ist jetzt die S-Form der Kurven (bei logarithmischer Abzsisse). Es gibt drei deutlich unterscheidbare Bereiche.
– Einen Anfang, bei dem trotz der hohen Anzahl von Seiten das Signal nur sehr langsam ansteigt, weil diese nur sehr wenige Links / Zitate haben.
– Einen mittleren Bereich, in dem die Kurve linear ansteigt. Weil die Abzsisse logarithmisch ist, bedeutet das, dass „in Echt“ der Anstieg der Kurve URST KRASS ist, trotzdem die Anzahl der Seiten nach einem maechtigen Gesetz abnimmt … obige Multiplikation ist dafuer verantwortlich.
– Ein Ende, in dem trotz der hohen Anzahl an Links / Zitaten das Signal (wieder) nur sehr langsam waechst, weil es da nur sehr wenige Seiten gibt die so viele Links / Zitate haben. Also die umgekehrte Situation zum Anfang.

Diese drei Bereiche entsprechen den oberen Gruppen … wobei das Adjektiv „mittelviele“ unguenstig gewaehlt ist … aber mir faellt kein anderes ein. Das folgende Diagramm verdeutlicht die Situation und macht (hoffentlich) klar, dass man die obige (zunaechst) subjektiv erscheinende Situation „objektivieren“ kann (man beachte die unterschiedlichen Abzsissen):

Die Tabelle enthaelt die „Kennwerte“ fuer die drei gewaehlten Bereiche (wenige, mittelviele, viele) die dann in nochmal zwei Untergruppen (Anzahl Links oder Zitate) unterteilt sind:

Gruppe||AbkuerzungLinks von … bisumfasst so viele Seiten||AbkuerzungZitierungen von … bisumfasst so viele Seiten
"wenige"||U(ntergruppe) W(enige) L(inks) = UWL0 … 5778,958 (13.43 %)||U(ntergruppe) W(enige) Z(itate) = UWZ0 … 32,198,825 (37.92 %)
"mittelviele"||UML16 … 1002,515,857 (40.9 %)||UMZ20 … 1k1,149,358 (18.95 %)
"viele"||UVL1k … Schluss2,380 (0.04 %)||UVZ10k … Schluss703 (0.01 %)

Am Diagramm und den Zahlen in der Tabelle sieht man, dass die Gruppen NICHT identisch sind, ja deutliche Unterschiede aufweisen. Das fetzt, macht es das ganze naemlich interessant.
Natuerlicherweise befinden sich viele der Seiten die nach der Anzahl der Links eingruppiert wurden auch in der gleichen Gruppe bezueglich der Zitate. Der Grund liegt im „maechtigen Zusammenhang“ zwischen der Anzahl der Links und der Anzahl der Zitate.
Genauer gesagt sind 562,474 der Seiten in der Gruppe mit wenigen Links auch in der Gruppe mit wenigen Zitaten. In den Gruppen mit den „mittelvielen“ Links / Zitaten sind es 863,304 Seiten. Allerdings sind es nur 33 Seiten in der Gruppen mit den vielen Links / Zitaten. Letzteres erklaert sich daraus, dass in diesem Bereich der oben erwaehnte „maechtige Zusammenhang“ fuer viele (die meisten?) der sich dort befindenden Seiten nicht mehr gilt.

Das Verhalten dieser sechs Gruppen wird beim naechsten Mal jeweils paarweise analysiert. Die Statistik fuer die ersten beiden sollte gut genug sein, sodass ich dort trotz der Unterschiede nur geringe Diskrepanzen erwarte, was die „Richtung“ der Beantwortung der Frage angeht.
Augrund des geringen Ueberlapps wuerde mich bei den Gruppen mit den vielen „Links / Zitaten unterschiedliche Resulte nicht verwundern … ich kønnte mir sogar denken, dass die relativ grosz sind … aber das dann erst beim naechsten Mal.

*kicher* … der Titel ist geil. Ausgerechnet der Poststrukturalismus hat was systematisiert … ich hoffe doch, dass sich die Poststrukturalisten der Ironie bewusst sind … tihihi.

Wieauchimmer, es soll ja eigtl. um etwas gehen, was der Max Planck gesagt hat. Ich schliesze diese Miniserie heute ab mit ein paar Zitaten aus seinem Essay ueber Religion und Naturwissenschaften (ab Seite 151 in seiner Wissenschaftlichen Autobographie).

Schon im ersten Teil schreibt er (S. 156):

I need not go here into a more detailed discussion of the fact that the victory of atheism would […] destroy the most valuable treasures of our civilization […].

Schade, dass er nicht weiter darauf eingeht, denn die Argumentation haette mich interessiert; aber prinzipiell geh ich da mit. Nicht nur Bach setzte unter seine Werke das Kuerzel S.D.G. — Soli Deo gloria. Bzw. sind die zwei schlimmsten totalitaeren Regime des letzten Jahrhunderts hinlaenglich bekannt dafuer alles vernichtet zu haben, das auch nur im Entferntesten gegen die entsprechende Ideologie stand. Und Religion ist prinzipiell und per definitionem antagonistisch gegenueber allen (sog. „weltlichen“) Autoritaeten.
Ich nøchte von Max Plancks Meinung insofern abweichen, dass ich es nicht derart absolut ausdruecken wuerde. Ich hoffe, dass ein informierter Atheismus schøne Dinge bestehen lassen kann, auch wenn diese einen religiøsen Ursprung haben.

Mit „informierter Atheismus“ meine ich etwas, was Max Planck dann im zweiten Teil des Essays anspricht (S. 163):

[…] a religious symbol, be it ever so venerable, never represents an absolute value but is always only a more or less imperfect sign of something higher and not directly accessible to human senses.

Oder anders (und aus dem oben verlinkten Wikipediaartikel zum Poststrukturalismus zitierend):

[…] [he] questions the objectivity or stability of the various interpretive structures that are posited by [atheism] […].

[…] [he understands that] there is concrete reality on the one hand, abstract ideas about reality on the other hand, and a „third order“ [e.g., art] that mediates between the two.

ACHTUNG: die Einfuegungen sind von mir um das Zitat dem hiesigen Zusammenhang anzupassen. Der Sinn bleibt aber definitiv erhalten.

Deswegen kann ich hier nur (wieder?) vor Technokraten (im weitesten Sinne) warnen, die implizit den objektiven (oftmals technischen) „Fortschritt“ vor alles andere stellen. Ohne Bach, Beethoven, Shakespeare, Vigeland, Schiele (und viele viele Andere) ist naemlich auch der Quantencomputer (mglw. gar das Ueberleben der Menschheit in die ferne Zukunft) nicht viel wert … und den Quantencomputer hab ich deswegen als Beispiel genommen, weil Max Planck der „Vater der Quanten“ ist und diesen Essay geschrieben hat … den alle Technokraten lesen sollten … wobei ich bezweifle, dass das viel helfen wuerde, wenn sie solche Meinungen haben … aber ich hoffe, dass Menschen (i.A.) es prinzipiell schaffen Ideen zu abstrahieren und auf andere Gebiete zu uebertragen.

Beim letzten Mal stellte ich die WildC.A.T.s vor und erzaehlte etwas ueber den (damals) neuen Ansatz der beim (damals) neuen Verlag Image Comics probiert wurde. Neu sowohl bzgl. der (Mitsprache)Rechte der Kuenstler was ihrer Kreationen anbelangt, als auch wie die Comics an sich waren. Aus dem gleichen Verlag stammt das Comic Cyber Force

… welches damals auch ganz neu war und aufgrund der enormen Bekanntheit ihres Schøpfers sich wie geschnitten Brot verkaufte … ach was sage ich … deswegen gab es damals einen ursten Hype in der Comicszene. Letzteren habe ich aber nur noch indirekt mitbekommen, denn zum Einen musste der erstmal ueber den Atlantik schwappen. Zum Zweiten befand ich mich im comicskeptischen Dtschl. wo es zum Dritten und i.A. schwer war an Comics heranzukommen.

Und zum Vierten lagen zwischen dem ersten Auftauchen der Cyber Force in den Comiclaeden (in den USA) und meinen ersten Beruehrungen „mit der Szene“ (auch nur sehr passiv durch Comics lesen) noch ca. ein halbes Jahrzehnt.

Wieauchimmer, Cyber Force erschien in Dtschl. nur beim damaligen Splitter-Verlag (ueber den ich mich bereits beim letzten Mal ausliesz) und ich beschaffte mir die Hefte dann erst im Ramschverkauf nach deren Konkurs.

Soviel dazu … beim erneuten Lesen der Comics muss ich sagen, dass auch hier wieder der Nachteil des „Image Modells“ hervorkommen. Klar, die Zeichnungen und die dort dargestellte Action sind gerade am Anfang der Serie echt toll (und wie gesagt, das war damals auch irgendwie neu), aber die Story laeszt sehr schnell nach … oder besser gesagt ist nie wirklich da und auch irgendwie ziellos. Und ’ne Characterentwicklung findet auch nur sehr spaerlich statt.

Anders als bei den WildC.A.T.s gab es hier keinen Alan Moore der dem Ganzen fuer eine Weile wenigstens ein bisschen Qualitaet verpasste. Deswegen war ich auch nicht traurig, als meine Cyber Force Comics dann zu Ende waren. Und trotzdem besagtes Ende in der Mitte einer laengeren Geschichte geschah, schaute ich diesmal nicht, ob die mir fehlenden Ausgaben im Internet vom Laster gefallen sind.

Vor vielen Jahren (mich duenkt noch zu Zeiten des Vordiploms, aber es kønnte auch danach gewesen sein) hørte ich jemanden sagen, dass er versucht ein Mensch zu sein.

Dieser jemand ging nicht naeher darauf ein was er damit meint (oder ich hab’s vergessen), aber es fuehlte sich instinktiv richtig an und wenn ich mich richtig erinnere fand ich gar nicht all zu lange danach heraus wie diese Aussage einzuordnen ist. Dazu aus der heutigen Wikipedia:

Mensch (Yiddish: מענטש, mentsh […]) means „a person of integrity and honor“ […], a mensch is „someone to admire and emulate, someone of noble character. The key to being ‚a real mensch‘ is nothing less than character, rectitude, dignity, a sense of what is right, responsible, decorous.“

Und ja, das strebe ich an in den Augen und dem Bewusstsein anderer (!) zu sein (meine eigene Meinung ueber mich zaehlt hier naemlich nicht im Geringsten) … wohlwissend, dass ich sehr oft (meistens? allermeisens? immer?) daran scheitere, die zurecht sehr hohen Huerden zu ueberwinden, welche nøtig sind sind um die Bezeichnung Mensch zu verdienen.

Das wollte ich schon laengere Zeit mal niedergeschrieben haben.

In einem komplizierten Verhaeltniss mit der ungenutzten Arbeitskraft vom letzte Mal steht die Rate der Personen die am Erwerbsleben teilnehmen. Kurz gesagt ist das der Quotient aus allen Menschen die Arbeit haben oder (inklusives oder) arbeiten wollen und allen Menschen im „arbeitsfaehigen Alter“.
Der Nenner ist etwas salopp formuliert und ist eigtl. die Grøsze der jeweiligen Alterskohorte. Der Nenner enthaelt also ALLE Leute. Im Zaehler hingegen sind Menschen NICHT mitgezaehlt wenn diese nicht arbeiten wollen und dadurch aus der Arbeitslosenstatistik raus fallen … ich diskutierte das etwas detaillierter beim letzten Mal.

Die (Rate der) Beteiligung am Erwerbsleben sieht fuer Japan nun so aus:

OI … das ist ja vøllig anders als die Arbeitslosenrate vom letzten Mal. Aber wenn man das der Reihe nach durch geht und die Geschichte mit in Betracht zieht ist die Kurvenform erklaerbar.

Zunaechst denke ich, ist es plausibel davon auszugehen, dass im kriegszerstørten Japan viele Frauen gar keine Wahl hatten und arbeiten mussten (das war ja bspw. in Dtschl. nicht anders). Deswegen hat die Kurve am Anfang hohe Werte.

Mit dem wirtschaftlichen Aufschwung wurden aber viele Frauen aus dem Arbeitsleben gedraengt. Und von allem was ich weisz (was zugegebenermaszen nicht viel ist und nur halb (oder weniger) richtig sein kann) erwartete die japanische Gesellschaft das von den Frauen. Wobei natuerlich auch zu bedenken ist, dass es gesamtgesellschaftlich nicht nur schlecht ist wenn so viel Reichtum ueber fast alle Einwohner verteilt ist, sodass nur die Haelfte der Leute arbeiten muss und das Geld trotzdem reicht. Leider bedeutet das in der Realitaet immer, dass die Maenner arbeiten gehen und die Frauen zu Hause bleiben. Wenn ich auf Ersteres hinweise, dann bedeutet das natuerlich NICHT, dass ich die wirtschaftliche Abhaengigkeit der Frauen von den Maennern befuerworte; GANZ IM GEGENTEIL! … Aber ich schweife ab, das Thema ist deutlich komplizierter und darueber will ich gerade nicht schreiben.
Der Prozess den ich eben beschrieb fuehrt aber NICHT dazu, dass die Frauen dann arbeitslos sind. Das zeigt ein Blick auf das Diagramm vom letzten Mal: die Arbeitslosenrate bleibt niedrig. Die Frauen „fallen raus“ aus den Personen im Zaehler des Quotienten (weil die japanische Gesellschaft eben erwartete, dass sie sich NICHT arbeitssuchend melden). Im Nenner sind sie aber noch mit dabei … oder anders: der Quotient wird kleiner und das ist genau das was man sieht.

Ca. Anfang der 70’er Jahre ist der beschriebene Prozess zu Ende und die Werte der Kurve unterliegen keinen wesentlichen Aenderungen bis zum Ende des 20. Jahrhunderts. … … … Wait! … What? … in der „verlorenen Dekade“ haette ich erwartet, dass mehr Leute gezwungen sind sich Arbeit zu suchen (auch wenn sie die nicht unbedingt finden), der Nenner somit grøszer wird und die Kurve wieder ansteigt. Aber dem ist anscheinend nicht so … vielmehr setzt sich auch hier wieder ein Trend fort, der 20 Jahre vorher begann.

Was mich zurueck zum Anfang des Arguments bringt was ich oben nicht weiter verfolgte: anscheinend ging es der Gesellschaft auch in der „verlorenen Dekade“ weiterhin so gut, dass es reichte, wenn nur die Maenner arbeiten gegangen sind. … Mhmmmm … dann kann die Zeit ja gar nicht so „verloren“ gewesen sein … finde ich.

Das soll reichen fuer heute. Zum Abschluss sei nur noch schnell der Rest der Kurve erklaert.
Ab 2000 schlaegt die Demographie wieder zu: die vielen Leute aus den vorhergehenden Jahren fangen an in Rente zu gehen. Der Zaehler nimmt also ab (waehrend der Nenner weiter waechst, wenn auch langsam) und die Werte der Kurve werden kleiner. … … … Was natuerlich auch wieder gegen mehrere „verlorene DekadEN“ spricht, denn das sieht mir hier mitnichten nach „Alterarmut“ aus, die ich damit in Verbindung bringe … meiner Meinung nach.
Ab 2010 sieht man das Umgekehrte: Rentner fangen an zu sterben. Der Zaehler bleibt im Wesentlichen gleich, waehrend der Nenner abnimmt und die Kurve steigt wieder an.
Das sind aber alles lang anhaltende Trends die keiner singulaeren Erklaerung beduerfen.

Obiges ist natuerlich komplizierter (und vermutlich auch langweiliger fuer die meisten Leute) als _ein_ Grund der sich gewaltig (und zunaechst sogar plausibel) anhørt.
Jetzt habe ich geschaut _ob_ die Leute arbeiten, beim naechsten Mal schaue ich mir an wieviel Arbeit es ueberhaupt gab.

Vor vielen Jahren (zum Zeitpunkt des Erscheinens des Artikels definitiv mehr als 5 Jahre, wahrscheindlich ca. 10 Jahre, ziemlich sicher weniger als 15 Jahre) hørte ich (mich duenkt in einem Hackerpodcast), dass der (ein?) Hackspace (?) in Stuttgart ein Arduinoprojekt erstellt hat, mit dem man Feinstaub selber messen kann. Und Arduino … das kann ich doch :).

Jahrelang wollte ich das immer mal machen, hatte da aber nie die Musze, mich mal im Detail zu informieren.

Vor nicht ganz so vielen Jahren (um meinen 40. Geburtstag rum) tat ich das dann doch endlich mal und fand das entsprechende Projekt auch. Die Quellen von damals verlinke ich nicht, denn irgendwann ist das alles umgezogen (und umstrukturiert) auf sensor.community. Mit den dem damals dort verfuegbaren (und heute sehr anderem) Tutorial fand ich raus was ich dafuer brauche um Feinstaub bei mir selber zu messen. Noch viel wichtiger war, dass ich auch den Eindruck bekam, dass ich das wirklich ohne Hilfe hinbekommen kønnte … ahnte ich doch noch nicht, dass der Treiber fuer den Sensor einen Fehler enthielt.

Also bestellte ich schnurstracks den Sensor und wartete ganz hibbelig. Ihr, meine lieben Leserinnen und Leser muesst nicht so lange rumhibbeln, denn ich zeig euch das Gute Dingens ohne Umschweife …

… von vorne (oberes Bild) und von hinten (unteres Bild).

Das Alles ist (und funktioniert) …
– … ein Ventilator der durch …
– … den Schlauch Luft einzieht …
– … durch die dann ein Laser „schieszt“ und das Licht wird an den in der Luft befindlichen Teilchen gestreut; …
– … ein Sensor erfasst das gestreute Licht, das Signal ist abhaengig von der Grøsze und Dichte besagter Teilchen, …
– … welchesdurch die Auswerteelektronik ausgewertet wird um dann …
– … die Resultate  via der Anschluesse an den Arduino zu schicken.

An das Ende des Schlauches habe ich noch einen unabhaengigen Temperatur- (da muss man schon ganz genau hinschauen, denn der ist so klitzeklein) und einen weiteren (ebenso unabhaengigen) Feuchtigkeitssensor (der auch die Temperatur messen kann) angebracht.

So weit, so einfach … Der Code fuer den Arduino war auch „geradeaus“ und nicht all zu schwer zu verstehen.
Aber irgendwie klappte das nicht so wie das sollte. Nach langem Herumprobieren stellte sich heraus, dass ein Pin der Anschluesse des Sensors was anderes macht, als vom Treiber angenommen … bzw. war es noch schlimmer, denn es war eigentlich spezifiziert, dass der Treiber das weisz und beruecksichtigt … tat er aber nicht. Bevor ich DAS nach etlichem systematischem Herum- und Ausprobieren herausfand, raufte ich mir viele Male die Haare … denn ich nehme doch immer erstmal an, dass der Fehler auf meiner Seite liegt (oder, dass was kaputt ist) und nicht im Treiber … denn an Treiber(software) trau ich mich nicht ran … ist zu weit ab dessen was ich kann.

Auszer in diesem Falle … und ich bin da maechtig gewaltig stolz drauf. Nicht nur fand ich raus woran es liegt, sondern ich konnte den Bug auch beheben UND den modifizierten Treiber einsetzen, sodass dann alles ging.

Prima, wa!

Mehr will ich zum Technischen auch gar nicht sagen. Beim naechsten Mal dann die Ergebnisse.

Zur Wiederholung: beim letzten Mal formulierte ich die Frage …

[…] wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?

… und nahm die (kumulative) Anzahl der neuen Links zur Hilfe um diese zu beantworten. Aber das war nur eine Haelfte der Antwort, denn die neuen Links zeigen nur,

[…] wieviele Schritte […] eine [Urpsrungs]Seite im Durchschnitt machen [muss] um irgendeine andere Seite zu sehen […].

Die andere „Haelfte“ der Antwort muss schauen,

[…] wieviele Schritte […] ANDERE Seiten machen [muessen] um die eine Seite zu sehe.

Da sollte im Durchschnitt das Gleiche bei rauskommen, aber im konkreten Fall muss dem nicht so sein. Ich gab beim letzten Mal ein Beispiel und erwaehnte bereits, dass ich fuer die zweite Haelfte der Antwort die Linkfrequenz nutzen werde,

denn diese misst auf welchem Linklevel eine gegebene Seite von anderen Seiten gesehen wird […].

Leider wird bei der Linkfrequenz ein groszer Teil der urspruenglichen Information „verlustbehaftet komprimiert„, denn diese misst nur, OB eine Seite von einer anderen Seite (auf einem gegebenen Linklevel) gesehen wird. Weder beinhaltet die Linkfrequenz Information darueber wie oft die andere Seite die eine Seite (auf einem gegebenen Linklevel) sieht, noch ob die andere Seite die eine Seite bereits auf einem vorherigen Linklevel gesehen hat. Ersteres ist im hiesigen Zusammenhang nicht schlimm, denn das interessiert mich nicht. Letzteres ist fuer obige Frage allerdings von allergrøsztem Interesse.

Oder anders: in der Linkfrequenz einer Seite kommt es zu Mehrfachzaehlungen durch „Mehrfachsichtungen“. Bspw. kann die andere Seite die eine Seite sowohl auf LL5 als auch auf LL23 sehen. Die zweite Sichtung duerfte ich in Anbetracht dessen das was ich hier beantworten will NICHT mehr mitzaehlen. Aber eben genau diese Information, dass (im Beispiel) mindestens ein „Punkt“ des Wertes auf LL23 eine „wiederholte Sichtung“ ist, fehlt.

Mehrfachsichtungen sollten i.A. keine all zu grosze Rolle spielen auf sehr kleinen Linkleveln. Das liegt daran, weil bei kleinen Linkleveln, die zitierten Seiten thematisch nahe an der Ursprungsseite liegen. Da kommt es dann zwar bestimmt zu Mehrfachsichtungen „thematisch naher“ Seiten, das sind aber im Groszen und Ganzen nur ein paar Seiten und alle anderen Seite der Wikipedia tauchen noch gar nicht auf.
Andererseits verzweigt sich das Linknetzwerk extrem schnell und schon nach ein paar wenigen Linkleveln sieht man nicht mehr nur Seiten zu einem Thema, sondern zu sehr sehr sehr vielen Themen (und die Linkfrequenzen der entsprechenden Seiten gehen um eins hoch). Viele von diesen Seiten sieht man dann auf den darauffolgenden Linkeveln nochmal (auch wenn man dem Link nicht nochmal folgt) und deren Linkfrequenz geht (fuer das entsprechende Linklevel) wieder um eins hoch. Letzteres liegt einfach an der schieren Menge an gleichzeitig erreichten Seiten, welche schonmal gesehene Seiten (wieder) zitieren.

Eine wichtige Schlussfolgerung aus dem eben Gesagten ist, dass der (durchschnittliche) kumulative Anteil der Linkfrequenz nach genuegend Linkleveln die 100 % (deutlich) uebersteigen (sollte). Das wiederum hat eine weitreichende Konsequenz, denn anders als bei den neuen Links kann ich nun nicht mehr das Integral unter der (Summen)Kurve benutzen um den durchschnittlichen (nicht kumulativen) Anteil pro Linklevel auszurechnen.

Das bereitete mir zunaechst Kopfzerbrechen, aber letztlich kam ich dann auf die folgende, hoffentlich plausible Methode um eben diesen durchschnittlichen Anteil (pro Linklevel) auszurechnen (und daraus dann den kumulativen Anteil).
In kurz: das Summensignal der Linkfrequenz muss auf jedem Linklevel zwei Mal (!) durch die Anzahl aller Seiten geteilt werden.

Fuer die etwas laengere Erklaerung denke man sich zunaechst die Linkfrequenz EINER Seite auf einem sehr niedrigen Linklevel (bspw. LL1). Diese Seite kann prinzipiell von allen (fast) 6 Millionen anderen Seiten gesehen werden. Um den durchschnittlichen Anteil der Seiten zu bekommen die diese Seite auf dem Linklevel sehen, muss ich die erste Division durch (fast) 6 Millionen ausfuehren.
Das Summensignal ist nun aber die Summe (Doh!) der Linkfrequenzen ALLER ((fast) 6 Millionen) Seiten. Daher die zweite Division.
Aber Achtung (kurzer Einschub): wenn man nur bestimmte Untergruppen (z.B. vielzitierte Seiten) betrachtet, dann ist der Nenner bei der zweiten Division natuerlich NICHT (fast) 6 Millionen sondern NUR durch die Anzahl der Seiten in der Untergruppe. Die Situation bzgl. der erste Division aendert sich bei Untergruppen nicht. Ich greife damit aber vor und das wird erst im naechsten (oder vllt. uebernaechsten) Artikel wichtig; ich wollte das nur hier schon erwaehnen, damit es erledigt ist.

Diese ganze Huette ist der Grund, warum ich das Thema mit den neuen Links angefangen habe; bei denen ist das alles viel einfacher zu verstehen und ich musste nicht lang und breit erklaeren, wie ich die Information von Interesse aus den Daten gepolkt habe. Die Linkfrequenz ist aber nicht aus Unueberlegtheit mit „Informationsverlust“ konzipiert worden. Vielmehr stand ich vor dem Dilemma, dass das Datenvolumen der Resultate der Linknetzwerkanalyse ohne diese „verlustbehaftete Komprimierung“ der Information mindestens etliche hundert Terabyte (mich duenkt gar im niedrigen Petabyte Bereich) betragen haette.
Aber nun ist alles zum Verstaendniss wichtige gesagt und ich kann das gleiche Diagramm wie beim letzten Mal zeigen; die Summe aller Linkfrequenzen fuer kleine Linklevel und der durchschnittliche kumulative Anteil der Seiten die eine andere Seite bis zum gegebenen Linklevel gesehen haben:

Wie beim letzten Mal gilt, dass die schwarze Kurve mit einer Billion multipliziert werden muss. Aber auch heute ist die nicht wirklich von Interesse, denn die wurde bereits hier besprochen (das ist uebrigens kein Plateau, das sieht nur so aus, weil da so wenig passiert).
Wieauchimmer, die rote Kurve zeigt die Groesze die hier von Interesse ist und die Form ist die selbe „S“-Kurve wie beim letzten Mal. Ebenso wie beim letzten Mal (und wie erwartet) wird der 50 % Anteil zwischen dem 3. und 4. Linklevel ueberschritten. Und letztlich, wie erwaehnt, fuehren die Mehrfachzaehlungen dazu, dass der endgueltige kumulative Anteil 100 % uebersteigt; genauer gesagt wird im Durchschnitt jede Seite (fast) zweieinhalb Mal von jeder anderen Seite gesehen.

Jetzt ist noch von Interesse, inwieweit die Ergebnisse vom letzten Mal mit den Ergebnissen von heute uebereinstimmen. Wie gesagt, das sollte im Durchschnitt (!) das Gleiche sein (bis der Einfluss von Mehrfachzaehlungen zu grosz wird und einen Vergleich nicht mehr zulassen). Deswegen habe ich das hier mal zusammen aufgetragen:

Ich muss sagen, dass mir ein Stein vom Herzen gefallen ist, als ich sah, dass beide Kurven bis LL3 (beinahe) deckungsgleich sind. Ich haette naemlich nicht gewusst, wie eine signifikante Diskrepanz zu erklaeren ist.

So … damit ist die implizite Frage des ersten Beitrags beantwortet. Ich bin aber noch nicht fertig, denn zwischen dem allerersten und diesem Beitrag habe ich viel gelernt ueber die Wikipedia. Eine der wichtigsten Erkenntnisse war, dass nicht alle Seiten gleich sind und die Dynamik von ein paar wenigen Seiten absolut dominiert wird (siehe bspw. hier, das zieht sich aber durch etliche Beitraege).
Oder anders: es gibt „wichtige“ und „unwichtige“ Seiten … und mglw. auch „mittelwichtige“ … womit sich die Frage stellt, ob das Ergebniss fuer alle Seiten gleich aus sieht? Mein Bauchgefuehl sagt erstmal nein … aber dann will mein Bauch auch gerne wissen ob er richtig liegt und wie die Unterschiede aussehen.

Lange Rede kurzer Sinn: im Durchschnitt ist alles fertig und die Frage beantwortet, ich werde aber das Verhalten von Untergruppen noch naeher untersuchen. Dazu werde ich beim naechsten Mal zunaechst drei Untergruppen definieren (Spoiler: das hat rein GAR NIX mit „wichtig“ oder „unwichtig“ zu tun) um mir deren Verhalten beim uebernaechsten Mal genauer anzuschauen.
Aufgrund der bereits geleisteten Vorarbeit wird das dann auch alles mit weniger Geschreibe zu erledigen sein (hoffe ich).

Da schrieb ich beim letzten Mal, dass …

[i]ch […] mich darauf [freue], diese Maxiserie nach fast drei Jahren abzuschlieszen

und prompt faellt mir auf, dass im allerersten Beitrag nur eine einzige Frage konkret … nun ja … nicht gestellt wird, sondern ich sag jetzt mal im Raum haengt und ich die nie behandelt habe.
So ziemlich alles was ich behandelte „erzaehlten“ mir die Daten selbst und ich musste die zu den Antworten gehørenden Fragen oft genug erstmal finden. Was natuerlich erklaert, warum ich besagte Frage bisher nicht behandelt habe, denn ich stellte sie ja nicht konkret und die Antwort dazu ist bisher nicht „aus den Daten gefallen“.

Worueber rede ich eigentlich? Nun ja, im ersten Beitrag gab ich an, wie man von Trondheim zu Kevin Bacon gelangt und tue das sogleich als wenig von Interesse ab:

[f]uer so ein paar konkrete Fragen war dieses Spielzeug ganz nett.

Vielmehr …

[…] wollte [ich] wissen, wie alles mit allem anderen zusammenhaengt.

Die im Raum haengende, nicht gestellte, konkrete Frage ist dann natuerlich: wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?
Und ich muss sogleich sagen, dass ich diese Frage NICHT direkt (!) beantworten kann, denn dafuer habe ich die Daten nicht.

Fuer eine direkte Beantwortung waere es fuer jede Seite nøtig zu wissen, wann diese von jeder anderen Seite gesehen wird. Theoretisch kann man diese Information sammeln, das wuerde aber ein (dreidimensionales) Datenfeld der Grøsze 6 Millionen zum Quadrat mal 100 erfordern … jede Seite zu jeder anderen Seite mal die Anzahl der erwarteten Linklevel.
Das ist der technische Grund gewesen, warum ich die Linkfrequenz einfuehrte (die sich spaeter auf verschiedenste Weisen als extrem erfolgreich herausstellte). Bei der Linkfrequenz handelt es sich um eine Art „Projektion“ (mit (gewaltiger) Informationsminderung) des originalen 3D-Datenfeldes auf nur 2 Dimensionen, was die benøtigte Grøsze um mehr als sechseinhalb Grøszenordnungen vermindert (nur noch 6 Millionen mal 100). Dennoch erfordert das immer noch ca. 2 GB Arbeitsspeicher … womit man sich ausrechnen kann, dass die originale Idee ungefaehr 10 Petabyte (!) RAM braucht. Sportlich, nicht wahr.
Jaja, man kønnte das originale Problem immer nur eine Seite auf einmal machen, dann reichen auch 2 GB RAM … aber das Ergebniss will ja auch gespeichert werden zur nachfolgenden weiteren Analyse … und da braucht man dann doch wieder die 10 Petabyte (nur nicht als RAM sondern auf der Festplatte).

Wieauchimmer, ich kann die Frage gluecklicherweise indirekt angehen und meiner Meinung nach auch zufriedenstellend beantworten. Dafuer sind endlich mal die neuen Links pro Linklevel von Interesse (die ja bisher eher weniger „fruchtbar“ waren) und (wieder einmal) die Linkfrequenz. Aber wie immer ist das zumindest in Teilen nicht so einfach.

Ich beginne mit der Anzahl der neuen Links pro Linklevel. Korrekter: mit der Summe dieser Grøsze ueber alle Seiten und das Ganze per Linklevel. Das wurde hier schonmal gezeigt und die diagrammisierte das bis LL10 mit linearer (linker) Ordinate in diesem Bild als schwarze Kurve nochmals (man beachte das schwarze (!) „x1012„, welches ausdrueckt, dass die Werte fuer die schwarze Kurve damit multipliziert werden muessen um die (tatsaechliche) Anzahl der neuen Links (pro Linklevel) zu erhalten … das ist aber im hiesigen Zusammenhang eher eine Formalitaet, da mich der Wert an sich ja gar nicht weiter interessiert):

Zur Erinnerung: von einer Urpsrungsseite ausgehend, druecken die neuen Links auf jedem Linklevel aus, wieviele von allen Links die ich auf dem gegebenen Linklevel sehe, auf keinem vorherigen Linklevel auftauchten. Das (bestimmte) Integral unter dieser Kurve ergibt dann die Anzahl aller Wikipediaseiten (unabhaengig von der Ursprungsseite). Das Integral der obigen schwarzen Kurve ist dann also die Anzahl aller Wikipediaseiten zum Quadrat (da die Kurve ja das Summensignal ueber alle Seiten ist).

Kurzer Einschub und Achtung: ich lasse in allen Betrachtungen diesbezueglich die Archipele auszer acht … die haben natuerlich ein grøszeres Integral weil die ja zumindest Teile des Archipels UND das grosze „Gesamtnetzwerk“ sehen, wohingegen die Seiten im Gesamtnetzwerk keine Archipelseiten sehen. Das sollte aber keinen all zu groszen Unterschied machen.

Wenn ich nun besagtes Summensignal durch das Integral unter der Kurve teile, dann erhaelt man den durchschnittlichen Anteil der Wikipediaseiten die eine Seite auf einem Linklevel NEU sieht. Wenn man das dann von einem Linklevel zum naechsten aufaddiert, so sagt dieser kumulative Anteil ganz direkt und ohne Umschweife aus, wieviel Prozent aller Wikipediaseiten im Durchschnitt bis zu dem gegebenen Linklevel gesehen wurden.

Dieser kumulative Anteil ist in der roten Kurve dargestellt und der geht natuerlich bis 100 % (mehr als alle Seiten sehen geht nicht). Fuer die (nicht gestellte) Frage des allerersten Beitrags von Interesse ist, wenn dieser kumulative Anteil 50 % ueberschreitet; wenn es also einem Muenzwurf entspricht, ob bei einer gegebenen Ursprungsseite eine andere Seite schon erreicht wurde.

An der roten Kurve kann man ablesen, dass das im Durchschnitt zwischen dem dritten und vierten Linklevel passiert. Wobei der Wert auf LL3 mit 35 % bereits recht grosz ist und meine Stichproben aus dem allerersten Beitrag …

[…] nach mehreren Versuchen [habe ich] immer drei Verbindungen (in seltenen Faellen zwei oder vier) [erhalten] …

… zu bestaetigen scheint.

Kurzer Einschub: sixdegreesofwikipedia.com benutzt die gesamte Wikipediaseite um die Wege zwischen zwei Seiten zu finden zu finden; also auch die langen Listen mit oftmals nichtmal relatierten Links die am Ende einer Wikipediaseite auftauchen. Ich hingegen schmeisze insbesondere (aber icht nur) Letztere bei meiner Analyse raus, weil mich nur die „Konversation“, also der eigentliche Text, interessiert. Das hat zur Folge, dass der kumulative Anteil „meiner“ Wikipedia ein bisschen nach rechts verschoben sein sollte, weswegen die rote Kurve auf LL3 erst 35 % hat, waehrend mir die Stichproben das Gefuehl geben, dass ich schon ueber 50 % lag.

So weit so gut. Das ist aber nur die eine Richtung; wieviele Schritte muss eine Seite im Durchschnitt machen um irgendeine andere Seite zu sehen. Im Durchschnitt sollte das auch andersrum gelten, also wieviele Schritte muessen ANDERE Seiten machen um die eine Seite zu sehen …

… aber fuer spezifische Seiten gilt das nicht zwangslaeufig. So braucht man drei Schritte um von Magdeburg nach Pencil zu gelangen, aber man schafft den Rueckweg mit nur zwei Schritten

Hier kommt nun die Linkfrequenz ins Spiel, denn diese misst auf welchen Linklevel eine gegebene Seite von anderen Seiten gesehen wird (also der „Rueckweg“ der Situation die den neuen Links entspricht). Leider schlaegt die oben erwaehnte Informationsminderung (die vonnøten war um eine derartige Grøsze ueberhaupt zu messen) hier voll zu. Die Interpretation der Daten scheint zwar einfach und „geradeaus“, aber das muss im Detail betrachtet werden, damit man auch wirklich versteht, warum das rauskommt, was rauskommt.
Weswegen ich das auf das naechste Mal verschiebe.

Auf Seite 109 in seiner Wissenschaftliche[n] Selbstbiographie schreibt Max Planck das Folgende:

[…] exact science demands more than a gift of intuition and willingness to work hard. It demands also very involved, painstaking, tedious attention to details […].

Gleich darauf folgt:

[…] when the pioneer in science sends forth the groping feelers of his thoughts, he must have a vivid intuitive imagination, for new ideas are not generated by deduction, but by an artistically creative imagination.

Und das erinnerte mich zum Ersten an den einen kleinen Balken in einem Wald von Balken der ein bisschen høher war als erwartet und wo mein Magengefuehl mir sagte, dass da was sein muss. Aber erst ein „tedious attention to details“ gekoppelt mit „a vivid intuitive imagination“ brachte die „Archipele“ zum Vorschein.
Ich wollte da zunaechst mit dem beruehmten „zehn Prozent Fehler“ drueberbuegeln und mich nicht weiter beschaeftigen … zum Glueck gewann der Wissenschaftler in mir die Oberhand.

Zum Anderen gilt das Gleiche bzgl. des (damals so bezeichneten) São Paulo FC-Artefakts. Dieses war letztlich nur der Anfang fuer meine (sicher oftmals) ermuedende Aufmerksamkeit fuer Details und befeuerte (spaeter) meine Fantasie welche dann die „Familien“ sichtbar machte.

Das sind nur die zwei grøszten (mglw. gar besten) Beispiele. Insgesamt sind diese beiden Mechanismen bei so ziemlich allen Sachen, die ich innerhalb der Kevin Bacon Maxiserie behandel(t)e (aber nicht nur da), am Werk gewesen. Natuerlich in unterschiedlicher Auspraegung und ich vermute (befuerchte), dass (leider?) die Detail“verliebtheit“ viel haeufiger in den Beitraegen auftritt als die Phantasie.

Bei den linklevelabhaengigen Verteilungen der totalen Links hatten wir einen Fall, bei dem die „integrierten log-log-Plots“ nicht so „funktioniert“ haben wie ich das bei allen anderen Beispielen gesehen habe. Aber das war erwartet, weil schon bei den urspruenglichen Untersuchungen nix rum kam. Im Allgemeinen konnte man sehen, dass dieser Ansatz zu mehr oder weniger guten Geraden fuehrt und (mit sinnvollen Abstrichen) haut das schon ganz gut hin.

Ein unerwartetes, im Wesentlichen nichts hergebendes Ergebniss erhaelt man mit dieser Methode, wenn man sich die Links auf LLi+1 in Abhaengigkeit von den Links auf LLi anschaut:

Im linken Diagramm sind, wieder in blassen Farben, die urspruenglichen (Roh)Daten und die wichtige (und ueberraschende) Information war hier, dass diese einen „Orbit“ beschreiben … DAS sieht man nun ueberhaupt nicht bei den integrierten Daten im rechten Diagramm.
Zunaechst kønnte man das ja mglw. darauf schieben, dass ja NUR die Ordinate integriert ist, aber mglw. muesste man das auch fuer die Abzsisse machen. Da tritt man dann zwar in ein „konzeptuelles Wespennest“, aber das hat mich nicht davon abgehalten mich damit mal ein paar Stunden zu beschaeftigen … das Resultat: das ist zwar anders als im rechten Diagramm, ist diesem aber aehnlich und hat auch keinen „Orbit“ zur Folge.
Auf den ersten Blick sieht es auch so aus, dass man hier nicht mal die Anstiege aus den Integralen richtig raus bekommt (aus dem Bereich vor den jeweiligen Plateaus). Wobei das aber hier bei den (totalen) Links vermutlich letztlich auch wieder nur daraus folgt, was ich zum ganz zuerst verlinkten Thema schrieb … das gehørt schlieszlich zusammen.

Interessant ist, dass das was ich hier im rechten Diagramm zeige, (mit Abstrichen) bei den Selbstzitierungen funktioniert. Das war so wenig ueberraschend, dass ich dazu beim letzten Mal nicht mal ein Bild zeigte und das in drei Saetzen schnell abhandelte.
Wenn man mal drueber nachdenkt, dann ist das aber nicht weiter verwunderlich, denn die Selbstreferenzen sind nicht von sich selber, sondern von der Anzahl der (totalen) Links abhaengig. Bei Selbigen hingegen ist die Anzahl direkt von sich selbst abhaengig … ach das ist alles kompliziert und vermutlich hat das auch gar nix miteinander zu tun … was einer der Gruende ist, warum ich das oben als „konzeptuelles Wespennest“ darstelle … jemand der schlauer ist als ich, kann das mathematisch sicherlich alles herleiten, ich will mir aber darueber nicht weiter den Kopf zerbrechen

Lange Rede kurzer Sinn: hier bringt der „Integralansatz“ nix.

Dann war da noch die Summe der totalen Links einer Seite ueber alle Linklevel:

Achtung: im rechten Diagramm ist die untere Abzsisse fuer die grauen und roten Daten und zeigt nur einen Ausschnitt der gesamten (integrierten) Daten (blaue Punkte). Fuer Letztere gilt die obere, blaue Abzsisse.
Und JA, auch im rechten Diagramm sind die Abzsissen logarithmisch. Hier draengt sich aber alles so sehr zusammen, dass das irrelevant ist.

Ich muss hier nicht viele weitere Worte drueber verlieren, denn es ist ziemlich eindeutig, dass hier auch mit dem „Integralansatz“ nix zu holen ist. Das gilt auch dann, wenn man die Grenzen des Integrals invertiert oder die ersten vier (dominierenden) Datenpunkte weg laeszt bei den Betrachtungen (ich hab’s naemlich versucht).

Als naechstes war da die Summe der Linkfrequenzen ueber alle Linklevel, von dem nur der „Archipelteil“ interessant war:

Das sieht ja erstmal knorke aus, ABER hier muss man vorsichtig sein … der Reihe nach.

Die gestrichelten Geraden sind wieder von Hand reingelegt und die Anstiege sind ca. 2.25 fuer die Rohdaten und ca. 1.125 fuer die integrierten Daten. Das haut also ganz gut hin.
Aufgrund von Diskrepanzen zwischen realen Daten und reiner Mathematik fallen die integrierten Daten bei Summenwerten von ueber 100 so stark ab. Wie schon vormals (nicht im Detail) diskutiert, liesze sich das „reparieren“ und dann liegen die auch auf der (gestrichelten, blauen) Gerade. Das ist also nur ein kleinerer Grund fuer die Vorsicht
Wichtiger ist, dass die „Huegel“ in den Rohdaten (auf der Abzsisse bei Werten von ca. 25 und 50) zu deutlichen Abweichungen von der Regressionsgeraden im integrierten Signal fuehren. Auch vormals gab es Abweichungen von der Geraden, aber waren das dann „glatte“ Kurven mit mehr oder weniger starker Kruemmung und ich meinte dann, dass man die Abweichungen parametrisieren (a.k.a. wegdiskutieren“ kønnte).

Lange Rede kurzer Sinn: der „Integralansatz“ ist zwar durchaus … ich sag jetzt mal: erfolgreich. Aber wenn man das genau macht, dann darf man bei solchen Faellen die (abrupten und signifikaten) Abweichungen vom Erwartungsbild nicht einfach in einen „Parameter“ packen, sondern muss das ordentlich betrachten und diskutieren … was ich hier nicht mache, weil ich keine Lust mehr habe.

Als Letztes dann noch ein paar Beispiele fuer die linklevelabhaengigen Histogramme bzgl. der Linkfrequenz pro Seite:

Zu meiner Ueberraschung ist hier (auf den ersten Blick) nuescht linear; weder bei normalen (linkes Diagramm) noch bei invertierten Grenzen (rechtes Diagramm) des Integrals.
Naja, bei invertierten Integralgrenzen gibt es zumindest fuer die ersten paar Linklevel mglw. lineare Teilbereiche, aber viel ist da nicht „zu holen“.
Auszerdem ist die Dynamik  im rechten Diagramm echt klein; die zugehørige Ordinate geht gerade mal ueber ein bisschen mehr als eine Grøszenordnung.
Lange Rede kurzer Sinn: der „Integralansatz“ kann hier vllt. ein paar Resultate liefern, die kønnen aber nicht auf den ganzen Datensatz verallgemeinert werden.

So, das soll genug sein fuer heute und mit dem „Integralansatz“. … … … Da hat es die letzten zwei Beitraege dann doch noch geklappt mit den …

[…] Artikel mit Bildern und (meist) nicht ganz so viel Text […]

… naja, fast … viel Text ist’s immer noch, aber ich handle ja doch recht viel ab in nur zwei Artikeln; relativ gesehen ist‘ also wenig Text … tihihi.

Ich bin ueber den „Integralansatz“ erst im Laufe der Maxiserie gestolpert und habe mir das erst jetzt zum Ende alles nochmal damit angeschaut. Es ist beruhigend, dass ich damit hauptsaechlich meine vorherigen Ergebnisse bestaetige (und ein paar neue Erkentnisse erhalte). Aber wie mehrfach erwaehnt, wollte ich nicht alles nochmal im Detail machen. Ich habe naemlich wirklich keine Lust mehr und freue mich darauf, diese Maxiserie nach fast drei Jahren abzuschlieszen.
Aber keine Sorge, Letzteres passiert noch nicht heute, denn ich møchte nochmal auf alles zurueck schauen und das wird dann mindestens noch ein (vllt. zwei) Artikel.