Archive for Januar, 2024

In einem komplizierten Verhaeltniss mit der ungenutzten Arbeitskraft vom letzte Mal steht die Rate der Personen die am Erwerbsleben teilnehmen. Kurz gesagt ist das der Quotient aus allen Menschen die Arbeit haben oder (inklusives oder) arbeiten wollen und allen Menschen im „arbeitsfaehigen Alter“.
Der Nenner ist etwas salopp formuliert und ist eigtl. die Grøsze der jeweiligen Alterskohorte. Der Nenner enthaelt also ALLE Leute. Im Zaehler hingegen sind Menschen NICHT mitgezaehlt wenn diese nicht arbeiten wollen und dadurch aus der Arbeitslosenstatistik raus fallen … ich diskutierte das etwas detaillierter beim letzten Mal.

Die (Rate der) Beteiligung am Erwerbsleben sieht fuer Japan nun so aus:

OI … das ist ja vøllig anders als die Arbeitslosenrate vom letzten Mal. Aber wenn man das der Reihe nach durch geht und die Geschichte mit in Betracht zieht ist die Kurvenform erklaerbar.

Zunaechst denke ich, ist es plausibel davon auszugehen, dass im kriegszerstørten Japan viele Frauen gar keine Wahl hatten und arbeiten mussten (das war ja bspw. in Dtschl. nicht anders). Deswegen hat die Kurve am Anfang hohe Werte.

Mit dem wirtschaftlichen Aufschwung wurden aber viele Frauen aus dem Arbeitsleben gedraengt. Und von allem was ich weisz (was zugegebenermaszen nicht viel ist und nur halb (oder weniger) richtig sein kann) erwartete die japanische Gesellschaft das von den Frauen. Wobei natuerlich auch zu bedenken ist, dass es gesamtgesellschaftlich nicht nur schlecht ist wenn so viel Reichtum ueber fast alle Einwohner verteilt ist, sodass nur die Haelfte der Leute arbeiten muss und das Geld trotzdem reicht. Leider bedeutet das in der Realitaet immer, dass die Maenner arbeiten gehen und die Frauen zu Hause bleiben. Wenn ich auf Ersteres hinweise, dann bedeutet das natuerlich NICHT, dass ich die wirtschaftliche Abhaengigkeit der Frauen von den Maennern befuerworte; GANZ IM GEGENTEIL! … Aber ich schweife ab, das Thema ist deutlich komplizierter und darueber will ich gerade nicht schreiben.
Der Prozess den ich eben beschrieb fuehrt aber NICHT dazu, dass die Frauen dann arbeitslos sind. Das zeigt ein Blick auf das Diagramm vom letzten Mal: die Arbeitslosenrate bleibt niedrig. Die Frauen „fallen raus“ aus den Personen im Zaehler des Quotienten (weil die japanische Gesellschaft eben erwartete, dass sie sich NICHT arbeitssuchend melden). Im Nenner sind sie aber noch mit dabei … oder anders: der Quotient wird kleiner und das ist genau das was man sieht.

Ca. Anfang der 70’er Jahre ist der beschriebene Prozess zu Ende und die Werte der Kurve unterliegen keinen wesentlichen Aenderungen bis zum Ende des 20. Jahrhunderts. … … … Wait! … What? … in der „verlorenen Dekade“ haette ich erwartet, dass mehr Leute gezwungen sind sich Arbeit zu suchen (auch wenn sie die nicht unbedingt finden), der Nenner somit grøszer wird und die Kurve wieder ansteigt. Aber dem ist anscheinend nicht so … vielmehr setzt sich auch hier wieder ein Trend fort, der 20 Jahre vorher begann.

Was mich zurueck zum Anfang des Arguments bringt was ich oben nicht weiter verfolgte: anscheinend ging es der Gesellschaft auch in der „verlorenen Dekade“ weiterhin so gut, dass es reichte, wenn nur die Maenner arbeiten gegangen sind. … Mhmmmm … dann kann die Zeit ja gar nicht so „verloren“ gewesen sein … finde ich.

Das soll reichen fuer heute. Zum Abschluss sei nur noch schnell der Rest der Kurve erklaert.
Ab 2000 schlaegt die Demographie wieder zu: die vielen Leute aus den vorhergehenden Jahren fangen an in Rente zu gehen. Der Zaehler nimmt also ab (waehrend der Nenner weiter waechst, wenn auch langsam) und die Werte der Kurve werden kleiner. … … … Was natuerlich auch wieder gegen mehrere „verlorene DekadEN“ spricht, denn das sieht mir hier mitnichten nach „Alterarmut“ aus, die ich damit in Verbindung bringe … meiner Meinung nach.
Ab 2010 sieht man das Umgekehrte: Rentner fangen an zu sterben. Der Zaehler bleibt im Wesentlichen gleich, waehrend der Nenner abnimmt und die Kurve steigt wieder an.
Das sind aber alles lang anhaltende Trends die keiner singulaeren Erklaerung beduerfen.

Obiges ist natuerlich komplizierter (und vermutlich auch langweiliger fuer die meisten Leute) als _ein_ Grund der sich gewaltig (und zunaechst sogar plausibel) anhørt.
Jetzt habe ich geschaut _ob_ die Leute arbeiten, beim naechsten Mal schaue ich mir an wieviel Arbeit es ueberhaupt gab.

Vor vielen Jahren (zum Zeitpunkt des Erscheinens des Artikels definitiv mehr als 5 Jahre, wahrscheindlich ca. 10 Jahre, ziemlich sicher weniger als 15 Jahre) hørte ich (mich duenkt in einem Hackerpodcast), dass der (ein?) Hackspace (?) in Stuttgart ein Arduinoprojekt erstellt hat, mit dem man Feinstaub selber messen kann. Und Arduino … das kann ich doch :).

Jahrelang wollte ich das immer mal machen, hatte da aber nie die Musze, mich mal im Detail zu informieren.

Vor nicht ganz so vielen Jahren (um meinen 40. Geburtstag rum) tat ich das dann doch endlich mal und fand das entsprechende Projekt auch. Die Quellen von damals verlinke ich nicht, denn irgendwann ist das alles umgezogen (und umstrukturiert) auf sensor.community. Mit den dem damals dort verfuegbaren (und heute sehr anderem) Tutorial fand ich raus was ich dafuer brauche um Feinstaub bei mir selber zu messen. Noch viel wichtiger war, dass ich auch den Eindruck bekam, dass ich das wirklich ohne Hilfe hinbekommen kønnte … ahnte ich doch noch nicht, dass der Treiber fuer den Sensor einen Fehler enthielt.

Also bestellte ich schnurstracks den Sensor und wartete ganz hibbelig. Ihr, meine lieben Leserinnen und Leser muesst nicht so lange rumhibbeln, denn ich zeig euch das Gute Dingens ohne Umschweife …

… von vorne (oberes Bild) und von hinten (unteres Bild).

Das Alles ist (und funktioniert) …
– … ein Ventilator der durch …
– … den Schlauch Luft einzieht …
– … durch die dann ein Laser „schieszt“ und das Licht wird an den in der Luft befindlichen Teilchen gestreut; …
– … ein Sensor erfasst das gestreute Licht, das Signal ist abhaengig von der Grøsze und Dichte besagter Teilchen, …
– … welchesdurch die Auswerteelektronik ausgewertet wird um dann …
– … die Resultate  via der Anschluesse an den Arduino zu schicken.

An das Ende des Schlauches habe ich noch einen unabhaengigen Temperatur- (da muss man schon ganz genau hinschauen, denn der ist so klitzeklein) und einen weiteren (ebenso unabhaengigen) Feuchtigkeitssensor (der auch die Temperatur messen kann) angebracht.

So weit, so einfach … Der Code fuer den Arduino war auch „geradeaus“ und nicht all zu schwer zu verstehen.
Aber irgendwie klappte das nicht so wie das sollte. Nach langem Herumprobieren stellte sich heraus, dass ein Pin der Anschluesse des Sensors was anderes macht, als vom Treiber angenommen … bzw. war es noch schlimmer, denn es war eigentlich spezifiziert, dass der Treiber das weisz und beruecksichtigt … tat er aber nicht. Bevor ich DAS nach etlichem systematischem Herum- und Ausprobieren herausfand, raufte ich mir viele Male die Haare … denn ich nehme doch immer erstmal an, dass der Fehler auf meiner Seite liegt (oder, dass was kaputt ist) und nicht im Treiber … denn an Treiber(software) trau ich mich nicht ran … ist zu weit ab dessen was ich kann.

Auszer in diesem Falle … und ich bin da maechtig gewaltig stolz drauf. Nicht nur fand ich raus woran es liegt, sondern ich konnte den Bug auch beheben UND den modifizierten Treiber einsetzen, sodass dann alles ging.

Prima, wa!

Mehr will ich zum Technischen auch gar nicht sagen. Beim naechsten Mal dann die Ergebnisse.

Zur Wiederholung: beim letzten Mal formulierte ich die Frage …

[…] wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?

… und nahm die (kumulative) Anzahl der neuen Links zur Hilfe um diese zu beantworten. Aber das war nur eine Haelfte der Antwort, denn die neuen Links zeigen nur,

[…] wieviele Schritte […] eine [Urpsrungs]Seite im Durchschnitt machen [muss] um irgendeine andere Seite zu sehen […].

Die andere „Haelfte“ der Antwort muss schauen,

[…] wieviele Schritte […] ANDERE Seiten machen [muessen] um die eine Seite zu sehe.

Da sollte im Durchschnitt das Gleiche bei rauskommen, aber im konkreten Fall muss dem nicht so sein. Ich gab beim letzten Mal ein Beispiel und erwaehnte bereits, dass ich fuer die zweite Haelfte der Antwort die Linkfrequenz nutzen werde,

denn diese misst auf welchem Linklevel eine gegebene Seite von anderen Seiten gesehen wird […].

Leider wird bei der Linkfrequenz ein groszer Teil der urspruenglichen Information „verlustbehaftet komprimiert„, denn diese misst nur, OB eine Seite von einer anderen Seite (auf einem gegebenen Linklevel) gesehen wird. Weder beinhaltet die Linkfrequenz Information darueber wie oft die andere Seite die eine Seite (auf einem gegebenen Linklevel) sieht, noch ob die andere Seite die eine Seite bereits auf einem vorherigen Linklevel gesehen hat. Ersteres ist im hiesigen Zusammenhang nicht schlimm, denn das interessiert mich nicht. Letzteres ist fuer obige Frage allerdings von allergrøsztem Interesse.

Oder anders: in der Linkfrequenz einer Seite kommt es zu Mehrfachzaehlungen durch „Mehrfachsichtungen“. Bspw. kann die andere Seite die eine Seite sowohl auf LL5 als auch auf LL23 sehen. Die zweite Sichtung duerfte ich in Anbetracht dessen das was ich hier beantworten will NICHT mehr mitzaehlen. Aber eben genau diese Information, dass (im Beispiel) mindestens ein „Punkt“ des Wertes auf LL23 eine „wiederholte Sichtung“ ist, fehlt.

Mehrfachsichtungen sollten i.A. keine all zu grosze Rolle spielen auf sehr kleinen Linkleveln. Das liegt daran, weil bei kleinen Linkleveln, die zitierten Seiten thematisch nahe an der Ursprungsseite liegen. Da kommt es dann zwar bestimmt zu Mehrfachsichtungen „thematisch naher“ Seiten, das sind aber im Groszen und Ganzen nur ein paar Seiten und alle anderen Seite der Wikipedia tauchen noch gar nicht auf.
Andererseits verzweigt sich das Linknetzwerk extrem schnell und schon nach ein paar wenigen Linkleveln sieht man nicht mehr nur Seiten zu einem Thema, sondern zu sehr sehr sehr vielen Themen (und die Linkfrequenzen der entsprechenden Seiten gehen um eins hoch). Viele von diesen Seiten sieht man dann auf den darauffolgenden Linkeveln nochmal (auch wenn man dem Link nicht nochmal folgt) und deren Linkfrequenz geht (fuer das entsprechende Linklevel) wieder um eins hoch. Letzteres liegt einfach an der schieren Menge an gleichzeitig erreichten Seiten, welche schonmal gesehene Seiten (wieder) zitieren.

Eine wichtige Schlussfolgerung aus dem eben Gesagten ist, dass der (durchschnittliche) kumulative Anteil der Linkfrequenz nach genuegend Linkleveln die 100 % (deutlich) uebersteigen (sollte). Das wiederum hat eine weitreichende Konsequenz, denn anders als bei den neuen Links kann ich nun nicht mehr das Integral unter der (Summen)Kurve benutzen um den durchschnittlichen (nicht kumulativen) Anteil pro Linklevel auszurechnen.

Das bereitete mir zunaechst Kopfzerbrechen, aber letztlich kam ich dann auf die folgende, hoffentlich plausible Methode um eben diesen durchschnittlichen Anteil (pro Linklevel) auszurechnen (und daraus dann den kumulativen Anteil).
In kurz: das Summensignal der Linkfrequenz muss auf jedem Linklevel zwei Mal (!) durch die Anzahl aller Seiten geteilt werden.

Fuer die etwas laengere Erklaerung denke man sich zunaechst die Linkfrequenz EINER Seite auf einem sehr niedrigen Linklevel (bspw. LL1). Diese Seite kann prinzipiell von allen (fast) 6 Millionen anderen Seiten gesehen werden. Um den durchschnittlichen Anteil der Seiten zu bekommen die diese Seite auf dem Linklevel sehen, muss ich die erste Division durch (fast) 6 Millionen ausfuehren.
Das Summensignal ist nun aber die Summe (Doh!) der Linkfrequenzen ALLER ((fast) 6 Millionen) Seiten. Daher die zweite Division.
Aber Achtung (kurzer Einschub): wenn man nur bestimmte Untergruppen (z.B. vielzitierte Seiten) betrachtet, dann ist der Nenner bei der zweiten Division natuerlich NICHT (fast) 6 Millionen sondern NUR durch die Anzahl der Seiten in der Untergruppe. Die Situation bzgl. der erste Division aendert sich bei Untergruppen nicht. Ich greife damit aber vor und das wird erst im naechsten (oder vllt. uebernaechsten) Artikel wichtig; ich wollte das nur hier schon erwaehnen, damit es erledigt ist.

Diese ganze Huette ist der Grund, warum ich das Thema mit den neuen Links angefangen habe; bei denen ist das alles viel einfacher zu verstehen und ich musste nicht lang und breit erklaeren, wie ich die Information von Interesse aus den Daten gepolkt habe. Die Linkfrequenz ist aber nicht aus Unueberlegtheit mit „Informationsverlust“ konzipiert worden. Vielmehr stand ich vor dem Dilemma, dass das Datenvolumen der Resultate der Linknetzwerkanalyse ohne diese „verlustbehaftete Komprimierung“ der Information mindestens etliche hundert Terabyte (mich duenkt gar im niedrigen Petabyte Bereich) betragen haette.
Aber nun ist alles zum Verstaendniss wichtige gesagt und ich kann das gleiche Diagramm wie beim letzten Mal zeigen; die Summe aller Linkfrequenzen fuer kleine Linklevel und der durchschnittliche kumulative Anteil der Seiten die eine andere Seite bis zum gegebenen Linklevel gesehen haben:

Wie beim letzten Mal gilt, dass die schwarze Kurve mit einer Billion multipliziert werden muss. Aber auch heute ist die nicht wirklich von Interesse, denn die wurde bereits hier besprochen (das ist uebrigens kein Plateau, das sieht nur so aus, weil da so wenig passiert).
Wieauchimmer, die rote Kurve zeigt die Groesze die hier von Interesse ist und die Form ist die selbe „S“-Kurve wie beim letzten Mal. Ebenso wie beim letzten Mal (und wie erwartet) wird der 50 % Anteil zwischen dem 3. und 4. Linklevel ueberschritten. Und letztlich, wie erwaehnt, fuehren die Mehrfachzaehlungen dazu, dass der endgueltige kumulative Anteil 100 % uebersteigt; genauer gesagt wird im Durchschnitt jede Seite (fast) zweieinhalb Mal von jeder anderen Seite gesehen.

Jetzt ist noch von Interesse, inwieweit die Ergebnisse vom letzten Mal mit den Ergebnissen von heute uebereinstimmen. Wie gesagt, das sollte im Durchschnitt (!) das Gleiche sein (bis der Einfluss von Mehrfachzaehlungen zu grosz wird und einen Vergleich nicht mehr zulassen). Deswegen habe ich das hier mal zusammen aufgetragen:

Ich muss sagen, dass mir ein Stein vom Herzen gefallen ist, als ich sah, dass beide Kurven bis LL3 (beinahe) deckungsgleich sind. Ich haette naemlich nicht gewusst, wie eine signifikante Diskrepanz zu erklaeren ist.

So … damit ist die implizite Frage des ersten Beitrags beantwortet. Ich bin aber noch nicht fertig, denn zwischen dem allerersten und diesem Beitrag habe ich viel gelernt ueber die Wikipedia. Eine der wichtigsten Erkenntnisse war, dass nicht alle Seiten gleich sind und die Dynamik von ein paar wenigen Seiten absolut dominiert wird (siehe bspw. hier, das zieht sich aber durch etliche Beitraege).
Oder anders: es gibt „wichtige“ und „unwichtige“ Seiten … und mglw. auch „mittelwichtige“ … womit sich die Frage stellt, ob das Ergebniss fuer alle Seiten gleich aus sieht? Mein Bauchgefuehl sagt erstmal nein … aber dann will mein Bauch auch gerne wissen ob er richtig liegt und wie die Unterschiede aussehen.

Lange Rede kurzer Sinn: im Durchschnitt ist alles fertig und die Frage beantwortet, ich werde aber das Verhalten von Untergruppen noch naeher untersuchen. Dazu werde ich beim naechsten Mal zunaechst drei Untergruppen definieren (Spoiler: das hat rein GAR NIX mit „wichtig“ oder „unwichtig“ zu tun) um mir deren Verhalten beim uebernaechsten Mal genauer anzuschauen.
Aufgrund der bereits geleisteten Vorarbeit wird das dann auch alles mit weniger Geschreibe zu erledigen sein (hoffe ich).

Da schrieb ich beim letzten Mal, dass …

[i]ch […] mich darauf [freue], diese Maxiserie nach fast drei Jahren abzuschlieszen

und prompt faellt mir auf, dass im allerersten Beitrag nur eine einzige Frage konkret … nun ja … nicht gestellt wird, sondern ich sag jetzt mal im Raum haengt und ich die nie behandelt habe.
So ziemlich alles was ich behandelte „erzaehlten“ mir die Daten selbst und ich musste die zu den Antworten gehørenden Fragen oft genug erstmal finden. Was natuerlich erklaert, warum ich besagte Frage bisher nicht behandelt habe, denn ich stellte sie ja nicht konkret und die Antwort dazu ist bisher nicht „aus den Daten gefallen“.

Worueber rede ich eigentlich? Nun ja, im ersten Beitrag gab ich an, wie man von Trondheim zu Kevin Bacon gelangt und tue das sogleich als wenig von Interesse ab:

[f]uer so ein paar konkrete Fragen war dieses Spielzeug ganz nett.

Vielmehr …

[…] wollte [ich] wissen, wie alles mit allem anderen zusammenhaengt.

Die im Raum haengende, nicht gestellte, konkrete Frage ist dann natuerlich: wieviele „Schritte“ braucht man im Durchschnitt von irgendeiner Seite zu irgendeiner anderen Seite?
Und ich muss sogleich sagen, dass ich diese Frage NICHT direkt (!) beantworten kann, denn dafuer habe ich die Daten nicht.

Fuer eine direkte Beantwortung waere es fuer jede Seite nøtig zu wissen, wann diese von jeder anderen Seite gesehen wird. Theoretisch kann man diese Information sammeln, das wuerde aber ein (dreidimensionales) Datenfeld der Grøsze 6 Millionen zum Quadrat mal 100 erfordern … jede Seite zu jeder anderen Seite mal die Anzahl der erwarteten Linklevel.
Das ist der technische Grund gewesen, warum ich die Linkfrequenz einfuehrte (die sich spaeter auf verschiedenste Weisen als extrem erfolgreich herausstellte). Bei der Linkfrequenz handelt es sich um eine Art „Projektion“ (mit (gewaltiger) Informationsminderung) des originalen 3D-Datenfeldes auf nur 2 Dimensionen, was die benøtigte Grøsze um mehr als sechseinhalb Grøszenordnungen vermindert (nur noch 6 Millionen mal 100). Dennoch erfordert das immer noch ca. 2 GB Arbeitsspeicher … womit man sich ausrechnen kann, dass die originale Idee ungefaehr 10 Petabyte (!) RAM braucht. Sportlich, nicht wahr.
Jaja, man kønnte das originale Problem immer nur eine Seite auf einmal machen, dann reichen auch 2 GB RAM … aber das Ergebniss will ja auch gespeichert werden zur nachfolgenden weiteren Analyse … und da braucht man dann doch wieder die 10 Petabyte (nur nicht als RAM sondern auf der Festplatte).

Wieauchimmer, ich kann die Frage gluecklicherweise indirekt angehen und meiner Meinung nach auch zufriedenstellend beantworten. Dafuer sind endlich mal die neuen Links pro Linklevel von Interesse (die ja bisher eher weniger „fruchtbar“ waren) und (wieder einmal) die Linkfrequenz. Aber wie immer ist das zumindest in Teilen nicht so einfach.

Ich beginne mit der Anzahl der neuen Links pro Linklevel. Korrekter: mit der Summe dieser Grøsze ueber alle Seiten und das Ganze per Linklevel. Das wurde hier schonmal gezeigt und die diagrammisierte das bis LL10 mit linearer (linker) Ordinate in diesem Bild als schwarze Kurve nochmals (man beachte das schwarze (!) „x1012„, welches ausdrueckt, dass die Werte fuer die schwarze Kurve damit multipliziert werden muessen um die (tatsaechliche) Anzahl der neuen Links (pro Linklevel) zu erhalten … das ist aber im hiesigen Zusammenhang eher eine Formalitaet, da mich der Wert an sich ja gar nicht weiter interessiert):

Zur Erinnerung: von einer Urpsrungsseite ausgehend, druecken die neuen Links auf jedem Linklevel aus, wieviele von allen Links die ich auf dem gegebenen Linklevel sehe, auf keinem vorherigen Linklevel auftauchten. Das (bestimmte) Integral unter dieser Kurve ergibt dann die Anzahl aller Wikipediaseiten (unabhaengig von der Ursprungsseite). Das Integral der obigen schwarzen Kurve ist dann also die Anzahl aller Wikipediaseiten zum Quadrat (da die Kurve ja das Summensignal ueber alle Seiten ist).

Kurzer Einschub und Achtung: ich lasse in allen Betrachtungen diesbezueglich die Archipele auszer acht … die haben natuerlich ein grøszeres Integral weil die ja zumindest Teile des Archipels UND das grosze „Gesamtnetzwerk“ sehen, wohingegen die Seiten im Gesamtnetzwerk keine Archipelseiten sehen. Das sollte aber keinen all zu groszen Unterschied machen.

Wenn ich nun besagtes Summensignal durch das Integral unter der Kurve teile, dann erhaelt man den durchschnittlichen Anteil der Wikipediaseiten die eine Seite auf einem Linklevel NEU sieht. Wenn man das dann von einem Linklevel zum naechsten aufaddiert, so sagt dieser kumulative Anteil ganz direkt und ohne Umschweife aus, wieviel Prozent aller Wikipediaseiten im Durchschnitt bis zu dem gegebenen Linklevel gesehen wurden.

Dieser kumulative Anteil ist in der roten Kurve dargestellt und der geht natuerlich bis 100 % (mehr als alle Seiten sehen geht nicht). Fuer die (nicht gestellte) Frage des allerersten Beitrags von Interesse ist, wenn dieser kumulative Anteil 50 % ueberschreitet; wenn es also einem Muenzwurf entspricht, ob bei einer gegebenen Ursprungsseite eine andere Seite schon erreicht wurde.

An der roten Kurve kann man ablesen, dass das im Durchschnitt zwischen dem dritten und vierten Linklevel passiert. Wobei der Wert auf LL3 mit 35 % bereits recht grosz ist und meine Stichproben aus dem allerersten Beitrag …

[…] nach mehreren Versuchen [habe ich] immer drei Verbindungen (in seltenen Faellen zwei oder vier) [erhalten] …

… zu bestaetigen scheint.

Kurzer Einschub: sixdegreesofwikipedia.com benutzt die gesamte Wikipediaseite um die Wege zwischen zwei Seiten zu finden zu finden; also auch die langen Listen mit oftmals nichtmal relatierten Links die am Ende einer Wikipediaseite auftauchen. Ich hingegen schmeisze insbesondere (aber icht nur) Letztere bei meiner Analyse raus, weil mich nur die „Konversation“, also der eigentliche Text, interessiert. Das hat zur Folge, dass der kumulative Anteil „meiner“ Wikipedia ein bisschen nach rechts verschoben sein sollte, weswegen die rote Kurve auf LL3 erst 35 % hat, waehrend mir die Stichproben das Gefuehl geben, dass ich schon ueber 50 % lag.

So weit so gut. Das ist aber nur die eine Richtung; wieviele Schritte muss eine Seite im Durchschnitt machen um irgendeine andere Seite zu sehen. Im Durchschnitt sollte das auch andersrum gelten, also wieviele Schritte muessen ANDERE Seiten machen um die eine Seite zu sehen …

… aber fuer spezifische Seiten gilt das nicht zwangslaeufig. So braucht man drei Schritte um von Magdeburg nach Pencil zu gelangen, aber man schafft den Rueckweg mit nur zwei Schritten

Hier kommt nun die Linkfrequenz ins Spiel, denn diese misst auf welchen Linklevel eine gegebene Seite von anderen Seiten gesehen wird (also der „Rueckweg“ der Situation die den neuen Links entspricht). Leider schlaegt die oben erwaehnte Informationsminderung (die vonnøten war um eine derartige Grøsze ueberhaupt zu messen) hier voll zu. Die Interpretation der Daten scheint zwar einfach und „geradeaus“, aber das muss im Detail betrachtet werden, damit man auch wirklich versteht, warum das rauskommt, was rauskommt.
Weswegen ich das auf das naechste Mal verschiebe.

Auf Seite 109 in seiner Wissenschaftliche[n] Selbstbiographie schreibt Max Planck das Folgende:

[…] exact science demands more than a gift of intuition and willingness to work hard. It demands also very involved, painstaking, tedious attention to details […].

Gleich darauf folgt:

[…] when the pioneer in science sends forth the groping feelers of his thoughts, he must have a vivid intuitive imagination, for new ideas are not generated by deduction, but by an artistically creative imagination.

Und das erinnerte mich zum Ersten an den einen kleinen Balken in einem Wald von Balken der ein bisschen høher war als erwartet und wo mein Magengefuehl mir sagte, dass da was sein muss. Aber erst ein „tedious attention to details“ gekoppelt mit „a vivid intuitive imagination“ brachte die „Archipele“ zum Vorschein.
Ich wollte da zunaechst mit dem beruehmten „zehn Prozent Fehler“ drueberbuegeln und mich nicht weiter beschaeftigen … zum Glueck gewann der Wissenschaftler in mir die Oberhand.

Zum Anderen gilt das Gleiche bzgl. des (damals so bezeichneten) São Paulo FC-Artefakts. Dieses war letztlich nur der Anfang fuer meine (sicher oftmals) ermuedende Aufmerksamkeit fuer Details und befeuerte (spaeter) meine Fantasie welche dann die „Familien“ sichtbar machte.

Das sind nur die zwei grøszten (mglw. gar besten) Beispiele. Insgesamt sind diese beiden Mechanismen bei so ziemlich allen Sachen, die ich innerhalb der Kevin Bacon Maxiserie behandel(t)e (aber nicht nur da), am Werk gewesen. Natuerlich in unterschiedlicher Auspraegung und ich vermute (befuerchte), dass (leider?) die Detail“verliebtheit“ viel haeufiger in den Beitraegen auftritt als die Phantasie.

Bei den linklevelabhaengigen Verteilungen der totalen Links hatten wir einen Fall, bei dem die „integrierten log-log-Plots“ nicht so „funktioniert“ haben wie ich das bei allen anderen Beispielen gesehen habe. Aber das war erwartet, weil schon bei den urspruenglichen Untersuchungen nix rum kam. Im Allgemeinen konnte man sehen, dass dieser Ansatz zu mehr oder weniger guten Geraden fuehrt und (mit sinnvollen Abstrichen) haut das schon ganz gut hin.

Ein unerwartetes, im Wesentlichen nichts hergebendes Ergebniss erhaelt man mit dieser Methode, wenn man sich die Links auf LLi+1 in Abhaengigkeit von den Links auf LLi anschaut:

Im linken Diagramm sind, wieder in blassen Farben, die urspruenglichen (Roh)Daten und die wichtige (und ueberraschende) Information war hier, dass diese einen „Orbit“ beschreiben … DAS sieht man nun ueberhaupt nicht bei den integrierten Daten im rechten Diagramm.
Zunaechst kønnte man das ja mglw. darauf schieben, dass ja NUR die Ordinate integriert ist, aber mglw. muesste man das auch fuer die Abzsisse machen. Da tritt man dann zwar in ein „konzeptuelles Wespennest“, aber das hat mich nicht davon abgehalten mich damit mal ein paar Stunden zu beschaeftigen … das Resultat: das ist zwar anders als im rechten Diagramm, ist diesem aber aehnlich und hat auch keinen „Orbit“ zur Folge.
Auf den ersten Blick sieht es auch so aus, dass man hier nicht mal die Anstiege aus den Integralen richtig raus bekommt (aus dem Bereich vor den jeweiligen Plateaus). Wobei das aber hier bei den (totalen) Links vermutlich letztlich auch wieder nur daraus folgt, was ich zum ganz zuerst verlinkten Thema schrieb … das gehørt schlieszlich zusammen.

Interessant ist, dass das was ich hier im rechten Diagramm zeige, (mit Abstrichen) bei den Selbstzitierungen funktioniert. Das war so wenig ueberraschend, dass ich dazu beim letzten Mal nicht mal ein Bild zeigte und das in drei Saetzen schnell abhandelte.
Wenn man mal drueber nachdenkt, dann ist das aber nicht weiter verwunderlich, denn die Selbstreferenzen sind nicht von sich selber, sondern von der Anzahl der (totalen) Links abhaengig. Bei Selbigen hingegen ist die Anzahl direkt von sich selbst abhaengig … ach das ist alles kompliziert und vermutlich hat das auch gar nix miteinander zu tun … was einer der Gruende ist, warum ich das oben als „konzeptuelles Wespennest“ darstelle … jemand der schlauer ist als ich, kann das mathematisch sicherlich alles herleiten, ich will mir aber darueber nicht weiter den Kopf zerbrechen

Lange Rede kurzer Sinn: hier bringt der „Integralansatz“ nix.

Dann war da noch die Summe der totalen Links einer Seite ueber alle Linklevel:

Achtung: im rechten Diagramm ist die untere Abzsisse fuer die grauen und roten Daten und zeigt nur einen Ausschnitt der gesamten (integrierten) Daten (blaue Punkte). Fuer Letztere gilt die obere, blaue Abzsisse.
Und JA, auch im rechten Diagramm sind die Abzsissen logarithmisch. Hier draengt sich aber alles so sehr zusammen, dass das irrelevant ist.

Ich muss hier nicht viele weitere Worte drueber verlieren, denn es ist ziemlich eindeutig, dass hier auch mit dem „Integralansatz“ nix zu holen ist. Das gilt auch dann, wenn man die Grenzen des Integrals invertiert oder die ersten vier (dominierenden) Datenpunkte weg laeszt bei den Betrachtungen (ich hab’s naemlich versucht).

Als naechstes war da die Summe der Linkfrequenzen ueber alle Linklevel, von dem nur der „Archipelteil“ interessant war:

Das sieht ja erstmal knorke aus, ABER hier muss man vorsichtig sein … der Reihe nach.

Die gestrichelten Geraden sind wieder von Hand reingelegt und die Anstiege sind ca. 2.25 fuer die Rohdaten und ca. 1.125 fuer die integrierten Daten. Das haut also ganz gut hin.
Aufgrund von Diskrepanzen zwischen realen Daten und reiner Mathematik fallen die integrierten Daten bei Summenwerten von ueber 100 so stark ab. Wie schon vormals (nicht im Detail) diskutiert, liesze sich das „reparieren“ und dann liegen die auch auf der (gestrichelten, blauen) Gerade. Das ist also nur ein kleinerer Grund fuer die Vorsicht
Wichtiger ist, dass die „Huegel“ in den Rohdaten (auf der Abzsisse bei Werten von ca. 25 und 50) zu deutlichen Abweichungen von der Regressionsgeraden im integrierten Signal fuehren. Auch vormals gab es Abweichungen von der Geraden, aber waren das dann „glatte“ Kurven mit mehr oder weniger starker Kruemmung und ich meinte dann, dass man die Abweichungen parametrisieren (a.k.a. wegdiskutieren“ kønnte).

Lange Rede kurzer Sinn: der „Integralansatz“ ist zwar durchaus … ich sag jetzt mal: erfolgreich. Aber wenn man das genau macht, dann darf man bei solchen Faellen die (abrupten und signifikaten) Abweichungen vom Erwartungsbild nicht einfach in einen „Parameter“ packen, sondern muss das ordentlich betrachten und diskutieren … was ich hier nicht mache, weil ich keine Lust mehr habe.

Als Letztes dann noch ein paar Beispiele fuer die linklevelabhaengigen Histogramme bzgl. der Linkfrequenz pro Seite:

Zu meiner Ueberraschung ist hier (auf den ersten Blick) nuescht linear; weder bei normalen (linkes Diagramm) noch bei invertierten Grenzen (rechtes Diagramm) des Integrals.
Naja, bei invertierten Integralgrenzen gibt es zumindest fuer die ersten paar Linklevel mglw. lineare Teilbereiche, aber viel ist da nicht „zu holen“.
Auszerdem ist die Dynamik  im rechten Diagramm echt klein; die zugehørige Ordinate geht gerade mal ueber ein bisschen mehr als eine Grøszenordnung.
Lange Rede kurzer Sinn: der „Integralansatz“ kann hier vllt. ein paar Resultate liefern, die kønnen aber nicht auf den ganzen Datensatz verallgemeinert werden.

So, das soll genug sein fuer heute und mit dem „Integralansatz“. … … … Da hat es die letzten zwei Beitraege dann doch noch geklappt mit den …

[…] Artikel mit Bildern und (meist) nicht ganz so viel Text […]

… naja, fast … viel Text ist’s immer noch, aber ich handle ja doch recht viel ab in nur zwei Artikeln; relativ gesehen ist‘ also wenig Text … tihihi.

Ich bin ueber den „Integralansatz“ erst im Laufe der Maxiserie gestolpert und habe mir das erst jetzt zum Ende alles nochmal damit angeschaut. Es ist beruhigend, dass ich damit hauptsaechlich meine vorherigen Ergebnisse bestaetige (und ein paar neue Erkentnisse erhalte). Aber wie mehrfach erwaehnt, wollte ich nicht alles nochmal im Detail machen. Ich habe naemlich wirklich keine Lust mehr und freue mich darauf, diese Maxiserie nach fast drei Jahren abzuschlieszen.
Aber keine Sorge, Letzteres passiert noch nicht heute, denn ich møchte nochmal auf alles zurueck schauen und das wird dann mindestens noch ein (vllt. zwei) Artikel.

OIOIOI … das Ende des 20. Jahrhunderts war ’ne wilde Zeit (Wortspielkasse!) in der (Comic)Superheldenszene. Zum ersten Mal waren Kuenstler so sichtbar fuer die Comicleser, dass Erstere wenigstens ein bisschen ihre Interessen gegenueber den groszen Verlage wahren konnten.
Ein Schritt diesbezueglich war die Gruendung von Image Comics, in dem sich die bekanntesten Comicschaffenden (oder vielleicht eher: die kommerziell erfolgreichsten; aber da gibt es einen groszen Ueberlapp) zusammen schlossen und ihre eigenen Ideen (sozusagen) im Kollektiv verøffentlichten ohne die Rechte an den Figuren an den Verlag abtreten zu muessen.

Eins dieser Comics war WildC.A.T.s: Covert Action Teams

… was damals ein Knaller war. Entsprechend gut verkauften sich die (ersten) Hefte und die Comicleser waren ganz „heisz“ drauf.

Das lag zum einen natuerlich an den groszen Namen von denen das Comic stammte. Aber ebenso waren die Comics anders. Kein Verlag mit lange etablierten Charakteren „funkte dazwischen“. Deswegen hatten die Schøpfer freie Hand und haben die auch genutzt. Die Comics sind viel actionreicher und Frauen sind praesenter. Letzteres war ueberfaellig, aber da Comics nunmal (oft) ein vor allem von Maennern gelesenes Medium ist, sind die Frauen auch deutlich sexualisierter dargestellt (fuer ein Mainstream-comic).

Andererseits war das laengst nicht immer gut, dass die Kuenstler frei von den etablierten Verlagen waren und machen konnten, was sie wollten. Zum Einen stellte sich heraus, dass der „Redakteur mit der Peitsche“ durchaus nuetzlich ist, denn die einzelnen Hefte waren wieder und wieder verspaetet (zum Teil mehrere Monate). Durch besagte Freiheit hat sich damals so mancher Comicschaffende bei Image total in Nebenprojekten und anderen Sachen verzettelt.

Auszerdem litt die Qualitaet der Geschichten an sich … betraechtlich! Was mir natuerlich erst jetzt aufgefallen ist, wo ich alles in einem Rutch durchgelesen habe und nicht voll hibbelig auf die naechste Ausgabe bin. Immer nur Action bringt’s auf Dauer nicht. (Das wird gleich nochmal wichtig, aber ich muss erst etwas ausholen.)

In Dtschl. sind die Comics beim ehemaligen (beruehmt?) (beruechtigten) Splitter Verlag erschienen (ACHTUNG: der neue Verlag mit dem selben Namen hat NIX mit dem alten aus den 90’er Jahren zu tun!) … und die haben so viel Murks gemacht, dass sie die Lizenzen von heute auf morgen verloren haben. Dadurch ist bei mir mit Ausgabe 26 ganz pløtzlich Schluss … was ungluecklich ist, denn zu dem Zeitpunkt war Alan Moore der Schreiber bei WildC.A.T.s. Er sagt selbst, dass er das Geld brauchte und er gibt zu, dass es seine schlechteste Arbeit (ever) ist … da geh ich mit, aber es ist immer noch Alan Moore und er hat das ganze Superheldenteam und was bis dahin gemacht wurde umgekrempelt.

Im Vergleich zu vorher, war es pløtzlich (wieder) urst interessant.

Aber wie gesagt, war dann ganz pløtzlich Schluss mit WildC.A.T.s in Dtschl. … mitten drin in der spannenden Geschichte. … … … Schade Marmelade … … … aber manchmal fallen Sachen im Internet ja vom Laster und ich konnte doch noch alles bis zur finalen Ausgabe #50 lesen. Spoiler: nach Alan Moore wird es wieder sehr langweilig und ich war froh, als ich fertig war.

Zum Abschluss eine der komischen, nicht nachvollziehbaren Sachen, die Splitter gemacht hat. Die haben zu JEDER ihrer Comics ein Variantcover heraus gebracht. So viele ordentliche Variantcover gab es aber im Original natuerlich nicht und Splitter hat einfach nur (Teile von) Panels aus dem Comic genommen und vergrøszert. Meist sah das kacke aus … aber das hier …

… war eins der ganz wenigen Billigvariantcover, das mir gefallen hat … und das liegt nicht nur an der nett anzuschauenden Dame, sondern an der Gesamtkomposition des Bildes.

Genug fuer heute; beim naechsten Mal geht’s dann um ein anderes Comic aus dem Hause Image.

Da ich viele Phaenomene schon ausfuehrlich diskutiert habe, kann ich heute ein paar Sachen zu den Selbstzitierungen kurz abhandeln.

Auch wenn es vorher schon los ging, so ist hier erst dieser vorherige Beitrag relevant, in dem ich linklevelabhaengige doppellogarithmischen Histogramme systematisch zeigte. Das muss ich nicht nochmal im Detail wiederholen und zeige in diesem Diagramm …

… nur ein paar repraesentative (integrierte) Histogramme. Links (mit den blassen Farben) zur Wiederholung die „Rohdaten“ und rechts die integrierten Daten.

Eigentlich gibt’s hier nichts weiter zu sagen, denn wieder bestaetigen die integrierten Daten die vormaligen Resultate mit høherer Genauigkeit.
Ich hatte damals besprochen, dass bei den ersten Linkleveln der lineare Zusammenhang nicht all zu gut ist; hier sieht man, dass es gut genug ist mindestens ab LL4.
Ich habe die Anstiege nicht nochmal „vermessen“ (was ja vormals zu diesem ganz wunderbaren Resultat fuehrte), aber das sieht schon richtig aus und am wichtigsten ist ohnehin, dass die Anstiege mit zunehmendem Linklevel auch hier steiler werden.
Als Letztes ist noch zu sagen, dass man auch mittels Integralen nix machen kann, wenn da nix ist. Siehe die Daten zu LL19.

Danach hatte ich den Startpunkt fuer die Simulation mit den realen Daten verglichen. Das war damals sehr gut und ist auch bei den Integralen sehr gut. Ich habe da zwar ein Diagramm, aber der Informationsinhalt ist so trivial, dass ich das nicht nochmal zeigen muss.

Aehnlich schnell und ohne Diagramm kann ich abhandeln, wie die integrierten Daten der durchschnittlichen Anzahl der Selbstzitierungen auf LLi+1 in Abhaengigkeit von LLi aussehen. Wieder bestaetigen die integrierten Daten vorherige Resultate. Es liegt aber die gleiche Situation wie bei den durchschnittlichen Links pro Zitat vor. Deswegen muss ich das nicht nochmal im Detail besprechen und das zugehørige Diagramm ist auch nicht so spannend.

Als Letztes zu den Selbstreferenzen noch drei repraesentative Beispiele bzgl. der Seiten die von einem Linklevel zum naechsten „aussteigen“ aus der „Selbstreferenzkette“:

Die Daten sind gegeneinander verschoben und die „Rohdaten“ sind die Punkte mit den blassen Farben. Da man nur Phaenomene die bereits mehrfach besprochen wurden sieht, habe ich mir nicht mal mehr die Muehe gemacht „Regressionsgeraden“ von Hand rein zu legen … ich wollte das schlieszlich nicht alles nochmal machen, sondern nur gucken, was eine Integration zur Folge hat und das hier sieht alles gut und wie erwartet aus.

Das ging ja ausnahmsweise _wirklich_ mal schnell heute … fetzt ja.
Beim naechsten Mal schliesze ich die log-log-Plots ab und zeige ein paar Beispiele, bei denen eine Integration der falsche, oder zumindest ein nicht nuetzlicher Ansatz ist.

Zur Erinnerung: Økonomen behaupten, dass die 90’er Jahre in Japan eine „verlorene Dekade“ gewesen sind. Dieser Ausdruck wird gern ausgeweitet auf die zwei darauffolgenden Jahrzehnte. Der Grund dafuer liegt darin, weil die Wirtschaft Japans da nicht mehr so stark „gewachsen“ ist.

Auszer den von den Økonomen ueblicherweise herangezogenen Indikatoren (die im Wesentlichen aussagen, dass die Reichen immer reicher werden … etwas ueberspitzt formuliert … aber nicht all zu sehr), gibt es aber noch andere Messgrøszen, an denen man den Zustand eines Landes „ablesen“ kann.
Dank dieser Quelle konnte ich mir davon ein paar anschauen und wie so oft ist das etwas komplizierter. Aber der Reihe nach (und aufgeteilt auf mehrere Beitraege).

Mit dem Begriff „verlorene Dekade“ verbinde ich, dass viele Menschen arbeitslos sind (mit besonderem Augenmerk auf die sog. Jugendarbeitslosigkeit). Und tatsaechlich, beide Messgrøszen sind erst seit ungefaehr 2018 wieder auf den Wert vom Ende der 80’er Jahre zurueck:

Da scheint also was an den „verlorenen Dekaden“ dran zu sein. Das Problem ist nun aber, dass die Arbeitslosenrate mitnichten erst am Anfang der 90’er Jahre anstieg. Vielmehr sieht es mir nach einem laenger andauernder Prozess aus, der mindestens schon 20 Jahre eher begann. Man sieht das an den Geraden im Diagramm. Diese legte ich zunaechst nur durch die Werte von Anfang der 70’er bis Ende der 80’er Jahre (durchgezogene Linien) und extrapolierte danach (gestrichelte Linien … und „extrapoliert“ ist ein piekfeines Wort um nicht „laenger ziehen“ sagen zu muessen … tihihi). Die Trendgeraden beschreiben die generelle Entwicklung verdammt gut, auch wenn es natuerlich (zum Teil sehr starke) Schwankungen darum gibt.

Der Anstieg der Arbeitslosenrate laeszt sich aufgrund des Bevølkerungswachstums nach dem 2. Weltkrieg und der so wichtigen (finanziellen) Emanzipation der Frauen erklaeren. Wobei ich nicht abschaetzen kann, wie stark letzterer Effekt in Japan war … mein Bauchgefuehl sagt mir, dass Japan doch noch eine sehr traditionelle Gesellschaft ist diesbezueglich.
Und hier schnappt die Falle bei solchen Statistiken zu: zur Arbeitskraft zaehlen naemmlich NUR Menschen die eine Arbeitsstelle haben, ODER (inklusives oder) die eine Arbeitsstelle haben wollen. Wenn eine Person das nicht møchte (bspw. aufgrund sog. „traditioneller“ Verhaeltnisse in denen der Mann arbeiten geht und die Frau zu Hause bleibt), dann zaehlt diese Person nicht zur Arbeitskraft … trotz der vielen nicht entlohnten Arbeit die von ihr (oder ihm) verrichtet wird.
Letzteres erklaert dann auch, warum die Kurven ab ca. 2012 (?) wieder runter gehen. Die vorherige Generation geht in Rente (sucht also NICHT mehr nach Arbeit); aufgrund der Entwicklung der Demographie in Japan werden diese aber nicht mehr vollstaendig ersetzt.

Worauf ich hinaus will: auch wenn es zunaechst scheint (!), als ob die Arbeitslosenrate fuer „verlorene Dekaden“ spricht, so denke ich, dass das bei genauer Betrachtung der Daten nicht haltbar ist, weil das auch viel einfacher und weniger „einzigartig“ mit einem lang anhaltenden Trend erklaert werden kann.
Økonomen wissen das im Uebrigen, weswegen ich bei Diskussionen um die „verlorene(n) Dekaden“ zwar was vom stagnierenden Wirtschaftswachstum aber nichts von den Arbeitslosenzahlen høre. Wuerde das naemlich als Argument gebraucht werden waere das viel zu einfach zu wiederlegen.

Ab und zu hørt man, dass die Wissenschaft nicht durch Akzeptanz vorwaerts schreitet sondern weil die Gegner eines neuen Gedankengebaeudes nach und nach sterben. Das wird auch Plancks Prinzip genannt und ich hatte das in diesem Weblog schon mindestens zwei Mal erwaehnt.

Aber bis vor Kurzem wusste ich nicht wo oder in welchem Zusammenhang er das sagte. Bis ich ueber seine Wissenschaftliche Selbstbiographie stolperte. Der Volltext war zunaechst unheimlich schwer aufzutreiben, das Internet Archive konnte dann aber zum Glueck (wie so oft) liefern … aber so richtig gut origanisiert ist das Wissen dort leider nicht … bzw. denke ich, dass das Wissen vermutlich gut organisiert ist, die Suche hingegen ist wenig hilfreich … zumindest dann, wenn man nur mal kurz was sucht … ich gab schon fast auf.

Wieauchimmer, in besagtem Buch auf den Seiten 33 und 34 findet sich das Original (auf englisch; wobei ich denke, dass er’s urspruenglich auf dtsch. sagte, aber den dtsch. Text wollte ich nun nicht auch noch suchen):

A new scientific truth does not triumph, by convincing, its opponents and making them see the light, but rather because its opponents eventually die, and a new generation grows up that is familiar with it.

Weil das einer der Sprueche ist, die es (verkuerzt, wenn auch nicht sinnentstellt) ins kulturelle Unterbewusstsein geschafft haben (zumindest in meinem sozialen Habitat), wollte ich hier die Quelle mal festgehalten haben.