Archive for the ‘Allgemein’ Category

In den vorherigen Beitraegen habe ich untersucht, wie schnell man (im Durchschnitt) von den spezifischen Seiten einer Untergruppe zu irgendeiner (!) anderen Seite kommt … u.U.

Eine Sache die von Interesse ist kann ich leider nicht untersuchen: wie schnell kommt man von den spezifischen Seiten einer Untergruppe zu den spezifischen Seiten einer anderen Untergruppe … u.U. Ich wuerde bspw. vermuten, dass ich am schnellsten von Seiten mit vielen Links zu Seiten mit vielen Zitaten komme.
Die dafuer nøtige Information faellt bei der Netzwerkanalyse an. Die konnte aber leider nicht gespeichert werden, denn das wuerde ca. 100 TB erfordern. Ich hatte schon angefangen und das programmiert, denn ich hatte ein paar Ideen, wie man die Information verlustfrei (!) komprimieren kønnte … ich habe mir also meinen eigenen „Zip“-Algorithmus ueberlegt. Ich war maechtig stolz auf die Ideen die ich hatte, aber leider ist die Entropie in den entsprechenden Daten so grosz, dass ich das Datenvolumen auf maximal 1/3 reduzieren kønnte. Ungefaehr 30 TB sind immer noch zu viel. Dies insb. im Lichte dessen, dass erstens die Ergebnisse vermutlich nicht viel mehr Erkentnissgewinn zur Folge gehabt haetten, als das was ich mittels der neuen Links und der Linkfrequenz herausbekommen habe, ich zweitens nicht gewusst haette, was ich sonst noch mit den Daten machen soll, und dass ich drittens dann die gesamte (mehrmonatige) Netzwerkanalyse nochmal haette durchlaufen lassen muessen.

Anstatt dessen schau ich heute mal, wie ein „Nutzererlebniss“ aussieht, denn das ist ja doch anders als die abstrakten Betrachtungen vorher … naja … abstrakt bleibt es vermutlich, denn ich zeige immer noch Diagramme.

Da ich ein Nutzer der Wikipedia (meist mehrfach pro Tag) und ganz normal[Citation needed] bin, nehme ich meine eigene Erfahrung diesbezueglich als repraesentativ an.
Zunaechst ist dann zu sagen, dass ich praktisch gesehen die meistzitierten Seiten nie aufrufe. Klar, die laenderspezifischen Seiten sind sicherlich interessant fuer Millionen von Schulkindern pro Jahr, aber danach schauen die auch nie wieder drauf. Sicher, Japan schaute ich mir an im Zuge der Vorbereitung auf meine grosze Reise im Jahre 2023; aber Letztere war auszergewøhnlich und ich habe die Seite nie in einem anderen Zusammenhang besucht.
Desweiteren schaue ich mir nie die am wenigsten zitierten Seiten an … auszer im Rahmen dieses Projekts, da habe ich buchstaeblich tausende von denen gesehen. Aber ansonsten wuerde ich nie im Leben drauf kommen mich ueber Bacon in Ohio zu informieren.

Vielmehr schaue ich als Nutzer nach „normalen“ Seiten … hier ’ne Stadt … dort ’ne Person … und ab und zu mal ein Dingens (sehr weitgefasst). Beispielhaft dafuer nehme Kevin Bacon (wen auch sonst), das durch Monty Python beruehmt gewordene Trondheim, das Erzbistum Magdeburg und den guten alten Bleistift.

In diesem Diagramm zeige ich mittels der farbigen Baender nochmals die Bereiche der sechs Untergruppen und wie sich die vier Beispiele dazu verhalten:

Interessant! Ich haette nicht erwartet, dass Trondheim so beliebt ist.
Wieauchimmer, man sieht, dass die von mir als „normal“ empfundenen Seiten das zumindest teilweise mglw. gar nicht sind. Pencil und Kevin Bacon liegen bzgl. der Anzahl der Zitate von andere Seiten in der „mittelvielen“ Gruppe (die ich unterbewusst als „normal“ betrachte … hier sieht man aber einen der Gruende, warum ich fuer den Namen der Gruppen dieses Adjektiv nicht benutzen wollte). Man kønnte argumentieren, dass sie nahe genug an der gleichen Gruppe bzgl. der Anzahl der Links liegen, denn prinzipiell kønnte man da auch etwas (mehr) Spielraum einraeumen, wenn man die Grenzen fuer die Gruppen festlegt. Diese Argumentation kønnte man auch fuer Magdeburg vornehmen (auch bzgl. der Zitate), aber definitiv nicht fuer Trondheim. Letzteres liegt genau zwischen zwei Gruppen bzgl. beider Charakteristika.

Ganz schøn viele „kønnte“ in obigen Saetzen. Letztlich ist das aber nicht so wichtig. Fuer mich sind das „normale“ Seiten und ich wollte nur mal schauen wo die liegen. Von Interesse sind die kumulativen Anteile:

Bemerkung: mit „Zitate“ meine ich natuerlich die Linkfrequenz, aber das ist so viel zu schreiben und ich wollte es nicht abkuerzen … und das Diagramm war schon fertig … und so schlimm ist das nicht, denn Letztere kommt ja wegen Ersteren zustande.

OI! … alle vier Beispiele werden ungefaehr ein Linklevel „schneller“ von anderen Seiten gesehen (kumulativer Anteil Zitate, helle Kurven), als dass sie andere Seiten erreichen (kumulativer Anteil neue Links, nicht-helle Kurven) … *kurzer Blick auf das erste Diagramm* … das sollte mich eigtl. nicht verwundern, denn alle Beispiele haben (signifikant) mehr als Links als Zitate.

Wenn wir mal zur Analyse der Untergruppen zurueck schauen, so liegt der „50-Prozent-Uebergang“ der Beispiele bzgl. der Links an ca. der Stelle der Untergruppen mit den vielen Links / Zitaten. Das ist interessant, denn einige der obigen „das kønnte man auch dort und dort einordnen“ tendierten eher zur Untergruppe mit den „mittelvielen“ Links. Andererseits sprechen wir hier von vier Beispielen im Vergleich zu einer Gruppe mit ueber 2 Millionen Seiten.
Bzgl. des kumulativen Anteils der Linkfrequenz liegen die Beispiele zwischen den Untergruppen mit vielen bzw. mittelvielen Zitaten; Kevin Bacon und Pencil liegen naeher an Letzterer waehrend Trondheim und Magdeburg naeher an Ersterer liegen … was dem Erwartungsbild (nach dem ersten Diagramm) entspricht.

Alles in allem erwartete ich bei den vier Beispielen nix fundamental Unerwartetes und das ist dann auch eingetreten.

SO … nun aber … jetzt bin ich wirklich durch und beim naechsten Mal fang ich tatsaechlich (und endlich?) an „zusammen zu packen“.

Beim inflationsjustierten Wachstum der Gehaelter in Japan hab ich sie gefunden, die „verlorenen Dekaden“:

Ach du Kacke! … war da natuerlich meine erste Reaktion, denn das duempelt seit 1998 um ca. den Wert Null rum! Und die 5 Jahre vorher lag es im Schnitt auch nur bei ein bisschen ueber 1 %. Und in den 10 Jahren davor wurde gerade mal die Inflation ausgeglichen. Andererseits war das vermutlich nur eine Rueckkehr zum Normalzustand im Vergleich zum Jahrzehnt davor. Und dann hab ich keine Daten mehr.

Nun ist das aber nicht all zu verwunderlich, denn geringes Gehaltswachstum ist ein Kennzeichen einer Deflation und Japan hat seit Jahrzehnten Deflation. Desweiteren muss das prinzipiell auch nicht schlecht sein. Wenn die Lebenshaltungskosten gering und stabil sind, dann braucht man naechstes Jahr nicht mehr Geld als dieses Jahr … und bei ’ner Deflation steigen die Preise nicht (die kommt aber mit anderen Nachteilen).

Dennoch ist’s natuerlich eine gigantische Sauerei, wenn man den Zuwachs der Produktivitaet bedenkt. Aber so ist das ja eigtl. ueberall auf der Welt; die Arbeiter produzieren mehr, werden dafuer aber nicht proportional mehr entlohnt … ich sag da jetzt mal nicht mehr dazu … *seufz*

In dieser Analyse (PDF) wird das Phaenomen des langanhaltenden (nicht vorhandenen) Trends des Gehaltswachstums untersucht. Das ist recht informativ und der Autor geht auch auf etliche (durchaus plausible) Erklaerungsversuch ein. Aber Achtung! Das ist vom IMF … man muss also bei (fast) jeder Formulierung mitdenken um nicht deren Agenda all zu sehr auf den Leim zu gehen.

Wieauchimmer, letztlich zeigen die Daten, dass das auch hier wieder langanhaltende Trends sind und das was die (Vulgær)Økonomen mit „verlorene(n) Dekade(n)“ versuchen herbeizureden kann ich eigtl. auch hier nicht sehen.

Damit schliesze ich das Unterthema ab und komme beim naechsten Mal endlich wieder zur Japanreiseberichterstattung zurueck :) .

Nach den langen Erklaerungen vom vorletzten und letzten Mal kann ich heute die Betrachtungen bzgl. der Inter- und Intragruppenunterschiede der kumulativen Kurven der Untergruppen mit den vielen Links / Zitaten (UVL / UVZ) …

… tatsaechlich ziemlich kurz halten. Dafuer zeige ich sofort die Histogramme …

… und muesste vermutlich gar nicht viel weiter dazu sagen.

Die schwarze und graue Kurve liegen (beinahe) aufeinander, weil die allermeisten Seiten der UVL aehnlich viele Links haben wie ein signifikanter Anteil der Seiten der UVZ. Die schwarzen Balken gehen naemlich sehr schnell runter. Deswegen wuerde ich vermuten, dass die allermeisten Seiten der UVL eher 10 als bspw. 15 Links haben. Und 10 ist gar nicht so weit weg von den 5, 6 oder 7 Links, welche die meisten Seiten der UVZ haben. Auszerdem sieht man bei genauem Hinschauen ja auch, dass die schwarze kumulative Kurve ein klein bisschen høher liegt als die graue kumulative Kurve. So qualitiativ betrachtet passt das schon mit Hinblick auf dessen, was ich beim letzten Mal schrieb.

Die rote kumulative Kurve liegt nun unter der schwarzen kumulativen Kurve, weil im roten Histogramm betraechtliche Anteile (weit) links von 1000 Zitaten (dem høchsten Balken im schwarzen Histogramm … auch wenn dort die Links gezaehlt werden) liegen. Bzgl. der hellroten Kurve gilt umgekehrt (also høher und rechts) das Gleiche.

Und hier offenbart sich dann auch, warum der UVZ / UVL Intergruppenabstand der kumulativen Kurven berechnet aus der Linkfrequenz so grosz ist, dass ich diese Betrachtungen ueberhaupt erst anstellen musste. Die meisten Seiten der UVZ haben zehntausend Mal mehr Zitate als die meisten Seiten der UVL. Das Maximum des roten Histogramms liegt bei null, aber auch ein oder zwei Zitate sind nicht viel, verglichen mit den mindestens zehntausend Zitaten die alle Seiten der UVZ haben.

Toll wa! So schnell geht das bei guter Vorbereitung.

Wenn ich sage, dass Doom Turing-komplett ist, dann meine ich damit (oder vielmehr der Autor von dem ich das geklaut habe mich habe inspirieren lassen) dass man ein Doom-Level derart bauen kann, dass alles was passiert das gleiche Resultat zur Folge hat, wie logische Bauelemente.

In kurz, hat der Autor ein Level gebaut, in dem die Bewegung von (zur Vereinfachung erstmal nur zwei) Monstern stark eingeschraenkt ist. Im Wesentlichen kønnen die nur in einem Tunnel geradeaus laufen.
In einem Doom-Level kann man unsichtbare Linien installieren, die beim Uebertreten ein Ereigniss irgendwo anders ausløsen. Wenn die Monster von eben ueber so eine Linie treten, kann man die besagten Ereignisse so gestalten, dass eine Tuer die ein drittes Monster einsperrt geøffnet wird. Das waere dann ein OR-Gatter. Bei einem AND-Gatter muessen zwei Tueren geøffnet werden und bei einem NOT-Gatter muss eine Tuer geschlossen werden.
Dieses dritte Monster laeuft los (in die Richtung des Spielers) und ueberschreitet eine weitere Linie und diese løst dann das je nach Logikgatter richtige Resultat aus (in der Implementierung wird eine Saeule hoch oder runter gefahren).

Der Autor hat ein Video eines Halbaddierers als Machbarkeitsnachweis erstellt. … Geil wa!
Wie bei allen Beispielen hat die konkrete Implementierung Nachteile. Der grøszte liegt darin, dass aufgrund der Limitierungen von Doom an sich, allerhøchstens ca. 65-tausend von diesen Logikgattern in Doom selber implementiert werden kønnten … was aber wohl ausreichend waere fuer eine (SEHR) kleine CPU.

Mit diesem Leckerbissen schliesze ich die Miniserie ab. Es gibt natuerlich noch jede Menge andere Turing-komplette Systeme. Ich weisz aber keine mehr, bei denen das so dermaszen unerwartet ist, wie die vorgestellten Beispiele.

Weil ich beim letzten Mal alles so lang und breit erklaert habe, kann ich sofort und ohne viel Aufhebens (oder nochmalige Wiederholung) daran anknuepfen und zeige ohne Umschweife die kumulativen Kurven fuer die Untergruppen mit den mittelvielen Links / Zitaten (UWL / UWZ):

Rein qualitativ wuerde ich daraus die folgenden Dinge vermuten bzgl. der Histogramme. Weil die beiden schwarzfarbigen Kurven beinahe aufeinander liegen, sollten die Histogramme fuer die Links in den wesentlichen Eigenschaften gleich sein fuer beide Untergruppen. Die rote Kurve schmiegt sich anfangs sehr an die beiden zuvor genannten Kurven an. Deswegen wuerde ich vermuten, dass auch das entsprechende Histogramm der Zitate der UML den vorherigen beiden Histogrammen aehnlich ist.
Bzgl. der Verteilung der Zitate der UMZ wuerde ich denken, dass diese „rechtslastig“ ist, im Vergleich zu den anderen drei Verteilungen, weil die kumulative Kurve erhøht ist. Aber genug der vielen Worte hier sind die Histogramme:

Ich bleibe bei einer qualitativen Diskussion der Ergebnisse und auf den ersten Blick scheint alles so zu sein wie oben vermutet. Der jeweils høchste schwarze und graue Balken sind an der gleichen Stelle und das Histogramm entwickelt sich auch aehnlich.
Der høchste rote Balken liegt nur um einen „Eimer“ daneben und entwickelt sich auch aehnlich. Das wuerde mich nicht wundern, wenn ein so geringfuegiger Unterschied im Histogramm bei den kumulativen Kurven keinen groszen Unterschied hinterlaeszt. Ob eine Seite nun 10 oder 20 neue Links sieht … vom Bauchgefuehl haut das schon hin.
Die grøszte Schwierigkeit scheint darin zu liegen zu erklaeren, warum die hellrote kumulative Kurve sich nicht auch an die anderen Kurven anschmiegt. Die Histogramme sehr doch aehnlich aus, ja der høchste Balken ist an der selben Stelle. Ich denke, dass die Erklaerung darin zu suchen ist, dass es keine hellroten Balken links von 20 Zitaten gibt, waehrend alle anderen Histogramme dort doch betraechliche Anteile haben (was die kumulativen Kurven entsprechend „runter zieht“).

Nun schrieb ich im letzten Satz das Wort „scheinbar“ nicht umsonst, denn die eigentliche Schwierigkeit sieht man erst beim genaueren hinschauen: auch wenn das Maximum des schwarzen und des grauen Histogramms an der selben Stelle ist, so sind die grauen Balken rechts davon doch ungefaehr immer doppelt so hoch wie die schwarzen Balken. Wenn man da mal drueber nachdenkt, dann sollte das doch zu einer høheren kumulativen (grauen) Kurve fuehren, … tut es aber augenscheinlich nicht.
Das bereitete mir erhebliches Kopfzerbrechen und ich musste von einer qualitativen Betrachtung zumindest zu einer teilweisen quantitativen Betrachtung uebergehen um die Erklaerung fuer das NICHTvorhandensein von etwas Erwartetem zu finden  … aber der Reihe nach.

Zunaechst verweise ich auf die beiden Diagramme vom letzten Mal und zur vereinfachten Diskussion beschraenke mich auf die Daten fuer die neuen Links (das Folgende ist aber analog bzgl. allem was mit der Linkfrequenz zusammen haengt).
Die kumulativen Kurven gehen etwas, aber nicht weit auseinander. Die Kurven sind aber definitiv nicht (beinahe) deckungsgleich wie hier. Bei den entsprechenden Histogrammen sieht man, dass es sehr viele (und hohe) grauen Balken rechts vom Ende der schwarzen Balken gibt. Genauer gesagt haben ca. 75 % aller Seiten der UMZ mehr Links als die Seiten der UML. Das ist betraechtlich.
Fuer die kumulativen Kurven zaehlt aber letztlich nicht nur der Unterschied in der Anzahl der Seiten, sondern das Produkt aus der Anzahl der Seiten in jedem „Eimer“ mit der Anzahl der Links fuer die dieser „Eimer“ steht. Oder anders: jede Seite im høchsten grauen Balken (Anzahl Links = 10 bis 20)  ist doppelt bis viermal so viel „wert“ wie die Seiten im letzten schwarzen Balken (Anzahl Links = 5).

Worauf ich hinaus will ist der Fakt, dass die Histogramme doch schon DEUTLICH unterschiedlich sind, es aber dennoch nur zu einem relativ geringen Abstand in den kumulativen Kurven fuehrt. Damit kann ich zurueck zur obigen Schwierigkeit gehen.
Ca. 65 % der Seiten der UMZ sind in den (grauen) Balken rechts vom Maximum des Histogramms „einsortiert“. Fuer die Seiten der UML liegt der Wert bei ca. 45 %. Das ist ein Unterschied von gerade Mal 20 %. Klar, 20 % ist schon nicht mehr wenig. Andererseits kommt der Name des „ca.-10-Prozent-Fehlers“ nicht von irgendwo her; alles was nur so wenig von den Erwartungen abweicht ist schwer vom „Rauschen“ zu unterscheiden … und 20 % ist gerade mal doppelt so grosz. Auszerdem kann man in der grauen kumulativen Kurve ja auch eine kleine „Erhøhung“ erkennen … nur eben nicht so deutlich wie im entsprechenden Diagramm vom letzten Mal.

Ich brauchte Stunden (und musste eine Nacht drueber schlafen) um darauf zu kommen … wobei ich viel Zeit damit verbracht habe erstmal nochmal alles auszurechnen und das entsprechende Programm auf Fehler zu ueberpruefen, weil ich dachte, ich hatte irgendwo einen gemacht. Aber so ist das nun Mal, wenn man nach Wissen strebt und es bereitet mir trotz des vielen Haare raufens grosze Freude :) .
Wieauchimmer, ich nehme aus den hier sehr kurz gehaltenen Betrachtungen mit, dass die Unterschiede in den Verteilung ziemlich grosz sein muessen, um wenigsten moderate „Spuren“ in den kumulativen Kurven zu hinterlassen.
Das ist aber auch gut so, denn dadurch wird meine Aussage, dass ein Unterschied von einem Balken nicht so viel ausmacht, direkt (oder indirekt … ach ich will da jetzt nicht drueber nachdenken) bestaetigt.

Ebenso ist das auch nicht gegenteilig zu dem was ich oben bzgl. der jeweils hellroten Balken / Kurve schon sagte. Bei der schwarzen und grauen Kurve liegen jeweils ca. 20 % der Seiten links vom høchsten Balken, waehrend es ueberhaupt gar keine hellroten Balken dort gibt. Die rosa Kurve wird also in keinster Weise von solchen „kleinteiligen“ Anteilen „herunter gezogen“. Hinzu kommt, dass bei genauer Betrachtung die hellrote kumulative Kurve anfangs ja dann doch gar nicht all zu weit weg ist von bspw. der schwarzen kumulativen Kurve. Qualitiativ wuerde ich sagen haut das alles hin und mein Bauchgefuehl sagt mir, dass die obige Erklaerung bzgl. des Nichtvorhandenseins eines groszen Unterschieds zwischen der grauen und der schwarzen kumulativen Kurve nicht geaendert werden muss.

Uff, jetzt ist das doch so viel geworden … naja … dann muss die Erklaerung fuer die groszen Intragruppenunterschiede der UVL und UVZ (welche diese Betrachtungen ja ueberhaupt erst herbeifuehrten) noch bis zum naechsten Mal warten.

Man kennt das ja, ein Diagramm wird gezeigt und irgendwer dem das nicht in’n Kram passt (oder der’s nicht versteht sich aber (pseudo) intellektuell geben will) sagt dann sowas wie „nur weil es auf dem Land mehr Størche gibt und auf dem Land mehr Kinder geboren werden, heiszt das nicht, dass Størche die Kinder bringen“ … oder „die Dinosaurier konnten nicht lesen und jetzt sind sie ausgestorben, das bedeutet aber nicht, dass sie ausgestorben sind, weil sie nicht lesen konnten“ … oder „der Wind weht kraeftiger, wenn die Windturbinen sich schneller drehen, das bedeutet aber nicht, dass Windturbinen Wind produzieren“ … oder „je mehr Eis am Strand verkauft wird umso mehr Menschen ertrinken, das bedeutet aber nicht, dass Eis dafuer verantwortlich ist, dass Leute ertrinken“ … usw. usf.

Und bei diesen Beispielen gebe ich den erwaehnten Personen sogar Recht … es sind aber alles reichlich bekloppte (wenn auch sehr illustrative, den Punkt der Kritik klar machende) Beispiele die mir in die Haende spielen bzgl. dessen, was ich mit diesem Beitrag ausdruecken will.

Zunaechst sollte ich sagen, dass es richtig und voll gut ist, dass Leute sich bewusst sind, dass man bei Diagrammen gut aufpassen muss. Leider werden (pseudo)wissenchafltiche Resultate oft genug derart verpackt, sodass sie authoritaer aussehen um damit Menschen ohne wissenschaftliche (Grund)Ausbildung (und oft genug auch solche mit; ich mag mich davon nicht ausnehmen) von bestimmten (meist falschen) Behauptungen zu ueberzeugen. Dagegen ist zurecht die Aussage cum hoc ergo propter hoc — Obacht! Scheinkausalitaet! — anzufuehren!

Was in den Faellen in denen die Kritik berechtigt ist fehlt, sind plausible (und ehrliche!) Modelle, die den behaupteten Zusammenhang erklaeren kønnten. In ernsthaften (und ehrlichen) wissenschaftlichen Publikationen wird so’n Quatsch aber gar nicht erst gezeigt, eben weil man kein plausibles Modell dafuer finden wuerde. Vielmehr werden Diagramme erst dann verøffentlicht, wenn andere, unabhaengige Variablen gefunden sind, die dann einen (modellabhaengigen) Kausalzusammenhang plausibel machen.
Das bedeutet NICHT, dass ein Modell welches die Daten plausibel erklaeren wuerde auch richtig ist. Und selbst wenn es das ist, so bedeutet das dennoch NICHT, dass ein einziges Diagramm ausreicht um die Richtigkeit zu beweisen. Aber ich will hier nicht abschweifen.

Worauf ich hinaus will ist, dass man, wenn man ein Diagramm sieht und ein Kausalzusammenhang behauptet wird, sehr oft erstmal davon ausgehen sollte, dass das so stimmt.
Es sei denn wenn man:
– ein besseres Modell hat, welches die Daten besser erklaeren wuerde (bspw. dass mehr Leute an heiszen Tagen Eis essen UND baden gehen, wenn aber mehr Leute baden gehen, dann ertrinken auch mehr Menschen),
– bessere Daten hat (bspw. Windmessungen in Gebieten ohne Windturbinen ODER ausgeschaltete Windturbinen bei all zu starkem Wind), oder
– ein Schwurbler die (zu kritisierende) Behauptung aufstellt … Schwurbler (Klimaspinner, Impfspinner, Scheisz-Nazis etc. pp.) benutzen aber leider oft genug richtige Daten, interpretieren die aber dann nur so, wie es denen in den Kram passt (haben also ein Modell, das nur in derem Weltbild richtig ist … was (schon wieder) eine gute Ueberleitung zu einer massiv Abschweifung waere).

Andererseits bin ich auch verwøhnt mit dem was ich aus der Physik kenne … ich hoffe aber, dass die Wissenschaftler bspw. in der Psychologie oder der Soziologie einem aehnlichen, wissenschaftlichen Ethos unterliegen … bzw. weisz ich, dass der Mechanismus der wissenschaftlichen Selbstkorrektur ueber laengere Zeitraeume ganz gut funktioniert (und davon ist die Physik (trotz i.A. guter Daten und Modelle) nicht ausgenommen).

… … …

Jetzt aergert’s mich, dass ich hier mehr bzgl. dessen schreibe was ich eigtl. kritisiere. Das liegt natuerlich daran, weil heutzutage so urst viel Quark behauptet wird und man bei Daten und Diagrammen aufpassen muss.
Deswegen schliesze ich so ab: die Person von ganz oben hat einen durchaus berechtigten Punkt; aber dieser muss natuerlich ebenso mit einer Begruendung (bspw. ein besseres Modell) untermauert werden, bevor der Warnung gefolgt und das urspruengliche Ergebniss verworfen wird.

In meiner Japanreiseberichterstattung schwoff ich in den letzten Beitraegen etwas ab, weil ich die Fetzigkeit des Landes nicht mit der oft gelesenen Aussage von Økonemen bzgl. Japans sogenannte(n) „verlorene(n) Dekade(n)“ in Einklang bringen konnte. Bisher konnte ich diesbezueglich eigtl. ganz gut zeigen, dass diese Aussage ziemlicher Quark ist, wenn man mal das Gesamtbild anschaut (und nicht nur, den Teilaspekt, wie reiche Leute noch schneller noch reicher werden kønnen).
Zwei Beitraege møchte ich noch bei dem Thema verweilen (bevor ich endlich wieder zur Reiseberichterstattung an sich zurueck kehren werde) und heute geht’s um die Produktivitaet; oder in lang (und all zu vereinfacht): dem Verhaeltniss der Menge aller produzierten Gueter zur Menge der dafuer benøtigten Arbeit

Diese Grøsze wird von Økonomen als super wichtig betrachtet … und von dem Wenigen das ich diesbezueglich weisz, gehe ich da (ausnahmsweise) mit. Mit dem Wissen wuerde ich bei der Phrase „verlorene(n) Dekade(n)“ denken, dass die Produktivitaet Japans in der Zeit nicht oder nur sehr schwach gewachsen, ja mglw. sogar schlechter geworden ist. Leider habe ich Daten dafuer erst ab Anfang den 90’er Jahren. Ich kann das also nicht mit dem Zustand davor vergleichen. Aber das deckt auf jeden Fall den in Frage kommenden Zeitraum ab und so sieht die Entwicklung dieser Grøsze aus („gemessen“ im Vergleich zum Oktober 2023):

Mhmmm … also mit Augen zudruecken (damit ich den kleinen Buckel nicht sehe) wuerde ich vielleicht sagen, dass die Produktivitaet Anfang der 90’er Jahre flach verlaeuft. Das waere interessant gewesen zu sehen, wie das vorher aussieht. Aber ab 1994 setzte dann ein (ueber) zehn Jahre anhaltendes Wachstum ein … was ja øhm … æhm … *Papierraschel* … mittendrin in den „verlorene(n) Dekade(n)“ liegt.

Der starke Einbruch folgt den Geschehnissen der Finanzkrise 2007-2008, aber die Produktivitaet erholt sich dann schnell bis 2009 wieder auf (beinahe) „Vorkrisenniveau“ um seitdem (relativ) stabil zu bleiben. Letzteres ist im vorherschenden Wirtschaftsparadigma des ewigen Wachstums tatsaechlich beunruhigend, denn da passiert im Wesentlichen nix nun schon seit 1 1/2 Dekaden. Andererseits ist das ja ohnehin eine offene Frage, ob das anhaltende Wachstum immer so weiter gehen muss … es ist definitiv KEINE offene Frage, ob das immer so weiter gehen kann, denn die Antwort darauf ist definitiv ein klares NEIN! … Es sei denn es kommt wieder eine coole, in massiver Breite anwendbare Technologie von dir wir heute noch gar nix ahnen (wie der elektrische Strom vor ueber 100 Jahren, oder (mit signifikant minderer „Staerke“) der (Personal)Computer vor noch nicht ganz 50 Jahren).

Aber ich schweife ab. Die flache Kurve seit der Finanzkrise wuerde irgendwie in die „erweiterte“ Phrase der „verlorenen Dekaden“ (Plural) fallen. Das wuerde allerdings weiterhin voraussetzen, dass das schon vorher nicht so lief wie es „sollte“. Die Daten zeigen aber wiederum, dass dem nicht nur nicht so war, sondern dass es sogar innerhalb des vorherschenden Wirtschaftsparadigmas echt knorke lief in Japan.
Bei der Produktivitaet sehe ich (aufgrund des Datenmangels) keine seit langem anhaltenden Trends. Aber die Trends die ich sehe sind mitnichten kurzfristig und sprechen auch hier wieder weitestgehend gegen das Gebrabbel der Økonomen.

So, damit kann das auch „eingetuetet“ werden.

Im selben Supermarkt von neulich (der mit der Sitzmøglichkeit) gibt es auch eine supertolle Einrichtung, die von jung und alt mit groszer Freude benutzt wird:

Das ist der Korbfahrstuhl aus dem Titel. Den Korb (mit Rollen dran) schiebe ich rein und der faehrt ganz von alleine auf Arbeitshøhe. Fetzt wa! Leider gibt’s den nur an einer Kasse. Aber wenn da nicht zu viele Menschen anstehen, dann warte ich gerne etwas laenger um den benutzen zu kønnen :) .

Manche (viele?) Dinge die urspruenglich fuer alte Leute erdacht wurden sind auch voll toll fuer nicht ganz so alte Menschen :) .

Die beim letzten Mal vorgestellte Messstation stand dann auf dem Kuechentisch und ich liesz die ohne weitere Umschweife ueber ein paar Tage laufen um zu schauen ob das ueberhaupt funktioniert. Alle drei Minuten wurde eine Messung gemacht und das Ergebniss …

… uebertraf alle meine Erwartungen.

Das Gesamtbild ist schnell erklaert. Die Partikeldichtemessungen sind die schwarze (PM10) und die rote (PM2.5) Kurve. „PM“ steht fuer „Particular Matter“ und die Zahl gibt die Grøsze der gemessenen Partikel an. Wie man sieht, kann der Sensor Partikel zweier unterschiedlicher „Klassen“ messen. Man kønnte „Grøsze“ sagen, aber die Messung findet nicht nur fuer Partikel genau einer definierten Grøsze statt, sondern vielmehr werden bei PM10 (PM2.5) alle Partikel mit Grøszen unter 10 µm (2.5 µm) gemessen.
Und das ist alles was ich dazu fand … was total unbefriedigend ist, denn weder weisz ich ob die PM2.5 Partikel bei PM10 mit drin, wo die unteren Messgrenzen liegen. Die Nachteile eines kommerziellen Instruments, denn das soll halt nur eine Zahl ausspucken, damit durchschnittliche Nutzer und Nutzerinnen nicht verwirrt sind.

Letztlich ist’s auch nicht zu wichtig, ich will ja nur wissen, ob die (Fein)Partikeldichte bestimmte Grenzwerte ueberschreitet und wann dem so ist. Im obigen Diagramm sieht man, dass die Grenzwerte (nach europaeischem Standard) fuer moderate Luftqualitaet zwei Mal ueberschritten werden.
Mehr sage ich dazu heute nicht und ich schaue mir die Partikelereignisse in den naechsten Eintraegen genauer an um deren Ursachen herauszufinden.

Die Temperaturkurve ist von dem was gemessen wurde selbsterklaerend (… nun ja … unter Vorbehalt … aber das gehørt hier nicht her). Im Groszen und Ganzen liegt die Temperatur um ca. 22 °C. Die Spitzen nach unten sind schnell aufgeklaert, denn das ist wenn ich’s Fenster zum Lueften aufgemacht habe. Auch dazu erstmal nichts weiter, aber auch hier gibt es ein paar Detail die erklaerungswuerdig sind.

Die relative Luftfeuchte wurde auch gemessen, aber wegen verschiedenen (technischen) Gruende liefern  diese Messungen keine zusaetzlichen Informationen (bestaetigt aber in vielen Faellen die Ueberlegungen und Schluesse).

Alles in allem sind die zu diskutierenden Details fuer sich genommen nix Neues. Ich fand das aber recht spannend, weil dabei so schøn zu sehen ist, wie komplex das „Klima“ einer Wohnung ist und wie sehr das mit allem Møglichem interagiert, von dem man aber normalerweise (fast) nix mitbekommt. Deswegen geh ich da ab dem naechsten Mal etwas ins Detail..

Beim letzten Mal zeigte ich (unzureichend vereinfachend und zusammenfassend), dass Seiten mit wenigen Links im Durchschnitt laenger brauchen um zu einer beliebigen anderen Wikipediaseite zu gelangen als Seiten mit vielen Links. Unter Beruecksichtigung der „umgedrehten Situation“ gilt i.A. das Gleiche fuer Seiten mit vielen Zitaten.
Dafuer hatte ich alle Wikipediaseiten (paarweise) in Untergruppen eingeteilt und mir das Verhalten eben jener genauer angeschaut. Besagtes Verhalten ist wie erwartet, zeigt aber kleinere Abweichungen (und mindestens eine grøszere) die ich beim letzten Mal erwaehnte aber nicht weiter untersuchte (oder erklaerte).
Ebenso liesz ich (mit Absicht) einen wichtigen Vergleich weg, denn ich zeigte nicht, inwiefern die Resultate fuer die beiden „Richtungen“, aus denen das Verhalten des kumulativen Anteils der neuen Links bzw. der Linkfrequenz betrachtet werden muss, uebereinstimmen. Ueber alle Seiten betrachtet sind die entsprechenden Kurven (beinahe) deckungslgleich (und sollten es auch sein) … zumindest fuer die fruehen Linklevel bei denen „Mehrfachsichtungen“ in der Linkfrequenz noch (sehr) selten vorkommen und eben diese damit fuer einen solchen Vergleich noch nicht unbrauchbar gemacht haben.

Beide Sachen hole ich heute und beim naechsten Mal nach. Ich teile das auf zwei Artikel auf, denn ich beschraenke mich fuer diesen Artikel nur auf die Resultate fuer die Untergruppen mit wenigen Links bzw. Zitaten. Dies deswegen, weil ich zur Diskussion der Unterschiede (mal wieder) Verteilungen heranziehen muss, diese aber nicht auf die uebliche Art und Weise darstellen kann. Damit es dadurch nicht zu Verwirrungen kommt muss das genau diskutiert. Das macht den heutigen Artikel recht land und deswegen trenne ich das auf.

Aber nun Butter bei die Fische! Der Vergleich der kumulativen Kurven fuer die beiden „Richtungen“ fuer die Untergruppen mit wenigen Links (UWL) und wenigen Zitaten (UWZ):

AHA! Im Gegensatz zu dem was ich oben schrieb bzgl. aller Seiten, sind die Kurven hier definitv nicht (beinahe) deckungsgleich; nicht mal bis LL3! Ist ja interessant und daraus folgt, dass zwei Unterschiede in den Kurven erklaert werden muessen: 1. der Intragruppenabstand zwischen zwei Kurven die zu einer „Richtung“ gehøren und 2. der Intergruppenabstand zwischen den Kurven der zwei verschiedenen „Richtungen“.

Dafuer muessen wir zurueck zu den Verteilungen der Links und  Zitate gehen. Natuerlich nicht fuer alle Seiten sondern nur fuer die, die sich in den beiden Untergruppen befinden.
Hier tut sich nun aber ein Problem auf mit Hinblick auf die Unterguppen mit den vielen Links / Zitaten. Diese enthalten naemlich nur wenige Seiten. Die entsprechenden Verteilung bspw. fuer die UVZ waeren dann nur 703 Striche die alle nur bis eins gehen. Auszerdem erfahren diese Striche auch noch „logarithmische Komprimierung“ und „verschmieren ineinander“.

Das ist zunaechst nix Schlimmes, denn fuer Histogramme fasst man oft ohnehin alle Messungen mit Werten (einer bestimmten Charakteristik, hier bspw. der Anzahl der Links) die nahe beisammen liegen in einem „Eimer“ zusammen. Alle „Eimer“ sind gleich grosz (bspw. 1 bis 5 Links, 6 bis 10 Links usw.)  und das Histogramm selber zaehlt fuer jeden Balken dann wie viele Messungen in dem „Eimer“ sind.
Die Wahl der Grøsze dieser „Eimer“ kann mitunter trickreich sein. Bisher brauchte ich das nicht machen, weil es so viele Wikipediaseiten gibt und die entsprechenden Verteilungen auch ohne „Eimer“ aussagekraeftig waren. Bei nur (bspw.) 703 Seiten ist dem aber nicht mehr so.

Die „Eimer“ løsen das erste Problem, die Balken der Verteilung wuerden bei gut gewaehlter „Eimergrøsze“ unterschiedlich grosz ausfallen. Nun ist es aber so, dass die Abzsisse fuer die Histogramme (wie so oft) logarithmisch ist. Wenn man nicht gerade gigantische „Eimergrøszen“ heran zieht, tritt also weiterhin das Problem der „logarithmischen Komprimierung“ auf. Ganz davon abgesehen, dass wenn „Eimer“ fuer hohe Grøszenordnungen gewaehlt werden (bspw. von 100-tausend bis 110-tausend) die gleiche „Eimergrøsze“ sich ueber mehrere Grøszenordnungen bei kleinen Werten erstreckt (in diesem Fall vier von 1 bis 10k).
Die von mir gewaehlte Løsung besteht darin, dass ich die Grøsze der Eimer davon abhaengig mache, in welcher Grøszenordnung sie sich auf der Abzisse befinden. Ich nenne das „magnitudal bins“ oder „Grøszenordnungseimer“.

Das hørt sich vermutlich komplizierter an, als es ist. Kurzgesagt teile ich jede Grøszenordnung (also von 0 … 9, 10 … 99, 100 … 999 usw.) auf der Abzsisse in neun, jeweils gleich grosze „Eimer“  ein. In der ersten Grøszenordnung „fallen“ die Seiten in jeden „Eimer“ wie gehabt. In der zweiten Grøszenordnung „fallen“ in den ersten „Eimer“ alle Seiten die zehn oder mehr Links / Zitate haben, aber weniger als 20. Der zweite „Eimer“ ist entsprechend fuer alle Seiten mit 20 bis 29 Links / Zitaten und der neunte fuer alle Seiten mit 90 bis 99 Links / Zitate. Bei 100 erfolgt der Uebergang zur naechsten Grøszenordnung und der entsprechende erste „Eimer“ ist nun zehn Mal so grosz — also eine Grøszenordnung mehr — (denn dieser enthaelt alle Seiten mit 100 bis 199 Links / Zitaten).

Das løst alle Probleme fuehrt aber zu einer kleinen Verkomplizierung, die man im Hinterkopf behalten muss. Beim Uebergang von einer Grøszenordnung zur naechsten wachsen die Balken des Histogramms pløtzlich sprunghaft an. Der Grund liegt natuerlich darin, weil in besagten Balken pløtzlich zehn Mal mehr Seiten stecken als noch einen „Schritt“ vorher. Gedanklich muss man die Balken an solchen Grenzen also entsprechend verkleinern.
Im hiesigen Zusammenhang spielt das keine all zu grosze Rolle, denn es reicht zu sehen, ob eine Untergruppe mehr Seiten links (oder rechts) vom „Maximum“ der Verteilung der anderen Untergruppe hat. Letzteres ist auch der Grund, weswegen ich die Histogramme normiere.

Genug geredet, hier sind sie, die Verteilungen der Links und Zitate der UWL und UWZ:

Fetzt wa! Bei den grauen Balken (Verteilung der Links der UWZ) sieht man beim Wert 10 auf der Abzsisse deutlich das Phaenomen, was man im Hinterkopf behalten muss. Nicht ganz so deutlich sieht man es auch an dem entsprechenden roten Balken (Verteilung der Zitate der UWL). Aber eigentlich will ich damit ja die Intra- und Intergruppenabstaende erklaeren. Darum der Reihe nach.
Ach so, ich hab die Abzsisse bei 1000 abgeschnitten. Danach gibt es zwar noch ein paar Balken, die sind aber so klein, dass sie vøllig irrelevant sind.

Zunaechst der Intragruppenabstand. Die Kurve fuer den kumulativen Anteil der neuen Links der UWZ (schwarz) liegt unter der Kurve fuer die UWL (hellschwarz … vulgo: grau). Das geht natuerlich nur, wenn die Seiten in der UWZ mehr (neue) Links sehen als die Seiten in der UWL. An den Histogrammen sehen wir, dass dem tatsaechlich so ist.
Ist ja auch eigentlich auch ganz klar, denn die Seiten der UWL wurden deswegen in die UWL einsortiert, weil diese 5 Links oder weniger hatten. Deswegen gibt es im Histogramm keine schwarzen Balken bei Werten mit 6 oder mehr auf der Abzsisse.
Das spielte aber bei den Seiten in der UWZ ueberhaupt keine Rolle, denn diese wurden nach der Anzahl der Zitate (0 bis 3) ausgesucht. Deswegen sind die grauen Balken ueberall zu finden und das ist entscheidend fuer den Intragruppenabstand.

Weil die UWZ Seiten (als Ensemble) signifikant viel mehr Seiten schon „ab Start“ (also LL0) sehen (das ist was obiges Histogramm u.a. aussagt), verzweigt das Linknetzwerk auf kleinen Linkleveln schneller und somit ist die kumulative Kurve bzgl. der neuen Links der UWZ ueber der entsprechenden Kurve der UWL. Das macht auch nix, dass die beiden Untergruppen unterschiedlich viele Seiten enthalten, denn die kumulativen Kurven sind ja „normiert“.

Beim Intergruppenabstandes der kumulativen Kurven bzgl. der Linkfrequenz (die rote / hellrote Kurve(n)) geht die Argumentation genau so. Die Seiten der UWZ wurden danach ausgewaehlt, dass sie 3 oder weniger Links haben (deswegen keine rosa Balken rechts davon). Fuer die Seiten der UWL war das aber kein Kriterium und im Histogramm sehen wir an den roten Balken, dass diese von mehr Seiten gesehen werden, weswegen die entsprechende kumulative Kurve der UWL høher liegt als die der UWZ.

Nun zum Intergruppenabstand. Dafuer betrachte ich nur die hellrote und die graue Kurve (eigtl. muessten alle vier Kombinationen von (hell)rot zu (hell)schwarz untersucht werden, aber das ist immer das selbe Prinzip und gibt keinen weiteren Erkenntnissgewinn).

Die hellrote Kurve entsteht dadurch, dass die Seiten der UWZ (neue) Links sehen. Die graue Kurve entsteht dadurch, dass die Seiten der UWZ von anderen Seiten zitiert werden. Im Histogramm muessen fuer den Intergruppenabstand also die Balken der Links und der Zitate der UWZ verglichen werden. Man sieht nun, dass die UWZ sehr viele graue Balken rechts von den hellroten Balken hat. Die weitere Argumentation ist dann wie Oben.

Fuer die schwarze und rote kumulative Kurve(n) ist die Argumentation qualitativ die selbe. Quantitativ muss man aber im Histogramm etwas genauer hinschauen, denn die roten Balken erstrecken sich auch rechts von den schwarzen Balken (obwohl die schwarze Kurve ueber der roten liegt). In diesem Fall sieht man aber, dass der grøszte rote Balken definitiv links vom grøszten schwarzen Balken liegt und die roten Balken rechts vom letzten schwarzen Balken sind nicht sehr hoch. All das bedeutet, dass im Durchschnitt die Seiten der UWL NICHT von mehr Seiten gesehen werden als sie (neue) Links haben. Die zwei høchsten roten Balken sagen aus, dass die meisten Seiten nur ein bzw. zwei  Mal zitiert werden, waehrend die zwei høchsten schwarzen Balken aussagen, dass viele (mglw. gar die allermeisten) der selben Seiten mindestens vier oder fuenf Links haben. Die wenigen Seiten mit mehr als fuenf Zitaten spielen da dann auch keine Rolle mehr.

Jut … das soll reichen hierzu. Beim naechsten Mal das Gleiche fuer die anderen beiden Untergruppen und mit der ganzen Vorrede hier kann ich die Diskussion dort kuerzer halten :)