Archive for the ‘Allgemein’ Category

Neulich las ich ein interessantes Interview ueber Sprache (und  teilweise Kultur) in Georgien. Das ist durchaus lesenswert, aber darauf møchte ich nicht hinaus.

Vielmehr geht es mir darum, dass dort zwei Nicht-Georgier, die aber in Georgien leben und (mich duenkt als Linguisten) arbeiten zu Wort kommen und einer meinte das Folgende (Hervorhebung von mir):

You’re always going to be an immigrant and you’re always sort of an outsider, but I think those of us who live the life of, let’s call them expatriates or immigrants, I think that the people who do best in that kind of environment are those who are the most comfortable with living in the liminal zone between cultures.

I think that’s why I certainly enjoy being neither fish nor fowl. It has its drawbacks, but it has its advantages too. I think that is what my personality enjoys, being in that space, being the interpreter between those two things and always learning something.

Und das gilt definitiv fuer mich auch und zwar nicht nur bezogen auf meinen Wohnort.

Das Zitierte „erklaert“, warum ich mich zwar als Physiker sehe, aber als „Datenerforscher“ gluecklich bin obwohl letzteres (vereinfachend gesagt) „nur“ Rechnungsdaten sind.
Oder warum ich ganz begeistert eine Star Wars Ruestung gebaut habe, dann aber nicht darin „verschwunden“ bin … neben anderen Gruenden, weil es in dem (sozialen) Milieu nix Neues mehr gab.
Oder warum ich begeistert zocke UND begeistert Slalom fahre.
Oder warum ich Downton Abbey toll finde und nicht nur Star Trek und andere Science Fiction. Bzw. warum ich so vielen Filmen etwas abgewinnen kann und nicht nur „meinem“ Genre.
Oder warum mich System of a Down begeistert, aber auch Daft Punk.
Dieser Beitrag (aber auch andere) ist eine ganz fantastische Veranschaulichung dessen was ich meine … eine Hackveranstaltung und ich bin dort im Star Wars Kostuem.

Und so weiter und so fort … … …

Als „Zwischenmensch“ bin ich natuerlich kein „insider“ irgend einer Gruppe eben „always sort of an outsider“ … siehe das Beispiel mit der 501st Legion (die Star-Wars-Kostuemgruppe) mit der ich nicht so viel anfangen kann oder aber, dass ich mich damit schwer tue, mich mit einem ganz konkret Hackerspace zu assoziieren …  aber auch auf Arbeit und in so ziemlich allen anderen sozialen Zusammenhaengen …  Das sind dann die im Zitat erwaehnten „drawbacks“.

Aber letztlich passt es mir ganz gut, dass ich „weder Fisch noch Gefluegel“ bin :)

Ich wuensche euch, meinen lieben Leserinnen und Lesern ein ganz hervorragendes 2024.

OIOIOI! Was fuer ein tolles Weihnachtsgeschenk, denn das hier heute ist sooo geil! Der Integralansatz hat naemlich bei der Verteilung der Grøsze der Archipele zu mehreren neuen Erkentnissen gefuehrt. Aber der Reihe nach.

Zur Erinnerung nochmal das Diagramm von damals:

Das sind erstmal wieder „nur“ zwei „Histogramme mit Schwanz“. Damals unterschied ich zwischen der Verteilung bei der das No-way-home-Archipel (in kurz: nwhA) auszen vor gelassen wurde (schwarze Punkte) und der wo das mit drin war. Achtung: auch wenn ich hier die Einzahl benutze, so besteht das nwhA eigtl. aus mehreren No-way-home-ArchipelEN; inklusive mehreren zehntausend einzelnen Seiten.
Ich berechnte nie die Anstiege (der von Hand hereingelegten Linien), aber fuer die schwarzen Punkte (blaue Linie) ist selbiger ungefaehr -3.3 und fuer die roten Punkte (Linie in oliv) ca. -2.5. Das ist ein deutlicher Unterschied, aber aufgrund der Datenlage wollte ich nicht aussschlieszen, dass die linearen Bereiche der beiden Histogramme den gleichen (wenn nicht gar den selben) Anstieg haben — siehe die (parallel verschobene) gestrichelte Linie in oliv, welche die schwarzen Punkte nicht unbedingt viel schlechter beschreibt.

Die integrierten Daten (normale Integralgrenzen) sehen nun so aus:

OIOIOIOIOI! Das fetzt ja! Denn auf einmal treten mehrere Sachen deutlich hervor.

Zum Ersten sieht man, dass die Histogramme aus ZWEI Abschnitten mit unterschiedlichen Anstiegen bestehen. Diese Information war im obigen Diagramm komplett im „Zappelschwanz“ versteckt. Toll wa!
Ich bezeichne den (jeweiligen) linken Abschnitt als „normale“ Archipele und den (jeweiligen) rechten Abschnitt als „grosze“ Archipele.

Zum Zweiten sind besagte Abschnitte ganz klar mittels vier Geraden (in doppellogarithmischer Darstellung) zu beschreiben. Aber Achtung: die zwei Geraden der jeweils ersten Abschnitte (die blaue und olive Linie) haben unterschiedliche Anstiege waehrend die der jeweils zweiten Abschnitte hingegen den gleichen Anstieg haben (die lila, gestrichelten Linien) … nun ja, innerhalb des Fehlers interpretiere ich das als den gleichen Anstieg; mathematisch betraegt der Unterschied aber nur ca. 0.1 und das habe ich bei allen vorhergehenden Untersuchungen immer als „das ist schon irgendwie das Gleiche“ durchgehen lassen.
Wieauchimmer, da faellt (fast) nix aus der Reihe mit einer Kruemmung oder groszen „Ausreiszern“

Aus diesen Beiden folgt das Dritte: die Seiten die die Daten der ersten Abschnitte ausmachen unterliegen jeweils anderen Potenzgesetzen, waehrend fuer die groszen Archipele der zweiten Abschnitte nur EIN Potenzgesetz gilt. Das ist nicht ungewøhnlich, dass fuer Daten-am-Ende-und-irgendwie-weit-auszerhalb-der-normalen-Verteilung andere Gesetze gelten und das tritt (relativ) haeufig auf; kurioserweise gelten (in anderen Zusammenhaengen) fuer solche Daten oft maechtige Gesetze waehrend das oft nicht den Rest (und Groszteil) der Messungen beschreiben.
Wieauchimmer, vom Bezuhgsrahmen ist abhaengig wann „grosze Archipele“ beginnen.

Viertens folgt aus dem kleineren Anstieg der zweiten Abschnitte, dass es deutlich mehr grosze Archipele gibt als es geben sollte im Vergleich mit den normalen Archipelen; das untermauert die Vermutung eines anderen Mechanismus fuer grosze Archipele.
Ich denke NICHT, dass diese Aussage (eines anderen zugrundeliegenden Mechanismus) fuer die ersten Abschnitte gilt, obwohl diese auch unterschiedliche Anstiege haben. Weiter unten erklaere ich warum.

Diese vier Sachen sind so fetzig, weil das ueberhaupt nicht ersichtlich ist im urspruenglichen Diagramm.

Fuenftens stimmen die Anstiege der Geraden der ersten Abschnitte mit -2.5 fuer die schwarzen Punkte (blaue Linie) bzw. -1,6 fuer die roten Punkte (Linie in oliv) „mathematisch (fast) perfekt“ mit den frueheren Ergebnissen ueberein. Dadurch werden diese (wieder mal) untermauert, aber (wieder mal) mit grøszerer „Sicherheit“.

Das wiederum fuehrt zu Sechstens: der obige erwaehnte Unterschied im Anstieg der beiden Verteilungen ist echt. Hier kann man das nicht mehr mit „innerhalb des Fehlers kønnte das auch gleich sein“ wegdiskutieren. Wenn man das No-way-home-Archipel auszen vor laeszt scheint ein anderer Mechanismus am wirken zu sein … zumindest war das meine erste Vermutung. Die bereitete mir aber aber „Bauchschmerzen“ denn auch wenn ich das fuer „grosze Archipele“ akzeptieren konnte (s.o.) so sind die schwarzen Punkte ja bei den roten Daten mit drin und ich konnte mir nicht erklaeren warum Seiten (in Archipelen) auszerhalb des nwhA sich anders verhalten sollten als wenn ich alles zusammen betrachte.

Diese Unstimmigkeit liesz mich (wieder einmal) nicht los und ich gruebelte (wieder einmal) tagelang darueber nach, wie das erklaert werden kønnte. Ich muss ganz ehrlich sagen, dass ich stolz auf mich bin, dass ich eine møgliche Erklaerung fand.
In kurz: das Phaenomen der Archipele kann _nur_ in seiner Ganzheit betrachten werden und sollte NICHT in das nwhA und Archipele auszerhalb desselbigen unterteilt werden.

Aber der Reihe nach und zunaecht muss man sich erinnern, dass ich („historisch“ gesehen) zuallererst das nwhA gefunden habe. Das reichte aber nicht aus um die damals untersuchte Diskrepanz zu erklaeren und ich stellte weitere Ueberlegungen an, bei denen ich das nwhA zunaechst auszen vor liesz und erst am Ende wieder alles verknuepfte. Die schwarzen Daten oben sind nun die Daten bei denen das nwhA NICHT mit dabei ist und die roten Punkte bei denen alles verknuepft ist.
Ich erwaehnte damals, dass das nwhA viele Verbindungen mit Archipelen hat welche in besagten (hier) „schwarzen Daten“ dargestellt sind; aber das sieht man NUR, wenn man wieder alles verknuepft.
Das muss man im Hinterkopf behalten bei den folgenden Erklaerungen, aber bevor ich zu denen komme, muss ich noch auf etwas anderes hinweisen.

Fuer die folgenden Ueberlegungen gilt, dass mich NUR der Anstieg und NICHT die „Amplitude“ der Kurven interessiert. Oder anders: die schwarzen Daten gehen schneller nach unten, aufgrund besagten (staerkeren) Anstiegs und das interessiert mich. Gleichzeitig sind sie auch nach unten „verschoben“ einfach weil die Anzahl der Archipele die in den roten Daten enthalten sind viel grøszer ist als die Anzahl der Archipele welche die schwarze Daten ausmachen. Diese absolute Verschiebung interessiert mich NICHT und fuer das was ich hierunter schreibe, nehme ich an, dass die „Amplituden“ gleich grosz sind.
Auszerdem rede ich im folgenden immer nur ueber die ersten Abschnitte in den obigen (integrierten) Daten.

Die schwarzen Daten unterliegen einem Potzengesetz welches schneller abfaellt als das Potenzgesetz welches die roten Daten beschreibt. Wenn besagte Gesetze nun in der Wahrscheinlichkeitsinterpretation betrachtet werden (mit dem was ich eben schrieb bedeutet dies Aussage, dass man sich denken soll, dass beide Verteilungen insgesamt gleich viele Archipele enthalten), dann heiszt das, dass die Wahrscheinlichkeit fuer ein „schwarzes Archipel“ der Grøsze 4 so grosz ist wie ein „rotes Archipel“ der Grøsze 6. Oder ein „schwarzes Archipel“ der Grøsze 10 ist so wahrscheinlich wie ein „rotes Archipel“ der Grøsze 18. Man sieht das, wenn man einfach zwei gleiche Funktionswert fuer die schwarzen bzw. roten Daten anschaut und vergleicht welche Archipelgrøszen dazu gehøren.
Oder anders: die blaue Linie ist von der roten Linie gesehen nach links „verschoben“ … aber nicht parallel verschoben (denn dann waeren die Anstiege ja gleich), sondern abhaengig vom Wert der Archipelgrøsze unterschiedlich, mit zunehmenden Unterschied je grøszer das Archipel … das ist also eher eine Rotation nach links, wobei die Kurve beim Archipelgrøszenwert zwei festgehalten wird (das ist also der „Drehpunkt“).

Ich schreibe das hier auf, als ob das das natuerlichste von der Welt waere. Ich brauchte aber eine ganze Weile bevor ich da drauf gekommen bin und verfolgte ein paar „Sackgassen“ bevor ich diesen Durchbruch hatte.
Und wenn man mal drueber nachdenkt, dann ist das schon erstmal komisch; warum sollte die Verschiebung vom Wert auf der Abszisse abhaengen. Ich komme darauf zurueck, aber um zu verstehen warum das sinnvoll ist, muessen wir wieder zu den Archipelen und den Seiten aus denen diese bestehen zurueck kommen.

Zunaechst das nwhA und davon sind fuer das zugrundeliegende Prinzip das ich beschreiben will nur die …

[…] „Einwohner“ der (isolierten) „Insel der […] Unzitierten“ […]

… von Interesse; also nur die Seiten, welche nach „drauszen“ zitieren aber nicht zitiert werden. Dieser Satz nach dem Semikolon ist wichtiger als er aussieht, denn diese Seiten zitieren auch zu den nicht-nwhA-Archipelen. Den Prozess „sehe“ ich aber nicht in den „schwarzen Daten“, denn selbige habe ich dadurch erhalte, indem ich die Seiten aus denen das nwhA besteht auszen vor gelassen habe. Oder anders: „Einwohner“ der „Insel der Unzitierten“ sind sowas aehnliches wie die „Anhaenger“ im Zusammenhang mit „Kettenseiten“, nur dass der „Zitierpfeil“ andersrum ist.
Ein Bild sagt oft (aber nicht immer) meht als 1000 Worte:

Schwarze Kugeln mit Doppelpfeilen gehøren zu einem NICHT-nwhA-Archipel, die lila Kugeln mit einem Pfeil hin zu Ersterem sind „Einwohner“ der „Insel der Unzitierten“.
Was wir hier sehen ist das was ich oben schrieb und was in den roten Daten ausgedrueckt ist: man darf nur alles zusammen betrachten. Die „schwarzen Daten“ sind Teil eines grøszeren Verbunds (die „roten Daten“), aber dieser Verbund ist „abgeschnitten“ wenn die Grøsze der Archipele bei den „schwarzen Daten“ bestimmt wurde.
Oder anders: wenn ein NICHT-nwhA-Archipel die Grøsze 6 hat, so ist dem nur scheinbar (!) so, denn eigentlich „kleben“ an vier Seiten dieses Archipels noch jeweils ein „Einwohner“ der „Insel der Unzitierten“ dran und die eigentliche Grøsze des gesamten Archipels ist 10.
Die ersten beiden schwarzen Punkte haben kein „Anhaengsel“, denn die sind ja der „Drehpunkt“.

TADA! Das ist die Erklaerung dafuer, warum die „schwarzen Daten“ KEINEM anderen Mechanismus unterliegen als die „roten Daten“ (denn das waere nicht sinnvoll), warum die aber dennoch durch ein anderes Potenzgesetz beschrieben werden.
Der Unterschied zwischen einem Anstieg von -2.6 und -3.3 wird genuegend gut durch (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel beschrieben. Das habe ich durchgerechnet. In Wahrheit ist das natuerlich oft komplizierter, wenn mal zwei (oder auch mal keine) Exraseite an eine schwarze Kugel „angeklebt“ wird.  ABER die „Insel der Unzitierten“ besteht aus ca. 320k „Einwohnern“ und dominiert das nwhA zu 90 Prozent. Solche komplizierteren Gegebenheiten kønnen in diesem einfachen Bild also ohne Beschraenkung der Allgemeinheit (oder so … ich habe das jetzt bestimmt nicht richtig gebraucht) auszen vor gelassen werden.

Gibt’s einen „Beweis“ dafuer?
Nun ja, keinen Beweis, denn dafuer muesste ich nachverfolgen, welche Seite wo „dranklebt“. Aber meiner Meinung nach starke Indizien, welche obiges Modell unterstuetzen.
Zum Einen verweise ich wieder auf die „Anhaenger“ bei den Kettenseiten. Einzelne Seiten die einfach an ’nem ausgedehnteren Konstrukt „dranhaengen“ sind ein bereits etabliertes Phaenomen.
Zum Zweiten sieht man es zwar nicht im Diagramm (wg. der logarithmischen Komprimierung), aber es „fehlen“ bei den „roten Daten“ bei der Archipelgrøsze 1 ca. 22-tausend Archipele. Das sind keine 320k (plus 1k aus den „schwarzen Daten“) sondern nur 299-tausend Archipele an der Stelle.
Zugleich sind es nur ca. 15-tausend Seiten die sich auf allen NICHT-nwhA-Archipelen „tummeln“ … das kønnte einem so vorkommen, als ob sich …

[…] (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel […]

… an diese ca. 15-tausend Seiten „ranklebt“. Fetzt wa!

Fuer diese zugrundeliegende „atomistische“ Erklaerung kann man in der Natur Beispiele finden (ich nenne mal nur Kohlenwasserstoffe) und deswegen klingt das Modell fuer mich durchaus plausibel. und ich hoffe, das war alles halbwegs verstaendlich erklaert.
Wie gesagt, bin ich voll stolz auf mich (und freu mich auch sehr dolle), dass ich das rausgefunden habe.

Ach so, das erklaert auch, warum der „Knick“ zu „groszen Archipelen“ bei den schwarzen Daten viel eher kommt als bei den roten Daten; die Archipele sind im eigentlich Verbund schon viel grøszer und damit in einem Bereich der wirklich einem anderen Mechanismus unterliegt.

Nochmal ach so: die „schwarzen Daten“ gibt es nur deshalb, wie ich das ganze urspruengliche Thema nach und nach „explorativ“ bearbeitet habe und nach und nach verschiedene Dinge entdeckte. In der Wissenschaft erzaehlt man dann am Ende alles halb „rueckwaerts“ und laeszt diese vorantastenden Schritte des langsamen Verstehens weg. Dadurch wird alles kuerzer und logischer und ergibt ein konsistentes Bild. Das ist aber nicht der Prozess des Forschens, den ich in dieser Maxiserie ja (mit Absicht) explizit darstelle.

Wieauchimmer, der Integralansatz ist hier sehr fruchtbar und das Alles sollte weiter untersucht werden … aber nicht von mir.

Das soll genug sein fuer heute. Mal schauen, was es naechstes Mal wird und ich wuensche erholsame Feiertage :)

Am Ende des 20. Jahrhunderts (genauer gesagt 1991) platzte in Japan eine gigantische Immobilien- und Aktienmarktblase und stuerzte das gesamte Land in mindestens ein Jahrzehnt økonomische Stagnation. Unter Økonomen wird dieser Zeitraum als die „verlorene Dekade“ bezeichnet. Selbe Økonomen weiten den Begriff mittlerweile auch auf die darauffolgenden zwei Jahrzehnte (also 30 Jahre insgesamt) aus.

Nun will ich das alles gar nicht abstreiten. Die Spekulationsblase war definitv da und die platzte und einige makroøkonomische Kennzifferen gehen runter und stagnieren. In diesem Zusammenhang werden meistens genannt das jaehrliche Wachstum, das Bruttoinlandsprodukt, der sog. Geltungskonsum (all zu vereinfachend gesagt: alles was man sich als „Statussymbol“ kauft … also meine Playstation, aber in meinem Fall nicht das Fahrrad, denn das ist schon die billigste Methode um ins Buero zu kommen), die Produktivitaet pro Einwohner, nicht zu vergessen: der bei Økonomen so beliebte Aktienindex und andere solche Sachen.

Ich weisz, darob der Nuetzlichkeit makroøkonomischer Faktoren. Und oft genug kann man bestimmte Sachen auch gar nicht anders messen oder Situationen (ob historisch oder geographisch) nur damit vergleichen. Als Datenanalytiker werden ich deren Aussagekraft also mitnichten abtun.
Aber oft genug scheint mir, dass die Geschichten besagter Økonomen die damit argumentieren doch immer viel zu sehr in die Richtung des Maerchens vom ewigen Wachstum gehen. Und eigentlich immer mit dem Schluss, dass wenn ein Land wirtschaftlich nicht waechst … nun ja eben „verloren“ ist.

Jetzt muss ich erstmal kurz abschweifen, denn diese Ueberlegungen fuehrte ich, weil ich in Tokyo zwischen diesen (und anderen) Riesen …

… wandelte … und das sah mir ueberhaupt nicht nach drei Jahrzehnten andauernder Stagnation aus. Klar buchstaeblich zwei Straszen weiter standen weniger grosze Gebaeude die aelter aussehen, …

… aber „verloren“ scheint mir auch das mitnichten.

Hier ein anderes Beispiel ueber das ich im Internet stolperte (Screenshot von hier, denn wer weisz wie lange der Link noch verfuegbar ist):

Das ist wohl die Hauptstrasze in Akihabara 1985, also zu einer Zeit als fuer die Økonomen noch alles fein und in Butter war. Zum Vergleich hier die Hauptstrasze des Bezirks (nicht das selbe Gebaeude) im Jahre 2023:

Na klar, Akihabara hat sich von der super-nerd „Electric town“ mit den Laeden fuer Elektronikkram zum Zentrum fuer „mainstream“ Manga und (japanische) Popkultur entwickelt. Aber fuer mich sieht das nach 30 Jahren normaler Entwicklung aus, wie ich das von einer Weltstadt wie Tokyo erwarten wuerde; definitiv nicht wie drei „verlorene“ Jahrzehnte.

OKOK, das ist Tokyo … wie sieht das denn in Kleinstaedten aus? Hier ein Blick aus dem Bahnhof von Takeo:

Die Stadt ist ungefaehr so grosz wie Stendal und was ich auf dem Bild sehe, erinnert mich durchaus daran. Na klar, das ist keine belebte Metropolis, und es gibt vermutlich auch einen (seit langem anhaltenden) Rueckgang von traditionellem, produzierendem Gewerbe (und allem was damit einher geht), aber es sieht sicher nicht so aus wie ich das nach 3 „verlorenen Dekaden“ erwarten wuerde; vielmehr sieht’s genaus so aus wie anderswo in der sog. „westlichen“ Welt.

Lange Rede kurzer Sinn: was ich sah passte irgendwie nicht so richtig mit dem zusammen mit dem was ich erwartete. Deswegen schaute ich mal genauer auf andere økonmische Daten fuer die drei Jahrzehnte (und wenn møglich die Zeit davor). Dabei half mir diese Seite aber wie so oft mache ich lieber meine eigenen eigenen Grafen … die ich im naechsten Artikel zeigen werde.

Hier schaute ich mir zum ersten Mal linklevelabhaengige Verteilungen einer Grøsze (in dem Fall der totalen Links) an. Ich gehe hier nicht weiter drauf ein, denn auch wenn ich da viel zu schrieb, kam am Ende nicht viel bei rum (auszer, dass das „São Paulo Artefakt“ dadurch mehr Aufmerksamkeit erhielt … aber „entdeckt“ wurde dieses schon eher).

Wieauchimmer, bei diesen vielen Histogrammen kam damals schon nix bei rum und wenn ich das als Integral betrachte …

… dann aendert sich daran wenig (Achtung: die Ordinate ist hier kein Zaehler fuer absolute Zahlen, sondern als kumulative Wahrscheinlichkeit (mit normalen Integralgrenzen) dargestellt).
Die fuenf Beispiele sind repraesentativ und selbst wenn man in den „Uebergang“ rein zoomt sieht man nix Spannendes.

Weil bei den neuen Links pro Linklevel im Wesentlichen die gleiche Situation vorliegt, schaue ich mir die dazugehørigen Verteilungen nicht nochmal als Integral an. Waere ja albern, denn das habe ich damals beim ersten „Durchgang“ auch nicht gemacht.

Und das soll’s fuer heute schon gewesen sein … ausnahmsweise ging’s schnell.

Hier schaute ich zum mir ersten Mal die Abhaengigkeit der Links einer Seite von der Anzahl der Zitate die diese erhaelt an. Es war ein „Blob“. Dann berechnete ich die durchschnittliche Anzahl an Links ueber alle Seiten die eine gegebene Anzahl an Zitaten erhalten hatten und der Blob verschwand und ich erhielt das erste wahrhaft ueberraschende Ergebniss in dieser Maxiserie: der Zusammenhang folgt auch einem maechtigen Gesetz. Besagtes Ergebnis ist in diesem Diagramm nochmals in grau wiedergegeben …

… und die (von Hand reingelegte) Regressionsgerade (lila, nicht durchgehende Linie) fuehrt zu einem Exponenten von +0.5.

Weil es „aufwaerts“ geht, muessen die Grenzen fuer das Integral invertiert werden um etwas Vernuenftiges zu erhalten (wie beim vorletzten Mal gezeigt) und besagtes Integral sind die Rechtecke in oliv. Die dazugehørige (auch von Hand reingelegte) Regressionsgerade in blau hat einen Anstieg von ca. +1.4 (eine Aenderung von ca. 5.5 Grøszenordnungen auf der Ordinate und ca. 4 Grøszenordnungen auf der Abszisse) … was ja wohl mal (beinahe) das mathematisch perfekt zu erwartende Resultat war. Das Integral bestaetigt also meine urpsruenglichen Ergebnisse … cool wa.

Bei den Rohdaten fangen die Daten zu „zappeln“ an ab ca. 500 Zitaten und haben eine ganz betraechtlich Varianz ab ca. 2000 Zitaten. Das liegt daran, weil es nicht so viele Seiten gibt, die derart viele Zitate erhalten und ich diskutierte das im damaligen Artikel.
Das Integral geht aber bis 200 Zitiaten schøn gerade weiter was natuerlich toll ist … um dann ueber nur eine halbe Grøszenordnung (also ziemlich abrupt in diesem Zusammenhang) in eine Parallele zur Abszisse ueber zu gehen. Dies fuehrte mich zunaechst dazu zu sagen, dass die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus nicht zulaessig ist.
Aber dann schaute ich mir die Rohdaten nochmal nur fuer diesen Bereich an und kam zu dem Schluss, dass das DOCH auch bei ueber 2000 Zitaten gilt. Dort waechst die Anzahl der Links im wesentlichen nach dem gleichen Potenzgesetz wie vorher. Warum zeigt sich das aber nicht in den integrierten Daten?

Nach etwas gruebeln kam ich auf die Antwort (die hier bereits erwaehnt wurde): es gibt dort nicht genuegend Daten! Im Beispiel beim vorletzten Mal wurden zunehmend mehr „Messungen“ je høher der „Messwert“ auf der Abzsisse war. (Vermutlich viel zu) Vereinfachend gesagt, befanden sich im Abschnitt 10 bis 100 auf der Abzsisse beim letzten Mal zehn Mal weniger „Messungen“ im Vergleich mit Abschnitt 100 bis 1000. Damit kann die Summe ueber letzteren Abschnitt zehn Mal grøszer werden und in einem log-log-Plot waechst das linear.
HIER aber nimmt die Anzahl der Daten mit zunehmender Anzahl Zitate ab und der „Integralansatz“ hørt auf zu funktionieren!

Die Mathematik ist hier also nicht „kaputt“ und auch die Daten sind es nicht. Vielmehr ist die Bildung der Summe der vøllig falsche Ansatz um Informationen aus den Daten mit mehr als 2000 Zitaten heraus zu bekommen. Das ist AUCH eine ganz wichtige Erkentniss.

Fuer ein Modell muesste in diesem Fall also zunaechst in Betracht gezogen werden, wie wahrscheinlich eine Seite mit einer gegebenen Anzahl Zitate ist. Fuer die Anzahl der durchschnittlichen Seiten gilt dann aber wieder das Potenzgesetz und die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus ist eben DOCH gueltig.

Etwas ganz anderes, aber sehr wichtiges: alles in Betracht ziehend sieht man hier, dass der „Integralansatz“ auch dann funktioniert, wenn die Ordinate NICHT nur eine „Abzaehlung von Ereignissen“ repraesentiert. Oder anders: bisher hatte ich nur Histogramme gezeigt, da zaehlt man auf der Ordinate wie oft eine „Messung“ mit einem bestimmten Ergebniss auftritt.
Die durchschnittliche Anzahl an Links ist aber nix was so „abgezaehlt“ werden kønnte.
Dennoch funktioniert der „Integralansatz“ und das fetzt (und ist wichtig). ABER das hier kan auf gar keinen Fall als kumulative Wahrscheinlichkeit interpretiert werden! Das ist natuerlich der Grund warum das Integral NICHT linear bis zum Ende ist, obwohl die Rohdaten das durchaus sind.

Das soll reichen fuer heute. Bisher laeuft’s ja nicht so doll mit …

[…] ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text […]

Liegt halt daran, dass …

[…] es was Neues oder Interessantes zu sehen gibt.

Fetzt ja auch, nicht wahr :) … Andererseits gehe ich ueber Dinge deren Diskussion ueber mehrere Artikel ging nur kurz nochmal rueber und beim letzten Mal habe ich sogar zwei Sachen in nur einen Beitrag gepackt … das ist ja schon was :)

Beim vorletzten Mal zaehlte ich ein paar Beobachtungen auf, die mir auf den ersten Blick ineffizient und somit komisch erschienen. Dies insb. hinsichtlich meiner vorgeformten Meinung, dass Japan hypermodern ist. Beim letzten Mal listete ich ein paar Vorteile auf, die durch derartige „ineffiziente“ Gegebenheiten zustande kommen. Das bemerkt man aber nur, wenn man nochmal hinschaut (im uebertragenen Sinne).

Als ich dann mal drueber nachdachte schien mir, dass Arbeitskraft (in Form von Menschen) mglw. niemals ein Problem war um Dinge in Japan geschehen zu lassen. Geschichtlich gesehen war das natuerlich ein massives Problem (ganz konkret im Sinne von: fremde Maechte werden unser Land uebernehmen), als in Europa die Moderne mit voller (Dampf)Kraft im Gange war. Warum sollte man denn Maschinen erfinden, wenn genuegend Haende zur Verfuegung stehen?
Das wurde (mehr oder weniger) kurz vor der Meiji-Periode erkannt und der namensgebende Herrscher war den Reformvorschlaegen sehr aufgeschlossen. … *ganz schnell vorspulen* … Mit dem Endergbniss, dass es in Japan heute urst (Hayabusa) …

… coole (Kodoma) …

… Hochgeschwindigkeitszuege (Kamome) …

… gibt. Die haben nix mit dem Thema zu tun … ich wollte die Bilder aber unbedingt mal zeigen, weil das so geile Flitzefortbewegungsmittel sind … das hab ich geschickt eingefaedelt, nicht wahr *froi*.

Aber zurueck zur Arbeitskraft. Auch wenn uns im Westen immer was von Loyalitaet vorgegaukelt wird, so ist doch klar, dass im „Haertefall“ die Firma der ich meine Arbeit gebe immer zuerst an sich denkt. Von allem was ich von Japan weisz (zugegebe, das ist nicht viel) hingegen scheint es ein gegenseitiges Verstehen zu geben, dass Loyalitaet in beide Richtungen geht. Das nicht nur im direkten Verhaeltniss des Arbeiters zur Firma (und umgekehrt) sondern auch auf einer høheren Ebene.
Ich habe den Eindruck, dass Letztere die soziale Wichtigkeit von „Arbeiten“ sehen. Na klar geht es auch (und hauptsaechlich) um’s Geld, aber fuer die Psyche ist es unheimlich wichtig andere Menschen um sich zu haben, zur Gesellschaft beizutragen und fuer den Beitrag den man leistet Anerkennung zu bekommen.

DAS ist, denke ich, der uebergeordnete Aspekt dessen was ich in den letzten zwei Beitraegen schrieb. Ganz konkret bedeutet das einen Menschen (wenn møglich) nicht durch Maschinen zu ersetzen (selbst wenn das weniger Profit bedeutet) und (bspw.) alte Menschen anzustellen (wenn møglich), auch wenn diese „nur“ an der Baustellenausfahrt stehen und aufpassen.

Dies Alles hat natuerlich nicht nur Vorteole aber lange Arbeitszeiten, viele Ueberstunden, wenig Urlaub, Hausarbeit und Kinder grosz ziehen bleibt oft genug an den Frauen haengen sind mehrere Themen fuer sich (die ich nicht behandeln werde).
Abschlieszend møchte ich aber sagen, dass ich den Eindruck hatte, dass dort alle Arbeiter ihre Arbeit mit Stolz (im positiven Sinne) machen und die Gesellschaft allen Arbeitern klar macht, dass ihre Arbeit wichtig ist fuer eben diese Gesellschaft … toll wa! … … … Ich frage mich, ob das auch ohne die Nachteile gehen wuerde.

Hier zeigte ich das erste Mal einen doppellogarithmischen Plot. Dabei untersuchte ich, wieviele Zitierungen eine Seite erhalten hat und erstellte davon ein Histogramm. Zu meiner (damaligen) Ueberraschung folgte das einem maechtigen Gesetz. Im linken Diagramm in diesem Bild …

… ist in grau nochmals das vormalige Resultat wiedergegeben und die gestrichelte lila Linie deutet besagtes maechtiges Gesetz an. Wie beim vorletzten Mal erwaehnt, kann die Information im „Schwanz“ nicht benutzt werden. Deswegen integrierte ich die Daten (bzw. addierte diese, woraus die Benutzung des Wortes kumulativ folgt). Bei normalen Grenzen fuer das Integral (also von x bis xmax, bzw. Anzahl Zitierungen von Interesse bis zur maximalen Anzahl Zitierungen) sind das die roten Datenpunkte.
Hier passiert nun eine Sache, die im Folgenden vermutlich øfter auftreten wird: das sieht zwar immer noch halbwegs linear aus (die blaue Linie), aber wenn man genauer hinschaut ist das doch ein bisschen gekruemmt. Das folgt also nicht komplett einem maechtigen Gesetz, aber in diesem Fall ist die Abweichung vllt. klein genug, sodass diese mglw. (stueckweise) parametrisiert werden kønnten und die allgemeine Aussage erhalten bleibt.

Ich hab beide Linien nur mit dem Auge reingelegt weil ich keine Lust mehr auf genaue Analysen habe.
Fuer die Rohdaten erhalte ich einen Anstieg von ungefaehr -2. Nach der Mathematik muesste ich dann fuer die integrierten Daten einen Anstieg von -1 erhalten. Ich „messe“ ca. -5/4. Das passt also nicht ganz genau, aber ich wuerde das als gut genug gelten lassen. Gut ist, dass der (fast) lineare Zusammenhang fuer die roten Punkte auf der Abzsisse (fast) zwei Grøszenordnungen laenger gilt.
Mit obiger Aussage bzgl. der Parametrisierung behaupte ich, dass der Prozess der „Integralisierung“ hier erfolgreich (genug) ist, auch wenn nicht alles bis auf’s letzte i-Tuepfelchen genau passt.

Ganz kurz zu den Punkten in oliv: bei denen hatte ich die Integralgrenzen „invertiert“ (also von 1 bis x). Beim letzten Mal hatte ich das nur fuer das Beispiel mit dem positiven Exponenten gezeigt. Hier fuert die „Invertierung“ der Integralgrenzen zu aehnlichen „Phaenomenen“ wie ebenda besprochen wurden. Deswegen gehe ich da nicht nochmal im Detail drauf ein; ich wollte das aber mal gezeigt haben.

Damit kann ich zum rechten Diagramm uebergehen. Die Rohdaten sind das Histogramm bzgl. der Links pro Seite und das zeigte ich hier zum ersten Mal. Ich empfehle das damalige Bild nochmals anzuschauen, denn dort benutzte ich noch ein Balkendiagramm anstatt Punkte und mit Ersterem sieht die (von Hand hereingelegte) Linie (hier nochmal reproduziert in Form der gestrichelten, lila Linie) durchaus vernuenftig aus … weil zwischen 100 und 1000 kleinere Balken im „Balkenwald“ einfach nicht sichtbar sind. Deswegen habe ich das hier Punkte benutzt und dann sieht die Linie nicht mehr ganz so vernuenftig aus.
Und tatsaechlich, wenn man zum Integral uebergeht (wieder die roten Daten), dann sieht man da doch schon eine deutliche Kruemmung. Das ist also nicht wie im linken Diagramm, wo eine gewisse „Linearitaet“ durchaus angenommen werden kønnte.

Die blaue gestrichelte Linie ist die lila Linie nur parallel nach oben verschoben. Wenn ich das so mache, kønnte ich unter Umstaenden (wieder) fuer eine (stueckweise) parametrisierte Linearitat argumentieren … beim ersten draufschauen haut das durchaus hin. … Die Mathematik stimmt dann also nicht mehr.

Das ist also eher ein „vermutlich-nicht-linear-oder-ganz-vielleicht-mit-Augen-zudruecken-stueckweise-parametrisiert-linear-aber-wenn-dann-anders-als-ein-einfacher-log-log-Plot-vermuten-lassen-wuerde“-Fall.
Das fetzt natuerlich auch, denn auch wenn das meine damalige Aussage stark veraendert, vermutlich sogar negiert, so kommt man mittels „Integralisierung“ den wahren Gegebenheiten damit doch naeher.

Das soll genug sein fuer heute. Ist ja schøn, dass gleich die ersten zwei Faelle zwischen die zwei „Kategorien“ (Bestaetigung und Falsifizierung vorherger Ergebnisse) fallen. Das erste Diagramm ist naeher an der Bestaetigung, das zweite naeher an der Falsifizierung … aber ganz so einfach ist’s natuerlich nie … was das Ganze ja ueberhaupt erst interessant macht, nicht wahr :) .

Ich bin gespannt, was das naechste Mal bringt.

Im folgenden zitiere ich aus „Implications of the Turing completeness of reaction-diffusion models, informed by GPGPU simulations on an XBox 360: Cardiac arrhythmias, re-entry and the Halting problem“ von Simon Scarle in Computational Biology and Chemistry 33 (4), 2009, pp 253–260. … *hust*

In „wissenschaftlich“:

[a]n excitable medium is a non-linear system which has the capacity to propagate a wave of some description, and which cannot support the passage of another wave until a certain amount of time has passed (the refractory period). Cardiac tissue can be modelled as an electrically excitable medium which supports travelling waves of electrical activation […]

Genereller gesagt sprechen wir hier von …

[…] reaction-diffusion (RD) systems […]

… und wurde gezeigt, dass solcherart Systeme „rechnen“ kønnen (im Sinne eines Computers).

Die Daten

[…] are encoded as concentration profiles of reagents, with the computation being preformed via the spread and interaction of wave-fronts […]

… und …

[…] logic gate circuits have been implemented via RD systems in laboratory experiments […].

Bei Herzzellen ist es so, dass man „geschaedigte“ Herzzellen braucht um einen Computer zu „bauen“. Wenn alles OK ist, passiert alles im Gleichtakt, aber diesen Takt muss man durcheinander bringen um die Logikelemente implementieren zu kønnen:

[i]n general most abnormal behaviour of cardiac tissue is brought about by damage of, or disease in, cardiac cells. This reduces their excitability and/or their connectivity to their neighbours and hence their diffusion coefficient.

Leider simulierte Scarle das alles nur, aber er konnte prinzipiell zeigen, dass (geschaedigte) Herzzellen benutzt werden kønnen um Logikelemente zu bauen … fetzt voll wa!

Zum Abschluss sei gesgagt, dass die Natur selber schwer daran arbeitet, baldmøglichst (im evolutionaeren Sinne) DOOM zu zocken:

[…] work on slime moulds navigating labyrinths […] has suggested that methods akin to […] [reaction-diffusion systems computation] are used in nature.

Ich kann mich nur wiederholen: fetzt voll wa!

Wenn eine Firma einem Produkt einen Namen gibt, so møchte diese, dass der von møglichst vielen Leuten benutzt wird, denn das ist kostenlose Werbung.
Das kann aber auch zu weit fuehren, wenn der Name so sehr benutzt wird, dass dieser in den Alltagsgebrauch fuer die generelle Taetigkeit (oder das generelle Ding) uebergeht und nicht mehr nur fuer das Produkt besagter Firma steht.

Diesbezueglich am bekanntesten ist heutzutage sicher das Wort „googeln“. Aber auch „Kleenex“, „Post-it“, „Q-Tip“ oder „Rollerblade(s)“ sind Markennamen, die fuer alle Produkte dieser Reihe gebraucht werden obwohl sie eigtl. nur fuer sehr spezifische Produkte gelten. Interessanterweise gilt das auch fuer „Ping Pong“, „Lavalampe“ oder „Zeppelin“ … wobei man sich das bei Letzterm denken kønnte … wenn das Wort nicht so sehr mit dem allgemeinen Objekt verknuepft waere, weswegen man ueberhaupt nicht drauf kommt, da mal drueber nachzudenken … womit sich der Kreis der Argumentation schlieszt.

Wieauchimmer, ich fand einige Eintrage in der „List of generic and genericized trademarks“ ueberraschend und wollte das mal euch, meinen lieben Leserinnen und Lesern, mitteilen. Die niederlaendische Version hat noch ein paar mehr.

Nach allem was ich beim letzten Mal bzgl. nicht effizienten Arbeitsplaetzen schrieb muss ich sagen, dass trotz dieser empfundenen Ineffizienz Sachen getan werden.

Klar, auf der Baustelle stehen 7 Leute und glotzen ins Loch waehrend nur einer arbeitet … in anderen Laendern ist das nicht anders. Aber Løcher bleiben nicht Monate lang offen sondern sind schnell auch wieder zu gemacht.
An der (beim letzten Mal erwaehnten) geøffneten Rolltreppe (und auch an der Ampel) wurde tatsaechlich gearbeitet und nicht nur ein „Bis auf weiteres auszer Betrieb“-Schild aufgestellt. Das geht natuerlich, weil es noch mehr Arbeiter gibt, die sich um die anderen (kaputten) Rolltreppen kuemmern. Eine „Nebenwirkung“ dieser Umstaende ist natuerlich, dass „verstimmte“ Dinge schnell wieder funktionieren.

Und wenn es immer zwei Leute gibt die an einer Sache arbeiten, dann bedeutet das natuerlich auch, dass immer zwei Leute Bescheid wissen. Wenn dann einer krank wird, dann kann die andere Person trotzdem weiterarbeiten und die Sache wird erledigt.

Baustellenausfahrt- oder Fahrradgaragenaufpasser sind oft aeltere Leute … also wirklich alt, nicht nur „ueber 50“. Da Arbeit (als Konzept auf verschiedenen Ebenen) sehr wichtig ist fuer Menschen und die Gesellschaften in denen diese zusammen leben, fuehrt ein groszer Bedarf an solchen Arbeitsplaetzen zu einer besseren Integration von Personen die „klassischer Arbeit“ nicht (mehr) nachgehen (kønnen). Das geht natuerlich WEIT (!) ueber das Geld was man dadurch verdient hinaus und gilt auch fuer Menschen mit geringer Bildung oder Leute die aufgrund ganz anderer Ursachen schwer in „klassische Berufe“ passen.
Das soll natuerlich NICHT ausdruecken, dass das u.U. nicht dennoch extrem langweilig ist, den ganzen Tag an der Baustellenausfahrt rumzustehen … ich sehe hier nur eine Art selbstorganisierte-Løsung fuer ein massives Problem in meiner eigenen Gesellschaft.

Ein ganz anderer Aspekt ist natuerlich der extrem gute Kundenservice. Wenn bspw. an jedem Ausgang der U-Bahn mindestens eine Person steht, dann wird einem auch sofort (!) geholfen falls die Maschine das Ticket frisst, wenn man sich unsicher ist was man machen muss oder wenn man einen Fehler gemacht hat. Ersteres ist mir tatsaechlich passiert und in den mir viel besser bekannten Laendern (weil ich da wohn(t)e) haette ich vllt. høchstens den „Service“ anrufen kønnen (etwas ueberspitzt gesagt) denn mal physische (und auch besetzte!) Serviceschalter gibt es nur noch an den Verkehrsknotenpunkten. Und die Leute dort kønnen einem oft genug auch nicht weiterhelfen (nicht mal dann, wenn mein Problem waehrend der Øffnungszeiten auftritt). Oder besagte Servicemitarbeiter sind mit den Problemen anderer Leute so sehr beschaeftigt, dass man ewig warten muss, eben weil Servicestellen aus Effizienzgruenden notorisch unterbesetzt sind … egal welcher gesellschaftliche Service, denn das gilt nicht nur fuer den øffentlichen Nahverkehr, sondern auch fuer die Telefongesellschaften, Krankschwestern (und -brueder), Kindergaertnerinnen und Kindergaertner etc. pp.
Das heiszt nicht, dass es KEINE Warteschlangen gibt. Ich habe am Bahnhof in Tokyo (und Kyoto) warten muessen (und auch in einem (vielleicht sogar zwei) Hotels). Aber das fuehlte sich ganz anders an als hier im „Westen“.

Das soll fuer heute reichen beim naechsten Mal ordne ich das in einen grøszeren Zusammenhang ein.