Archive for the ‘Allgemein’ Category

Bei den linklevelabhaengigen Verteilungen der totalen Links hatten wir einen Fall, bei dem die „integrierten log-log-Plots“ nicht so „funktioniert“ haben wie ich das bei allen anderen Beispielen gesehen habe. Aber das war erwartet, weil schon bei den urspruenglichen Untersuchungen nix rum kam. Im Allgemeinen konnte man sehen, dass dieser Ansatz zu mehr oder weniger guten Geraden fuehrt und (mit sinnvollen Abstrichen) haut das schon ganz gut hin.

Ein unerwartetes, im Wesentlichen nichts hergebendes Ergebniss erhaelt man mit dieser Methode, wenn man sich die Links auf LLi+1 in Abhaengigkeit von den Links auf LLi anschaut:

Im linken Diagramm sind, wieder in blassen Farben, die urspruenglichen (Roh)Daten und die wichtige (und ueberraschende) Information war hier, dass diese einen „Orbit“ beschreiben … DAS sieht man nun ueberhaupt nicht bei den integrierten Daten im rechten Diagramm.
Zunaechst kønnte man das ja mglw. darauf schieben, dass ja NUR die Ordinate integriert ist, aber mglw. muesste man das auch fuer die Abzsisse machen. Da tritt man dann zwar in ein „konzeptuelles Wespennest“, aber das hat mich nicht davon abgehalten mich damit mal ein paar Stunden zu beschaeftigen … das Resultat: das ist zwar anders als im rechten Diagramm, ist diesem aber aehnlich und hat auch keinen „Orbit“ zur Folge.
Auf den ersten Blick sieht es auch so aus, dass man hier nicht mal die Anstiege aus den Integralen richtig raus bekommt (aus dem Bereich vor den jeweiligen Plateaus). Wobei das aber hier bei den (totalen) Links vermutlich letztlich auch wieder nur daraus folgt, was ich zum ganz zuerst verlinkten Thema schrieb … das gehørt schlieszlich zusammen.

Interessant ist, dass das was ich hier im rechten Diagramm zeige, (mit Abstrichen) bei den Selbstzitierungen funktioniert. Das war so wenig ueberraschend, dass ich dazu beim letzten Mal nicht mal ein Bild zeigte und das in drei Saetzen schnell abhandelte.
Wenn man mal drueber nachdenkt, dann ist das aber nicht weiter verwunderlich, denn die Selbstreferenzen sind nicht von sich selber, sondern von der Anzahl der (totalen) Links abhaengig. Bei Selbigen hingegen ist die Anzahl direkt von sich selbst abhaengig … ach das ist alles kompliziert und vermutlich hat das auch gar nix miteinander zu tun … was einer der Gruende ist, warum ich das oben als „konzeptuelles Wespennest“ darstelle … jemand der schlauer ist als ich, kann das mathematisch sicherlich alles herleiten, ich will mir aber darueber nicht weiter den Kopf zerbrechen

Lange Rede kurzer Sinn: hier bringt der „Integralansatz“ nix.

Dann war da noch die Summe der totalen Links einer Seite ueber alle Linklevel:

Achtung: im rechten Diagramm ist die untere Abzsisse fuer die grauen und roten Daten und zeigt nur einen Ausschnitt der gesamten (integrierten) Daten (blaue Punkte). Fuer Letztere gilt die obere, blaue Abzsisse.
Und JA, auch im rechten Diagramm sind die Abzsissen logarithmisch. Hier draengt sich aber alles so sehr zusammen, dass das irrelevant ist.

Ich muss hier nicht viele weitere Worte drueber verlieren, denn es ist ziemlich eindeutig, dass hier auch mit dem „Integralansatz“ nix zu holen ist. Das gilt auch dann, wenn man die Grenzen des Integrals invertiert oder die ersten vier (dominierenden) Datenpunkte weg laeszt bei den Betrachtungen (ich hab’s naemlich versucht).

Als naechstes war da die Summe der Linkfrequenzen ueber alle Linklevel, von dem nur der „Archipelteil“ interessant war:

Das sieht ja erstmal knorke aus, ABER hier muss man vorsichtig sein … der Reihe nach.

Die gestrichelten Geraden sind wieder von Hand reingelegt und die Anstiege sind ca. 2.25 fuer die Rohdaten und ca. 1.125 fuer die integrierten Daten. Das haut also ganz gut hin.
Aufgrund von Diskrepanzen zwischen realen Daten und reiner Mathematik fallen die integrierten Daten bei Summenwerten von ueber 100 so stark ab. Wie schon vormals (nicht im Detail) diskutiert, liesze sich das „reparieren“ und dann liegen die auch auf der (gestrichelten, blauen) Gerade. Das ist also nur ein kleinerer Grund fuer die Vorsicht
Wichtiger ist, dass die „Huegel“ in den Rohdaten (auf der Abzsisse bei Werten von ca. 25 und 50) zu deutlichen Abweichungen von der Regressionsgeraden im integrierten Signal fuehren. Auch vormals gab es Abweichungen von der Geraden, aber waren das dann „glatte“ Kurven mit mehr oder weniger starker Kruemmung und ich meinte dann, dass man die Abweichungen parametrisieren (a.k.a. wegdiskutieren“ kønnte).

Lange Rede kurzer Sinn: der „Integralansatz“ ist zwar durchaus … ich sag jetzt mal: erfolgreich. Aber wenn man das genau macht, dann darf man bei solchen Faellen die (abrupten und signifikaten) Abweichungen vom Erwartungsbild nicht einfach in einen „Parameter“ packen, sondern muss das ordentlich betrachten und diskutieren … was ich hier nicht mache, weil ich keine Lust mehr habe.

Als Letztes dann noch ein paar Beispiele fuer die linklevelabhaengigen Histogramme bzgl. der Linkfrequenz pro Seite:

Zu meiner Ueberraschung ist hier (auf den ersten Blick) nuescht linear; weder bei normalen (linkes Diagramm) noch bei invertierten Grenzen (rechtes Diagramm) des Integrals.
Naja, bei invertierten Integralgrenzen gibt es zumindest fuer die ersten paar Linklevel mglw. lineare Teilbereiche, aber viel ist da nicht „zu holen“.
Auszerdem ist die Dynamik  im rechten Diagramm echt klein; die zugehørige Ordinate geht gerade mal ueber ein bisschen mehr als eine Grøszenordnung.
Lange Rede kurzer Sinn: der „Integralansatz“ kann hier vllt. ein paar Resultate liefern, die kønnen aber nicht auf den ganzen Datensatz verallgemeinert werden.

So, das soll genug sein fuer heute und mit dem „Integralansatz“. … … … Da hat es die letzten zwei Beitraege dann doch noch geklappt mit den …

[…] Artikel mit Bildern und (meist) nicht ganz so viel Text […]

… naja, fast … viel Text ist’s immer noch, aber ich handle ja doch recht viel ab in nur zwei Artikeln; relativ gesehen ist‘ also wenig Text … tihihi.

Ich bin ueber den „Integralansatz“ erst im Laufe der Maxiserie gestolpert und habe mir das erst jetzt zum Ende alles nochmal damit angeschaut. Es ist beruhigend, dass ich damit hauptsaechlich meine vorherigen Ergebnisse bestaetige (und ein paar neue Erkentnisse erhalte). Aber wie mehrfach erwaehnt, wollte ich nicht alles nochmal im Detail machen. Ich habe naemlich wirklich keine Lust mehr und freue mich darauf, diese Maxiserie nach fast drei Jahren abzuschlieszen.
Aber keine Sorge, Letzteres passiert noch nicht heute, denn ich møchte nochmal auf alles zurueck schauen und das wird dann mindestens noch ein (vllt. zwei) Artikel.

Da ich viele Phaenomene schon ausfuehrlich diskutiert habe, kann ich heute ein paar Sachen zu den Selbstzitierungen kurz abhandeln.

Auch wenn es vorher schon los ging, so ist hier erst dieser vorherige Beitrag relevant, in dem ich linklevelabhaengige doppellogarithmischen Histogramme systematisch zeigte. Das muss ich nicht nochmal im Detail wiederholen und zeige in diesem Diagramm …

… nur ein paar repraesentative (integrierte) Histogramme. Links (mit den blassen Farben) zur Wiederholung die „Rohdaten“ und rechts die integrierten Daten.

Eigentlich gibt’s hier nichts weiter zu sagen, denn wieder bestaetigen die integrierten Daten die vormaligen Resultate mit høherer Genauigkeit.
Ich hatte damals besprochen, dass bei den ersten Linkleveln der lineare Zusammenhang nicht all zu gut ist; hier sieht man, dass es gut genug ist mindestens ab LL4.
Ich habe die Anstiege nicht nochmal „vermessen“ (was ja vormals zu diesem ganz wunderbaren Resultat fuehrte), aber das sieht schon richtig aus und am wichtigsten ist ohnehin, dass die Anstiege mit zunehmendem Linklevel auch hier steiler werden.
Als Letztes ist noch zu sagen, dass man auch mittels Integralen nix machen kann, wenn da nix ist. Siehe die Daten zu LL19.

Danach hatte ich den Startpunkt fuer die Simulation mit den realen Daten verglichen. Das war damals sehr gut und ist auch bei den Integralen sehr gut. Ich habe da zwar ein Diagramm, aber der Informationsinhalt ist so trivial, dass ich das nicht nochmal zeigen muss.

Aehnlich schnell und ohne Diagramm kann ich abhandeln, wie die integrierten Daten der durchschnittlichen Anzahl der Selbstzitierungen auf LLi+1 in Abhaengigkeit von LLi aussehen. Wieder bestaetigen die integrierten Daten vorherige Resultate. Es liegt aber die gleiche Situation wie bei den durchschnittlichen Links pro Zitat vor. Deswegen muss ich das nicht nochmal im Detail besprechen und das zugehørige Diagramm ist auch nicht so spannend.

Als Letztes zu den Selbstreferenzen noch drei repraesentative Beispiele bzgl. der Seiten die von einem Linklevel zum naechsten „aussteigen“ aus der „Selbstreferenzkette“:

Die Daten sind gegeneinander verschoben und die „Rohdaten“ sind die Punkte mit den blassen Farben. Da man nur Phaenomene die bereits mehrfach besprochen wurden sieht, habe ich mir nicht mal mehr die Muehe gemacht „Regressionsgeraden“ von Hand rein zu legen … ich wollte das schlieszlich nicht alles nochmal machen, sondern nur gucken, was eine Integration zur Folge hat und das hier sieht alles gut und wie erwartet aus.

Das ging ja ausnahmsweise _wirklich_ mal schnell heute … fetzt ja.
Beim naechsten Mal schliesze ich die log-log-Plots ab und zeige ein paar Beispiele, bei denen eine Integration der falsche, oder zumindest ein nicht nuetzlicher Ansatz ist.

Zur Erinnerung: Økonomen behaupten, dass die 90’er Jahre in Japan eine „verlorene Dekade“ gewesen sind. Dieser Ausdruck wird gern ausgeweitet auf die zwei darauffolgenden Jahrzehnte. Der Grund dafuer liegt darin, weil die Wirtschaft Japans da nicht mehr so stark „gewachsen“ ist.

Auszer den von den Økonomen ueblicherweise herangezogenen Indikatoren (die im Wesentlichen aussagen, dass die Reichen immer reicher werden … etwas ueberspitzt formuliert … aber nicht all zu sehr), gibt es aber noch andere Messgrøszen, an denen man den Zustand eines Landes „ablesen“ kann.
Dank dieser Quelle konnte ich mir davon ein paar anschauen und wie so oft ist das etwas komplizierter. Aber der Reihe nach (und aufgeteilt auf mehrere Beitraege).

Mit dem Begriff „verlorene Dekade“ verbinde ich, dass viele Menschen arbeitslos sind (mit besonderem Augenmerk auf die sog. Jugendarbeitslosigkeit). Und tatsaechlich, beide Messgrøszen sind erst seit ungefaehr 2018 wieder auf den Wert vom Ende der 80’er Jahre zurueck:

Da scheint also was an den „verlorenen Dekaden“ dran zu sein. Das Problem ist nun aber, dass die Arbeitslosenrate mitnichten erst am Anfang der 90’er Jahre anstieg. Vielmehr sieht es mir nach einem laenger andauernder Prozess aus, der mindestens schon 20 Jahre eher begann. Man sieht das an den Geraden im Diagramm. Diese legte ich zunaechst nur durch die Werte von Anfang der 70’er bis Ende der 80’er Jahre (durchgezogene Linien) und extrapolierte danach (gestrichelte Linien … und „extrapoliert“ ist ein piekfeines Wort um nicht „laenger ziehen“ sagen zu muessen … tihihi). Die Trendgeraden beschreiben die generelle Entwicklung verdammt gut, auch wenn es natuerlich (zum Teil sehr starke) Schwankungen darum gibt.

Der Anstieg der Arbeitslosenrate laeszt sich aufgrund des Bevølkerungswachstums nach dem 2. Weltkrieg und der so wichtigen (finanziellen) Emanzipation der Frauen erklaeren. Wobei ich nicht abschaetzen kann, wie stark letzterer Effekt in Japan war … mein Bauchgefuehl sagt mir, dass Japan doch noch eine sehr traditionelle Gesellschaft ist diesbezueglich.
Und hier schnappt die Falle bei solchen Statistiken zu: zur Arbeitskraft zaehlen naemmlich NUR Menschen die eine Arbeitsstelle haben, ODER (inklusives oder) die eine Arbeitsstelle haben wollen. Wenn eine Person das nicht møchte (bspw. aufgrund sog. „traditioneller“ Verhaeltnisse in denen der Mann arbeiten geht und die Frau zu Hause bleibt), dann zaehlt diese Person nicht zur Arbeitskraft … trotz der vielen nicht entlohnten Arbeit die von ihr (oder ihm) verrichtet wird.
Letzteres erklaert dann auch, warum die Kurven ab ca. 2012 (?) wieder runter gehen. Die vorherige Generation geht in Rente (sucht also NICHT mehr nach Arbeit); aufgrund der Entwicklung der Demographie in Japan werden diese aber nicht mehr vollstaendig ersetzt.

Worauf ich hinaus will: auch wenn es zunaechst scheint (!), als ob die Arbeitslosenrate fuer „verlorene Dekaden“ spricht, so denke ich, dass das bei genauer Betrachtung der Daten nicht haltbar ist, weil das auch viel einfacher und weniger „einzigartig“ mit einem lang anhaltenden Trend erklaert werden kann.
Økonomen wissen das im Uebrigen, weswegen ich bei Diskussionen um die „verlorene(n) Dekaden“ zwar was vom stagnierenden Wirtschaftswachstum aber nichts von den Arbeitslosenzahlen høre. Wuerde das naemlich als Argument gebraucht werden waere das viel zu einfach zu wiederlegen.

Ab und zu hørt man, dass die Wissenschaft nicht durch Akzeptanz vorwaerts schreitet sondern weil die Gegner eines neuen Gedankengebaeudes nach und nach sterben. Das wird auch Plancks Prinzip genannt und ich hatte das in diesem Weblog schon mindestens zwei Mal erwaehnt.

Aber bis vor Kurzem wusste ich nicht wo oder in welchem Zusammenhang er das sagte. Bis ich ueber seine Wissenschaftliche Selbstbiographie stolperte. Der Volltext war zunaechst unheimlich schwer aufzutreiben, das Internet Archive konnte dann aber zum Glueck (wie so oft) liefern … aber so richtig gut origanisiert ist das Wissen dort leider nicht … bzw. denke ich, dass das Wissen vermutlich gut organisiert ist, die Suche hingegen ist wenig hilfreich … zumindest dann, wenn man nur mal kurz was sucht … ich gab schon fast auf.

Wieauchimmer, in besagtem Buch auf den Seiten 33 und 34 findet sich das Original (auf englisch; wobei ich denke, dass er’s urspruenglich auf dtsch. sagte, aber den dtsch. Text wollte ich nun nicht auch noch suchen):

A new scientific truth does not triumph, by convincing, its opponents and making them see the light, but rather because its opponents eventually die, and a new generation grows up that is familiar with it.

Weil das einer der Sprueche ist, die es (verkuerzt, wenn auch nicht sinnentstellt) ins kulturelle Unterbewusstsein geschafft haben (zumindest in meinem sozialen Habitat), wollte ich hier die Quelle mal festgehalten haben.

Vor ’ner Weile war ich im Bode Museum. Ein Besuch dort lohnt sich wirklich.

Aber darauf will ich gar nicht hinaus. Vielmehr wollte ich dieses Kunstwerk zeigen:

Der Mann ist Jesus und ich zeige das, weil ich noch nie einen Jesus mit Schnurrbart gesehen habe. Leider vergasz ich zu notieren, von wem das war und wie das Werk heiszt.

Neulich las ich ein interessantes Interview ueber Sprache (und  teilweise Kultur) in Georgien. Das ist durchaus lesenswert, aber darauf møchte ich nicht hinaus.

Vielmehr geht es mir darum, dass dort zwei Nicht-Georgier, die aber in Georgien leben und (mich duenkt als Linguisten) arbeiten zu Wort kommen und einer meinte das Folgende (Hervorhebung von mir):

You’re always going to be an immigrant and you’re always sort of an outsider, but I think those of us who live the life of, let’s call them expatriates or immigrants, I think that the people who do best in that kind of environment are those who are the most comfortable with living in the liminal zone between cultures.

I think that’s why I certainly enjoy being neither fish nor fowl. It has its drawbacks, but it has its advantages too. I think that is what my personality enjoys, being in that space, being the interpreter between those two things and always learning something.

Und das gilt definitiv fuer mich auch und zwar nicht nur bezogen auf meinen Wohnort.

Das Zitierte „erklaert“, warum ich mich zwar als Physiker sehe, aber als „Datenerforscher“ gluecklich bin obwohl letzteres (vereinfachend gesagt) „nur“ Rechnungsdaten sind.
Oder warum ich ganz begeistert eine Star Wars Ruestung gebaut habe, dann aber nicht darin „verschwunden“ bin … neben anderen Gruenden, weil es in dem (sozialen) Milieu nix Neues mehr gab.
Oder warum ich begeistert zocke UND begeistert Slalom fahre.
Oder warum ich Downton Abbey toll finde und nicht nur Star Trek und andere Science Fiction. Bzw. warum ich so vielen Filmen etwas abgewinnen kann und nicht nur „meinem“ Genre.
Oder warum mich System of a Down begeistert, aber auch Daft Punk.
Dieser Beitrag (aber auch andere) ist eine ganz fantastische Veranschaulichung dessen was ich meine … eine Hackveranstaltung und ich bin dort im Star Wars Kostuem.

Und so weiter und so fort … … …

Als „Zwischenmensch“ bin ich natuerlich kein „insider“ irgend einer Gruppe eben „always sort of an outsider“ … siehe das Beispiel mit der 501st Legion (die Star-Wars-Kostuemgruppe) mit der ich nicht so viel anfangen kann oder aber, dass ich mich damit schwer tue, mich mit einem ganz konkret Hackerspace zu assoziieren …  aber auch auf Arbeit und in so ziemlich allen anderen sozialen Zusammenhaengen …  Das sind dann die im Zitat erwaehnten „drawbacks“.

Aber letztlich passt es mir ganz gut, dass ich „weder Fisch noch Gefluegel“ bin :)

Ich wuensche euch, meinen lieben Leserinnen und Lesern ein ganz hervorragendes 2024.

OIOIOI! Was fuer ein tolles Weihnachtsgeschenk, denn das hier heute ist sooo geil! Der Integralansatz hat naemlich bei der Verteilung der Grøsze der Archipele zu mehreren neuen Erkentnissen gefuehrt. Aber der Reihe nach.

Zur Erinnerung nochmal das Diagramm von damals:

Das sind erstmal wieder „nur“ zwei „Histogramme mit Schwanz“. Damals unterschied ich zwischen der Verteilung bei der das No-way-home-Archipel (in kurz: nwhA) auszen vor gelassen wurde (schwarze Punkte) und der wo das mit drin war. Achtung: auch wenn ich hier die Einzahl benutze, so besteht das nwhA eigtl. aus mehreren No-way-home-ArchipelEN; inklusive mehreren zehntausend einzelnen Seiten.
Ich berechnte nie die Anstiege (der von Hand hereingelegten Linien), aber fuer die schwarzen Punkte (blaue Linie) ist selbiger ungefaehr -3.3 und fuer die roten Punkte (Linie in oliv) ca. -2.5. Das ist ein deutlicher Unterschied, aber aufgrund der Datenlage wollte ich nicht aussschlieszen, dass die linearen Bereiche der beiden Histogramme den gleichen (wenn nicht gar den selben) Anstieg haben — siehe die (parallel verschobene) gestrichelte Linie in oliv, welche die schwarzen Punkte nicht unbedingt viel schlechter beschreibt.

Die integrierten Daten (normale Integralgrenzen) sehen nun so aus:

OIOIOIOIOI! Das fetzt ja! Denn auf einmal treten mehrere Sachen deutlich hervor.

Zum Ersten sieht man, dass die Histogramme aus ZWEI Abschnitten mit unterschiedlichen Anstiegen bestehen. Diese Information war im obigen Diagramm komplett im „Zappelschwanz“ versteckt. Toll wa!
Ich bezeichne den (jeweiligen) linken Abschnitt als „normale“ Archipele und den (jeweiligen) rechten Abschnitt als „grosze“ Archipele.

Zum Zweiten sind besagte Abschnitte ganz klar mittels vier Geraden (in doppellogarithmischer Darstellung) zu beschreiben. Aber Achtung: die zwei Geraden der jeweils ersten Abschnitte (die blaue und olive Linie) haben unterschiedliche Anstiege waehrend die der jeweils zweiten Abschnitte hingegen den gleichen Anstieg haben (die lila, gestrichelten Linien) … nun ja, innerhalb des Fehlers interpretiere ich das als den gleichen Anstieg; mathematisch betraegt der Unterschied aber nur ca. 0.1 und das habe ich bei allen vorhergehenden Untersuchungen immer als „das ist schon irgendwie das Gleiche“ durchgehen lassen.
Wieauchimmer, da faellt (fast) nix aus der Reihe mit einer Kruemmung oder groszen „Ausreiszern“

Aus diesen Beiden folgt das Dritte: die Seiten die die Daten der ersten Abschnitte ausmachen unterliegen jeweils anderen Potenzgesetzen, waehrend fuer die groszen Archipele der zweiten Abschnitte nur EIN Potenzgesetz gilt. Das ist nicht ungewøhnlich, dass fuer Daten-am-Ende-und-irgendwie-weit-auszerhalb-der-normalen-Verteilung andere Gesetze gelten und das tritt (relativ) haeufig auf; kurioserweise gelten (in anderen Zusammenhaengen) fuer solche Daten oft maechtige Gesetze waehrend das oft nicht den Rest (und Groszteil) der Messungen beschreiben.
Wieauchimmer, vom Bezuhgsrahmen ist abhaengig wann „grosze Archipele“ beginnen.

Viertens folgt aus dem kleineren Anstieg der zweiten Abschnitte, dass es deutlich mehr grosze Archipele gibt als es geben sollte im Vergleich mit den normalen Archipelen; das untermauert die Vermutung eines anderen Mechanismus fuer grosze Archipele.
Ich denke NICHT, dass diese Aussage (eines anderen zugrundeliegenden Mechanismus) fuer die ersten Abschnitte gilt, obwohl diese auch unterschiedliche Anstiege haben. Weiter unten erklaere ich warum.

Diese vier Sachen sind so fetzig, weil das ueberhaupt nicht ersichtlich ist im urspruenglichen Diagramm.

Fuenftens stimmen die Anstiege der Geraden der ersten Abschnitte mit -2.5 fuer die schwarzen Punkte (blaue Linie) bzw. -1,6 fuer die roten Punkte (Linie in oliv) „mathematisch (fast) perfekt“ mit den frueheren Ergebnissen ueberein. Dadurch werden diese (wieder mal) untermauert, aber (wieder mal) mit grøszerer „Sicherheit“.

Das wiederum fuehrt zu Sechstens: der obige erwaehnte Unterschied im Anstieg der beiden Verteilungen ist echt. Hier kann man das nicht mehr mit „innerhalb des Fehlers kønnte das auch gleich sein“ wegdiskutieren. Wenn man das No-way-home-Archipel auszen vor laeszt scheint ein anderer Mechanismus am wirken zu sein … zumindest war das meine erste Vermutung. Die bereitete mir aber aber „Bauchschmerzen“ denn auch wenn ich das fuer „grosze Archipele“ akzeptieren konnte (s.o.) so sind die schwarzen Punkte ja bei den roten Daten mit drin und ich konnte mir nicht erklaeren warum Seiten (in Archipelen) auszerhalb des nwhA sich anders verhalten sollten als wenn ich alles zusammen betrachte.

Diese Unstimmigkeit liesz mich (wieder einmal) nicht los und ich gruebelte (wieder einmal) tagelang darueber nach, wie das erklaert werden kønnte. Ich muss ganz ehrlich sagen, dass ich stolz auf mich bin, dass ich eine møgliche Erklaerung fand.
In kurz: das Phaenomen der Archipele kann _nur_ in seiner Ganzheit betrachten werden und sollte NICHT in das nwhA und Archipele auszerhalb desselbigen unterteilt werden.

Aber der Reihe nach und zunaecht muss man sich erinnern, dass ich („historisch“ gesehen) zuallererst das nwhA gefunden habe. Das reichte aber nicht aus um die damals untersuchte Diskrepanz zu erklaeren und ich stellte weitere Ueberlegungen an, bei denen ich das nwhA zunaechst auszen vor liesz und erst am Ende wieder alles verknuepfte. Die schwarzen Daten oben sind nun die Daten bei denen das nwhA NICHT mit dabei ist und die roten Punkte bei denen alles verknuepft ist.
Ich erwaehnte damals, dass das nwhA viele Verbindungen mit Archipelen hat welche in besagten (hier) „schwarzen Daten“ dargestellt sind; aber das sieht man NUR, wenn man wieder alles verknuepft.
Das muss man im Hinterkopf behalten bei den folgenden Erklaerungen, aber bevor ich zu denen komme, muss ich noch auf etwas anderes hinweisen.

Fuer die folgenden Ueberlegungen gilt, dass mich NUR der Anstieg und NICHT die „Amplitude“ der Kurven interessiert. Oder anders: die schwarzen Daten gehen schneller nach unten, aufgrund besagten (staerkeren) Anstiegs und das interessiert mich. Gleichzeitig sind sie auch nach unten „verschoben“ einfach weil die Anzahl der Archipele die in den roten Daten enthalten sind viel grøszer ist als die Anzahl der Archipele welche die schwarze Daten ausmachen. Diese absolute Verschiebung interessiert mich NICHT und fuer das was ich hierunter schreibe, nehme ich an, dass die „Amplituden“ gleich grosz sind.
Auszerdem rede ich im folgenden immer nur ueber die ersten Abschnitte in den obigen (integrierten) Daten.

Die schwarzen Daten unterliegen einem Potzengesetz welches schneller abfaellt als das Potenzgesetz welches die roten Daten beschreibt. Wenn besagte Gesetze nun in der Wahrscheinlichkeitsinterpretation betrachtet werden (mit dem was ich eben schrieb bedeutet dies Aussage, dass man sich denken soll, dass beide Verteilungen insgesamt gleich viele Archipele enthalten), dann heiszt das, dass die Wahrscheinlichkeit fuer ein „schwarzes Archipel“ der Grøsze 4 so grosz ist wie ein „rotes Archipel“ der Grøsze 6. Oder ein „schwarzes Archipel“ der Grøsze 10 ist so wahrscheinlich wie ein „rotes Archipel“ der Grøsze 18. Man sieht das, wenn man einfach zwei gleiche Funktionswert fuer die schwarzen bzw. roten Daten anschaut und vergleicht welche Archipelgrøszen dazu gehøren.
Oder anders: die blaue Linie ist von der roten Linie gesehen nach links „verschoben“ … aber nicht parallel verschoben (denn dann waeren die Anstiege ja gleich), sondern abhaengig vom Wert der Archipelgrøsze unterschiedlich, mit zunehmenden Unterschied je grøszer das Archipel … das ist also eher eine Rotation nach links, wobei die Kurve beim Archipelgrøszenwert zwei festgehalten wird (das ist also der „Drehpunkt“).

Ich schreibe das hier auf, als ob das das natuerlichste von der Welt waere. Ich brauchte aber eine ganze Weile bevor ich da drauf gekommen bin und verfolgte ein paar „Sackgassen“ bevor ich diesen Durchbruch hatte.
Und wenn man mal drueber nachdenkt, dann ist das schon erstmal komisch; warum sollte die Verschiebung vom Wert auf der Abszisse abhaengen. Ich komme darauf zurueck, aber um zu verstehen warum das sinnvoll ist, muessen wir wieder zu den Archipelen und den Seiten aus denen diese bestehen zurueck kommen.

Zunaechst das nwhA und davon sind fuer das zugrundeliegende Prinzip das ich beschreiben will nur die …

[…] „Einwohner“ der (isolierten) „Insel der […] Unzitierten“ […]

… von Interesse; also nur die Seiten, welche nach „drauszen“ zitieren aber nicht zitiert werden. Dieser Satz nach dem Semikolon ist wichtiger als er aussieht, denn diese Seiten zitieren auch zu den nicht-nwhA-Archipelen. Den Prozess „sehe“ ich aber nicht in den „schwarzen Daten“, denn selbige habe ich dadurch erhalte, indem ich die Seiten aus denen das nwhA besteht auszen vor gelassen habe. Oder anders: „Einwohner“ der „Insel der Unzitierten“ sind sowas aehnliches wie die „Anhaenger“ im Zusammenhang mit „Kettenseiten“, nur dass der „Zitierpfeil“ andersrum ist.
Ein Bild sagt oft (aber nicht immer) meht als 1000 Worte:

Schwarze Kugeln mit Doppelpfeilen gehøren zu einem NICHT-nwhA-Archipel, die lila Kugeln mit einem Pfeil hin zu Ersterem sind „Einwohner“ der „Insel der Unzitierten“.
Was wir hier sehen ist das was ich oben schrieb und was in den roten Daten ausgedrueckt ist: man darf nur alles zusammen betrachten. Die „schwarzen Daten“ sind Teil eines grøszeren Verbunds (die „roten Daten“), aber dieser Verbund ist „abgeschnitten“ wenn die Grøsze der Archipele bei den „schwarzen Daten“ bestimmt wurde.
Oder anders: wenn ein NICHT-nwhA-Archipel die Grøsze 6 hat, so ist dem nur scheinbar (!) so, denn eigentlich „kleben“ an vier Seiten dieses Archipels noch jeweils ein „Einwohner“ der „Insel der Unzitierten“ dran und die eigentliche Grøsze des gesamten Archipels ist 10.
Die ersten beiden schwarzen Punkte haben kein „Anhaengsel“, denn die sind ja der „Drehpunkt“.

TADA! Das ist die Erklaerung dafuer, warum die „schwarzen Daten“ KEINEM anderen Mechanismus unterliegen als die „roten Daten“ (denn das waere nicht sinnvoll), warum die aber dennoch durch ein anderes Potenzgesetz beschrieben werden.
Der Unterschied zwischen einem Anstieg von -2.6 und -3.3 wird genuegend gut durch (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel beschrieben. Das habe ich durchgerechnet. In Wahrheit ist das natuerlich oft komplizierter, wenn mal zwei (oder auch mal keine) Exraseite an eine schwarze Kugel „angeklebt“ wird.  ABER die „Insel der Unzitierten“ besteht aus ca. 320k „Einwohnern“ und dominiert das nwhA zu 90 Prozent. Solche komplizierteren Gegebenheiten kønnen in diesem einfachen Bild also ohne Beschraenkung der Allgemeinheit (oder so … ich habe das jetzt bestimmt nicht richtig gebraucht) auszen vor gelassen werden.

Gibt’s einen „Beweis“ dafuer?
Nun ja, keinen Beweis, denn dafuer muesste ich nachverfolgen, welche Seite wo „dranklebt“. Aber meiner Meinung nach starke Indizien, welche obiges Modell unterstuetzen.
Zum Einen verweise ich wieder auf die „Anhaenger“ bei den Kettenseiten. Einzelne Seiten die einfach an ’nem ausgedehnteren Konstrukt „dranhaengen“ sind ein bereits etabliertes Phaenomen.
Zum Zweiten sieht man es zwar nicht im Diagramm (wg. der logarithmischen Komprimierung), aber es „fehlen“ bei den „roten Daten“ bei der Archipelgrøsze 1 ca. 22-tausend Archipele. Das sind keine 320k (plus 1k aus den „schwarzen Daten“) sondern nur 299-tausend Archipele an der Stelle.
Zugleich sind es nur ca. 15-tausend Seiten die sich auf allen NICHT-nwhA-Archipelen „tummeln“ … das kønnte einem so vorkommen, als ob sich …

[…] (etwas-mehr-als)-eine-gruene-Kugel-pro-schwarzer-Kugel […]

… an diese ca. 15-tausend Seiten „ranklebt“. Fetzt wa!

Fuer diese zugrundeliegende „atomistische“ Erklaerung kann man in der Natur Beispiele finden (ich nenne mal nur Kohlenwasserstoffe) und deswegen klingt das Modell fuer mich durchaus plausibel. und ich hoffe, das war alles halbwegs verstaendlich erklaert.
Wie gesagt, bin ich voll stolz auf mich (und freu mich auch sehr dolle), dass ich das rausgefunden habe.

Ach so, das erklaert auch, warum der „Knick“ zu „groszen Archipelen“ bei den schwarzen Daten viel eher kommt als bei den roten Daten; die Archipele sind im eigentlich Verbund schon viel grøszer und damit in einem Bereich der wirklich einem anderen Mechanismus unterliegt.

Nochmal ach so: die „schwarzen Daten“ gibt es nur deshalb, wie ich das ganze urspruengliche Thema nach und nach „explorativ“ bearbeitet habe und nach und nach verschiedene Dinge entdeckte. In der Wissenschaft erzaehlt man dann am Ende alles halb „rueckwaerts“ und laeszt diese vorantastenden Schritte des langsamen Verstehens weg. Dadurch wird alles kuerzer und logischer und ergibt ein konsistentes Bild. Das ist aber nicht der Prozess des Forschens, den ich in dieser Maxiserie ja (mit Absicht) explizit darstelle.

Wieauchimmer, der Integralansatz ist hier sehr fruchtbar und das Alles sollte weiter untersucht werden … aber nicht von mir.

Das soll genug sein fuer heute. Mal schauen, was es naechstes Mal wird und ich wuensche erholsame Feiertage :)

Am Ende des 20. Jahrhunderts (genauer gesagt 1991) platzte in Japan eine gigantische Immobilien- und Aktienmarktblase und stuerzte das gesamte Land in mindestens ein Jahrzehnt økonomische Stagnation. Unter Økonomen wird dieser Zeitraum als die „verlorene Dekade“ bezeichnet. Selbe Økonomen weiten den Begriff mittlerweile auch auf die darauffolgenden zwei Jahrzehnte (also 30 Jahre insgesamt) aus.

Nun will ich das alles gar nicht abstreiten. Die Spekulationsblase war definitv da und die platzte und einige makroøkonomische Kennzifferen gehen runter und stagnieren. In diesem Zusammenhang werden meistens genannt das jaehrliche Wachstum, das Bruttoinlandsprodukt, der sog. Geltungskonsum (all zu vereinfachend gesagt: alles was man sich als „Statussymbol“ kauft … also meine Playstation, aber in meinem Fall nicht das Fahrrad, denn das ist schon die billigste Methode um ins Buero zu kommen), die Produktivitaet pro Einwohner, nicht zu vergessen: der bei Økonomen so beliebte Aktienindex und andere solche Sachen.

Ich weisz, darob der Nuetzlichkeit makroøkonomischer Faktoren. Und oft genug kann man bestimmte Sachen auch gar nicht anders messen oder Situationen (ob historisch oder geographisch) nur damit vergleichen. Als Datenanalytiker werden ich deren Aussagekraft also mitnichten abtun.
Aber oft genug scheint mir, dass die Geschichten besagter Økonomen die damit argumentieren doch immer viel zu sehr in die Richtung des Maerchens vom ewigen Wachstum gehen. Und eigentlich immer mit dem Schluss, dass wenn ein Land wirtschaftlich nicht waechst … nun ja eben „verloren“ ist.

Jetzt muss ich erstmal kurz abschweifen, denn diese Ueberlegungen fuehrte ich, weil ich in Tokyo zwischen diesen (und anderen) Riesen …

… wandelte … und das sah mir ueberhaupt nicht nach drei Jahrzehnten andauernder Stagnation aus. Klar buchstaeblich zwei Straszen weiter standen weniger grosze Gebaeude die aelter aussehen, …

… aber „verloren“ scheint mir auch das mitnichten.

Hier ein anderes Beispiel ueber das ich im Internet stolperte (Screenshot von hier, denn wer weisz wie lange der Link noch verfuegbar ist):

Das ist wohl die Hauptstrasze in Akihabara 1985, also zu einer Zeit als fuer die Økonomen noch alles fein und in Butter war. Zum Vergleich hier die Hauptstrasze des Bezirks (nicht das selbe Gebaeude) im Jahre 2023:

Na klar, Akihabara hat sich von der super-nerd „Electric town“ mit den Laeden fuer Elektronikkram zum Zentrum fuer „mainstream“ Manga und (japanische) Popkultur entwickelt. Aber fuer mich sieht das nach 30 Jahren normaler Entwicklung aus, wie ich das von einer Weltstadt wie Tokyo erwarten wuerde; definitiv nicht wie drei „verlorene“ Jahrzehnte.

OKOK, das ist Tokyo … wie sieht das denn in Kleinstaedten aus? Hier ein Blick aus dem Bahnhof von Takeo:

Die Stadt ist ungefaehr so grosz wie Stendal und was ich auf dem Bild sehe, erinnert mich durchaus daran. Na klar, das ist keine belebte Metropolis, und es gibt vermutlich auch einen (seit langem anhaltenden) Rueckgang von traditionellem, produzierendem Gewerbe (und allem was damit einher geht), aber es sieht sicher nicht so aus wie ich das nach 3 „verlorenen Dekaden“ erwarten wuerde; vielmehr sieht’s genaus so aus wie anderswo in der sog. „westlichen“ Welt.

Lange Rede kurzer Sinn: was ich sah passte irgendwie nicht so richtig mit dem zusammen mit dem was ich erwartete. Deswegen schaute ich mal genauer auf andere økonmische Daten fuer die drei Jahrzehnte (und wenn møglich die Zeit davor). Dabei half mir diese Seite aber wie so oft mache ich lieber meine eigenen eigenen Grafen … die ich im naechsten Artikel zeigen werde.

Hier schaute ich mir zum ersten Mal linklevelabhaengige Verteilungen einer Grøsze (in dem Fall der totalen Links) an. Ich gehe hier nicht weiter drauf ein, denn auch wenn ich da viel zu schrieb, kam am Ende nicht viel bei rum (auszer, dass das „São Paulo Artefakt“ dadurch mehr Aufmerksamkeit erhielt … aber „entdeckt“ wurde dieses schon eher).

Wieauchimmer, bei diesen vielen Histogrammen kam damals schon nix bei rum und wenn ich das als Integral betrachte …

… dann aendert sich daran wenig (Achtung: die Ordinate ist hier kein Zaehler fuer absolute Zahlen, sondern als kumulative Wahrscheinlichkeit (mit normalen Integralgrenzen) dargestellt).
Die fuenf Beispiele sind repraesentativ und selbst wenn man in den „Uebergang“ rein zoomt sieht man nix Spannendes.

Weil bei den neuen Links pro Linklevel im Wesentlichen die gleiche Situation vorliegt, schaue ich mir die dazugehørigen Verteilungen nicht nochmal als Integral an. Waere ja albern, denn das habe ich damals beim ersten „Durchgang“ auch nicht gemacht.

Und das soll’s fuer heute schon gewesen sein … ausnahmsweise ging’s schnell.

Hier schaute ich zum mir ersten Mal die Abhaengigkeit der Links einer Seite von der Anzahl der Zitate die diese erhaelt an. Es war ein „Blob“. Dann berechnete ich die durchschnittliche Anzahl an Links ueber alle Seiten die eine gegebene Anzahl an Zitaten erhalten hatten und der Blob verschwand und ich erhielt das erste wahrhaft ueberraschende Ergebniss in dieser Maxiserie: der Zusammenhang folgt auch einem maechtigen Gesetz. Besagtes Ergebnis ist in diesem Diagramm nochmals in grau wiedergegeben …

… und die (von Hand reingelegte) Regressionsgerade (lila, nicht durchgehende Linie) fuehrt zu einem Exponenten von +0.5.

Weil es „aufwaerts“ geht, muessen die Grenzen fuer das Integral invertiert werden um etwas Vernuenftiges zu erhalten (wie beim vorletzten Mal gezeigt) und besagtes Integral sind die Rechtecke in oliv. Die dazugehørige (auch von Hand reingelegte) Regressionsgerade in blau hat einen Anstieg von ca. +1.4 (eine Aenderung von ca. 5.5 Grøszenordnungen auf der Ordinate und ca. 4 Grøszenordnungen auf der Abszisse) … was ja wohl mal (beinahe) das mathematisch perfekt zu erwartende Resultat war. Das Integral bestaetigt also meine urpsruenglichen Ergebnisse … cool wa.

Bei den Rohdaten fangen die Daten zu „zappeln“ an ab ca. 500 Zitaten und haben eine ganz betraechtlich Varianz ab ca. 2000 Zitaten. Das liegt daran, weil es nicht so viele Seiten gibt, die derart viele Zitate erhalten und ich diskutierte das im damaligen Artikel.
Das Integral geht aber bis 200 Zitiaten schøn gerade weiter was natuerlich toll ist … um dann ueber nur eine halbe Grøszenordnung (also ziemlich abrupt in diesem Zusammenhang) in eine Parallele zur Abszisse ueber zu gehen. Dies fuehrte mich zunaechst dazu zu sagen, dass die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus nicht zulaessig ist.
Aber dann schaute ich mir die Rohdaten nochmal nur fuer diesen Bereich an und kam zu dem Schluss, dass das DOCH auch bei ueber 2000 Zitaten gilt. Dort waechst die Anzahl der Links im wesentlichen nach dem gleichen Potenzgesetz wie vorher. Warum zeigt sich das aber nicht in den integrierten Daten?

Nach etwas gruebeln kam ich auf die Antwort (die hier bereits erwaehnt wurde): es gibt dort nicht genuegend Daten! Im Beispiel beim vorletzten Mal wurden zunehmend mehr „Messungen“ je høher der „Messwert“ auf der Abzsisse war. (Vermutlich viel zu) Vereinfachend gesagt, befanden sich im Abschnitt 10 bis 100 auf der Abzsisse beim letzten Mal zehn Mal weniger „Messungen“ im Vergleich mit Abschnitt 100 bis 1000. Damit kann die Summe ueber letzteren Abschnitt zehn Mal grøszer werden und in einem log-log-Plot waechst das linear.
HIER aber nimmt die Anzahl der Daten mit zunehmender Anzahl Zitate ab und der „Integralansatz“ hørt auf zu funktionieren!

Die Mathematik ist hier also nicht „kaputt“ und auch die Daten sind es nicht. Vielmehr ist die Bildung der Summe der vøllig falsche Ansatz um Informationen aus den Daten mit mehr als 2000 Zitaten heraus zu bekommen. Das ist AUCH eine ganz wichtige Erkentniss.

Fuer ein Modell muesste in diesem Fall also zunaechst in Betracht gezogen werden, wie wahrscheinlich eine Seite mit einer gegebenen Anzahl Zitate ist. Fuer die Anzahl der durchschnittlichen Seiten gilt dann aber wieder das Potenzgesetz und die Verlaengerung der urpsruenglichen Regression ueber 2000 Zitate hinaus ist eben DOCH gueltig.

Etwas ganz anderes, aber sehr wichtiges: alles in Betracht ziehend sieht man hier, dass der „Integralansatz“ auch dann funktioniert, wenn die Ordinate NICHT nur eine „Abzaehlung von Ereignissen“ repraesentiert. Oder anders: bisher hatte ich nur Histogramme gezeigt, da zaehlt man auf der Ordinate wie oft eine „Messung“ mit einem bestimmten Ergebniss auftritt.
Die durchschnittliche Anzahl an Links ist aber nix was so „abgezaehlt“ werden kønnte.
Dennoch funktioniert der „Integralansatz“ und das fetzt (und ist wichtig). ABER das hier kan auf gar keinen Fall als kumulative Wahrscheinlichkeit interpretiert werden! Das ist natuerlich der Grund warum das Integral NICHT linear bis zum Ende ist, obwohl die Rohdaten das durchaus sind.

Das soll reichen fuer heute. Bisher laeuft’s ja nicht so doll mit …

[…] ich schaue mir das nicht nochmal im Detail an; das werden also Artikel mit Bildern und (meist) nicht ganz so viel Text […]

Liegt halt daran, dass …

[…] es was Neues oder Interessantes zu sehen gibt.

Fetzt ja auch, nicht wahr :) … Andererseits gehe ich ueber Dinge deren Diskussion ueber mehrere Artikel ging nur kurz nochmal rueber und beim letzten Mal habe ich sogar zwei Sachen in nur einen Beitrag gepackt … das ist ja schon was :)