Archive for August, 2021

Immer noch im selben System vom letzten Report hatte ich dann noch eine (ganz und gar nicht unheimliche) Begegnung der dritten Art:

Und dann waren hier auch wieder Lindigoticum Silicate Kristalle …

… und bei diesem Anblick, mit der Galaxis im Hintergrund, wurde ich mir zum ersten Mal bewusst, dass mir dieser spezielle Typ von Weltraumkristall bisher immer nur am Rande der Galaxis begegnet ist.

Und nun frage ich mich ob mich das beunruhigen sollte. Sind diese Kristalle Vorboten einer kommenden Invasion von auszerhalb der Galaxis, oder verlassen diese unsere Milchstrasze, weil irgenwas galaxisweit Schlimmes in naher Zukunft passieren wird?
Wobei „nahe Zukunft“ natuerlich kosmisch zu sehen ist. Dies beruhigt mich etwas, denn egal was es ist, zu meinen Lebzeiten wird das nicht mehr passieren.

Ich erreichte Ood Fleau ZJ-I d9-0, das System mit der grøszten x-Koordinate (im galaktischen Koordinatensystem) und dort empfing ich ganz unerwartet den Willkommensgrusz eines Flottentraegers:

Nach der langen Reise tat es gut mein Schiff mal wieder zu verlassen und mit anderen Menschen zu plauschen. Und die Besatzung des Flottentraegers freute sich auch sehr. Klar, GalNet reicht bis hierher, die wissen also, was in der Bubble passiert. Aber ansonsten haben sie nur sich selbst und da freuen die sich, wenn mal wer anderes da ist, denn so oft kommt hier niemand her.

Weil ich mich so darueber freute, dass hier wer anders ist, ist Magellan’s Pub auf dem obligatorischen Bild, vom Rande der Galaxis auf dieselbe blickend, mit drauf:

Ich hatte zwei Ideen bzgl. der drei Gaussverteilungen welche die Verteilung der Laenge der Wikipediatitel beschreiben. Heute geht es um eine er beiden Ideen: die Verteilung der Laenge der Wørter der englischen Sprache.

Dafuer brauchte ich aber den englischen Duden, das Merriam-Webster Dictionary. Dieses Buch ist gemeinfrei und bei Project Gutenberg erhaeltlich. Allerdings sind da auch die Definitionen der Wørter mit dabei; die brauche ich aber nicht. Ja, die mit zu betrachten waere sogar schaedlich, denn bestimmte Wørter kommen viel øfter in Texten vor als andere Wørter. Das wuerde die Verteilung kaputt machen, da die Laenge dieser Wørter viel zu oft gezaehlt werden wuerde. In anderen Zusammenhaengen ist das bestimmt von Interesse. Bspw. wenn man die durchschnittliche Anzahl der Buchstaben in einem Buch abschaetzen will. Oder wenn man wissen will, welche Wørter besonders oft gebraucht werden. Aber nicht bei der Problemstellung die hier betrachtet wird.

Zum Glueck hat sich jemand anders bereits die Muehe gemacht und die Wørter von den Definitonen getrennt. Diese Datei nahm ich mir her und schaute mir mal die Verteilung der Laenge der Wørter der englischen Sprache im Vergleich zur Laenge der Wikipediatitel an:

Bekannt vom letzten Mal sind die roten Balken (Verteilung der Laenge der Wikipediatitel, diesmal nur bis 30 Buchstaben), die gelbe Kurve (dies ist die erste, der drei oben erwaehnten, Gausskurven) und die blaue Kurve (die Summe besagter drei Gausskurven). Neu sind die schwarzen Punkte, welche die Verteilung der Laenge der Wørter im Merriam-Webster Dictionary darstellen und die gelbe Kurve.

Bevor ich zum Offensichtlichen komme ist zu sagen, dass die Verteilung der Laenge der Wørter der englischen Sprache tatsaechlich mit einer Normalverteilung zu beschreiben ist. Das dem so ist war meine Vermutung, denn ansonsten haette ich die Betrachtungen hier gar nicht ausfuehren muessen. Aber nach der Ueberraschung mit der „unnormalen“ Verteilung der Laenge der Wikipediatitel war ich mir gar nicht so sicher ob diese Vermutung ueberhaupt stimmt.

Das Offensichtliche ist nun, dass die englische Sprache viel zu wenige Wørter enthaelt um die roten Balken auch nur unter der gruenen Kurve zu fuellen. In dem oben verlinkten Wørterbuch befinden sich etwas mehr als 300-tausend Wørter. Weniger als in jedem einzelnen der vier laengsten Balken sind. Neuere Editionen umfassen ca. 470-tausend Wørter. Aber selbst wenn wir das auf 600.000 erweitern, wuerde das nicht ausreichen.

Nicht ganz so offensichtlich, aber beim zweiten Blick sieht man’s … naja … das war ehrlich gesagt das Erste, was mir aufgefallen ist … was wollte ich jetzt eigentlich sagen … ach ja: das Maximum der Verteilung der Laenge der Wørter in Merriam Webster liegt bei 10 Buchstaben. Das Maximum der gruenen Kurve liegt aber bei 13 Buchstaben. Das ist jetzt zwar kein himmelweiter Unterschied, aber dennoch deutlich. So deutlich, dass ich das nicht in irgendeinen „Fehler“ wuerde schieben wollen.

Lange Rede kurzer Sinn, die Laenge der Wørter der englischen Sprache an sich ist NICHT verantwortlich fuer den Verlauf der Verteilung der Laenge der Wikipediatitel. Das spielt sicherlich eine Rolle, aber die ist nicht ausschlaggebend im Groszen und Ganzen.

Bei anderen Wikipedias mag das anders sein. Ich habe aus Interesse mal die Wørter der dtsch. Sprache untersucht. Ganz den Vorurteilen entsprechend scheint die dtsch. Sprache  eher laengeren Wørtern zugeneigt zu sein. Bei kurzen Wørtern gibt es keinen signifikanten Unterschied zwischen dtsch. und englisch im Verlauf der Verteilungen. Aber rechts vom Maximum (also zu laengeren Wørtern hin) hat die dtsch. Sprache (rote Punkte im unteren Bild) definitiv einen Ueberschuss verglichen mit Englisch (schwarze Punkte im unteren Bild).

Ich denke, dass dies daran liegt, dass es im dtsch. viel mehr Kompositwørter gibt. OK, ich gebe zu, dass dieser Gedanke naheliegend war. Unterstuetzt wird diese Vermutung, dass sich die dtsch. Verteilung NICHT durch nur eine Gaussverteilung beschreiben laeszt, aber perfekt durch zwei. Das sind die  beiden orangen Kurven im Bild. Aber ACHTUNG: die høhere orange Kurve beschreibt NICHT die Verteilung der Laengen der Wørter im Englischen, sondern ist die erste Gausskurve zur Beschreibung der Verteilung der Laenge der Wørter in der dtsch. Sprache.
Das Maximum dieser ersten Gausskurve liegt dann bei wie beim englischen bei ca. 10 Wørtern und die Form aehnelt sehr dem Verlauf der englischen Verteilung. Diese Kurve scheint also die Verteilung normaler „Einzelwørter“ zu sein. Die Amplitude der zweiten Gausskurve ist viel kleiner und Selbige sehr breit, mit einem Maximum bei 17 Buchstaben. Und 10 Buchstaben plus 7 Buchstaben … das fuehlt sich an, als ob das durchaus so’n durchschnittliches zusammengesetztes Wort charakterisiert.
Ach so, ich habe die Funktionswerte normiert, damit ich die Verteilungen besser vergleichen konnte. Aber das steht ja auch an der Ordinate.
Nochmal ach so: die Verteilung der Laenge der Wørter der dtsch. Sprache ist nur ’ne (zugegeben gar nicht so schlechte) Abschaetzung, denn ich habe nur eine Quelle mit einem relativ limitierten Wortschatz (ca. 88-tausend) benutzt. Eben das, was ich mal schnell im Internet, ohne lange Suche, gefunden hatte.

Wieauchimmer … schade eigentlich, dass die Laenge der Wørter der englischen Sprache NICHT die Laenge der Titel der Wikipedia erklaeren. Denn damit habe ich nur noch eine Idee, Namen von Personen, zur Erklaerung der Form der Verteilung … dazu mehr beim naechsten Mal.

Rekorde bzgl. des laengsten bzw. kuerzesten Titel sind zwar nett, aber die haben wenig Aussagekraft, was man denn prinzipiell erwarten kann. Deswegen schaute ich mir mal die Verteilung der Laenge aller Titel aller Wikipediaseiten an. Diese Verteilung sieht so aus …

… und das ist ganz bestimmt keine Normalverteilung, denn die habe ich zum Vergleich mit eingezeichnet.

So richtig verwundert war ich erstmal nicht, denn ich hatte nix erwartet. Aber dann fragte ich mich doch, warum das keine Normalverteilung ist.
Prinzipiell muss das keine Gaussverteilung sein. Die Geschwindigkeitsverteilung der Konstituenten eines idealen Gases folgen einer Maxwell-Boltzmann-Verteilung. Wie oft die Erde pro Jahr von Meteoriten getroffen wird, die grøszer sind als 1 m folgt einer Poisson-Verteilung. Aber wenn ich nix weiter weisz, dann nehme ich erstmal eine Gaussverteilung an. Das war schon bei meinen vielen Muenzwuerfen und auch bei meinen Untersuchungen der Fibonaccifolge erfolgreich.
Mit dem „dicken“ Teil rechts vom Peak kønnte es eine Maxwell-Boltzmann-Verteilung sein. Ich habe versucht die Daten mit dieser Funktion anzupassen und das funktioniert nicht. Gut so, denn dann haette ich mir Gedanken machen muessen, warum die Verteilung der Anzahl der Buchstaben der Titel der Wikipediaseiten ausgerechnet einer Maxwell-Boltzmann-Verteilung folgt.

Wenn man sich die Verteilung aber nun genau anschaut, dann sieht man zwei „Schultern“. Die eine bei ca. 35 Buchstaben sieht auch das ungeuebte Auge. Die andere um ca. 23 Buchstaben sieht man eigentllich nur, weil die roten Balken nicht der blauen Kurve folgen.
Schultern sind oft ein Zeichen dafuer, dass das Gesamtsignal durch mehrere Prozesse zustande kommt. Ich persønlich kenne das aus der Halbleiterphysik, in der das Gesamtsignal optischer Halbleiter oft aus Rekombinationskanaelen unterschiedlicher Energie (vulgo: unterschiedliche Wellenlaenge) stammt.

Zur besseren Veranschaulichung stelle man sich eine RGB-Leuchtdiode vor. Diese besteht eigentlich aus drei Leuchtdioden, einer roten, einer gruenen und einer blauen, die nahe beineinander sind. Wenn nun alle drei von denen gleichzeitig an sind, nimmt das Auge das Gesamtsignal als weiszes Licht wahr. In dem Fall haben wir also drei Prozesse die unabhaegig voneinander sind und in der Summe etwas sehr anderes ergeben als einzeln betrachtet — naemlich besagtes weiszes Licht anstatt einer wohldefinierten Farbe.
Das Licht welches jede einzelne Leuchtdiode aussendet ist nun aber nicht streng „einfarbig“. Die Leuchtdioden emittieren nicht bei nur einen einzelnen Wellenlaenge sondern das Maximum der Emission liegt auf einem gewissen Wert (den wir dann bspw. als „rot“ sehen) und mit geringerer Wahrscheinlichkeit wird Licht høherer und niedrigerer Wellenlaenge ausgestrahlt. Die Wahrscheinlichkeit welche Wellenlaenge ausgestrahlt wird ist normalverteilt.
Kurzer Abstecher: ein Laser emittiert auf einer einzigen Wellenlaenge … naja, streng genommen emittiert auch ein Laser nicht auf ganz genau auf nur einer einzigen Wellenlaenge, aber fuer die meisten praktischen Betrachtungen ist das nicht so wichtig, denn die „Streuung“ um die Zentralwellenlaenge ist viel geringer als bspw. bei Leuchtdioden.
Lange Rede kurzer Sinn: man kann das weisze Licht einer RGB-Leuchtdiode mittels drei unabhaengigen normalverteilten Prozessen erklaeren.

Wenn ich nun die Daten mittels drei Gaussverteilungen anpasse, erhalte ich dieses Bild:

Die blaue Kurve entspricht der Summe der drei unabhaengigen Gaussverteilungen (gelb). Dass die Anpassung so gut ist, deutet darauf hin, dass meine Annahme dreier unabhaengiger (gaussverteilter) Prozesse mglw. richtig ist … andererseits, wenn man genuegend Normalverteilungen nimmt, kann man alles mehr oder weniger gut anpassen.

Die erste unabhaengige Verteilung dominiert den Peak und das Zentrum dieser liegt bei ungefaher 13.23 Buchstaben. Der zweite Prozess ist deutlich schwaecher (die Amplitude der Gaussfunktion ist nur ca. ein drittel so grosz) und das Zentrum liegt bei ca. 21.07 Buchstaben. Der dritte Prozess liegt mit einem Zentrum von ca. 25.81 Buchstaben allerdings ziemlich weit entfernt von den oben erwaehnten ca. 35 Buchstaben. Von der „Staerke“ aehnelt dieser dem zweiten Prozess, ist aber deutlich weniger „definiert“. Die, diesen Prozess beschreibende, Gausskurve ist sehr breit und ueberlappt signifikant die beiden anderen Prozesse.

Das ist natuerlich nicht „die ganze Geschichte“. Wenn die Tittellaenge deutlich mehr als 50 betraegt wird die Verteilung ueberhaupt nicht gut mit diesen drei Prozesen beschrieben. Das ist aber nicht unerwartet und tut relativ wenig zur Sache. Letzteres liegt natuerlich daran, weil es davon insgesamt so wenige gibt und die fallen dann unter das was ich im allerersten Satz bereits schrieb.

Nun ist natuerlich die Frage, was diese drei Prozesse sein kønnten?
Ehrlich gesagt, habe ich ueberhaupt keine Idee, was der dritte Prozess ist. Aber bei so einer breiten Gausskurve kønnte da alles møglich mit dazu zaehlen. Bei den ersten beiden Prozessen habe ich aber eine Vermutung: die englische Sprache an sich und Namen. Dazu mehr beim naechsten Mal.

Im selben System von meinem letzten Report begegnete ich dann auch noch diesen Tuetchen:

Es handelt sich dabei um Cobalteum Rhizome Pods. Und auszerdem gibt es hier auch noch (die beretis von frueher bekannten) Lindigoticum und Roseum Ice Kristalle:

Solche Sachen lockern die Monotonie auf und sind immer wieder schøn anzuschauen … insbesondere natuerlich mit der Galaxis als ganz fantastischem Hintergrund :)

Beim letzten Mal schaute ich mir die Wikipediaseiten mit den kuerzesten Titeln an.

Auf der anderen Seite gibt es Wikipediaseiten mit echt langen Titeln. Das Subcommittee on International Organizations of the Committee on International Relations hat 87 Buchstaben. Ein anderes Subcommittee, das United States Senate Foreign Relations Subcommittee on Multilateral International Development, Multilateral Institutions, and International Economic, Energy and Environmental Policy, hat fast 100 Buchstaben mehr (181 um genau zu sein). Aber den ersten Preis (oder vielmehr die Blume) nimmt, mit 250 Buchstaben, nach Hause die Wikipediaseite mit dem Titel: Cneoridium dumosum (Nuttall) Hooker F. Collected March 26, 1960, at an Elevation of about 1450 Meters on Cerro Quemazón, 15 Miles South of Bahía de Los Angeles, Baja California, México, Apparently for a Southeastward Range Extension of Some 140 Miles … das ist uebrigens der Titel einer wissenschaftlichen Arbeit *lol*.

Beim naechsten Mal schaue ich mir dann mal genauer an, wie sich die Verteilung der Laenge der Titel aussieht.

Nun hatte ich endlich die Rohdaten zur Analyse des Linknetzwerks fertig. Aber bevor ich dazu komme (und wieder erstmal ein paar technische Details besprechen werde), dachte ich mir, dass ich ja schonmal das was ich habe untersuchen kønnte.

Dabei musste ich mir auch keine Sorgen darum machen, ob das alles in den Arbeitsspeicher passt. Der Grund ist, dass ich immer nur ca. 100,000 Titel (mit den dazugehørigen Links) in eigenen, kleinen Dateien gespeichert habe. Die Daten darin passen garantiert in den Arbeitsspeicher und ich kann die der Reihe nach abarbeiten.
Das Linknetzwerk wird dadurch in keinster Weise analysiert, denn dafuer muss ich ALLES gleichzeitig bearbeiten … dazu aber mehr zu einem spaeteren Zeitpunkt.

Heute nun interessierte mich, was denn die kuerzesten Titel sind. Es stellte sich heraus, dass viele Buchstaben (im weitesten Sinne) und Zahlsymbole der Sprachen dieser Welt eigene Wikipediaseiten haben. Naja … wenn man alle Sprachen in Betracht zieht, dann haben nur ganz wenige Buchstaben eine eigene Seite … aber darauf will ich nicht hinaus.

Ein Beispiel ware die Nummer 5, der Buchstabe P, oder das umgedrehte S.
Die Laenge dieser Titel ist … eins … und davon gibt es 234 Seiten … das war einfach … tihihi.

Nachdem ich den østlichen Meridian besucht hatte, ging es weiter zum System mit der grøszten x-Koordinate. Dabei stolperte ich ueber ein System mit Kristallwesen … im Allgemeinen (und auch im Speziellen) waren mir diese zwar schon bekannt, aber nett anzuschauen waren sie natuerlich:

Wie gesagt, Lindigoticum Silicate Kristallen …

… begegnete ich bereits frueher. Interessant ist, dass dies auch eher am Rand der Galaxis war.

Seltsam war dann aber, dass mein Scanner diese Kristalle …

… nicht identifizieren konnte. Mysteriøs … Spaeter wurden diese dann doch noch als Flavum Ice Kristalle identifiziert. Da hatte mein Scanner wohl einen Aussetzer.

Ansonsten entdeckte ich auf dem Weg hierher noch Ammoniakwelt #173, ELW #105 und Ammoniakwelt #174:

„Tote Links“, also links die zu Seiten „fuehren“ die es gar nicht gibt, sind rot unterstrichen. Auf dieser Seite findet man einige Beispiel dafuer. Um die zu finden, oder vielmehr um nicht aus Versehen echte Links diesen zuzuordnen, musste ich (fast) alles von dem machen, was ich in vorherigen Artikeln dieser Reihe beschrieben habe.

Weil dies aber nun fertig war, wurde die Aufgabe relativ einfach, denn ich brauchte nur fuer die verbliebenen 181,064,753 Links schauen, ob es eine Wikipediaseite mit dem selben Titel gibt. Dadurch fielen fast 10 % dieser Links weg und zurueck blieben 165,913,569.

Eine zweite Art von „Leiche“ sind Artikel die keine Links (im Text) enthalten. Zunaechst kønnte man denken, dass es sich dabei nur um sehr kurze Artikel zu obskuren Themen wie Vehicle registration plates of Qatar handelt. Das gibt es aber auch bei laengeren Seiten mit durchaus relevantem Thema. Ein Beispiel waere Organizational change fatigue. Und ebenso gibt es Artikel die so lang sind, dass ich mich frage, wie die KEINE Links haben kønnen; bspw. Ahn Sanghak.

Wieauchimmer, wenn solche „leeren“ Seiten NICHT woanders verlinkt waren, habe ich die rausgeschmissen. Das waren nicht viele. Gerade mal 2802.
Viele von diesen gehen zum Wiktionary; als Beispiel soll Flitterjigs genuegen. Aber oft sind es auch richtige Seiten; beispielsweise Phalke oder Prestwich Camera. Sollte ich jemals einen eigenstaendigen Wikipediaartikel schreiben (anstatt nur mal hier und da ’n Fehler zu berichtigen), muss ich dafuer sorgen, dass der an anderer Stelle zitiert wird.

Das war’s dann nun endlich mit den Vorbetrachtungen zu den Rohdaten und dem „Aufraeumen“ in diesen. Und hier sind die endgueltigen Zahlen, bzgl. der Daten an denen ich in die Analyse vollzogen habe: 5,798,312 Wikipediaseiten auf denen insgesamt 165,913,569 Links erscheinen und die Grøsze der strukturierten Daten betraegt 4.1 GB.
Aber bevor ich mit der eigentlichen Analyse anfangen konnte, musste ich noch ein paar … mhmmm … ich sag mal technische Probleme løsen. Dazu mehr in den kommenden Beitraegen in dieser Serie.

Abschlieszend zu den Rohdaten sei an dieser Stelle erwaehnt, dass ich in all den bisher beschriebenen Aktionen definitiv echte Links faelschlicherweise geløscht habe. Dies kann mehrere Gruende haben. Einer ist natuerlich, dass ich nur einen Teil der von Nutzern eingefuehrten Fehler berichtigt habe. Wikipedias interne (Such)Funktionen habe damit dann aber keine Probleme. Ein anderer Grund waere bspw. wenn ein (aelterer?) Artikel einen Link zu einem anderen Artikel hat, dieser aber nun zu etwas anderem umgeleitet wird. Eigentlich habe ich solche Umleitungen in Betracht gezogen, aber manchmal scheint das nicht geklappt zu haben. Die Prestwich Camera die ich oben verlinke ist so ein Fall.
Wieauchimmer, ich setze ja sowieso bei Daten aus der echten (Menschen)Welt einen Fehler von 10 % an und ich denke nicht, dass solche Faelle diesen uebersteigen.

Wenn ich ehrlich bin, dann waren mir die Peanuts urspruenglich vor allem dadurch „bekannt“, dass sie auf total viel Zeug raufgepappt waren. T-Shirts, Brotbuechsen, Buchumschlaege etc. pp. Die Strips erschienen nicht so richtig in Dtschl. und die Filme hatte ich auch nicht gesehen (auszer vielleicht mal einen Schnipsel hier und da). Im Wesentlichen war das „damals“ so, wie Hello Kitty heute ist. Vor mich duenkt mehr als 15 Jahren las ich in diesem Zusammenhang mal einen Artikel der dies als „Infantilisierung der Gesellschaft“ beschrieb. Wobei dies nicht nur mit der negativen Konnotation zu lesen ist, sondern einfach nur als Zustandsbeschreibung, dass (anders als frueher) Elemente der Kindheit heutzutage auch als Teil des Erwachsenenleben bestehen bleiben.

Wieauchimmer, ich schrieb „Hello Kitty“ oben und bei den Peanuts ist ein vergleichbarer Charakter Woodstock … Verglichen mit seiner (ja, er ist maennlich) Praesenz in den Strips ist dieser uberproportional haeufig auf Merchandise gedruckt. Das liegt sicherlich daran, dass er von allen am niedlichsten ist.
Woodstock tauchte erstmals zum Ende der 60’er Jahre auf, aber wenn ich mich richtig erinnere, erschien er øfter erst ab den 70’er Jahren. Trotz seiner Beliebtheit ist er mglw. deswegen erst jetzt auf dem Schuber praesentiert:

Hier dann auch als das zentrale Element in der Portraitcollage, …

… aber interessanterweise nicht als Cover des Schutzumschlags des ersten Bands (das ist naemlich Sally), …

… sondern erst als Coverillustration des zweiten Schutzumschlags des zweiten Bandes:

Schøn gemacht finde ich in dem ganzen Zusammenhang mit ihm, wie er bei der Illustration klein bleibt, aber sein Schatten grøszer ist als er selbst … ganz dem entsprechend was ich oben schrieb :) .