Archive for Juli, 2024

Als ich mich das erste Mal mit der Verteilung der Laenge der Wikipediaartikeltitel beschaeftigte, simulierte ich sehr viele Namen um etwas genauer zu untersuchen und meinte beim letzten Mal bzgl. der Simulation:

Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.

Und damit lag ich zwar nicht komplett daneben … es war aber auch nicht ganz richtig, denn ich kam sehr wohl auf andere Ergebnisse. Dazu weiter unten mehr.

Zunaechst møchte ich aber nochmal darauf eingehen, wieviele Vornamen man braucht um 50 Prozent aller Babies einen Namen zu geben (wenn diese nach der Beliebtheit ihrer Vornamen sortiert werden). Das war selbst mir zu periphaer vor drei Jahren und ich hatte das deswegen in den damaligen Geburtstagsbeitrag ausgelagert (ich meine das zweite Bild). Dabei hatte ich aber nur Daten betrachtet die „ueber alle Babies gehen“ (also eine Art „Summensignal“).
Jetzt beim Neuschreiben der Programme fuegte ich eine Funktion ein, welche mir auch die zwei Teile dieses „Summensignals“ separat ausspuckt. Oder anders: ich habe jetzt auch nach Maechen und Jungs getrennte Ergebnisse und das sieht so aus:

Das „Summensignal“ (graue Punkte) ist das Selbe wie beim vor drei Jahren (auszer, dass drei weitere Jahre dazugekommen sind). Ich fand es aber erstaunlich, dass die Variation bei den Maedchennamen immer ca. 1.5 bis fast 3 Mal grøszer ist (siehe die blauen Punkte). Maedchennamen machen also den Hauptteil am Summensignal aus und deswegen bringe ich das hier doch nochmal, denn das habe ich ja damals ueberhaupt nicht gesehen.
Nun stellt sich natuerlich die Frage warum das so ist, welche ich hier aber nicht beantworten kann (einfach weil ich’s nicht weisz und nicht wuesste wie ich an entsprechende Daten kommen kønnte). Aber zwei potentielle Ursachen fallen mir ein. Zum Einen, kønnten Jungs staerker irgendwelchen Namenstraditionen unterliegen als Maedchen; der Uroppa hiesz schon so und deswegen heiszt der Enkel auch so. Zum Anderen kønnte es aber auch sein, dass es mglw. mehr Maedchennamen als Jungsnamen gibt; der „Maedchennamentopf“ ist also „grøszer“. Das wuerde nicht mal unbedingt mit dem Anstieg ab ca. Mitte der 80er Jahre im Konflikt stehen, denn das Verhaeltniss der Namen bleibt (so ungefaehr) das Gleiche. Besagter Anstieg haengt mglw. mit dem demographische Wandel in den USA zusammen, was zu einem (viel) mehr an Namen fuehrt. Aber dieses „Mehr an Namen“ verteilt sich (mehr oder weniger) gleichmaeszig ueber Jungs- als auch Maedchennamen.

Das war das Ergebnis das sich nicht aenderte. Im gleichen Geburtstagseintrag zeigte ich aber auch die Parameter der Gausskurven fuer jaehrliche Simulationen … und die haben sich geaendert. Hier sieht man das fuer die Position des Zentrums …

… welches im Mittel jetzt sogar noch besser mit dem beim letzten Mal erwaehnten „Hauptprozess“ uebereinstimmt … und hier fuer die Amplitude und Standardabweichung besagter jaehrlichen Gaussfits:

Zum Glueck liegen die Ergebnisse nicht nur in der selben Grøszenordnung, sondern auch innerhalb des selben (sehr engen) Bereichs. Auszerdem sind die allgemeinen Merkmale (wann die Kurven hoch oder runter gehen bzw. so ungefaehr gleich bleiben) im Wesentlichen auch die Gleichen. Ja es gibt Abweichungen (die ja auch der Grund sind, warum ich das hier doch nochmal bringe) aber weil sich das alles ohnehin in sehr engen (Zahlen)Bereichen befindet sind sowieso nur die grøszeren Trends von Interesse und deswegen aendert sich an meinen damaligen Aussagen nix.

Aber es machte mich natuerlich sehr stutzig, dass bei gleichen Ausgangsdaten (zur Erinnerung: fuer diese Simulationen benutzte ich externe Namensdaten und nicht die Wikipedia und an denen hat sich nix geaendert seit 2021) und eigentlich (und auch uneigentlich) gleicher Methode ueberhaupt etwas anderes raus kam.
Es stellte sich heraus, dass der Fehler bei mir lag. Zur Erinnerung: beim zufaelligen „Ziehen“ von Namen aus dem groszen Namenstopf war die Wahrscheinlichkeit einen bestimmten Namen zu ziehen davon abhaengig wie oft der (im jeweiligen Jahr) an Babies vergeben wurde. Fuer 1880 gab es also viele Marys und Johns im Namenstopf, aber nur sehr wenige Wilmas und Zachariahs.
Wie oft ein Name im Topf vorkommt berechnete ich nun so, dass ich die Anzahl der Babies mit einem gewissen Namen durch die Anzahl aller Babies teilte (so weit so gut) und dann mit der Anzahl der Namen die ich insgesamt simulieren wollte multiplizierte (immer noch so weit so gut). Aber weil ich bei meinem selbtgeschriebenen „Namen-aus-dem-Topf-zieh“-Algorithmus nur mit ganzen Zahlen arbeiten konnte, hab ich bei dezimalen Wahrscheinlichkeiten einfach alles nach der ganzen Zahl abgeschnitten. Fuer Namen die im Namenstopf oft genug vorkommen macht das keinen groszen Unterschied. 23517.5 ist nicht viel anders als 23517 … das kann man sogar fuer 10.9 noch argumentieren … mglw. sogar noch fuer 5.5 oder auch fuer 3.9 (selbst hier ist der Fehler ja nicht mal 25 %).

Aber bei all zu kleinen Zahlen kann das Abschneiden der Dezimalstellen im Groszen und Ganzen zu Problemen fuehren, denn es gibt recht viele Namen die bei meinem „selbstgestrickten“ Algorithmus nur ein- oder zweimal im Namenstopf waren und deswegen im Extramfall nur halb so oft gezogen wurden, wie sie haetten gezogen werden sollen.
Beim nochmal Neuschreiben des Programms habe ich das nicht nochmal selbst geschrieben, sondern geschaut was in den vielen umfangreichen Mathebibliotheken von Python zu finden ist und ein entsprechendes Modul benutzt. Besagtes Modul macht alles richtig und deswegen sieht es jetzt anders aus, weil die „Ziehwahrscheinlichkeit“ nun auch fuer sehr selten vorkommende Namen richtig ist.
Zum Glueck ist es aber so, dass sehr selten vorkommende Namen nur sehr selten gezogen werden (selbst wenn mein erster Algorithmus die sogar noch seltener gezogen hat) und deswegen sind die ersten Ergebnisse nicht komplett falsch sondern nur im Detail.

So, das soll jetzt dazu reichen und ich verbleibe wie beim letzten Mal:

[…] wenn ich das richtig sehe, dann gibt’s beim naechsten Mal nicht so viel zu schreiben … aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.

Aus Kyoto springen wir nochmals in den Norden nach Sapporo denn nicht nur sind dort einige Haeuser … nun ja, mindestens eins … mit Zahlen zum besseren Zaehlen versehen, sondern es gibt auch (mindestens eine) Treppe(n) die die verbrauchten Kalorien zaehlen:

Ich versuche ohnehin immer die Treppen zu nehmen  … mit der Einschraenkung, dass ich bei fuenf  Stockwerke die Grenze ziehe … oder wenn ich schwere Dinge bei mir habe … oder wenn es eine Rolltreppe gibt, denn die sind viel zu spassig um die nicht zu benutzen.
Im Wesentlichen mache ich das wg. des selben Hintergrunds warum hier die „verbrannten Kalorien“ angezeigt werden. Das hatte den schønen Nebeneffekt, dass ich mir das Treppensteigen waehrend der Coronapandemie nicht erst 0angewøhnen musste.

Worauf ich aber hinaus will ist, dass es selbst mich noch mehr motiviert die Treppe zu nehmen, wenn es einen Kalorienzaehler gibt und ich finde, dass es den bei allen Treppen geben sollte. Es ist naemlich voll fein sofort eine positive (wenn auch indirekte) „Bemerkung“ zu bekommen, wenn man was fuer die Gesundheit Gutes tut … und mglw. wuerde sich meine oben erwaehnte Grenze vllt. sogar ausdehnen auf sechs, sieben, oder vielleicht sogar noch mehr, Stockwerke, wenn as an allen Treppen angezeigt werden wuerde.

Und mehr gibt’s dazu auch gar nicht zu sagen :)

Ganz unabhaengig von der Linknetzwerkanalyse betrachte ich damals die Titellaengen etwas genauer. Hier von Interesse ist nur die Verteilung derselben und daran hat sich wenig geaendert:

Das Integral unter der Kurve ist jetzt etwas grøszer (entsprechend der Anzahl der dazugekommenen Artikel), aber die Form ist so sehr die Gleiche, dass es fast schon das Selbe ist … mhmm … sprachlich gesehen ist „fast das Selbe“ sowas wie „fast schwanger“ … also Quatsch … aber ihr, meine lieben Leserinnen und Leser wisst sicherlich worauf ich hinaus will … aber ich schwoff ab.

Wenn man annimmt, dass alle neuen Artikel sich im Durchschnitt wie alle bereits vorhandenen Artikel „verhalten“ (und das schlieszt die Artikeltitel ein) war das zu erwarten. Und dies ist eine sehr sinnvolle Annahme und jede andere Annahme muss SEHR gut begruendet sein! Natuerlich sind Abweichungen vom Durchschnitt denkbar. „Nichtdurchschnittlich“ ist es bspw., wenn in den drei dazwischen liegenden Jahren nur Artikel ueber chemische Verbindungen mit langen Namen neu hinzugekommen waeren. So eine Anomalie ist an sich natuerlich interessant, aber die Wahrscheinlichkeit dafuer ist gering und deswegen verteilen sich Laengen der neuen Artikeltitel im Wesentlichen so wie die alten.

Damals konnte ich die Form der Verteilung mittels dreier (gaussverteilter) Prozesse anpassen. Fuer den staerksten dieser drei Prozesse versuchte ich die (Haupt)Ursache zu finden und landete letztlich auf Namen von (mehr oder weniger) beruehmten Leuten.
Dafuer simulierte ich vor drei Jahren zunaechst sehr viele Namen und konnte tatsaechlich (innerhalb vernuenftiger Grenzen) das Zentrum und die Amplitude des ersten erwaehnten Prozesses nachempfinden. Auch wenn ich das Programm dazu gerade nochmal neu schreibe, werde ich das hier nicht wiederholen, denn diese Simulation war von externen Daten abhaengig und wuerde heute genauso ausfallen.

Danach kam ich dann drauf mal zu schauen, ob es bei der Wikipedia vielleicht eine Kategorienseite mit links zu Seiten von Leuten gibt. Die gibt es, aber leider verteilen sich die fast 2 Millionen Seiten zu Leuten auf etlichen tausend Kategorien, weil die vielen Menschen alle fuer unterschiedliche Sachen beruehmt sind.
Einen leider nur halben Ausweg war die Kategorieseite aller lebenden Menschen. Halb deswegen, weil sich dort nur ca. 60 Prozent aller Seiten zu Leuten finden lassen. Das restliche Drittel sind schon verstorbene Menschen und die entsprechende Kategorieseite listet leider nicht die Links zu den Seiten sondern wieder nur die (vielen) Kategorieseiten unter die diese Leute fallen (fielen?).
Aber mit den 2/3 konnte ich zumindest eingeschraenkt arbeiten und die Verteilung der Titellaengen von Seiten zu lebenden Menschen hatte das Zentrum auch an der richtigen Stelle (weil aber so viele fehlten war die Amplitude nur halb so grosz wie die des erwaehnten Hauptprozesses).

Als ich die entsprechenden Programme nochmal schrieb, schaute ich wieder ueber viele Kategorieseiten und stolperte letztlich ueber die Kategorien Births per year und Deaths per year. Da sind die Leute zwar auch nicht direkt aufgelistet, aber die Links zu den Unterkategorien der Leute die in den entsprechenden Jahr geboren / gestorben sind ist systematisch und mit systematischen Sachen kann ich arbeiten.
Und siehe da …

… ich konnte die allermeisten Seiten zu Leuten finden (und nicht nur ca. 60 %). Das sind sicherlich immer noch nicht alle Seiten zu Leuten, denn Autoren muessen die in den entsprechenden Kategorien eintragen, aber ich wuerde schaetzen, dass mir weniger als 5 % fehlen.
Und das Gute ist, dass sich nicht nur das Zentrum nicht verschiebt, sondern die Amplitude der neuen Daten 2/3 der Amplitude des besagten staerksten Prozesses erreicht. Damit ist das Ergebnis nahe genug dran, dass das fuer sich selber spricht und ich das so stehen lassen kann und (anders als damals) nicht rumdiskutieren muss, warum ich denke, dass die Daten (trotz merklich kleinerer Amplitude) vermutlich dennoch richtig sind.

Genug fuer heute … wenn ich das richtig sehe, dann gibt’s beim naechsten Mal nicht so viel zu schreiben … aber ich sollte lieber nix versprechen, was ich vermutlich nicht halten kann.

Ich hab ’n Kollegen der ist urspruenglich auch aus Dtschl. Dessen Vater hatte ’n Hotel und (wenn ich das richtig verstehe) war deswegen bekannt mit Artur Fischer … der mit den Duebeln. Deswegen traf mein Kollege den auch manchmal und bei einem dieser Begegnungen hat er diese Autogrammkarte mit den Originalunterschriften der Apollo 11 Astronauten geschenkt bekommen:

Klar, die sind sicherlich zu hunderten, wenn nicht sogar zu tausenden verteilt worden an alle die irgendwie mit dem Apolloprojekt zu tun hatten. … … … und es wuerde mich nicht im Geringsten wundern, wenn Artur Fischer irgendwie an einer kleinen Sache mit dem Apolloprojekt zu tun hatte. Auch ist die Widmung sicherlich von wem anders geschrieben worden und das „Gesamtkunstwerk“ wurde den Astronauten dann nur zur Unterschrift vorgelegt.

Aber dennoch, die Signaturen sind echt (also nicht nur fotokopiert oder so) und damit hatten die zwei ersten auf dem Mond wandelnden Menschen und ihr nicht minder wichtiger … vermutlich sogar wichtigerer … im Mondorbit verbliebender Mitraumfahrer das in der Hand … und da ich das Foto mit den Unterschriften in der Hand hatte, folgt aufgrund transitiver Relationen, dass ich auch auf dem Mond war dem Mond (im uebertragenen Sinne) nun ein gutes gigantisches Stueckchen naeher bin als die meisten Menschen … fetzt wa!

Beim letzten Mal wurde die letzte, mir bekannte Ursache fuer Feinstaub in der Kueche betrachtet. Zusammen mit den vorher behandelten Gruenden konnten damit im Uebersichtsdiagramm fast alle Spitzen erklaert werden. Aber eben nur fast, denn ein paar Ereignisse stehen weiterhin ohne Erklaerung da. Ich habe die hier mal mittels Zahlen gekennzeichnet und gehe die heute alle durch:

Die drei Spitzen bei der #1 muessen unerklaert bleiben. Ich habe keine Ahnung, was da zwischen nachts drei Uhr und morgens sechs Uhr passiert sein kønnte. Fluktuationen sind aber zu erwarten. Vielleicht ist ’ne Fliege vorbeigeflattert, oder der Kompressor des Kuehlschranks hat mal ungewøhnlich stark gerumpelt. Ich kann leider auch nicht sicher sagen, ob da auch immer was bei anderen Tagen (in dem selben Zeitraum) geschieht. Am Tag danach gibt’s eine kleine Spitze gegen 4 Uhr und am letzten vollstaendigen Messtag ist auch was gegen 3 Uhr (beide nicht gekennzeichnet). Aber bei allen anderen Tagen ist da entweder nix, oder wenn da was ist, dann geht das im „Reststaub“ von vorhererigen Kuechengeschehnissen unter. Ich muss also zugeben, dass ich das nicht aufklaeren kann.

Alle Spitzen von #2 bis #9 geschehen in Zeitraeumen zwischen 12 Uhr und dem Kochen des Abendmahls. Diese sind aber nicht regelmaeszig, bzw. mache ich da nix regelmaesziges in der Kueche, dem ich das zuordnen kønnte. Andererseits ist die Kueche auch ein hoch frequentierter Ort (vermutlich mehr als die Toilette); dort ist also immer was los. Und wenn ich da so mal drueber nachdenke, dann waere es eher verwunderlich, wenn in dem Zeitraum nix waere, denn wenn wer zu Hause ist, wir mal ’n Tee aufgebrueht, oder ’n Toast gemacht, oder man raeumt auf und wischt dabei den Tisch ab, oder der Einkauf wird in die Schraenke einsortiert etc. pp. Es sind aber alles so „kleine“ Sachen, dass die nicht mit einer groszen Staubentwicklung und auch mit keiner Waermeentwicklung einhergehen.
Im Gegensatz zu #1 sind das also keine mysteriøsen Geschehnisse, sondern einfach nur unterschiedliche aber gewøhnliche Kuechenaktivitaeten.

Die #10 ist ganz einfach, denn das sieht mir nach einer „Brotschmieraktivitaet“ aus und ich hatte das nur vergessen einzutragen, als ich solche Ereignisse besprach.

So … das war’s mit den Feinstaubmessungen in der Kueche, aber das war’s noch nicht insgesamt. Beim naechsten Mal gehe ich noch auf ein Merkmal der Temperturentwicklung ein, bevor ich mich kurz drauszen durchgefuehrten Feinstaubmessungen widme.