Søren in Norwegen

Archive for September, 2021

Das werden Computer NIEMALS kønnen – V – Schummeln

Beim Uebungsbuch in der Fahrschule war eine Schablone mit der man seine eigenen Antworten kontrollieren konnte. Diese Schablone war im Wesentlichen ein Papierstreifen mit Løchern drin und einer Markierung. Besagte Markierung musste an eine andere Markierung auf die Seite mit der jeweiligen Frage gehalten werden und das Papier deckte dann die falschen Antwortmøglichkeiten ab. … Ich habe mal kurz geschaut und die gibt es sogar heutezutage noch .oO(das haette ich jetzt nicht erwartet).
Nun war aber das Lochmuster der Schablone auswendig lernen viel einfacher und schneller als sich die Fragen durchzulesen und ueber die richtige Antwort nachzudenken. Klar, im Endergebnis hilft das nicht fuer die richtige Pruefung, aber es optimiert die Aufgabe innerhalb der gegebenen Rahmenbedingungen.

Ein anderes Beispiel ist, dass heutzutage (aber mehr oder weniger auch schon bei uns) Schueler und Studenten eben gerade NICHT mehr „fuer’s Leben“ lernen, sondern das Lernen darauf optimieren gute Noten zu haben. Klar, das sieht im Zeugnis und auf dem Diplom gut aus. Aber wenn diese Leute dann das Wissen in der Praxis selbststaendig anwenden und erweitern muessen ist’s damit oft nicht weit her.

Als Letztes seien hier Steuerschlupfløcher genannt. Die Steuererklaerung kann ja vøllig legal (wenn auch nicht moralisch richtig) sein und dennoch werden der Gemeinschaft Milliarden vorenthalten, weil das Finanzverhalten insb. reicher Akteure auf die Gegebenheiten (in diesem Fall die Steuergesetze) optimiert werden.

Worauf will ich eigentlich hinaus? Ganz einfach! Die drei Beispiele (und andere Dinge die in diese Kategorie fallen) werden im Allgemeinen zwar als Schummeln angesehen, aber von der Gesellschaft oft genug mit dem Kompliment „clever nachgedacht“ bedacht (wenn auch meist nicht direkt ausgesprochen). Es ist also ein zutiefst menschlicher Wesenszug kreativ zu sein, um das Verhalten derart zu optimieren, sodass es zum besten Resultat unter den jeweils gegebenen Umstaenden fuehrt. Selbst wenn dies NICHT bedeutet, dass das langfristig gut ist und vielmehr oft ein Hinweis auf falsche Anreize in besagten Umstaenden ist.

Nun wundert es mich aber, dass zum gleichen Verhalten gesagt wird, dass dieses „laecherlich“ oder „eine schlecht definierte Zielfunktion“ waere, oder dass man daran sieht, „wie weit weg kuenstliche Intelligenz noch vom Menschen ist“. Warum wird kreative Interpretation der gegebenen Umstaende zur Optimierung des eigenen Verhaltens so unterschiedlich bewertet?

Hier gibt es einen laengeren Artikel dazu (Achtung: der scheint wissenschaftlich, ist es aber nach (gar nicht mal so) strengen Kriterien NICHT). Dort werden 32 Anekdoten diesbezueglich erzaehlt. Ich gebe ein paar Beispiele.

Die Entwicklung starrer, langer Kørper welche sich durch Rad schlagen fortbewegen (durch Impulserhaltung) anstatt der Entwicklung von Schlaengelbewegungen. Was im Uebrigen auch die Evolution getan hat.

Algorithmen mit „falschen Funktionen“ welche durch die Tests kamen, weil besagte Algorithmen „tot spielten“ waehrend des Tests. Tot spielen ist in dem Falle, dass besagte Funktionen zufaellig aktiviert wurden und manchmal eben nicht waehrend des Tests und somit wurde der „defekte Algorithmus“ dann als vøllig OK betrachtet.

Ein anderes Beispiel (nicht aus dem Artikel) ist der Algorithmus der Tetris dadurch nicht verliert, indem das Spiel kurz vor dem Game Over (fuer immer) pausiert wird.

Dann war da auch der unbrauchbare Greifarm, der durch einen Trick dennoch benutzt werden kann.
Und dies faellt dann auch schon gar nicht mehr in die Kategorie „Schummeln“, sondern wuerde bei Menschen direkt mit dem (diesmal sogar ausgesprochenen) Lob „das war eine gute Idee“ bedacht.

Ein anderes Beispiel waere auf den „Ellbogen“ laufen. Kønnte man jetzt sagen: „na so eine dumme Idee“. Bis man drauf kommt, dass ja die „Fuesze“ durch irgendwelche Umstaende mglw. unbrauchbar sind. Und wenn ein Algorithmus dann von selbst drauf kommt, ohne dass ein Mensch bei der Programmierung dran gedacht hat, dann ist das meiner Meinung nach schon eine ziemlich kreative Leistung.

Worauf ich hinaus will ist das Folgende: wenn etwas wie ein Stueck Kuchen aussieht, sich wie ein Stueck Kuchen anfuehlt und wie ein Stueck Kuchen schmeckt, dann ist es vermutlich ein Stueck Kuchen.
Nur weil bei Computern und Robotern noch nicht alles in jeder denkbaren Situation zusammenspielt, wie bei uns biologischen Algorithmen und Maschinen nach Milliarden, zumindest hunderten von Millionen von Jahren evolutionaerer Optimierung, bedeutet das nicht, dass die das niemals kønnen werden.

Posted by Tentacel on 2021/09/29 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – Geburtstagsbeitragseinschub – Der Soldat John Ryan

Geburtstagsbeitrag! Und wie so oft zu dieser Gelegenheit lasse ich mich lang ind breit ueber ein Thema aus, was mich im Detail beschaeftigt(e), aber mglw. nicht so richtig interessant ist fuer den Rest der Menschheit.

Beim letzten Mal in dieser Reihe schrieb ich:

Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. […]

Und darum soll es heute gehen.

Wenn man sich die Popularitaet besagter 13 Vornamen anschaut, die seit 1880 am haeufigsten in den USA vergeben wurden, erhaelt man das linke Diagramm in diesem Bild:

Hier sieht man auch, warum ich erstmal annahm, dass Moden zwar kommen und gehen, dies aber ueber laengere Zeitraeume keinen groszen Unterscheid machen sollte. Sicher, Anfang des 20. Jahrhunderts waren „John“ und „Robert“ viel beliebter als „Michael“ oder „Christopher“ aber die Høhe der einzelnen Kurven aendert sich jetzt nicht so stark … auszer so ab ca. 2000 … mhmmm … das machte mich etwas stutzig und ich schaute mir mal die kumulative Wahrscheinlichkeit fuer diese 13 meistvergebenen Namen an (Diagramm auf der rechten Seite).
Dort scheint die Aussauge „da aendert sich nicht viel“ bis ungefaehr 1980 zu stimmen. Innerhalb gewisser Variation erhalten 15 % der Neugeborenen einen der dreizehn meistvergebenen Namen. Aber mit dem Beginn meiner Generation aenderte sich das … drastisch! … Das letzte Adjektiv ist durchaus angebracht, wenn man mal betrachtet wie stark die aufsummierte Wahrscheinlichkeit fuer die dreizehn (vormals) meistvergebenen Namen herunter geht.

Das ist dan auch der Grund, warum ich schrieb, dass gesellschaftliche Entwicklungen (traditionelle) Namen dann doch verdraengen. Die gesellschaftliche Entwicklung hier kønnte sein, dass die Jugendlichen welche von den sogenannten 69’ern gepraegt wurden. Damit meine ich weniger die Studenten welche „mittendrin“ waren, sondern die (oft deutlich) juengeren, sympathisierenden Jugendlichen, die noch zur Schule gingen. Ab Mitte der 70’er Jahre fingen diese an Kinder zu haben. Besagte Zeit hat das Vertrauen in und das Gehorchen von (traditionellen) Autoritaeten nachhaltig geschwaecht. Es ist nicht all zu weit hergeholt, dass sich das auch in der Namensgebung ausgedrueckt hat, denn die (damals) „frischen“ Eltern fuehlten sich nicht mehr so stark daran gebunden, den Sohn nach dem Opa zu benennen.

ABER: man kønnte durchaus argumentieren, dass die Entwicklung schon ab ca. dem den 50’er Jahren (schwer zu verorten ob Anfang, Mitte oder Ende) losging, wenn auch zunaechst zøgerlich. Dies kommt ziemlich genau zusammen mit der Etablierung des Individualismus (insbesondere in den USA), als „Gegenstueck“ zum sog. Kommunismus, im kalten Krieg. Im oberen Diagramm macht sich das nicht so bemerkbar innerhalb der (natuerlichen) Variation vor ca. 1980. Es ist aber deutlicher zu erkennen, wenn man sich anschaut, wie vieler Vornamen es bedurfte um 50 % der neugeborenen Kinder eines Jahres zu benennen:

Das ist zwar keine gerade Linie, aber dennoch bis ca. den 50’er Jahren eine ziemlich flache Kurve. Es brauchte nur ca. 75 Namen (plusminus ein paar) um besagte 50 % aller Kinder zu benennen. Ab den 50’er Jahren steigt die Kurve kontinuierlich und ab den 60’er Jahren uebersteigt es die vorherigen, etliche Jahrzehnte vorherrschenden (kleinen) Schwankungen. Mit dem Start der 80’er Jahre „geht dann die Post ab“.

Ach so, beim ersten Bild ist nur ein Frauenname dabei (der 14 Name waere auch ein Frauenname gewesen, aber mir gingen die Farben aus). Ich vermute, dass dies zwei Hauptursachen hat. Zum Einen denke ich, dass Maenner lange Zeit etablierte (darob eines besseren Wortes) Namen bekommen haben um eine „Familientradition“ beizubehalten oder einen Vater zu „ehren“ oder sowas. Kennt man ja aus Film und Fernsehen, mit den vielen Juniors. Von Frauen kenne ich das eigentlich gar nicht. Das Anhaengsel „Junior“ scheint es nur fuer Maenner zu geben. Dies fuehrt natuerlich zu mehr Vielfalt bei den Frauennamen und somit insgesamt weniger Frauen die den gleichen Namen haben (Ausnahme: „Mary“).
Zum Zweiten ist das mglw. auch ein Defizit in den Daten, denn ich habe insgesamt weniger Frauen in den Daten, es wurden also weniger Maedchengeburten gemeldet. Das wundert mich ueberhaupt nicht, denn Hausgeburten waren noch sehr sehr lange der Standard:

In the United States […] around 1900, when close to 100% of births were at home. Rates of home births fell to 50% in 1938 […].

Es gab also keine automatische Datenaufnahme. Und hier spielt dann der bereits beim letzten Mal erwaehnte historische Sexismus rein. Die Geburt eines Jungen wurde auch bei einer Hausgeburt gemeldet, denn dieser sollte ja mal der Erbe werden und das musste rechtlich abgesichert sein.

Fuer das urspruengliche Problem (Laenge der Wikipediatitel) spielt das aber aus zwei Gruenden keine Rolle. Zum Ersten ist die Verteilung der Laenge der Frauen und Maennernamen so gleich, dass man (beinahe) deckungsgleich sagen kønnte. Zum Zweiten ist die Meldung von der Geburt eines Maedchsen dann trotzdem immer noch ein gleichverteilter Prozess. Das bedeutet, dass die Wahrscheinlichkeit fuer die Meldung eines bestimmten Maedchennamens gleich bleibt, auch wenn die totale Anzahl gemeldeter Maedchengeburten geringer ist.

Ach so … der Titel dieses Beitrags wird ersichtlich, wenn man bedenkt, dass ca. 20- bis 30-jaehrige uns im 2. Weltkrieg von den Nazis befreiten. 20 bis 30 Jahre vorher war aber „John“ beliebter als „James“. Das kehrte sich erst ab den 30’er Jahren um. Der Unterschied war nun aber auch nicht so grosz … deswegen ist der Titel des Film zu 85 % richtig … tihihihi.
Es passt dann aber, dass James Dean als _DER_ Filmstar der 50’er bis heute bekannt ist.

Nun wollte ich aber wissen ob diese Veraenderungen einen bleibenden Effekt haben und wie stark dieser ist.

Bei meinen urspruenglichen Betrachtungen, bzgl. der Verteilung der Laenge der Wikipediaartikel und wie das Maximum erklaert werden kønnte, habe ich alle Vornamen, und wie oft diese in den letzten 140 Jahren vergeben wurden, aus allen Jahren zusammengezaehlt und die Waehrscheinlichkeit fuer meinen Namensgenerator nach diesen „totalen Zahlen“ berechnet. Ich erstellte 1 Million Frauen- und 1 Million Maennernamen und das (normalverteilte) Resultat ist im verlinkten Beitrag zu finden.
Nun kam oben aber heraus, dass sich die beliebtesten Namen eben doch aendern und ich wollte wissen, ob das einen deutlichen Einfluss auf die Verteilung der Laenge der Namen hat. Deswegen modifizierte ich den Namensgenerator derart, sodass fuer jedes Jahr jeweils 100-tausend Maenner- und Frauennamen erstellt wurden (mit den sich jaehrlich aendernden Wahrscheinlichkeiten). In den Resultaten sah ich einen Trend und dachte mir, dass das schon stimmen kønnte. Weil der Effekt aber relativ klein war, wollte ich nicht ausschlieszen, dass es sich mglw. doch um ein Artefakt handelt und nicht echt ist. Deswegen liesz ich meinen Laptop nochmal 15 Stunden oder so rødeln und erstellte pro Jahr jeweils 300-tausend Frauen- und Maennernamen. Die Statistik wurde dadurch viel besser … und die erwaehnten Resultate wurden reproduziert. Im Folgenden zeige ich die Resultate des 600-tausend Namen pro Jahr Laufes.

Die 140 Verteilungen bzgl. der Laenge der Namen sehen so aus:

Uffda! Das ist viel auf einmal und muss der Reihe nach betrachtet werden.
Erstens „verschmieren“ sich die Punkte sehr. Das war zu erwarten und faellt in der Physik immer erstmal unter das beruehmte „Rauschen“. Die Frage war nun, ob das Rauschen ein Signal enthaelt? Bspw. liegt die kleinste Anzahl der Namen mit 10 Buchstaben liegt im Jahre 2015 und die grøszte Anzahl im Jahre 1891. Bei den Namen mit 15 Buchstaben hingegen dreht sich das um (høhere Anzahl zu spaeteren Jahren).
Gibt es mglw. ueber die Jahre einen Trend hin zu laengeren Namen? Das waere dann ja genau das was ich wissen will. Weil nur zwei Buchstabenlaengen nicht ausschlaggebend sind, schaute ich mir deswegen die aufsummierte Anzahl alle Namen mit Buchstabenlaengen links bzw. rechts des Maximums an.
Und hier kommt dann die zweite Beobachtung dazu. Jede individuelle Verteilung laeszt sich mit einer Normalverteilung beschreiben. Das ist gut, denn wenn es tatsaechlich eine „Umverteilung“ hin zu laengeren Namen gibt, dann sollte sich die Position des Maximums der jaehrlichen Gaussverteilung zu grøszeren Werten verschieben. Und diese beiden Resultate sind hier zu sehen:

Zwischen der letzten Dekade des 19. Jahrhunderst bis ca. zu den 40’er Jahren des 20. Jahrhunderts wurden kuerzere Namen (schwarze Punkte) unbeliebter. Dies ging einher mit erhøhter Popularitaet laengerer Namen (rote Quadrate). Beide Kurven scheinen aber nur auf den ersten Blick symmetrisch. Wenn man genauer hinschaut sieht man, dass die Popularietat laengerer Namen im besagten Zeitraum linear ansteigt und der Anstieg ziemlich kontant ist. Der Rueckgang der Popularitaet kuerzerer Namen hingegen verlaeuft in zwei Phasen. Zunaechst „zøgerlich “ bis ca. 1912 um danach umso staerker vonstatten zu gehen.

In den schwarzen Kurven betrachte ich aber nur die Daten links und rechts vom Maximum (Namen mit 12 und 13 Buchstaben). Die Beobachtung liesze sich erklaeren, wenn sich die Zunahme der laengeren Namen zunaechst aus besagtem Maximum „speist“. Dass Namen also nicht einheitlich bspw. einen Buchstaben laenger wurden, sondern die ersten 20 Jahre Namen der Laenge 12 (oder 13) staerker durch laengere Namen „ersetzt“ wurden als Namen mit weniger Buchstaben. Wie oben erwaehnt verschieben beide Prozesse die Position des Maximums. Ein „Schaufeln der Daten“ vom Maximum nach rechts sollte aber eine langsamere Aenderung zur Folge haben, denn der Anteil links vom Maximum ist ja „noch da“ und muss bei der Anpassung mit einer Normalverteilung beruecksichtigt werden.
Und das ist dann auch genau was ich in der blauen Kurve sehe. Die Position des Maximums der jaehrlichen Gausskurve verschiebt sich nach rechts, aber bis ca. 1912 ist die Aenderung dieser Aenderung langsamer als danach (bis ca. 1930, wenn dieser Prozess sich allgemein deutlich verlangsamt).
Dies macht sich natuerlich auch in der Amplitude (schwarze Punkte) und Breite (rote Quadrate) der jaehrlichen Gausskurven bemerkbar:

Bis ca. 1912 nimmt die Breite der Gausskurve zu und die Amplitude derselben ab. Genau so wie es nach der obigen Erklaerung sein sollte. Danach „erholt“ sich die Amplitude und die jaehrliche Gausskurve wird wieder schmaler. Letztere Beobachtungen bedeuten, dass es ab ca. 1912 NICHT zu einer gemeinsamen Verschiebung-um-einen-Buchstaben der gesamten Verteilung (oder zumindest des „kurzen“ Teils) kommt. Vielmehr ist es so, dass die Umverteilung vom Maximum (stark?) nachlaeszt und besagtes Maximum ab dann wieder (von links) aufgefuellt wird. Die „primaere Quelle“ des Umverteilungsprozesses „tauscht“ sozusagen den Platz mit der vormals „sekundaeren Quelle“ (und zwangslaeufig vice versa).

Interessant ist, dass die Amplitude auch nach 1940 weiter waechst, waehrend die Breite der Kurve weiter abnimmt. Es kommt also bis ca. 1960 zu einer teilweisen „Rueckbesinnung“. Laengere Namen werden zugunsten von Namen der Laenge 12 (oder 13) „aufgegeben“. Dies gilt auch (aber nicht so stark) fuer noch kuerzere Namen, wie man im Diagramm mit der aufsummierten Anzahl sieht.
Ab ca. den 70’er Jahren nimmt die Popularitaet laengere Namen weiter zu, aber laengst nicht so stark wie Anfang des 20. Jahrhunderts und ab ca. 2000 hat sich der Prozess stabilisiert.

Das hier sind zwar eher subtile Veraenderungen aber diese sind robust. Zwei Sachen (welche mir vermutlich fuer immer verborgen bleiben werde) wuerde ich gerne wissen.
1.: Fand das auch im echten Leben statt (denn die Namen hier sind ja nur simuliert)? Und als Modifikation: wie sieht das in anderen, vergleichbaren, westlichen Laendern aus?
2.: Was sind die Gruende fuer die Veraenderungen? Die Trends sind definitiv keine kurzfristigen Moden. Das zieht sich teilweise ueber Generationen hin. Aber ich spekulierte da bereits oben.

Damit sind diese Nebenbetrachtungen abgeschlossen. Beim naechsten Mal dann endlich wieder mehr zu den eigentlichen Wikipediadaten (denn das ist ja noch lange nicht abgeschlossen).

Apropos, die hier gesehenen Veraenderungen sind zwar robust, aber so gering, dass sich das in den Wikipediatiteln wenn ueberhaupt nur sehr wenig bemerkbar machen sollte. Dies vor allem deswegen, weil bereits das Vorhandensein von Doppelnamen (oder Berufsbezeichnungen) deutlich staerkere Auswirkungen haben sollten. Sowohl von der Menge (weil das 100-tausende sind) als auch vom Effekt (weil die „Verlaengerung“ eines Namens durch diese zwei Prozesse mehr als 10 mal grøszer ist als die oben beobachtete Verschiebung um 0.4 Buchstaben ueber 130 Jahre.

Aber das soll nun genug sein … ein wuerdiger Geburtstagsbeitrag in meinen Augen :)

Posted by Tentacel on 2021/09/22 at 08:15 under Allgemein.
Comment on this post.

Parken verboten

Flyooe Phio ZK-F d11-7 A 1 haelt einen etwas ironischen Rekord … aber ich fange mal von vorne an.

Es gibt keinen „kuerzester Abstand vom Ankunftspunkt im System“ Rekord. In den Daten ist diese Charakteristik durch eine ganze Zahl ausgedrueckt. Der kleinste Wert ist 1 ls. Nun ja, der kleinste Wert ist vermutlich 0 ls fuer etliche Himmelskørper. Aber mein Algorithmus der durch die Daten des galaktischen Atlas geht, wertet Null als „False“ (oder „None“) aus und zaehlt solche Werte deswegen nicht mit.

Wieauchimmer, von den vielen Planeten die einen Abstand vom Ankunftspunkt im System von nur einer Sekunde haben waehlte ich (mehr oder weniger zufaellig) Flyooe Phio ZK-F d11-7 A 1. Der Grund war, dass dieser Planet die Eigenschaft hat, dass man auf dem landen kann UND weil der Planet um einen Weiszen Zwerg seine Bahn zieht. Und das wollte ich mir mal anschauen.

Als ich ankam, wurde ich auf die oben erwaehnte Ironie aufmerksam, denn ich merkte, dass der Orbit dieses Planeten komplett in der „verbotenen Zone“ um die Sternenleiche ist. Also der Bereich, in dem meine Kassiopeia mich automatisch aus dem Hyperraum schmeiszt, weil’s zu gefaehrlich ist so nah an einer Gravitationsquelle. Im Normalraum dauert die Reise aber viel zu lange, denn so weit war ich noch weg, als ich aus dem Hyperraum geschmissen wurde:

2.05 ls sind ca. 615 Millionen Meter. Meine maximale Geschwindigkeit im Normalraum ist ca. 150 m/s. Das bedeutet, dass ich fuer die Reise ca. 47 Tage brauchen wuerde. So lange reicht aber der Treibstoff in meinem Tank nicht, um die Maschine am laufen zu halten.

Das war wohl nix… aber wie das Bild zeigt, war’s wenigstens ein spektakulaerer Anblick :)

Posted by Tentacel on 2021/09/19 at 13:37 under The final frontier.
Comment on this post.

Triebwerkkontrolle

Es gibt nicht viel zu erzaehlen ueber den Planeten auf dem ich stehe — Rhadia OI-T d3-1 A 1 …

… auszer, dass es der Icy Body (auf dem man landen kann) mit der grøszten orbitalen Exzentrizitaet ist.
Deswegen nahm ich dies zum Anlass mal meine Triebwerke zu kontrollieren. Nicht weil die so viel benutzt werden. Ganz im Gegenteil! Im Hyperraum sind die ja sinnlos und deswegen nicht aktiviert. Vielmehr wollte ich kontrollieren, dass die sich nicht „kaputt stehen“ und mir um die Ohren fliegen, wenn ich sie nach laengerer Zeit wieder aktiviere and richtig Schub gebe.
Gluecklicherweise war alles in Ordnung.

Ansonsten ist bis auf die Entdeckung der Ammoniakwelten #177 und #178 …

… auch nix weiter passiert.

Posted by Tentacel on 2021/09/17 at 13:37 under The final frontier.
Comment on this post.

Kevin Bacon – VIII – Titelspielereien (e) – Eitelkeit 2

Beim letzten Mal fuehrten Daten zur Verwunderung. Verwunderung fuehrte zu einem Beduerfnis die Daten zu erklaeren. Dieses Beduerfnis fuehrte zu Ueberlegungen wie die Daten erklaert werden kønnten und weiteren Ueberlegungen unter welchen Annahmen ich erste Ueberlegungen ueberhaupt treffe … zumindest soweit ich es verstanden habe ist das Wissenschaft im Sinne Thomas Kuhns … Und dann habe ich das getestet und die falsche Hypothese (die typische Wortlaenge der englischen Sprache als Ursache der Beobachtungen) verworfen … Wissenschaft im Sinne Karl Poppers … æhm … ich sage es lieber nochmal: soweit ich das verstanden habe … einraeumend, dass ich das mglw. ueberhaupt nicht verstanden habe, weil ich die Theorien des Paradigmenwechsels und des systematischen Fortschritts als sich ergaenzend ansehe und nicht als „Widersacher“ … aber ich schweife ab, denn eigentlich wollte ich sagen: Science to the Rescue!

Die Breite der Gausskurven im Diagramm des vorigen Beitrags stimmen allerdings nicht ueberein (sind aber auch nicht himmelweit voneinander verschieden). Das liegt mglw. daran dass bei den realen Wikipediaseiten in diesem Laengenbereich ein signifikanter Ueberlapp mit anderen Themen herrscht.

Mich verwunderte nun das Folgende. Ich habe 2 Millionen Namen generiert. Dies geschah mehr oder weniger zufsaellig, ich wollte einfach nur eine aussagekraeftige Statistik haben. Wie man im Graphen sieht, ist die Amplitude der simulierten Daten (fast) genau so hoch wie die Amplitude der realen Daten (die roten Balken) … Was ist das denn fuer ein komischer Zufall? Bzw. wie viele Personenseiten gibt es denn ueberhaupt in der Wikipedia?
Also musste ich wieder rein in den Wikipediahasenbau um eine Antwort auf diese Frage zu finden … … … Ich fand einen Artikel, wo mal jemand 1001 zufaellige Artikel kategorisierte und diese informative Darstellung der Ergebnisse erstellte bzgl. der Anzahl der Artikel zu verschiedenen Themen in der Wikipedia …

Quelle, Autor: Mliu92, Lizenz: CC BY-SA 4.0, meinen Beduerfnissen angepasst

Fast 28 % aller Wikipediaseiten betreffen ganz direkt Leute … wie so oft, ist die Menschheit auch auf der Wikipedia mit einer Nabelschau beschaeftigt und redet am meisten ueber sich selbst.
Es wird vermutet, dass die Faehigkeit zur Selbstreferenz ein wichtiger Bestandteil von Bewusstsein (und Intelligenz) ist … aber so ist das bestimmt nicht gemeint … *seufz*.

Diese 28 % entsprechen beinahe 1.7 Millionen Seiten … was nahe dran ist an den oben erwaehnten 2 Millionen Fantasienamen und meiner Verwunderung somit eine Erklaerung entgegenstellt.

Wie bereits frueher erwaehnt, gibt es auf Wikipedia total viel interne Seiten. Da ich nun schonmal dabei war, versuchte ich eine Seite zu finden, die alle Personenseiten auflistet. Nach laengerer Suche fand ich eine solche … aber nur fuer lebende Menschen. Das sind aber nicht ganz eine Million. Und somit fragte ich mich: wo sind denn die ganzen Toten hin? … Nun ja, diese sind verstreut auf vielen anderen internen Seiten. Leider sind das Seiten wie diese hier oder jene dort, wo den dort eingetragenen Elementen die eine oder andere Information fehlt. Als letztes versuchte ich es dann mit den Tagen des Jahres (ein Beispiel) wo dann auch immer die an dem Tag Verstrobenen aufgefuehrt sind.

Zum Glueck hatte ich mir ja neulich schon einen Datenmaehdrescher gebaut und musste den fuer die neue Aufgabe nur ein bisschen modifizieren. Trotz all der Anstrengungen fand ich aber nur ein bisschen mehr als 100-tausend Seiten von Toten Leuten (eben nur die, die auch auf den entsprechenden Seiten gelistet sind).
In der oben erwaehnten Untersuchung von 1001 zufaelligen Wikipediaseiten betrug das Verhaeltnis der Seiten zu lebenden bzw. toten Personen 5 zu 3. Ich muesste also ca. 600-tausend Seiten zu toten Menschen haben. Diese Diskrepanz habe ich nicht geschafft auszuraeumen. Auch nach laengerer Suche fand ich einfach keine Uebersichtsseite wie fuer die lebenden Leute.

Naja … aber weil ich nun schonmal Daten dazu geerntet habe konnte ich mir mal angucken wie die Verteilung der Laenge dieser ganz konkreten Personennamentitel in echt aussieht. Und hier ist das Ergebnis (weisze Ovale sind die neuen Daten):

Aha … das Maximum stimmt mit allen anderen Maxima ueberein. Das bestaetigt meine Vermutung, dass Personennamen beim Hauptprozess eine wichtige Rolle spielen.

Die Amplitude dieser neuen Daten ist aber signifikant kleiner als selbst die Amplitude der gruenen Gausskurve. Das liegt zum Teil daran, dass die ca. 1/2 Million Seiten von toten Personen fehlen. Ein anderer Grund ist, dass die Verteilung der echten Namen zwei flache „Buckel“ bei grøszeren Laengen hat. Nur der Erste, bei einem Wert von ca. 23 Buchstaben im Namen, ist zu sehen, denn der Andere liegt so weit rechts, dass ich den abgeschnitten habe. Das macht nix, weil der ohnehin sehr klein und nicht wirklich signifikant ist. Das heiszt aber, dass die Titel von Wikipediapersonenseiten sich ein bisschen mehr auf laengere Namen verteilt als die von mir generierten Fantasienamen.
Dies kønnte durch Doppelnamen erklaert werden (auch wenn diese nur durch den ersten Buchstaben und einen Punkt abgekuerzt sind). Das betrifft mehr als 190-tausend Namen.
Desweiteren beinhalten die Titel von Wikipediapersonenseiten oft eine weitere Bemerkung. Als Beispiel møge wieder „Donald Fraser (geologist)“ dienen. Das sind zwei zusaetzliche Klammern, ein extra Leerzeichen und (in diesem Fall) neun Buchstaben der Berufsbezeichnung. Letzteres fuehlt sich „typisch“ an. 13 (das Maximum der Fantasienamen) + 10/11/12 und zack ist man mittendrin im Buckel. Ich fand mehr als 125-tausend Titel von Wikiepediapersonenseiten auf die das zutrifft.
Vom Gefuehl her wuerde ich sagen, dass diese beiden Zahlen durchaus grosz genug sind, um die „Verbreiterung“ zu laengeren Namen hin zu erzeugen.

Ebenso wird durch die Verbreiterung die Amplitude kleiner. Wenn man die 600-tausend Titel die mir fehlen in Betracht zieht und die ca. 190-tausend + 125-tausend Namen die im „“Schwanz“ der Verteilung sitzen, dann sollte man recht nahe an die Amplitude der gruenen Gausskurve herankommen.

Den laengsten Titel einer Wikipediapersonenseite hat mit 84 Buchstaben uebrigens diese Seite hier … SCHUMMLER!

Genug davon! Ich denke ich habe eine hinreichende Erklaerung fuer das Maximum der Verteilung der Laenge der Wikipediatitel gefunden. Das freut mich sehr. Die anderen zwei Prozesse die „das Signal erzeugen“ bleiben mysteriøs. Schade eigentlich, aber ich habe echt keine Idee, was das sein kønnte und da ich eigentlich am Linknetzwerk arbeiten wollte habe ich auch keinen Nerv noch mehr dazu zu machen.

Ach uebrigens bestaetigt der Stichprobe der 1001 Wikipediaseiten das was ich eingangs zu im vorigen Artikel Annahme II sage … *seufz*.

Posted by Tentacel on 2021/09/13 at 13:37 under Allgemein.
Comment on this post.

Schnullibulli noch einmal

Ihr, meine lieben Leserinnen und Leser, erinnert euch mglw. an diesen Schnullibulli von vor ueber 10 Jahren.

Nun ja … da kam vor einer Weile noch Schnullibulli Teil 2 dazu:

Mit ’nem Dr. rer. nat. und nem Dr. ing. (auch wenn Letzterer nicht direkt spezifiziert ist im Englischen) ist’s nun aber wirklich genug mit dem ganzen Quatsch!

Posted by Tentacel on 2021/09/11 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – VIII – Titelspielereien (e) – Eitelkeit 1

Beim letzten Mal versuchte ich eine Erklaerung zu finden fuer einen der drei (hauptsaechlichen) Prozesse, welche die Verteilung der Laenge der Wikipediaartikel beschreiben. Ich dachte es liegt an der englischen Sprache an sich, dem war aber nicht so. Damit habe ich nur noch eine Idee: Personennamen.

Ich kann gar nicht sagen, wie ich darauf kam. Poppte einfach so in meinem Geist auf. Ist allerdings auch nicht zu weit hergeholt. Ein Name sind zwei Woerter und prinzipiell kønnte das Maximum der Verteilung der Laenge von Personennamen zu mehr Buchstaben verschoben sein.

Nun brauchte ich also nur noch rausfinden, was Wikipediaseiten zu Personen sind … und da ging’s dann auch schon los. Wie soll ich sowas aus nur dem Titel ausmachen? Klar, ich kønnte ein paar Heuristiken herausfinden, aber das waere laengst nicht adaequat.
Aber dann dachte ich das Folgende.
1.: Eine Person bekommt einen Eintrag auf Wikipedia, wenn diese einigermaszen interessant ist (mit einer _sehr_ weit gefassten Definition des Wortes „interessant“).
2.: Ob eine Person von Interesse ist, ist zwar abhaengig vom Erfolg (dito, bzgl. der Grenzen der Definition dieses Wortes) der Person und Erfolg ist definitiv abhaengig von der Persønlichkeit (und ich wuerde auch die Gene nicht unbedingt ausschlieszen), aber Beides ist vøllig unabhaengig vom Namen. Klar, es gibt Kuenstlernamen, aber das ist darob der Menge aller (mehr oder weniger) interessanten Personen nicht ausschlaggebend.
3.: Die Wikipedia konzentriert sich vor allem auf „den Westen“.

Mit diesen drei (ich denke doch durchaus plausiblen) Annahmen dachte ich mir dann weiter, dass ich ja dann nur ’ne Liste aller (westlichen) Personennamen braeuchte und dass die Verteilung der Laenge der Namen repraesentativ fuer die Laengen der Titel der Wikipediapersonenseiten sein sollte.

Das Dumme ist nun, dass es solche Listen ganz sicher gibt, dass die aber zu Recht (!) nicht øffentlich zugaenglich sind. Aufgrund von Annahme #3 kann ich aber auf zwei andere schøne Quellen zurueckgreifen:
– Listen von Babynamen und wie haeufig diese vergeben wurden … zurueck bis 1880 o.O
– Eine Liste von Familiennamen und wie haefig diese existieren.

Damit hatte ich zwar immer noch nicht das was ich wollte, ABER weil die Haeufigkeiten mit angegeben sind, konnte mir damit einen Namensgenerator bauen. Die Haeufigkeiten sind so wichtig, weil ich Namen ja gerade NICHT rein zufaellig erstellen will, sondern mit einer Wahrscheinlichkeit wie diese in der Bevølkerung auch tatsaechlich vorkommen, damit ich Annahme #2 nicht verletze. Einen John Smith, gibt es nunmal viel haeufiger, als den bereits erwaehnten Donald Fraser.

Bzgl. der generierten Namen sind mehrere Sachen zu bemerken.
I.: Der Namensgenerator erstellt keine Doppelnamen, auch keine die nur mit einem Buchstaben abgekuerzt sind. Mal schauen wieviel das ausmacht.

II.: Aufgrund des historischen, generationenuebergreifenden und laengst nicht ueberwundenen Sexismus gibt es vermutlich viel mehr (mehr oder weniger) beruehmte Maenner die eine Wikipediaseite haben. Das wird (hoffentlich) in 100 Jahren anders aussehen. Wieauchimmer, das sollte nix ausmachen, denn ich gehe erstmal davon aus, dass Maennernamen in ihrer Gesamtheit nicht laenger (oder kuerzer) sind als Frauennamen. Zumindest bei den Fantasienamen stellte sich diese Aussage im Nachhinein als richtig heraus.

III.: Vornamen sind Moden unterlegen … aber Moden sind zyklisch. Wenn man das ueber mehrere Jahrzehnte betrachtet, dann sollte sich da nicht viel aendern. … Das nahm ich zunaechst an, wusste aber auch, dass dies ein schwacher Punkt ist. Deswegen schaute ich mir die Aenderung der 13 meistvergebenen Vornamen in den letzten 140 Jahren mal genauer an und muss sagen, dass diese Annahme so nicht ganz richtig ist. Moden scheinen traditionelle Namen zwar nicht zu verdraengen, aber gesellschaftliche Entwicklung schon.
Da mache ich aber mal am besten einen eigenen Beitrag draus. Fuer die Argumentation hier ist das aber dennoch nicht relevant, denn die Verteilung der Laenge der Namen wird durch die Moden nicht signifikant beeinflusst. Wie gesagt, die Daten dazu liefere ich in einem kommenden Beitrag.

IV.: Zu Familiennamen habe ich leider keine Jahresdaten … ABER, ich gehe davon aus, dass die meisten Familiennamen deutlich stabiler sind als Vornamen, da diese von Gesetz (Heirat und Kinder muessen den Zunamen der zumindest eines Elternteils haben) und Gesellschaft (Erwartung den Namen des Mannes anzunehmen) massiv „geførdert“ werden. Deswegen sollten etwaige Aenderungen diesbezueglich nicht von Bedeutung sein. Zumindest nicht im relevanten Zeitraum, denn ich nehme an, dass die meisten Personenseiten von relativ modernen Menschen (die letzten ca. 150 Jahre) sind.
Ein Vorbehalt ist allerdings zu erwaehnen: Einwanderung. Da ich die Namenslisten der USA benutze, sollten nicht typisch westliche Namen durchaus vorkommen. Aufgrund der demographischen Entwicklung in den USA sollte deren Vorkommen sogar zunehmen die letzten paar Jahrzehnte. Durch historischen, generationenuebergreifenden und laengst nicht ueberwundenen Rassismus werden Personen mit nicht typisch westlichen Namen allerdings systematisch vom reich und beruehmt werden im sog. „Westen“ abgehalten. Und reiche und beruehmte Leute in anderen Laendern werden systematisch von den Leuten die die Wikipedia schreiben ignoriert, weil das besagte Schreiber (aus naheliegenden, nicht (!) unbedingt rassistischen Gruenden) nicht interessiert. Auch hier kann ich wieder nur sagen: das wird (hoffentlich) in 100 Jahren anders aussehen.
Ich bin nun aber nur an der Laenge der Namen interessiert und nehme an, dass es zu jedem „Hernandez“ auch einen „Li“ gibt, so wie es zu jedem „Williams“ einen „Lee“ gibt. Apropos „kein Interesse drueber zu schreiben“ und „(historischer) Rassismus (im Westen)“ … schaut ihr, meine lieben Leserinnen und Leser euch mal die Laenge der jeweiligen verlinkten Namenslisten an und denkt euch den Rest selber.

Nun habe ich jeweils 1 Million Frauen- und Maennernamen generiert und gehe mit den obigen Annahmen davon aus, dass die Verteilung der Laenge dieser Fantasienamen durchaus repraesentativ ist fuer die Laenge der Titel der Wikipediapersonenseiten … und tatsaechlich …

… zum Einen kann man die Verteilung der Laenge der Namen (schwarze Vierecke) wieder mit einer Gaussverteilung (gelbe Kurve) hinreichend gut beschreiben. Das bestaetigt mal wieder, dass ich gut damit fahre, meistens erstmal ’ne Normalverteilung mir unbekannter Vorgaenge anzunehmen. Zum Anderen stimmt das Maximum dieser Gaussverteilung weitestgehend ueberein mit dem Maximum des staerksten (die Laenge der Wikipediatitel bestimmenden) „Prozesses“ (gruene Kurve).

HURRA!

Einige Dinge fallen an diesen Daten auf. Aber es soll genug sein fuer heute. Weitere Betrachtungen zu dieser Problematik beim naechsten Mal.

Posted by Tentacel on 2021/09/07 at 13:37 under Allgemein.
Comment on this post.

Ende des Perseus Arms … zum Zweiten

Das zweite Ende der Gabel am Ende des Perseus Arms ist … nun ja … zweideutig, weil man auf der Karte an der mit “ ? “ markierten Position …

… nicht sehen kann, welches dieser beiden System weiter drauszen ist und wie man ueberhaupt die Achse legen soll, welche bestimmt was „weiter drauszen“ eigentlich bedeutet. Also flog ich zunaechst zum Dryeou Fruia FF-R d4-0 System und schaute mir die Galaxis von dort aus an (was fuer eine Ueberraschung):

Auf dem Weg zum obigen System kam ich bereits beim Dryeou Fruia EF-R d4-0 System vorbei, machte aber kein Bild. Da ich auf dem Rueckweg hier eh nochmal durch kam, holte ich dies dann nach und konnte dort sogar auf einem Himmelskørper landen.

Hach … ’s ist zwar dunkel, aber schon schøn hier drauszen :)

Mittlerweile bin ich wieder zurueck in Richtung Bubble. Nicht schnurstracks, denn ich scanne ja immer noch alle Himmelskørper von Wert wie bspw. Ammoniakwelt #175, ELW #106 und Ammoniakwelt #176:

Und auszerdem besuche ich natuerlich Rekorde, die mehr oder weniger auf dem Weg liegen. Und dann … mhmm … das entscheide ich, wenn’s soweit ist.

Posted by Tentacel on 2021/09/05 at 13:37 under The final frontier.
Comment on this post.

Ende des Perseus Arms … zum Ersten

Die naechste Station und das eigentliche Ziel auf dieser Expedition war das System am Ende des Perseus Arms der Galaxis. Dummerweise ist dies diesmal etwas komplizierter. Wenn man sich naemlich in der Karte aller bekannten Systeme das Ende dieses Arms anschaut, dann ist das gegabelt …

… und es stellt sich die Frage, was denn nun das „richtige“ Ende ist. Ich entschied mich zu beiden zu reisen. Und hier …

… stehe ich auf dem (mich duenkt einzigen) Himmelskørper im Nyoijaa DC-D d12-0 System auf dem man landen kann und betrachte (wie immer) die weit entfernte Milchstrasze.
Besagtes System ist in der obigen Karte mit “ I “ markiert.

Nun raste ich erstmal, aber es soll gleich morgen weiter gehen zum anderen Ende des Perseus Arms.

Posted by Tentacel on 2021/09/03 at 13:37 under The final frontier.
Comment on this post.