Archive for Mai, 2021

Høhø! Voll lustig so’n Markow-Ketten-Generator. Sieht man doch wohl voll, dass das totaler Murks wird, wenn das naechste Wort nach einer Wahrscheinlichkeit berechnet wird.
Diese Domaene ist den Menschen vorbehalten, denn laengere, zusammenhaengende Texte zu schreiben erfordert ein ordentliches Textverstaendnis.

Nun ja, der heisze Scheisz ist seit ein paar Monaten GPT-3.

Hier sind etliche Beispiele fuer Dialoge, Horoskope, Gedichte, Kritiken etc. pp. zu finden.

Ganz toll ist auch, dass man GPT-3 sagen kann, dass es die Antwort in einem bestimmten Stil schreiben soll. Und dann kann man sich von Marie Curie Strahlung erklaeren lassen, H.G. Well zur Inspiration fuer seine Buecher befragen, oder Leibniz‘ Meinung bzgl. des wahren Entdeckers der Infinitesimalrechnung in Erfahrung bringen. Letzteres lohnt sich wirklich zu lesen. Aber Achtung, er hat da eine sehr spezifische Meinung und laeszt sich nicht die Butter vom Brot nehmen. Und wem das nicht reicht, der kann den Hulk fragen, warum er denn immer alles zerschmettern will.

Zur Zeit ist es noch so, dass eine Zusammenarbeit zwischen GPT-3 und einem Menschen (als Redakteur) die besten Ergebnisse liefert. Hier kann man eine Kurzgeschichte als Produkt einer solchen Kollaboration lesen.

Bei den Beispielen kønnte man ja jetzt sagen: „Ach das ist ja nur Quatsch, da ist das nicht so schlimm; richtige Informationen die auch in der Zeitung stehen sind auszer Reichweite von Maschinen“.
Ja, kønnte man sagen … aber dann empfehle ich diesen kurzen Artikel im Guardian dazu … lohnt sich zu lesen. Nicht des Inhalts, sondern der Implikationen wegen!

Ich erwaehnte, dass ich im Spirographnebel rumhing. Und weil es mir hier beim ersten Mal als ich hier war so gut gefallen hat, dachte ich mir, das ich mal auf dem selben Planeten wie damals landen muss … einfach weil’s so schøn war. Damals meinte ich, dass es hier niemals richtig Nacht wird … und das stimmt schon … aber dunkel wird es trotzdem auf der sonnenabgewandten Seite:

Amuesant finde ich, dass es scheint als ob Frigg fuer den Schatten auf den Ringen verantwortlich ist … tihihi … jajaja, mein SRV hat schon ein paar kraeftige Strahler :) .

Beim letzten Mal schrieb ich, dass die Wikipedia Rohdaten ca. 75 GB (75.4 GB um genauer zu sein) grosz sind. Das ist viel zu viel um das im Arbeitsspeicher zu haben.
Und selbst wenn man so viel Arbeitsspeicher haette, ist das meiste davon Information, die nicht relevant ist fuer die eigentliche Problemstellung.

Mein erstes Ziel war somit Information loszuwerden die ich garantiert nicht brauche.
Im Wesentlichen bedeutete dies, den Text und die „Steuerelemente“ loszuwerden. Letztlich ist ja ALLES Text und deswegen ist Letzteres so wichtig. Denn das ist der Code, der dem Browser klarmacht, dass bspw. ein Wort fett oder kursiv sein soll, an welche Stelle ein Bild kommt, was ein Link ist oder das eine Sequenz von Wørtern eigentlich der Titel sind (und vieles, vieles mehr).

Und die letzten beiden Sachen sind die einzigen Dinge an denen ich interessiert bin.

Und hier kommt eine andere Sache ins Spiel, die vøllig normal fuer einen Datascientist (aber oft nicht fuer einen Dataanalyst) ist: sich die Rohdaten anschauen um herauszufinden wie die Information darin ueberhaupt strukturiert ist.
In diesem Falle war das einfach, weil ich ja den „Quellcode“ der Wikipedia hatte. Das war also alles schon super toll durchstrukturiert, denn eine Maschine muss ja im Stande sein das zu interpretieren und richtig darzustellen. So schøn anzusehen Bilderhandschriften sind, so ist das nicht von Webbrowsern (ohne Weiteres) interpretierbar. Da sitzt erstmal ein Mensch und „uebersetzt“ die in einer solchen Seite vorhandene Struktur in allgemeine (maschineninterpretierbare) Regeln.

Dieser Prozess ist oft ermuedend und langweilig. Aber nicht minder oft lerne ich dabei auch ’ne ganze Menge … insb. natuerlich bei diesem Projekt, da die Rohdaten die Wikipedia sind … hach, was hab ich alles gelesen :) .
Oft fasst man sich auch an’n Kopp oder rauft sich die Haare (nicht nur im bildlichen Sinne!). Das beinhaltet dann meist von sog. „Nutzern“ erstellte Daten. Und davon hatte ich hier auch ’ne ganze Menge.

Wieauchimmer, ich will also den Titel einer Seite und die im Text vorhandenen Links.
Der „Code“ einer Wikipediaseite ist sehr sehr aehnlich dem HTML-Quelltext jeder anderen Webseite. Letzteren bekommt man in Firefox angezeigt, wenn man < CTRL + U > drueckt.
Das ist gut, denn bedeutet dies doch, dass der Titel leicht zu finden ist, denn dieser befindet sich immer zwischen diesen beiden „Markierungen“:

<title>  TitelDerWikipediaseite  </title>

Das meine ich mit Struktur und warum das kleine (aber starke) Wort „immer“ im vorherigen Satz steht.

Links sind etwas komplizierter und ich werde auch an anderer Stelle nochmal auf diese zurueck kommen. In HTML sehen Links so aus:

<a href="LinkZurSeite" title="NameDerSeite">Das was im Text steht und blau und unterstrichen ist</a>

Im Code der Wikipedias ist das deutlich kuerzer. Links befinden sich dort in doppelten eckigen Klammern:

[[TitelDerWikipediaseite | blauer, unterstrichener Text ]]

Der Teil rechts von der „Pipe“ (keine Ahnung wie < | > im dtsch. heiszt) ist optional. Links davon kann auch eine URL einer externen Seite stehen. Das kommt vor aber nicht so haeufig.
Wichtig ist, dass die Struktur (wieder) immerzu das Gleiche ist.

Wenn man den ganzen Text weg laeszt und nur den Titel einer Seite und die Links behaelt, kann ich die Datenmenge um 90 Prozent (!) reduzieren von 75.4 GB auf nur 7.5 GB.
Dummerweise ist das in Textform. Als Rohdaten ist Textform super. Bei der Datenanalyse kønnte ich auch direkt mit Text arbeiten, dass ist aber schwerfaellig. Es ist besser die Information in Datenstrukturen zu „verpacken“, sogenannte Zuordnungstabellen. Das ist eine Art „Metastruktur“ und erleichtert die Handhabung der Daten immens! Handhabung bedeutet hier, lesen und schreiben von Daten.
Das bedeutet ich muss nicht jedes Mal durch jede Zeile eines Textdokuments durchgehen, bis ich eine spezifische Seite (und deren Links) gefunden habe. Innerhalb der „Metastruktur“ sage ich dann bspw. nur …

Ich habe hier einen gewissen Titel; gib mir alle dazugehørigen Links an

… und das wird dann direkt gefunden. In einer Bibliothek wuerde ich sozusagen die Nummer des Buecherregals nehmen (als „Titel“)  und alle Buecher darin entsprechen den Links.

(Beinahe) dito, wenn ich etwas mit den Links machen muss (Spoiler: dazu mehr in einem spaeteren Artikel):

Ich habe hier einen gewissen Titel; løsche alle Links die ein "A" enthalten

Das Problem ist nun, dass die interne Praesentation der Metastruktur Platz braucht. Ich erkaufe also Nuetzlichkeit mit Speicher. So wie ein Buecherregal und die Luft zwischen den Buechern mehr Platz braucht als wenn man Buecher einfach nur auf dem Boden stapelt. Da frage ich mich doch, wieviel weniger Platz die (nicht digitalen) Dokumente (also auch sowas wie Bilder und chiesische Vasen, etc. pp.) dieser Welt brauchen wuerden, wenn das nicht in Regalen (und aehnlichem) sortiert waere. Das sieht man ja bspw. wenn beim Umzug alles in ein paar Kartons dicht gepackt ist. Und darauf folgt dann die Frage, wie grosz die Effizienzsteigerung der Verwaltung ist (sei es beim Staat, bei der Schule oder im eigenen Haushalt) eben durch die Nutzung von Metastrukturen/Buecherregalen.

Wieauchimmer, durch den erhøhten Speicherbedarf ist die obigen Angabe etwas irrefuehrend. Klar, die Information an sich braucht nur 7.5 GB. Damit ich damit aber was (vernuenftiges) machen kann, brauche ich besagte Datenstrukturen und dadurch erhøht sich der Speicherbedarf auf 10.8 GB.
Wenn ich im weiteren Angaben zur „Grøsze der Daten“ mache, dann meine ich damit ab sofort immer inklusive der Anordnung in Datenstrukturen.

So, das war ein ganz schøn technischer Abstecher. Die 10.8 GB sind immer noch zu viel um das alles gleichzeitig im Speicher zu behalten. Zum Glueck (irgendwie) enthaelt die reduzierte Information (die aussoprtierten Titel und Links, ohne den Text und Steuerelemente) noch ’ne ganze Menge „Zeug“ welches nicht gebraucht wird zur Bearbeitung des Problems gebraucht wird (oder gar zu nicht ganz richtigen Resultaten fuehren wuerde). Dazu aber mehr im naechsten Artikel.

Ach ja, in den reduzierten Daten habe ich 20,820,530 Titel und diese beinhalten insgesamt 327,784,045 Links.
Moment 20,820,530 Titel und jeder Titel entspricht einer Wikipediaseite? Ich sagte doch ganz am Anfang, dass es nur 6 Millionen gibt. Nun ja, beides ist richtig, aber mehr zur Løsung dieses Raetsels in einem der folgenden Artikel.

Zwischen den Thargoids und der Menschheit herrscht Krieg :( … Bisher habe ich mich da rausgehalten.
Neulich flog ich aber in der Naehe des Sektors rum von dem man annimmt dass die Thargoids von dort kommen. Eigentlich gibt’s da nicht viel zu befuerchten. Der Weltraum ist riesig; man laeuft sich nicht dauernd ueber den Weg. Aber beim Sprung von einem System in das Naechste begann mein Schiff pløtzlich zu Rumpeln und sich im „Sprungtunnel“ zu winden. Gleichzeitig hatte ich massenweise elektrische Størungen. Und diese Warnung …

… war auch eher beunruhigend.
Nach den ersten Schrecksekunden erinnerte ich mich, wo ich mich befand. Das war dann wohl meine erste Begegnung mit den Thargoids. Diese haben naemlich eine Technologie, mit der man Schiffe aus besagtem Sprungtunnel ziehen kann … und manchmal laeuft man sich halt doch ueber den Weg.

Ich war voll nervøs, nicht zuletzt weil durch den Zusammenbruch des Sprungfelts Frigg sich komplett abgeschaltet hat … und es dauerte ’ne Weile bis sie wieder einsatzfaehig war. Ich sasz dort also und konnte nix machen.

Zum Glueck sind die Thargoids nicht wie (so viele) Menschen und schieszen ohne Grund auf alles was nicht Thargoid ist. Ich wurde gruendlich gescannt. Und da ich keine Thargoidartefakte oder Teile von abgeschossenen Thargoidschiffen bei mir hatte, lieszen sie mich in Ruhe und flogen von dannen. Das ist uebrigens einer der Gruende, warum ich mich bisher von besagtem Konflikt ferngehalten habe.
Ich war durch den Schreck leider noch so neben mir und die Begegnung war so kurz, dass ich vergasz ein Foto zu machen … schade eigentlich.

Danach ging es dann weiter zum Spirograph Nebel. Da war ich schon mal, damals, auf meiner ersten Reise raus aus der Bubble mit Kassandra, zum Crab Pulsar. Lang, lang ist’s her. Und dort entdeckte ich dieses Mal diese Dinger (?) hier:

Das sind Lattice Mineral Spheres und im Gegensatz zur vorherigen Begnung musste _ich_ die dann beschnueffeln und alles lief viel ruhiger (und ohne Ausfaelle) ab.

Nun sehen sie aus, wie wir sie kennen …

… und wie man an Linus Kuscheldecke sieht, haben sich auch ihre Erkennungsmerkmale und spezifischen Verhalten eingestellt … wenn auch noch nicht voll ausgepraegt.

Wenn ich mich richtig erinnere, dann waren es ca. 2(+) Jahrzehnte, in denen ich die Peanuts richtig gut. Ja durchaus bewegend und auch abseits der, im ersten Artikel hierzu erwaehnten, Langlebigkeit der Serie auch vom Inhalt relevant fand … selbst mehr als ein halbes Jahrhundert spaeter. Und die hier gezeigten Jahre …

… waren mittendrin in diesen 2(+) Jahrzehnten.

CT Chamaeleontis 5 ist ein Class IV gas giant mit 4 Rekorden:
– laengste Halbachse (67,319,090,590,087.766 m oder ca. 450.0 au)
– laengste orbitale Periode (356,506,337,280.0 s oder ca. 11.3 Millenia)
– grøszert orbitaler Umfang (422,977,915,074,100.44 m … lol … ich geb’s unsinnergerweise auf den Zentimeter genau an … tihihi)
– vøllig unabhaengig von den ersten drei auch noch die høchste Gravitation (69.83014689850354 g)

Deswegen kommt hier nicht viel Licht vom Mutterstern. In Verbindung mit dem wohlbekannten „SonnenSternenaufgangstrick“ schaffe ich es das Vorhandensein des Planeten anzudeuten und der Dunkelheit dennoch ihren Platz zu lassen:

Weiter ging es danach zu Wregoe QQ-R b45-7 A 1, dem Gas giant with ammonia-based life (auch) mit der laengsten Halbachse (22,951,229,283,454.355 m oder ca. 153.42 au) und der laengsten orbitalen Periode (115,834,912,768.0 s oder ca. 3673.1 Jahre). Ich verspreche, dass der Rekordhalter auf diesem Bild wirklich im Hintergrund ist (wenn man genau hinschaut, kann man zum rechten Rand den Uebergang zum etwas helleren Hintergrundleuchten der Galaxis wahrnehmen):

Mit ihrer dezenten Beleuchtung bringt Frigg die Ruhe des Arrangements eher zur Geltung als dass es sie størt.

Neulich flog ich aus einer Station heraus und dieser Anblick liesz mir den Mund offen stehen:

Das ist ueberhaupt kein besonderer Planet, ich weisz nicht mal wie der heiszt, aber ich befinde mich meistens nicht in bewohntem Gebiet. Deshalb sind die glitzernden Lichter der sich im Schlaf befindenden Bevølkerungszentren ein besonderer Anblick fuer mich.

Und dann ist mir aufgefallen, dass die Dunkelheit, trotz ihrer Omnipraesenz in der Leere, ueberhaupt nicht zur Geltung kommt, wenn ich ueber meine Reisen berichte. Das werde ich mit den naechsten paar Logbucheintraegen aendern :) .

Nun ist’s wohl ’ne Tradition, dass ich die ersten Resultate einer neu gestarteten Operation zeige.

Bemerkenswert sind R Coronae Austrini A (Reihe 2, Spalte 2) welcher echt klein ist und Phi Persei B (Reihe 3, Spalte 3) welcher BEIDE (!) Distanzrekorde vom Ankunftspunkt im System (am naehsten dran UND am weitesten weg) haelt.

Name: Eol Prou ZE-A f111 A
Typ: O (Blue-White) Star
Rekord: orbitale Periode (am laengsten)
Wert: 222,900,502,527.99997 s oder ca. 0.6 Milliarden Jahre
Bild: Reihe 1, Spalte 1

Name: Dryuae Aoscs AA-A h93 B
Typ: Wolf-Rayet N Star
Rekord 1: Distanz vom Ankunftspunkt im System (am naehsten dran)
Wert 1: 15 ls
Rekord 2: Geschwindigkeit in Periapsis (am schnellsten)
Wert 2: 1,259,597.97836747 m/s oder ca. 4.5 Gm/h
Bild: Reihe 1, Spalte 2

Name: Iowhaik AA-A h47 A
Typ: Wolf-Rayet O Star
Rekord: orbitale Periode (am laengsten)
Wert: 103,110,909,952.0 s oder fast 3270 Jahre
Bild: Reihe 1, Spalte 3

Name: Byaa Ain AA-A h121 A
Typ: B (Blue-White super giant) Star
Rekord: absolute Helligkeit (am leuchtstaerksten)
Wert: -14.480209
Bild: Reihe 2, Spalte 1

Name: R Coronae Austrini A
Typ: B (Blue-White) Star
Rekord: absolute Helligkeit (am leuchtschwaechsten)
Wert: 9.630203
Bild: Reihe 2, Spalte 2
Notes: Super kleiner B (Blue-White) Star. Ich dachte zunaechst ich bin richtig weit weg, aber nein, das war ich nicht. Manchmal ist die Grøsze dann doch wichtig. Nachdem ich so nahe dran war wie møglich musste ich immer noch maximal ranzoomen um diesen Stern so grosz auf’s Bild zu bekommen.

Name: Kappa-1 Sagittarii
Typ: A (Blue-White) Star
Rekord: Distanz vom Ankunftspunkt im System (am weitesten weg)
Wert: 1,915,580 ls
Bild: Reihe 2, Spalte 3

Name: HIP 91911 A
Typ: Wolf-Rayet Star
Rekord: absolute Helligkeit (am leuchtschwaechsten)
Wert: 6.632233
Bild: Reihe 3, Spalte 1

Name: HIP 117365 A
Typ: A (Blue-White) Star
Rekord: Alter (am aeltesten)
Wert: 12.224 Milliarden Jahre
Bild: Reihe 3, Spalte 2

Name: Phi Persei B
Typ: Wolf-Rayet Star
Rekord 1 + 2: Distanz vom Ankunftspunkt im System (am naehsten dran UND am weitesten weg)
Wert 1 + 2: 338 ls
Rekord 3: Geschwindigkeit in Periapsis (am schnellsten)
Wert 3: 119,912.49210768679 m/s oder ca. 431.68 Mm/h
Bild: Reihe 3, Spalte 3
Notes: Weil dieser Stern beide Distanzrekorde haelt kann man schlieszen, dass bisher kein anderer Wolf-Rayet Star (ohne Unterklasse) in einer (mindestens) binaeren Konfiguration gefunden wurde, in welcher dieser NICHT der Anker fuer den Sprungantrieb ist.

Als „Rohdaten“ ist natuerlich die (englische) Wikipedia zu verstehen. Und JA, die kann man _komplett_ runterladen … also ohne Bilder und Videos und sowas … aber wenn man wuenscht, kann man das auch von den offiziellen Quellen nachladen … aber das wuensche ich nicht fuer dieses Projekt.

Zunaechst einmal ist es supercool, dass das ueberhaupt geht … soviel wusste ich … und dann ging’s auch schon los mit der Frage: Wie komme ich an die Daten die ich brauche um die Fragestellung zu bearbeiten?
Das ist uebrigens total normal fuer Data_scientists_. Uns werden Fragen gestellt und wir kønnen dann zusehen, wie wir die beantworten. Ist wie bei normaler Wissenschaft.
Data_analysts_ hingegen kriegen die (oft schon gut vorbereiteten) Daten gegeben und muessen die dann „nur“ analysieren.
Im Laufe der Serie werde ich ein bisschen mehr darauf eingehen, worin ich die Unterschiede sehe zwischen diesen beiden Berufen. Das soll nicht falsch zu verstehen sein. Dataanalysts haben oft ziemliche hohe Kompetenzen in der Datenanalyse die ich nicht habe. Aber Hinz und Kunz die ’n Fragebogen erstellen, dann die paar hundert Antworten ’ner regulaeren statistischen Analyse unterziehen und das ganze oft in einem bekannten Tabellenkalkulationsprogramm oder mit gekaufter proprietaerer Software, ohne zu wissen oder zu reflektieren was dahinter steckt (nicht nur bei der Software, sondern auch bei den Modellen), bezeichnen sich heutzutage so. Und ’s geht mir gegen den Strich, dass ich mit besagten Hinz und Kunz (nicht mit denen die wirkliche Kompetenz haben) in einen Topf geworfen werde. Und ja, ich rege mich hier ueber Kollegen einer anderen Zweigstelle auf … aber das mache ich nur wegen meiner Eitelkeit und weil ich eingebildet bin. Deswegen versuche ich das auf ein Minimum zu reduzieren.

Ich schwoff ab.

Zunaechst wusste ich zwar, dass man die Wikipedia runterladen kann, aber ich wusste nicht wo.
Schritt Null war dann eine allgemeine Suche im Internet und das lesen von ein paar Weblogartikeln. Dabei fand ich die offizielle Wikiepedia-komplett-runterladen-Seite.
Dort navigierte ich fix zum Abschnitt „Where do I get it?“ und das fuehrte mich hierhin, wo ich begrueszt wurde von diesem spartanischen Design …

… … … … wait what? … und war erstmal verwirrt. Es brauchte ein bisschen vorwaerts / rueckwaerts / seitwaerts klicken um immer wieder hier zu landen. Das war also richtig.

Ich nahm das Backup vom 2020-12-20 was mich mich auf die naechste Seite fuehrte (ich frage mich, ob es die in einem Jahr noch gibt). Die Information dort war dann VIEL mehr und ich musste erstmal herrausfinden worum es sich bei all diesen Sachen handelt.
Nachdem ich mich ein bisschen informiert (und probiert) hatte, entschied ich mich fuer die Datei mit dem leicht zu merkenden Namen „enwiki-20201201-pages-articles-multistream.xml.bz2“.

Toll wa! Das Wissen der Welt ist komprimiert und ohne Bilder nur 17.7 GB grosz. … Unkomprimiert sind es ca. 75 GB. Das ist zwar deutlich mehr, aber jetzt auch nicht soooo viel. Schon krass, wie gut Komprimierungsalgorithmen sind. Ist ja bei mp3 oder den Videocodecs nicht anders. Menschlicher Einfallsreichtum par excellence.

Nun hatte ich was ich wollte und war einen Schritt naeher an der Beantwortung der Frage. Zu dem Zeitpunkt ahnte ich noch nicht, dass es noch ziemlich viele Schritte werden bis ich die Antwort in den Haenden halten konnte.
Eine Sache war mir aber klar: die 75 GB; das konnte ich nicht alles gleichzeitig im Arbeitsspeicher behalten. Geschweige denn sich „kreuzende“ Berechnungen ueber alles auf alles daran zu machen. Wie ich dieses Problem (schrittweise) løste, stelle ich in den kommenden Artikeln vor.

Meine Frigg kaufte ich ja erstmal nur wegen des ungewohnlichen Design des Cockpits. Das hatte ich auf Bildern gesehen und das war so anders als alles was ich bisher gesehen hatte, dass ich so einen Imperial Courier gerne haben wollte. Und so sieht es aus, wenn ich in meinem Pilotensitz sitze und Frigg fliege:

Der Neutronenstern den man dort sieht ist Nova Aquila No 3 und hat von allen Sternen (auch ehemaligen) mit nur 0.0000010351843321351545 Solradii den kleinsten aller „Sternen“radien. Auszerdem ist es mit einer absoluten Helligkeit von 5.642715 auch der leuchtschwaechste aller (bisher) im galaktischen Atlas verzeichneten Neutronensterne.

Interessant ist, dass jemand seinen Flottentraeger in einem Abstand von nur ca. 3,000 km direkt daneben geparkt hat! Ich habe den angewaehlt und man sieht’s am Hologramm unten, links-mittig. Ich besuchte den kurz, war dann aber auch gleich wieder auf dem Weg zu anderen Gefilden: