Archive for the ‘Allgemein’ Category

Beim letzten Mal schrieb ich, dass die Wikipedia Rohdaten ca. 75 GB (75.4 GB um genauer zu sein) grosz sind. Das ist viel zu viel um das im Arbeitsspeicher zu haben.
Und selbst wenn man so viel Arbeitsspeicher haette, ist das meiste davon Information, die nicht relevant ist fuer die eigentliche Problemstellung.

Mein erstes Ziel war somit Information loszuwerden die ich garantiert nicht brauche.
Im Wesentlichen bedeutete dies, den Text und die „Steuerelemente“ loszuwerden. Letztlich ist ja ALLES Text und deswegen ist Letzteres so wichtig. Denn das ist der Code, der dem Browser klarmacht, dass bspw. ein Wort fett oder kursiv sein soll, an welche Stelle ein Bild kommt, was ein Link ist oder das eine Sequenz von Wørtern eigentlich der Titel sind (und vieles, vieles mehr).

Und die letzten beiden Sachen sind die einzigen Dinge an denen ich interessiert bin.

Und hier kommt eine andere Sache ins Spiel, die vøllig normal fuer einen Datascientist (aber oft nicht fuer einen Dataanalyst) ist: sich die Rohdaten anschauen um herauszufinden wie die Information darin ueberhaupt strukturiert ist.
In diesem Falle war das einfach, weil ich ja den „Quellcode“ der Wikipedia hatte. Das war also alles schon super toll durchstrukturiert, denn eine Maschine muss ja im Stande sein das zu interpretieren und richtig darzustellen. So schøn anzusehen Bilderhandschriften sind, so ist das nicht von Webbrowsern (ohne Weiteres) interpretierbar. Da sitzt erstmal ein Mensch und „uebersetzt“ die in einer solchen Seite vorhandene Struktur in allgemeine (maschineninterpretierbare) Regeln.

Dieser Prozess ist oft ermuedend und langweilig. Aber nicht minder oft lerne ich dabei auch ’ne ganze Menge … insb. natuerlich bei diesem Projekt, da die Rohdaten die Wikipedia sind … hach, was hab ich alles gelesen :) .
Oft fasst man sich auch an’n Kopp oder rauft sich die Haare (nicht nur im bildlichen Sinne!). Das beinhaltet dann meist von sog. „Nutzern“ erstellte Daten. Und davon hatte ich hier auch ’ne ganze Menge.

Wieauchimmer, ich will also den Titel einer Seite und die im Text vorhandenen Links.
Der „Code“ einer Wikipediaseite ist sehr sehr aehnlich dem HTML-Quelltext jeder anderen Webseite. Letzteren bekommt man in Firefox angezeigt, wenn man < CTRL + U > drueckt.
Das ist gut, denn bedeutet dies doch, dass der Titel leicht zu finden ist, denn dieser befindet sich immer zwischen diesen beiden „Markierungen“:

<title>  TitelDerWikipediaseite  </title>

Das meine ich mit Struktur und warum das kleine (aber starke) Wort „immer“ im vorherigen Satz steht.

Links sind etwas komplizierter und ich werde auch an anderer Stelle nochmal auf diese zurueck kommen. In HTML sehen Links so aus:

<a href="LinkZurSeite" title="NameDerSeite">Das was im Text steht und blau und unterstrichen ist</a>

Im Code der Wikipedias ist das deutlich kuerzer. Links befinden sich dort in doppelten eckigen Klammern:

[[TitelDerWikipediaseite | blauer, unterstrichener Text ]]

Der Teil rechts von der „Pipe“ (keine Ahnung wie < | > im dtsch. heiszt) ist optional. Links davon kann auch eine URL einer externen Seite stehen. Das kommt vor aber nicht so haeufig.
Wichtig ist, dass die Struktur (wieder) immerzu das Gleiche ist.

Wenn man den ganzen Text weg laeszt und nur den Titel einer Seite und die Links behaelt, kann ich die Datenmenge um 90 Prozent (!) reduzieren von 75.4 GB auf nur 7.5 GB.
Dummerweise ist das in Textform. Als Rohdaten ist Textform super. Bei der Datenanalyse kønnte ich auch direkt mit Text arbeiten, dass ist aber schwerfaellig. Es ist besser die Information in Datenstrukturen zu „verpacken“, sogenannte Zuordnungstabellen. Das ist eine Art „Metastruktur“ und erleichtert die Handhabung der Daten immens! Handhabung bedeutet hier, lesen und schreiben von Daten.
Das bedeutet ich muss nicht jedes Mal durch jede Zeile eines Textdokuments durchgehen, bis ich eine spezifische Seite (und deren Links) gefunden habe. Innerhalb der „Metastruktur“ sage ich dann bspw. nur …

Ich habe hier einen gewissen Titel; gib mir alle dazugehørigen Links an

… und das wird dann direkt gefunden. In einer Bibliothek wuerde ich sozusagen die Nummer des Buecherregals nehmen (als „Titel“)  und alle Buecher darin entsprechen den Links.

(Beinahe) dito, wenn ich etwas mit den Links machen muss (Spoiler: dazu mehr in einem spaeteren Artikel):

Ich habe hier einen gewissen Titel; løsche alle Links die ein "A" enthalten

Das Problem ist nun, dass die interne Praesentation der Metastruktur Platz braucht. Ich erkaufe also Nuetzlichkeit mit Speicher. So wie ein Buecherregal und die Luft zwischen den Buechern mehr Platz braucht als wenn man Buecher einfach nur auf dem Boden stapelt. Da frage ich mich doch, wieviel weniger Platz die (nicht digitalen) Dokumente (also auch sowas wie Bilder und chiesische Vasen, etc. pp.) dieser Welt brauchen wuerden, wenn das nicht in Regalen (und aehnlichem) sortiert waere. Das sieht man ja bspw. wenn beim Umzug alles in ein paar Kartons dicht gepackt ist. Und darauf folgt dann die Frage, wie grosz die Effizienzsteigerung der Verwaltung ist (sei es beim Staat, bei der Schule oder im eigenen Haushalt) eben durch die Nutzung von Metastrukturen/Buecherregalen.

Wieauchimmer, durch den erhøhten Speicherbedarf ist die obigen Angabe etwas irrefuehrend. Klar, die Information an sich braucht nur 7.5 GB. Damit ich damit aber was (vernuenftiges) machen kann, brauche ich besagte Datenstrukturen und dadurch erhøht sich der Speicherbedarf auf 10.8 GB.
Wenn ich im weiteren Angaben zur „Grøsze der Daten“ mache, dann meine ich damit ab sofort immer inklusive der Anordnung in Datenstrukturen.

So, das war ein ganz schøn technischer Abstecher. Die 10.8 GB sind immer noch zu viel um das alles gleichzeitig im Speicher zu behalten. Zum Glueck (irgendwie) enthaelt die reduzierte Information (die aussoprtierten Titel und Links, ohne den Text und Steuerelemente) noch ’ne ganze Menge „Zeug“ welches nicht gebraucht wird zur Bearbeitung des Problems gebraucht wird (oder gar zu nicht ganz richtigen Resultaten fuehren wuerde). Dazu aber mehr im naechsten Artikel.

Ach ja, in den reduzierten Daten habe ich 20,820,530 Titel und diese beinhalten insgesamt 327,784,045 Links.
Moment 20,820,530 Titel und jeder Titel entspricht einer Wikipediaseite? Ich sagte doch ganz am Anfang, dass es nur 6 Millionen gibt. Nun ja, beides ist richtig, aber mehr zur Løsung dieses Raetsels in einem der folgenden Artikel.

Als „Rohdaten“ ist natuerlich die (englische) Wikipedia zu verstehen. Und JA, die kann man _komplett_ runterladen … also ohne Bilder und Videos und sowas … aber wenn man wuenscht, kann man das auch von den offiziellen Quellen nachladen … aber das wuensche ich nicht fuer dieses Projekt.

Zunaechst einmal ist es supercool, dass das ueberhaupt geht … soviel wusste ich … und dann ging’s auch schon los mit der Frage: Wie komme ich an die Daten die ich brauche um die Fragestellung zu bearbeiten?
Das ist uebrigens total normal fuer Data_scientists_. Uns werden Fragen gestellt und wir kønnen dann zusehen, wie wir die beantworten. Ist wie bei normaler Wissenschaft.
Data_analysts_ hingegen kriegen die (oft schon gut vorbereiteten) Daten gegeben und muessen die dann „nur“ analysieren.
Im Laufe der Serie werde ich ein bisschen mehr darauf eingehen, worin ich die Unterschiede sehe zwischen diesen beiden Berufen. Das soll nicht falsch zu verstehen sein. Dataanalysts haben oft ziemliche hohe Kompetenzen in der Datenanalyse die ich nicht habe. Aber Hinz und Kunz die ’n Fragebogen erstellen, dann die paar hundert Antworten ’ner regulaeren statistischen Analyse unterziehen und das ganze oft in einem bekannten Tabellenkalkulationsprogramm oder mit gekaufter proprietaerer Software, ohne zu wissen oder zu reflektieren was dahinter steckt (nicht nur bei der Software, sondern auch bei den Modellen), bezeichnen sich heutzutage so. Und ’s geht mir gegen den Strich, dass ich mit besagten Hinz und Kunz (nicht mit denen die wirkliche Kompetenz haben) in einen Topf geworfen werde. Und ja, ich rege mich hier ueber Kollegen einer anderen Zweigstelle auf … aber das mache ich nur wegen meiner Eitelkeit und weil ich eingebildet bin. Deswegen versuche ich das auf ein Minimum zu reduzieren.

Ich schwoff ab.

Zunaechst wusste ich zwar, dass man die Wikipedia runterladen kann, aber ich wusste nicht wo.
Schritt Null war dann eine allgemeine Suche im Internet und das lesen von ein paar Weblogartikeln. Dabei fand ich die offizielle Wikiepedia-komplett-runterladen-Seite.
Dort navigierte ich fix zum Abschnitt „Where do I get it?“ und das fuehrte mich hierhin, wo ich begrueszt wurde von diesem spartanischen Design …

… … … … wait what? … und war erstmal verwirrt. Es brauchte ein bisschen vorwaerts / rueckwaerts / seitwaerts klicken um immer wieder hier zu landen. Das war also richtig.

Ich nahm das Backup vom 2020-12-20 was mich mich auf die naechste Seite fuehrte (ich frage mich, ob es die in einem Jahr noch gibt). Die Information dort war dann VIEL mehr und ich musste erstmal herrausfinden worum es sich bei all diesen Sachen handelt.
Nachdem ich mich ein bisschen informiert (und probiert) hatte, entschied ich mich fuer die Datei mit dem leicht zu merkenden Namen „enwiki-20201201-pages-articles-multistream.xml.bz2“.

Toll wa! Das Wissen der Welt ist komprimiert und ohne Bilder nur 17.7 GB grosz. … Unkomprimiert sind es ca. 75 GB. Das ist zwar deutlich mehr, aber jetzt auch nicht soooo viel. Schon krass, wie gut Komprimierungsalgorithmen sind. Ist ja bei mp3 oder den Videocodecs nicht anders. Menschlicher Einfallsreichtum par excellence.

Nun hatte ich was ich wollte und war einen Schritt naeher an der Beantwortung der Frage. Zu dem Zeitpunkt ahnte ich noch nicht, dass es noch ziemlich viele Schritte werden bis ich die Antwort in den Haenden halten konnte.
Eine Sache war mir aber klar: die 75 GB; das konnte ich nicht alles gleichzeitig im Arbeitsspeicher behalten. Geschweige denn sich „kreuzende“ Berechnungen ueber alles auf alles daran zu machen. Wie ich dieses Problem (schrittweise) løste, stelle ich in den kommenden Artikeln vor.

In dreifacher Hinsicht. Zum Einen bereitet die Botschaft eines Artikels in der New York Times mit dem Titel „The Age of Electric Cars Is Dawning Ahead of Schedule“ gute Laune. Wenn man den Ladevorgang (Wortspielkasse!) der Seite abbricht , dann kommt auch nicht dieses Dingens was einem vom Lesen des Artikels abhaelt … manchmal frage ich mich, was fuer Leute diese „Schutz“mechanismen programmieren und warum das keinem auffaellt wie leicht das zu umgehen ist. Das ist ja noch einfacher als damals, als der Spiegel seine Seiten „verschluesselt“ hat, damit die keiner lesen kann, wo die „Verschluesselung“ dann aber einfach darin bestand im HTML-Code der Seite alle Buchstaben eins nach rechts zu schieben … *lol* … das ist dann der zweite Grund fuer gute Laune … dass man den Artikel trotzdem lesen kann.

Der dritte Grund ist persønlicher Natur … ’s ist doch immer schøn, wenn man Recht hat und es dann sogar mal um eine positive Sache geht :)

Das Konzept der Erdős Nummer ist ja bekannt … wenn nicht, dann empfehle ich diesen XKCD … tihihi.
Meine Erdős Nummer ist vermutlich 7. Es ist aber auch nicht allzuweit hergeholt dass es eine 5 ist. Und unter ganz guenstigen Umstaenden kønnte es sogar eine 4 sein, das bezweifle ich aber.

Das Erweiterte Konzept der Six degrees of separation, ist vermutlich bekannter. In kurz besagt dieses, dass im Durchschnitt jeder Mensch mit jedem anderen Menschen ueber nur 6 andere Leute verbunden ist.
Ich bspw. bin ueber nur 4 Verbindungen mit Fidel Castro verbunden. Ich habe mal jemanden getroffen deren Sohn (oder war’s der Bruder?) zusammen mit Fidels Bruder an einem Agrarprojekt gearbeitet hat.
Noch besser ist meine Verbindung zu TOOL. Dorthin huepfe ich ueber nur drei Verbindungen, denn eine Bekannte von mir hat mal direkt mit dieser Dame zusammengearbeitet. Toll wa!

Die Studien zu diesem Phaenomen deuten zwar in die Richtung dass die Annahme vermutlich schon stimmt, sind aber im Wesentlichen auch nicht ganz eindeutig. Dies liegt daran, weil das schwer zu testen ist (denn solche Ketten muss man ja nachvollziehen). Oder es steckt viel Voreingenommenheit mit drin, weil bspw. Prominente haeufiger auf den sog. „sozialen Kanaelen“ zu finden sind als Leute wie ich.

Six Degrees of Kevin Bacon ist das gleiche Konzept wie die Erdős Nummer … das ist so gleich, dass man direkt sagen kønnte, dass es das Selbe ist (nur mit Kevin Bacon) … und daher kommt auch der Name dieser Miniserie (weil ich’s lustig finde).

Dieses Spiel kann man beliebig fortsetzen, bspw. mit der Erdős-Bacon Nummer oder noch eins drauf mit der Erdős-Bacon-Sabbath Nummer.

In eine allgemeinere Richtung geht Six Degrees of wikipedia.
Allgemeiner deswegen, weil es nicht nur schaut, wie Personen miteinander verknuepft sind, sonder wie im wesentlichen die gesamte Welt (streng genommen gar das gesamte uns bekannte Universum) miteinander verknuepft ist.
Zugegeben, das ist sehr zentriert auf die sog. „westliche Welt“, weil das nunmal der „Ort“ ist, in dem die Wikipedia geschrieben wird. Aber das tat dem keinen Abbruch, dass mich diese Idee faszinierte. Wie kommt man von Trondheim zu Kevin Bacon? (Via Monty Python geht’s zu Tom Hanks und dann direkt zu Kevin.)

Fuer so ein paar konkrete Fragen war dieses Spielzeug ganz nett. Aber ich wollte mehr wissen. Ich wollte wissen, wie alles mit allem anderen zusammenhaengt.
Mein Interesse wurde noch gesteigert, als ich nach mehreren Versuchen immer drei Verbindungen (in seltenen Faellen zwei oder vier) erhielt.

Die meisten Leute sind dann sicherlich den kuerzesten und laengsten Verbindung interessiert (bzw. nach den Wikipediaseiten die gar keine Verbindung haben) und begnuegen sich mit ein paar Beispielen.
Beispiele sind fuer mich aber nur sowas wie Anekdoten und ich fragte mich, wie wohl die Verteilung der Verbindungen ALLER Wikipediaseiten aussieht. Da dies im wesentlichen die (komplette) Statistik der Verlinkungen ist, beinhaltet das natuerlich die obigen zwei (drei) Faelle … ’s ist aber grøszer angelegt … so grosz, dass ich mir dachte: Jawoll! Ich schau mal ob ich das komplette (interne) Wikipedialinknetzwerk analysiert bekomme … als von _jeder_ Seite zu _jeder_anderen Seite.

Um eine Vorstellung von der Wahnwitzigkeit dieser Idee zu bekommen, møge man mal sechs Millionen mal sechs Millionen ausrechnen. Es gibt naemlich ca. 6 Millionen Wikipediaseiten und alles ist mit allem verbunden. Nur ich will halt nicht nur diese Zahl wissen, sondern das auch noch aufgeteilt auf die „Stufe der Verlinkung“, oder das „Linklevel“ wie ich’s nenne.

Und ueber diese „Reise“ handelt diese Miniserie. Weil ich’s so toll (und oft genug auch frustrierend) fand. Weil ich total viel gelernt habe (nicht nur durch das Lesen vieler, vieler Wikipediaseiten sondern auch durch das Programmieren der dafuer nøtigen Werkzeuge). Und weil ich total viel Freude an all den tollen Sachen hatte ueber die ich in der Wikipedia gestolpert bin.

Ich versuche an den Schritten die ich gehen musste (und die ich in den Artikel im groben nachvollziehen werde) ein bisschen deutlich zu machen, wie denn mein „Arbeitsalltag“ als sog. „Datascientist“ so aussieht. Was es bedeutet, (viele) Daten zu analysieren … denn die Analyse an sich steht meist erst ganz am Ende und macht nur ca. 20 % der eigentlichen Arbeit aus … auch wenn das dann das Einzige ist, was man rumzeigt.
Dadurch werden die kommenden Artikel aber zum Teil relativ technisch und die bunten Graphen gibt’s erst ganz am Ende. Ehrlich gesagt, waehrend ich dies schreibe sind die bunten Graphen noch in weiter Ferne, denn die Analyse des kompletten Linknetzwerks der wikipedia dauert mehrere Wochen (siehe die 36 Millionen Millionen Verbindungen die ich oben erwaehnte) … und das obwohl ich das gerade auf 4 Rechnern gleichzeitig rechnen lasse.

Noch ’ne neue Serie bei der der Titel alles sagt.

Ich fange an mit dem Schreiben von Gags. Man kønnte das auch mehr oder weniger lustige Wortspiele, Einzeiler oder Bonmots nennen.
Die Lustigkeit (mal mehr, mal weniger) derselben beruht auf dem Unerwarteten durch Verknuepfung verschiedener Themen die so eigentlich nicht zusammen gehøren. Dazu kommt dann (sehr sehr) oft, dass noch ein anstøsziger Zusammenhang durch besagte Verknuepfung hergestellt wird. Ich sag nur Witze ueber Sex, Frauen, Minderheiten oder Sachen die man so nicht sagt und auch nicht zu sagen hat.

Dadurch dass sog. „kuenstliche Intelligenz“ aber darauf basiert dass Muster in Daten gefunden werden, ist’s gar nicht so weit hergeholt zu denken, dass „kuenstliche Intelligenz“ keine Witze schreiben kann. Denn Muster bestehen nur zwischen (mehr oder weniger) gut zusammenpassende Themen. Also das Gegenteil dessen was ich oben schrieb.

Und dann stolperte ich ueber einen Artikel von T. Winters et al. in Proceedings of the 10th International Conference on Computational Creativity, 2019, p. 274–281, mit dem Titel „Towards a General Framework for Humor Generation from Rated Examples“.
Dazu gibt es auch Code (gut gewaehltes Akronym … tihihihi) und Ergebnisse. Die computergenerierten Gags sind jetzt zwar nicht so super lustig, Einzeiler sollen das aber auch nicht sein und das ist in den Trainingsdaten nicht anders.

Die meisten Gags sind (wie erwartet) anstøszig auf eine Art und Weise, die ich hier nicht wiederholen møchte. Das sagt natuerlich mehr ueber die von Menschen gemachten Trainngsdaten als ueber den Algorithmus aus. Aber vier Beispiele der Art < X > + < Y > => < lustige Bemerkung > waeren diese:

men + turkey => roast
people + back => hurt
coffee + buildings => empty
sex + emotions => basic

Fuer ’n Siliziumwesen ohne menschliche Erfahrung und nur ’n bisschen Trainingsdaten ist das gar nicht mal so schlecht, wa!

Schon vor einer ganzen Weile wurde mir ein Artikel von A. M. Stauffer mit dem Titel „Legends of the Mummy Paper“ in Printing History (new Series) no. 8, 2010, pp. 11-16 zugespielt.
Ich erhielt den als eine Papierkopie. Faktisch sah meine Kopie sogar aus wie eine Kopie einer Papierkopie. Zu dem Zeitpunkt bemerkte ich das nicht weiter, nichtsahnend, dass dies ein deutlicher Hinweis darauf ist, wie schwer an eine digitale Kopie zu kommen ist.
Das ist so ein obskures Journal, dass deren Webseite aussieht wie vom Anfang des Jahrtausends. Und die haben nicht mal Abrisse der Artikel!
Die uebliche Quelle konnte auch nicht liefern.
Beim Autor selbst steht das zwar in der Liste seiner Publikationen, aber kein Link zu einer Preprint-Version. Da haette ich sicherlich nach einer Kopie fragen kønnen, aber das waere ja unnuetz gewesen fuer euch, meine lieben Leserinnen und Leser.
Selbst die Internetsuche nach genau diesem Titel ergab nur 6 Treffer. Aber da hatte ich endlich Glueck. Ist zwar nur der Text des Artikels, aber das ist besser als nix, nicht wahr. Ich versuche ja immer meine Quellen anzugeben, wenn ich ueber was schreibe.

Soweit zur Vorrede.

Eigentlich ging es mir aber gar nicht um den Artikel an sich.
Die Legende, dass fuer eine zeitlang in Amerika Papier aus Mumien gemacht wurde ist kurzweilig und interessant und Tante Wikipedia gibt eine gute Zusammenfassung. Zum Verstaendnis des Weiteren reicht es aus zu wissen, dass frueher Lumpen ein wichtiger Bestandteil bei der Herstellung on Papier waren. Daher war ja auch der Lumpensammler ein echter (wie so viele andere, stigmatisierter) Beruf.
Aufgrund des gewaltigen Anstiegs der Papierproduktion in der Mitte des 19. Jahrhunderts, wurden Lumpen aber knapp und da haben die Kapitalisten sich nach neuen Quellen dafuer umgeschaut. Eine davon waren Mumien.
Aber auch darum geht es mir nicht (obwohl es sich durchaus lohnt den Links zu folgen.

Vielmehr geht es mir darum, dass mich dieser Artikel (bzw. die ganze Sache) auf ein maechtiges Loch in meinem Verstaendnis des Geschichte der Menschheit aufmerksam gemacht hat.

Denn wenn ich so an „Mumien“ denke und mir dann mal ueberlege, wie viele es davon geben kønnte, so wuerde ich sagen: vermutlich ’n paar Tausend … mglw. ’n paar Zehntausend.
Aber dann las ich in besagtem Artikel dies:

[…] [19th century capitalists] looked upon mummy-paper as a reasonable possibility and pursued it–however far it was pursued–in a spirit of entrepreneurship, or strip-mining.

Wait! What?

Strip mining!???!!!

DAS hier …

Autor: Raimond Spekking, Quelle, Lizenz: CC BY-SA 4.0

… verstehe ich unter „strip mining“ … und der Rest der Welt anscheinend auch.

Wieviel Mumien gibt es, dass ueberhaupt jemand auf die Idee gekommen ist, die im Tagebau „abzubauen“?

Diese Frage irritierte mich etwas. Also setzte ich mich mal hin (im uebertragenen Sinne) und ueberlegte mal.
Ægypten hat schon etliche tausend Jahre auf dem Buckel. Auszerdem war die Nahrungsversorgung in Ægypten ueber diese Jahrtausende aeuszerst stabil. Die hatten also nicht wirklich Probleme ihre Bevølkerung auch schon vor 5000 Jahren stabil (und hoch) zu halten. Und tatsaechlich, es wird geschaetzt, dass es damals ’n paar Millionen alte Ægypter gab.

Eine Tatsache die mir aber so nicht bekannt war, ist, wie populaer es war sich mumifizieren zu lassen.
Zum Einen liegt es sicherlich daran, dass man in der Schule und im Museum immer nur die Mumien der Obrigkeit sieht. Das aber macht ueberhaupt nicht klar, dass Mumifizierung ein kompletter (sehr wichtiger) Industrizweig war und ganze Zulieferindustrien (bspw. fuer Salz zur „Entwaesserung“ des Kørpers) brauchte. Erst ein neuartiger Bildungskanal (Computerspiele) brachte mir dies mittels Assassin’s Creed Origins nahe. Ueberhaupt ist dieses Spiel ziemlich gut darin, den Alltag im alten Ægypten so genau wie es das Medium zulaeszt darzustellen.
Zum Anderen liegt der Ursprung meiner (laengst nicht vollstaendig gefuellten) Wissensschlucht bestimmt auch in dem Folgenden begruendet. Eine religiøse Herangehensweise an meine Leben geht mir total ab. Bzw. in diesem Fall die Herangehensweise an das was was nach dem Tode des Kørpers Gehirns passiert (siehe bspw. hier). Und deswegen konnte ich das auf dieser Ebene auch gar nicht verstehen, wie wichtig das fuer die alten Ægypter war, sich mumifizieren zu lassen.

Mit all diesen Informationsfetzen in der Hand, war dann die Vorstellung des „Mumientagebaus“ gar nicht mehr so weit hergeholt.

Und persønlich war ich sehr erfreut, diese Bildungsluecke geschlossen und dem Verstaendnis der Menschheit an sich wieder ein klitzekleines Stueckchen naeher gekommen zu sein :) .

Ach ja, Fasern aus Lumpen werden auch heute noch zur Papierherstellung benutzt. Insbesondere fuer Papier mit høherer Qualitaet. Aber der Anteil ist deutlich geringer als frueher (im unteren einstelligen Prozentbereich).

Vor mittlerweile ein paar Jahren las ich, dass man mit einer nur zweiprozentigen Beimischung von speziellem Seegras, die Methanproduktion von Kuehen massiv reduzieren kann.

Da freute ich mich sehr und dachte, dass ich das mal als gute Laune Artikel zum Ende eines meiner zahlreichen Doomsday!-The-end-is-nigh!-Wir-werden-alle-sterben!-Es-gibt-keine-Arbeit-mehr!-Hail-to-our-Robot-Overlords!-Artikel bringen werde … aber irgendwie hatte ich dann immer was Anderes und dann ging die Anzahl besagter Artikel zurueck.

Nun stolperte ich aber vor ein paar Tagen ueber diesen Artikel in dem gesagt wird, dass eine australische Firma Kuhfutter hat, welches die Methanproduktion massiv reduziert.
Mir scheint, dass die ueber eine sehr aehnliche Sache dort schreiben …wenn nicht gar die Selbe. Ist zwar doof, dass das kommerzialisert und nicht allen Bauern ohne Kosten zur Verfuegung gestellt wird, aber Kuhfutter waechst nun mal nicht auf den Baeumen … aehm ich meine Kuehe muessen ohnehin zugefuettert werden (mindestens im Winter). Und da kann man dann auch das Seegras beimischen!

Ich musste neulich meine Meinung bzgl. Maschinen die grøszer sind als Menschen aendern. Und nun las ich einen Artikel mit dem Titel „Principles for the Application of Human Intelligence“ und muss einraeumen, dass ich vermutlich doch zu optimistisch war bzgl. des Gebrauchs natuerlicher Intelligenz in Entscheidungsprozessen.

Der Autor argumentiert entlang vier Straengen. Das erste Argument kann verkuerzt werden als sogenannte Neigungen oder Vorlieben:

[…] humans predictably and routinely deviate from many of the established rules of probability and logic. […] Humans often neglect the base rate occurrence of an event, focusing on the idiosyncratic features of the particular case in front of them in determining its probability.

Das zweite Argument kann zusammengefasst werden, dass wir ja ueberhaupt nicht verstehen, was in den sog. „Gehirnen“ passiert. Es ist uns also vøllig unverstaendlich wie diese zu Entscheidungen kommen.

Human minds are black boxes.

Das dritte Argument handelt davon, dass natuerliche Intelligenzen inkonsistent sind. Sie treffen eine Entscheidung unter gegebenen Umstaenden, um dann oft genug unter (fast) identischen Umstaenden eine (vøllig) andere Entscheidung zu treffen. Dito bzgl. Entscheidungen unter den selben Umstaenden aber von zwei verschieden trainierten natuerlichen Intelligenzen:

Two different humans confronted with the same decision will often come to a different conclusion.

In allen Faellen sind natuerliche Intelligenzen dennoch der Meinung, dass die Entscheidung richtig war.

Das letzte Argument geht dann in die Richtung, dass Maschinenintelligenz in vielen Faellen viel schneller und effizienter ist als natuerliche Intelligenz.

Today, as companies ride the zeitgeist and appoint their first Chief Human Officers, the human underperformance is often forgotten or ignored, with some classic stories of human success often overshadowing the more mundane lack of performance.

Alles in allem, ist natuerliche Intelligenz mglw. eine vielversprechende Technologie der Zukunft, sollte aber zur Zeit noch nicht fuer kritische Entscheidungen eingesetzt werden.

„Verkrabbung“ ist, eine Form der konvergenten Evolution; wenn also verschiedene Viecher, gleiche Merkmale entwickeln, weil das einen evolutionaeren Vorteil hat. Das ist bekannt und kommt oft vor.

Nun ist’s aber so, dass die Entwicklung zu einer Krabbenform mindestens fuenf (!) mal unabhaengig (!) voneinander hier auf der Erde passiert ist. Das macht mich etwas stutzig und ich frage mich ob die Viecher irgendwas Wichtiges wissen was ich auch wissen sollte.

Viele, viele Details gibt es in dem Artikel von J. Keiler, et al. mit dem Titel „One hundred years of carcinization – the evolution of the crab-like habitus in Anomura (Arthropoda: Crustacea)“ im Biological Journal of the Linnean Society, 121 (1), 2017, p. 200–222.
Da dies ganz abseits meiner Interessen und meiner Expertise ist, habe ich den nur kurz ueberflogen. Fuer den Laien leicht zu verstehen sind Tabelle 1 und Bild 16.

Jedenfalls, bis ich rausgefunden habe was das Geheimnis der Krabben ist, halte ich mich lieber an den Titel dieses Beitrags!

… ausgetraeumt :( … Aber der Reihe nach.

Vor ’ner Weile liesz ich mich darueber aus, warum es nicht unbedingt das erwuenschte Resultat gibt, wenn man alle Kinder zu Wissenschaftlern erzieht.

Wie steht’s denn aber damit, wenn man mit den Leuten redet? Wenn man versucht die Leute aus ihren Informationsblasen herauszuholen indem man Ihnen andere Meinungen zeigt?
Genau das haben C. A. Bail et al. gemacht und die Resultate werden in PNAS 115 (37), p. 9216–9221 (2018) vorgestellt in einem Artikel mit dem Titel „Exposure to opposing views on social media can increase political polarization„.

*Seufz* … der Titel verraet schon worauf ich hinaus will.

Wieauchimmer, die Autoren der Studie haben das mal auf dieser „neuen revolutionaeren Kommunikationsfplattform, die unsere Welt ganz bestimmt total viel besser machen wird“ probiert:

We […] recruit[ed] self-identified Republicans and Democrats who visit Twitter at least three times each week.

Dann sollten einige von denen einem Twitter Bot folgen, welcher fuer einen Monat pro Tag 24 Nachrichten aus dem jeweils anderen politischen „Lager“ verbreitete. Natuerlich wurden diese Leute

[…] not informed of the content of the messages the bots would retweet.

Soweit so gut. Das Resultat war nun

[…] our study indicates that attempts to introduce people to a broad range of opposing political views […] might be not only be ineffective but counterproductive […]

Oder anders: je mehr, zu deren Weltanschauung entgegengesetzte, Informationen die Teilnehmer bekommen haben, desto gefestigter wurde deren Weltbild. Schlimmer noch, die „Festigung“ ist derart zu interpretieren, dass sie „radikaler“ wurden.

Besonders schlimm fuer Leute wie mich ist, dass dieser Effekt staerker ist, wenn

[…] such interventions are initiated by liberals.

Und deswegen der Titel dieses Beitrags. Denn da geht ein weiterer Traum der „Linken“ und „Hacker“ dahin. Dass man den Menschen nur Zugang zu Information verschaffen muss und dann wird das schon. Wird es auch … nur halt schlimmer.

Wobei die grosze Kritik natuerlich ist, dass nur Kurzzeitfolgen auf diese Art und Weise untersucht werden kønnen. Langfristig wirken mglw. andere Mechanismen und diese Møglichkeit gibt mir Hoffnung.