Archive for Dezember, 2021

Ein Kindeheitstraum … oder vielmehr ein Traum meiner fruehen Jugend, denn Sat.1 kam spaeter in unseren Haushalt als bei anderen … wird wahr. Endlich kann ich alle Episoden der ThunderCats schauen:

Toll wa!

Im Sommer waren wir in Uppsala und weil Stockholm nicht weit weg ist, haben wir zwei Tagesausfleuge dorthin gemacht. Und wenn man als Nerd in Stockholm ist, dann ist ein Besuch im Science Fiction Bokhandeln Pflicht!
Besagten Laden kønnte ich jedes Mal wenn ich da bin leer kaufen. Dieses Mal ging ich (wie jedes Mal) rein, mit dem festen Vorhaben, dass ich nur gucken will, denn ich habe ja noch so viele andere Sachen zu lesen/schauen. Aber dann entdeckte ich obiges Komplettset einer Serie, die ich als junger Jugendlicher voll toll fand, von der ich aber nur ein paar Episoden gesehen habe.
Deswegen nahm ich mir vor ueber 25 Jahren vor, dass ich als Erwachsener dann mal alle Episoden auf Videokasette haben will. Nun ja, aus der Videokassettensammlung wurde (zum Glueck!) nichts. Aber als ich dann die oben gezeigte Box dort im Laden stehen sah, wurde (mal wieder) nix aus meinem Vorhaben. Ich habe (buchstaeblich) drei oder fuenf Sekunden gezøgert, weil ich in meinem Geiste die Frage ob ich das denn wirklich jetzt braeuchte logisch zu beantworten. Aber meine Freude darob dieses Fundes hatte laengst alle logischen Argumente ueberstimmt.

Deswegen wiederhole ich es nocheinmal: Thunder! Thunder! Thunder! Thundercats, Ho!
Die zweite Serie deren Eingangssequenz im verlinkten Video gezeigt ist — SilverHawks — ist ein weiterer Kindheistraum … ich bin gespannt, wann ich mir diese Kollektion zulegen werde … tihihihi.

Ansonsten wuensche ich ein ganz fantastisches 2022.

Nix, aber rein gar nix Organisches bleibt erhalten. Das ist als ein groszes Kreislaufsystem gedacht, in dem neues Leben (buchstaeblich) aus altem ehemaligem Leben entsteht.
Auch Fossilien aendern da nix dran, denn da werden ja die organischen Materialien durch inorganische ersetzt. So ein Stein in Knochenform haelt sich aber ’ne Weile laenger.

Worauf ich heute hinaus will ist, dass es leider keinen einzigen natuerlichen Mechanismus gibt, der Tøne bewahren kann.
Hochtechnologie hilft hier weiter, denn wenn man die Form von (relevanten) fossilisierten Dinosaurierkøpfen hat, dann kann man berechnen, was fuer prinzipielle Tøne damit erzeugt werden konnten.
Die verlinkte Seite lohnt sich uebrigens anzuschauen. Ist diese doch selber eine Art „digitales Fossil“ aus einer Zeit, als es noch eine „Site of the Week“ gab *kicher*.

Aber nur die Tøne (also Frequenz und Amplitude) sind ja nur der allererste Schritt fuer die Geraeusche. Und Computersimulationen kønnen wenig daruber sagen, wie besagte Tøne gestaltet wurden um dann die fuer eine Art typischen Dinosauriergeraeusche zu erzeugen.

Zum Glueck leben wir ja aber mit den Nachkommen der Dinosaurier auf dem selben Planeten. Somit kønnen wir zumindest von einigen die wahren Stimmen høren.

Hier ist ein Video von einem Schuhschnabel. Was fuer ein prachtvoller Vogel … pardon, ich meine natuerlich Dinosaurier! Diese schønen Wesen werden ueber einen Meter grosz. Und wenn man sich die Krallen oder den Schnabel mal anschaut, dann faellt es gar nicht schwer, die Aehnlichkeit zu Theropoda (vulgo (und extrem veraltet und soweit ich weisz nicht mehr im wissenschaftlichen Diskurs verwendet): Raubsaurier) zu erkennen.

Und bei 43 Sekunden spricht dieses praechtige Wesen zu uns … krassomat!

Aber das ist noch nicht alles. Im verlinkten Wikipediaartikel erfaehrt man, dass diese schønen Tiere noch viel mehr mit ihren Stimmen machen kønnen:

[…] adult birds have also been noted to utter a cow-like moo as well as high-pitched whines. […] When young are begging for food, they call out with a sound uncannily like human hiccups. In one case, a flying adult bird was heard uttering hoarse croaks, apparently as a sign of aggression at a nearby marabou stork […].

Voll toll! Auch wenn man dadurch bewusst wird, dass die (ebenso tollen) Computersimulationen eben doch nicht alles aufdecken kønnen. Aber das ist eine ganz andere Diskussion und ich wollte eigentlich nur mal das Video zeigen.

Weihnachtsbeitrag! Das passt gut, denn ich habe ziemlich viel Aufwand reingesteckt, um die hier vorgestellte Sache zu „entschluesseln“. Deswegen wird dieser Beitrag relativ lang.
Wie beim beim vorletzten Mal erwaehnt, wendete ich fuer die Erforschung des Blobs die gleiche Methodik an wie bei der Erforschung der Anomalie vom letzten Mal. Nur nicht fuer nur eine Seite sondern tausende (ganz zum Anfang) bzw. hunderte (nachdem das Problem eingegrenzt war).

Genug der Vorrede, los geht’s.

Der beim vorletzten Mal erkannte Blob, bei (61, 61) in der komprimierten Darstellung, stellte sich NICHT als Artefakt der Komprimierung heraus sondern als eine echte Anomalie. Wie erwaehnt sieht man den auch in den nicht komprimierten und sogar NICHT normalisierten Daten. Man muss nur in die entsprechende Region zoomen und den richtigen Farbkontrast einstellen … was, zugeggebenermaszen, eigentlich nur ’ne andere Art der „Normierung“ ist:

Der Blob stellt sich als „Feld“ heraus fuer Seiten die zwischen ca. 490 und ca. 570 mal zitiert worden von Seiten die ebenso oft zitiert wurden. In diesem Bereich sind Relevanzwert und Anzahl Zitierungen noch identisch.
Das Anomaliefeld ist nicht homogen; es finden sich dunkle Streifen dazwischen. Das bedeutet, dass viele Seiten welche in diesen generellen Relevanzbereich fallen, NICHT ueberproportional haeufig von Seiten aus dem selben Relevanzbereich zitiert werden.
Desweiteren sieht man links und unter dem Anomaliefeld hellere Streifen. Die erklaere ich weiter unten.

Man beachte weiterhin, dass die Farbskala in diesem Bild erst bei 10 Zitierungen „los geht“ und (wie oben erwaehnt) nicht normiert ist. Im Bild ist also nur der _Ueberschuss_ uber den „Untergrundzitierungen“ zu sehen. Das wird etwas anschaulicher, wenn man das linke Diagramm in diesem Bild mit in Betracht zieht:

Hier habe ich vertikale „Schnitte“ durch das (komplette) Datenfeld bei den angegebenen Relevanzwerten gemacht. Die schwarze Kurve bspw. beinhaltet die Daten fuer ALLE Seiten die ein mal zitiert wurden. Auf der Ordinate wird nun gezaehlt, wie oft derartige Seiten zitiert wurden, von Seiten mit einem Relevanzwert, der auf der Abszisse gegeben ist.
Nur einmal zitierte Seiten gibt es viele und deswegen sind die absoluten Haeufigkeitswerte dieser schwarzen Kurve durchweg so hoch. Im normierten Diagramm auf der rechten Seite relativiert sich das.
Wie wir aus vorhergehenden Betrachtungen wissen, kommen die meisten Zitierungen von Seiten mit kleinen Relevanzwerten. Deswegen „divergiert“ die Kurve wenn man sich der Null auf der Abzsisse naehert bzw. wird sehr schnell sehr flach sobald man von kleinen Relevanzwerten weg ist. Wiederum, verweise ich auf das normierte Diagramm diesbezueglich bzw. sieht man das an nicht normierten Daten auch an den beiden anderen Kurven.

Von Interesse ist nun die rote Kurve, denn diese geht durch das Anomaliefeld. Diese Kurve umfasst ALLE Seiten die 545 mal zitiert wurden. Deswegen ist das Integral unter der Kurve auch (deutlich) grøszer als 545. Jede einzelne Seite die zu diesen aggregierten Daten beitraegt, wird aber nur 545 mal zitiert. Fuer die dargestellte Kurve werden diese Daten aufsummiert und deswegen ergeben sich grøszere Werte als 545.
Die allermeisten dieser 545 mal zitierten Seiten sind ganz normal und verhalten sich wie oben beschrieben. Aber (und hier nehme ich eins der Resultate der Analyse dieser Anomalie vorweg) ein paar dieser Seiten werden ueberproportional haeufig von Seiten zitiert die im Anomalierelevanzbereich liegen. Daher kommt der kleine „Huppel“.
Im oberen Falschfarbenbild habe ich die Farbskala so gewaehlt, dass Haeufigkeitswerte kleiner oder gleich zehn in schwarz dargestellt werden. Deswegen sieht man die Anomalie viel deutlicher. Aber wie man an diesen Beispielkurven sieht, ist das ein echtes „Signal“.

Und hierin lag die Herausforderung. In den interessanten Relevanzbereich fallen fast sechstausend Seiten. Aber vielleicht 10 Prozent davon sind interessant.
Man nehme bspw. Castration. Diese Seite wird so oft zitiert, dass sie auf der Abzsisse in den Relavanzbereich zwischen 490 und 570 faellt. Die allermeisten Zitierungen kommen von anderen Seiten mit kleinen Relevanzwerten. Im Anomaliefeld hingegen wird diese Seite nur sieben mal zitiert. Das bedeutet, dass von allen Zitierungen die „Castration“ erhaelt nur Gordon Ramsay, Aggression, Conversion therapy, Bull, Self-harm, Prostate und William II of England selbst so oft zitiert wurden, dass sie auf der Ordinate in den Anomaliebereich fallen.
Das passt gut ins allgemeine Bild, denn im Durchschnitt entfallen auf Seiten im Anomaliebereich (also mit ca. 490 bis ca. 570 Zitierungen insgesamt) nur weniger als 5 Zitierungen aus dem Anomaliefeld.

Das war der entscheidende Hinweis, wie ich die wenigen hundert Seiten welche die Anomalie ausmachen identifizieren kann: das muessen Seiten aus dem Anomaliebereich auf der Abzisse sein, die signifikant mehr als 7 Zitierungen von Seiten haben, die im Anomaliebereich auf der Ordinate liegen.

Und die „Schuldigen“ waren schnell gefunden: Datum(se) und Jahre.
Viele Jahre haben haben eine Uebersichtsseite auf der steht, was denn so passiert ist. Als Beispiel nehme man 1984. Dort sieht man, dass das Datum jeden Tages verlinkt ist. Als Beispiel nehme man June 1. Und bei den Datumsseiten sind dann wieder Links zurueck zu den Jahren.

Aha soso! Das sind nun zwar die „Schuldigen“ fuer die Anomalie, aber das erklaert zwei Dinge nicht:
1.: warum liegt der Anomaliebereich bei Relevanzwerten zwischen ca. 490 und ca. 570, und
2.: warum ist das sowohl auf der Abzsisse als auch auf der Ordinate der selbe Bereich?

Bzgl. Ersterem fand ich das Folgende heraus.
– 78 Jahresseiten (seit 1917) welche im Anomaliebereich ca. 230 – 300 Zitierungen haben, und
– 284 Datumsseiten, welche im Anomaliebereich zwischen ca. 50 und 75 Zitierungen haben.
Das ist also NICHT ausschlieszlich Zirkelzitieren an dieser Stelle. Wie kommen diese Seiten also zu bspw. 500 Zitierungen insgesamt, wenn die sich nicht nur gegenseitig zitieren?

Auf diese Frage fand ich auch eine Antwort, auch wenn diese mehr als eine Ursache hat.
Zunaechst ist es so, dass in den letzten 100 Jahren vermutlich jeden Tag irgendwas passiert ist. Das gibt den Jahresseiten (im Anomaliebreich) dann bereits ca. 350 Zitierungen. 150 bis 200 Zitierungen von woanders ist relativ leicht vorstellbar fuer die Jahresseiten. Ehrlich gesagt wundert es mich dass das nur so wenige sind, aber ich habe mal auf ein paar Seiten geschaut und bei der kleinen Stichprobe keine einzige gefunden, bei der eine Jahreszahl ein Link war. Ist vielleicht Wikipediapolitik oder so.

Das erklaert uebrigens auch die helleren Streifen links vom Anomaliefeld, aber immer noch im Anomaliebereich auf der Ordinate. Das sind dann auch wieder Jahresseiten, aber von Jahren die weniger als 490 Zitierungen auf sich vereinen. Die „Streifen“ erscheinen dann an der Stelle, wo die Datumsseiten auf der Ordinate liegen.

Das gleiche Argument nur umgekehrt geht dann auch zurueck auf die Datumsseiten. Fuer die letzten 100 Jahre ist jeden Tag was passiert. Die Datumsseiten bekommen somit also schonmal 100 „Zirkelzitierungen“. Im Schnitt kommen dann noch ca. 120 weitere Zitierungen von anderen „aelteren“ Jahresseiten hinzu. Diese liegen selber nicht im Anomaliebereich, weil wir da nur von wenigen Tagen wissen, ob was passiert ist (bspw. 1666). Aber weil’s so viele Jahre gibt und wir sogar bei etlichen Sachen aus der Antike die genauen Daten haben (bspw. Ides of March) laeppert sich das zusammen und im Schnitt bekommt dann halt jedes Datum noch besagte 120 Zitierungen von anderen Jahren auszerhalb des Anomaliebereichs.

Dann bin ich aber erst bei ca. 220 Zitierungen. Da fehlen noch ca. 300 Zitierungen. Die allermeisten davon kommen von einer Eigenheit auf Wikipedia, die mir vorher nicht bekannt war, aber die ich beim letzten Mal bereits (kurz) erwaehnte: Listen zu super speziellen Sachen. In diesem Zusammenhang bedeutet es, dass es nicht nur die normalen Jahresseiten gibt, sondern auch sehr spezifische Jahresseiten. Bspw. 2020 in professional wrestling, 1522 in literature oder 1952 in Wales. Dort stehen dann nur jeweils nur relativ wenige spezifische Datumsangaben. Die einzelnen Seiten tragen also gar nicht mal so sehr zum „Zitierungszaehler“ bei. Aber es gibt echt viele (mehr oder weniger obskure) Themen mit solchen Listen. Insgesamt habe ich fast 4000 von diesen spezifischen Jahresseiten gefunden. Und von diesen kommt die ueberwiegende Mehrheit der „fehlenden“ 300 Zitierungen (ich schaetze ca. 200 bis 250).
Diese Seiten tragen auch zu den Zitierungen fuer die Jahre bei. Der Einfluss auf die Datumsseiten ist aber (deutlich) grøszer als auf die Jahresseiten und das faellt fuer Erstere in die „150 bis 200 Zitierungen von woanders“.

Die 100 Zitierungen die noch fehlen sind von Seiten, welche eine Datumsseite (mehr oder weniger) aus Versehen zitieren. Sowas wie bspw. Kuzbass Autonomous Industrial Colony (zitiert December 22 und lohnt sich zu lesen), Dobruja Day oder Council of People’s Commissars of the Russian Soviet Federative Socialist Republic. Diese machen dann nochmal so ca. 50 bis 100 Zitierungen aus und wir sind bei ca. 490 bis 570.

Damit hat sich auch die zweite obige Frage beantwortet: das ist ein totaler Zufall, dass der Anomaliebereich symmetrisch ist auf den Achsen. Das ist nicht falsch zu verstehen. Ein „Feld mit erhøhter Intensitaet“ wuerde es allein schon durch die Jahr/Datum-Zirkelzitierungen geben. Aber nur die Zirkelzitierungen wuerde das Anomaliefeld zu ca. (350, 220) schieben.
Beide Koordinatenwerte wuerden dann gleichmaeszig um ca. 50 bis 150 erhøht werden, durch zufaellige Zitierungen von zufaelligen anderen Seiten. Damit sind wir bei ungefaehr (480, 320)
Erst der Zufall der (hohen) Anzahl der spezifischen Jahresseiten, „schiebt“ das Anomaliefeld zu ca. (530, 530). Wie erwaehnt ist zu beachten, dass der Einfluss dieser (spezifischen) Seiten auf die (allgemeinen) Jahresseiten kleiner ist als auf die (allgemeinen) Datumsseiten. Und das ist besagter Zufall, denn waere die Anzahl der spezifischen Seiten nur halb so grosz, wuerde das Anomaliefeld bei (500, 430) sein.

Uff, das war viel laenger als geplant, aber ich habe mit der Untersuchung dieser Anomalie echt viel Zeit verbracht (mehrere Wochen). Zwischendurch wollte ich schon aufgeben und das einfach nicht erwaehnen. Dann hat’s mir aber doch keine Ruhe gelassen und das Resultat wollte ich dann auch auch hier stehen haben.
Fuer die „Relevanzdiskussion“ war es auch relevant (Wortspielkasse), denn durch die „Kompromierung“ der Daten wurde Information aufgedeckt und da war es wichtig zu wissen, dass diese Anomalie genau das ist (eine Anomalie). Es war wichtig heraus zu finden, dass die Anomalie eine Kombination aus systematischen und zufaelligen, wikipediainternen (!) (und somit NICHT analysespezifischen) Ursachen ist. Ansonsten haette ich mir Sorgen gemacht bzgl. der Gueltigkeit der in vorherigen Beitraegen praesentierten Resultate und getaetigten Aussagen.
So ist das halt mit dem „Data Scienctist“ … der muss wissen wo die Blobs herkommen. Normale „Data Analysts“ haette da keine Chance ;) .

Das war’s soweit mit den „ersten“ Ergebissen. Ich muss sagen, dass ich selber ueberrascht bin, wieviel ich hier schon herausgeholt habe und ich habe noch nicht mal mit der eigentlichen Sache angefangen.
Urspruenglich dachte ich, dass das hier insgesamt vielleicht fuenf oder sechs Beitraege werden. Aber das Projekt wurde schnell grøszer … und dann noch grøszer. Und das ist ja eine der schønsten Sachen an der Wissenschaft; man entdeckt unerwartete und spannende Sachen. Aber ich bin auch froh, dass dieser Abschnitt nun (fast) abgehandelt ist.
Nun geht’s aber endlich weiter mit den eigentlichen Betrachtungen zum Linknetzwerk … bzw. muss ich erstmal wieder etwas technisch werden, bevor ich damit weiter machen kann … aber das ist ja auch mal schøn. Immer nur Ergebnisse ist ja eintønig.

Beim letzten Mal ging ich auf „komische Sachen“ in der Darstellung der komprimierten Daten ein. Dabei handelte es sich im Allgemeinen um helle oder dunkle Streifen und Gebiete die irgendwie nicht ins Gesicht passten. Ich versuchte auch kurz darzulegen, warum es so wichtig ist, dass man sowas diskutiert — damit man Fehler in der Analyse erkennt und nøtigenfalls berichtigen kann, damit die Resultate am Ende kein Humbug sind.
Im selben Artikel sieht man einen „Blob“. Um die Besprechung dieses Blobs zu vereinfachen, rede ich heute ueber eine weitere Anomalie. Denn wenn ich diese zuerst behandel, dann sind die „Vorgaenge“ die zum Blob fuehren etwas besser zu verstehen (hoffe ich). Historisch war die Bearbeitung dieser zwei Sachen aber umgekehrt.

Wieauchimmer, bei meinen Untersuchungen zu den „komischen Sachen“ in den komprimierten Daten, schaute ich mir auch nochmal die nicht komprimierten Daten an. Und wenn man sich das vierte Bild im dazugehørigen Beitrag genau anschaut, dann sieht man da eine helle duenne Linie um einen Relefanzwert von ca. 2500 „hochlaufen“. (Und auch eine um einen Relevanzwert von ca. 4000 (und kuerzere Linien bei anderen Werten), aber die bei ca. 2500 ist mehr prominent.) Hier habe ich hereingezoomt:

.oO(Nanu? Was ist denn das?) dachte ich da und wollte gerne herausfinden, worum es sich hierbei handelt.

Als erstes konnte ich hier erkennen, dass der wahre Relevanzwert nicht „ca. 2500“ ist, sondern ganz genau bei 2589 liegt. Da Relevanzwert und Anzahl Zitierungen bei diesen Werten nicht mehr uebereinstimmen, ist zu sagen, dass dies bedeutet, dass alle Seiten die zum Signal beitragen jeweils 2622 mal zitiert wurden.

Ich war mir ziemlich sicher, dass das echt ist, aber ein „ich bin mir ziemlich sicher“ kann einen gehørig in die Irre fuehren. Deswegen schaute ich mir die Daten mal im Vergleich zu Relevanzwerten an, die in der Naehe liegen …

… und siehe da, das war tatsechlich anders (und tatsaechlich echt).
Ich gebe zu, dass der Relevanzwert (!) der schwarzen Kurve mit 2622 aeuszerst unguenstig gewaehlt wurde. Ist doch dieser Wert genauso grosz wie die Anzahl der Zitierungen (!), welche die Seiten die zum Signal beim Relevanzwert 2589 beitragen erhalten haben. Es gibt natuerlich einen Grund warum ich diesen Wert waehlte und darueber spreche ich ganz am Ende. Insgesamt bedeutet das, dass ich dann halt immer sagen musswas ich meine, wenn die Zahl 2622 auftaucht. Andererseits verdeutlicht dies nochmals den Unterschied zwischen diesen beiden Grøszen.

Wieauchimmer, erwartet haette ich sowas wie die schwarze oder blaue Kurve: (mehr oder weniger) grosze Werte um kleine Relevanzwerte, sowohl in den normierten, als auch in den NICHT normiert Haeufigkeitskurven. (Im Grunde genommen sind obige Kurven Histogramme, nur eben als Kurven und nicht als Balken.)
Anstatt dessen ist die nicht normierte Kurve der Anomalie (rot) super flach, aber langgestreckt. Ein kleiner „Huppel“ (bei dieser Skalierung der Ordinate) scheint bei Relevanzwerten (der zitierenden Seite) von ca. 50 zu liegen. Und tatsaechlich, in der normierten Darstellung tritt der „Huppel“ deutlich hervor.

Das ist also gleich zweifach ungewøhnlich. Zum Einen, dass sich die 2622 Zitierungen so breit ziehen ueber viele viele verschiedene Relevanzwerte (der zitierenden Seiten). Zum Zweiten, dass das Maximum nicht bei kleinen Werten liegt, sondern zwischen Relevanzwerten (der zitierenden Seiten) von 30 bis ca. 130.

SPANNEND!

Zunaechst schaute ich mir an, welche Seiten denn genau 2622 mal zitiert wurden. Und siehe da, es war nur eine einzige Seite: CinemaScore.
Das ist gut, macht es den Rest doch gehørig einfacher.

Nun schaute ich, welche Seiten diese Seite zitieren. Von Interesse sind eigentlich nur Seiten die zum Peak im rechten Diagramm beitragen. Die Grenzen dieses Peaks setzte ich (durch scharfes Hingucken) bei Relevanzwerten von 30 bzw. 130 fest. Innerhalb dieser Grenzen liegen mehr als 1800 der 2622 Zitate. Dass mich nur der Peak interessiert liegt daran, dass dieser Peak ja gerade die Anomalie ist. Sehr viele Wikipediaseiten werden von (meist wenigen) (anderen) Seiten mit Relevanzwerten von weniger als 30 oder mehr als 130 zitiert … das ist also das „Normalsignal“ … aber ich bin ja gerade an dem nicht normalen Signal interessiert.

Ich schaute zwar nicht alle ueber 1800 Seiten an, aber es stellte sich heraus, dass alle die ich anschaute zu Filmen gehørten. Und na klar, das ist ja sinnvoll, dass Filme CinemaScore zitieren.
Zur Sicherheit im schaute ich dann doch noch auf die Seiten auszerhalb dieser Grenzen und es stellte sich heraus, dass es sich bei den Stichproben auch ausschlieszlich um Filme handelte. … naja … das war eigentlich nicht mit Absicht, sondern ich hatte einen logischen Fehler im Programm weswegen ich mir das anschaute … aber das Resultat stellte sich ja dann als „hey gute Extrainformation“ heraus … noch mal Glueck gehabt ;)

Dann fragte ich mich aber, wer zitiert eigentlich Filme so oft. OK, 30 Zitate kann ich mir durchaus vorstellen: (mehr oder weniger) beruehmte Leute wirken in Filmen mit und auf deren Seiten wird dann der Film genannt. Und sehr beruehmte Filme werden bestimmt auch øfter als 130 mal zitiert. Aber die Mehrzahl der Filme ist ja eben mehr als 30 und weniger als 130 mal zitiert worden.

Das machte mich stutzig und ich nahm (ziemlich zufaellig ) drei Stickproben: The Astronaut Farmer (31 Zitierungen), America’s Sweethearts (81 Zitierungen) und The Faculty (130 Zitierungen).
Es stellte sich heraus, dass die Seiten welche diese Filme zitieren grob gesagt in drei Kategorien eingeordnet werden kønnen:

1.: Zeug, welches direkt dem Film zuzuordnen ist und eine eigene Wikipediaseite hat. Das sind natuerlich Schauspieler, Regisseure und andere Menschen die am Film mitwirken. Aber dazu gehøren auch die verschiedenen Studios, einzelne Songs (es gibt echt viele Lieder die ihre eigene Wikipediaseite haben), Drehorte und so’n Zeug halt.

2.: Im wesentlichen Listen, in denen der Film auftaucht. Das ist so trivial wie 2007 in home video oder List of films shot in Las Vegas kann aber auch sowas nicht ganz so offensichtliches wie Deaths in June 2014  oder List of films featuring extraterrestrials sein. Und dann natuerlich auch die Filmografien der beteiligten Leute (oder manchmal auch die Diskographien von Musikern, wenn die am Soundtrack mitgewirkt haben).
Bei all meinen Untersuchungen zur Wikipedia ist das eine der Sachen die mir am wenigsten bekannt waren: wie krass viele (teils bizarre) Listen es auf der Wikipedia gibt.

3.: Anderes Zeug wie bspw. andere Werke (meist Buecher) die den Film beeinflusst haben oder Filme deren Einkommen an der Kinokassen mit dem Film in Frage verglichen werden. Manchmal wird der Film auch einfach nur erwaehnt (und beim schnell drueber schauen habe ich den Zusammenhang zum Film nicht unbedingt erfassen kønnen) oder eine Sache mit Wikipediaseite passiert so selten, dass deren auftreten in einem Film von Interesse ist (bspw. Fatsuit).

Der Anteil dieser Kategorien an den Zitaten ist erstaunlich konstant (zugegeben, meine Stichprobe ist aeuszerst klein!).
Bei The Astronaut Farmer stammten jeweils 21, 7 und 3 Zitierungen aus den entsprechenden Kategorien. Bei America’s Sweethearts sind die Werte 57, 21 und 3 Zitierungen und bei The Faculty 75, 32 und 23 Zitierungen. Die Anteile sind in diesem, fuer diese Art von Information (beinahe) vøllig unbrauchbarem, Tortendiagramm zu sehen:

Hæhæ … JA, ich habe da extra Zeit reingesteckt um endlich auch mal diesen haesslichsten aller Diagrammtypen zu benutzen. Aber mit viel Muehe kann man sehen, was es ausdruecken soll.

Es geht also doch alles mit linken Dingen zu. Ich hatte mir nur nie Gedanken darueber gemacht, wie viele Leute (oder Orte, oder Songs etc.) bei selbst relativ unbekannten Filmen mitwirken. Ebenso dachte ich auch nie darueber nach, wie die Gesamtheit der an der Erschaffung dieses Werkes beteiligten „Objekte“ (im weitesten Sinne!) dann „zurueck wirken“ auf den Rest der Kultur.
Und da sage nochmal wer, dass Filme nur „wichtig“ sind, wenn sie was „Besonderes“ sind … siehe auch hier.

Im Endeffekt fuehrt das dazu, dass Filme eine Kuriositaet an sich sind. Dies deswegen, weil sie in ihrer Gesamtheit im Durchschnitt mehr Zitierungen auf sich vereinen als die „durschnittliche Wikipediaseite“ (was immer das auch sein mag). Denn Letztere wird eher selten zitiert.

All das fuehrt zur Anomalie, denn alle diese Film zitieren CinemaScore.

Und ich habe damit wieder ’n Stueck der Hintergrundzusammenhaenge in der (westlichen) Gesellschaft fuer mich sichtbar gemacht (vulgo: wieder was gelernt). Alles nur, weil es mir keine Ruhe gelassen hat, dass da was in den Daten war, was (erstmal) nicht rein zu passen schien.

Ganz zum Abschluss dann noch die dunkle Linie beim Relevanzwert (!) von 2622 (ich schrieb doch, dass ich darauf nochmal zurueck komme) . Dabei handelt es sich auch um nur eine Seite, naemlich: Świętokrzyskie Voivodeship. Soweit ich das verstehe, entspricht ein Land in Dtschl. geografisch drei Voivodeship in (nicht nur) Polen. Das sind also so ’ne Art Verwaltungsbezirke.
Wenn ich ehrlich bin, hatte ich schon vermutet, dass genau sowas hinter der „dunklen Anomalie“ liegt. Wusste ich ja von vorher, dass in Polen mal wer urst viele Wikipediaseiten geschrieben hat. Die zitierenden Seiten sind dann (beispielhaft) so wichtige Sachen wie Tomaszów, Gmina Opatów, Tomaszów, Gmina Tarłów oder Tomaszów, Pińczów County, die alle nur ein Zitat auf sich vereinen und Świętokrzyskie Voivodeship zitieren. Und weil das mehrere tausend Mal passiert, hat man dann den duennen roten Strich ganz dicht an der Abszisse in der Linie des Relevanzwertes (!) 2622 in der Falschfarbendarstellung … bzw. den langen duennen „Peak“ in der schwarzen Kurve in der Haeufigkeitsdarstellung.

Aber genug fuer heute. Dieser Beitrag ist schon wieder laenger als urspruenglich geplant. Aber ’s ist nunmal alles so spannend :)
Naechstes Mal wird’s ein bisschen komplizierter … aber nicht dolle.

Ich hatte bereits frueher Bekanntschaft gemacht mit Kristalle der Sorte Purpureum bzw. Flavum. Aber diese waren vom „Ice“-Typ. Jetzt begegnete ich Kristallen vom Typ Metallic. Hier die Sorte Purpureum Metallic …

… und dieser ist von der Sorte Flavum Metallic.

Da fror mir nicht die Frontscheibe ein, als ich nahe ranflog.

Ansonsten entdeckte ich auch noch ELW #111:

Beim letzten Mal unterzog ich die Daten einer mathematischen Transformation um aus dem „Rauschen“ noch mehr Information heraus zu holen. Weil der Artikel schon so lang war verschob ich die Diskussion der zeilenweise normierten Daten  …

… auf einen anderen Beitrag (diesen hier), denn durch diese Darstellung muss ein vorheriges Resultat etwas modifiziert werden.

Aber der Reihe nach. Zunaechst springt einem die rote und ueberhaupt die vertikalen Linien ins Gesicht. Das sind wieder besagte Artefakte der Komprimierung. Das ist ueberhaupt nicht schlimm, denn wir wissen ja, wie diese Linien entstehen: Zusammenfasung der Werte zweier Spalten die mehr Zitierungen repraesentieren als „normale“ Spalten. Dadurch sind besagte (zusammengefasste) Werte grøszer als im Durchschnitt in den anderen („normalen“) Spalten. Das extreme Beispiel der roten Linie kommt durch die Komprimierung zweier (urspruenglicher) Spalten zustande (alle Seiten mit 9 oder 10 Zitierungen, siehe die Tabelle vom letzten Mal). Die Farbe Rot entspricht nun dem Wert 1. Wenn ich das halbiere (wg. zwei urspruenglichen Spalten), lande ich bei 0.5 und das wuerde der Farbe Gruen entsprechen und in die Umgebung passen. Alles ist also knorke.
Analog kann man fuer alle vertikalen Linien argumentieren, nur muss man aufpassen, dass man nicht die Anzahl der urspruenglichen Spalten betrachtet, sondern die Anzahl der Zitierungen, die diese repraesentieren.

Als naechstes sind die „invertierten Artefakte“ am linken und rechten Rand zu besprechen. Diese Spalten sind blaeulich, reprasentieren also geringe Werte. Das ist dadurch zu erklaeren, das der erste und letzte Wert auf der Abzsisse nur „halbe Prozente“ sind. Alles von 0.0 % bis 0.5 % wird zu Null komprimiert, waehrend fuer Eins alles von 99.5 % bis 100.0 % herangezogen wird. Dito zum Ende der Ordinate. Entsprechend weniger Gesamtzitate sind in diesen Spalten vereint und deswegen wir das blau in der zeilenweise normierten Darstellung.
In Analogie zu obigen Aussagen kønnte man hier den „Blauwert“ verdoppeln und dann wuerde man auch wieder ungefaehr bei Gruen landen.

Nun eine kleine Peinlichkeit: die Linie die einmal quer uebers Bild geht bei Feldern wo der Wert auf der Ordinate, dem Wert auf der Abszisse entspricht; bspw. (23, 23). Diese Linie sieht man sogar schon in den urspruenglichen, nicht normierten Daten. Der Grund dafuer geht ganz weit zum Anfang dieser Untersuchungen zurueck, als ich versuchte so viel wie møglich uninteressante Sachen aus den Rohdaten zu løschen.
Dabei ist mir entgangen, dass manche Seiten (mit einem gewissen Wert auf der Abzsisse) sich selbst zitieren (was dem selben Wert auf der Ordinate entspricht). Oder vielmehr Abschnitte im selben Artikel zitieren, aber das kommt auf’s Gleiche hinaus. Ich wuerde sagen der Anteil der Seiten die das machen ist ca. 10 Prozent … ich schiebe das also in den Fehler … gebe aber zu, dass das eine Sache ist, die man heraushalten kønnte.

Das ist sehr wichtig solche Sachen zu besprechen, denn wenn man nicht weisz wo das herkommt, dann kønnte es sein, dass die Resultate an denen man interessiert ist selber auch nur ein Artefakt (und damit Humbug) sind.

Als Letztes dann der „rote Blob“ beim Wert (61, 61). Zunaechst dachte ich, dass dieser durch die zwei obigen Erklaerungen erklaert werden kønnte (Komprimierung + Peinlichkeit). Und waehrend diese beiden Dinge da sicherlich mit reinspielen, sollte deren Einfluss nicht so grosz sein, dass dieser Blob so krass dominiert in der Region. Also untersuchte ich das weiter und es stellte sich heraus, dass das KEIN Artefakt ist! Vielmehr ist das eine echte Anomalie und man sieht das auch in den urspruenglichen Daten, wenn man weisz wo man schauen muss. Ich brauchte drei Wochen um rauszufinden was das ist (zugegeben, unterbrochten durch total viel Sci-Fi Serien schauen und zocken). Und weil das laenger dauert zu erklaeren und dieser Artikel hier eh schon so lang ist wird die Erklaerung dieses Blobs auf’s naechste Mal verschoben.

Zieht man die Artefakte in Betracht und ignoriert erstmal den Blob, dann bleiben drei echte Beobachtungen zurueck:
1.: das Meiste ist gruen,
2.: im oberen Bereich hat man ein rotes Gebiet,
3.: in der rechten unteren Ecke ist’s rot und die entsprechenden Spalten werden blau zum oberen Ende hin.

Ersteres bedeutet, dass (relativ gesehen) unabhaengig vom Relevanzwert jede Seite gleich haeufig zitiert wird unabhaengig von der Relevanz der zitierenden Seite. Das deutete sich bei den urspruenglichen zeilenweise normierte Daten, bereits an, weil dort der gruen/rote „Streifen“ sich so verschmiert. Das ist mir an der Stelle nur nicht aufgegangen. Somit hat die Komprimierung nicht nur Information aus dem „Rauschen“ gezogen sondern auch dies deutlich gemacht.

Punkte 2 und 3 schraenken diese Aussage etwas ein. Das rote Gebiet bei Relevanzwerten ueber 80 auf der Ordinate und Relevanzwerten zwischen 30 und 90 auf der Abszisse deutet darauf hin, dass oft zitierte Seiten haeufiger ueber andere mittel und oft zitierte Seiten reden. Das ist die erwaehnte Modifikation des vormaligen Ergebnisses und genau das was ich meinte, als ich sagte, dass im „Rauschen“ noch was zu holen ist. Cool wa!
Aber Achtung:  „irrelvante“ Seiten machen weiterhin einen signifikanten Teil des Signals in diesem Bereich aus.

Punkt 3 zeigt dann nochmals deutlich, dass die Relevanz insb. der meistzitierten Seiten nur dadurch kommt, dass diese von „extra irrelevanten“ Seiten ueberproportional haeufig  zitiert werden. Das ist schon ein bisschen ironisch, nicht wahr.

Alles in allem kann die Relevanzdiskussion damit abgeschlossen werden. Man kann relevante Seiten nicht ohne „irrelevante“ Seiten haben. Und das ist voll messbar.
Aber ja, ich weisz, dass die Relevanzdiskussion eigentlich gar nicht darum geht.

Auch wenn dies damit erledigt ist, bin ich noch nicht fertig mit diesen Analysen. Beim naechsten Mal diskutiere ich eine weitere Anomalie in den (nicht komproimierten) Daten. Dieser erklaert die Methodik mit welcher ich den Ursprung besagter Anomalie aufklaeren konnte, aber am Beispiel nur einer Seite. Im Beitrag danach diskutiere ich den „Blob“ bei dem diese Methodik auf tausende (im Allgemeinen) bzw. hunderte (im Speziellen) Seiten gleichzeitig angewendet wird. Und dann kommen zwei Artikel mit anderen Kuriositaeten. Diese Daten sind voll ’ne Schatztruhe und ich stosze auf Dinge die ich nie erwartet haette. Aber dann bin ich damit fertig und es geht nach einem fast fuenfrmonatigen „Einschub“ endlich weiter mit den urspruenglichen Betrachtungen zum Linknetzwerk.

Realgeschichtlich begegnen wir in diesen Jahren dem (mal wieder) verkuendeten „End of history„. Waehrend dies realgeschichtlich (mal wieder … leider… ?) nicht eingetreten ist, so macht es sich in den Peanuts doch bemerkbar.

Besagtes philosophisches Argument geht in groben (!) Zuegen davon aus, dass die Menschheit gesellschaftsentwicklungstechnisch einen Punkt erreicht (hat), an dem es keinen Grund gibt was Neues zu machen. Dies liegt daran, weil alles so knorke ist. Dagegen gibt es viele Argumente, aber die Ereignisse der gegebenen Jahre in Betracht ziehend, wundert es mich ueberhaupt nicht, dass dieser Essay so viel beachtet wurde.

Waehrend ich oben auf den beruehmten Artikel von Francis Fukuyama verweise so ist die Idee nicht neu. Spontan faellt mir da als weiteres Beispiel, philosophisch/politisch aus einer anderen Ecke kommend, „der Kommunismus“ als „Endform der Gesellschaft“ ein.

Ich erwaehne das nicht nur, weil es zeitlich passt, sondern auch weil ich den Eindruck hatte, dass bei den Peanuts dieser Zustand eingetreten ist. Ende der 80’er waren sowohl die Peanuts als auch deren Autor, Charles M. Schulz, professionell, monetaer und gesellschaftlich seit vielen Jahren etabliert. Oder anders gesagt: die Figuren hatten in diese Jahren laengst ihre eigenen Wesenszuege ausgebildet. Dies wiederum wirkt darauf zurueck, wie Schulz die Geschichten schreibt — zwar jedesmal neu, aber dennoch irgendwie bekannt … ja mglw. gar vorhersagbar.

Das mindert in keinster Weise die Relevanz der Peanuts als kulturelles und gesellschaftliches Gut. Ebenso ist es auch NICHT „die alte Leier“. Vielmehr ist es so, dass man weisz, was man mit und an den Peanuts hat.

Ich gebe aber zu, dass ich ungefaehr ab hier anfing mehr aus „kultureller Pflicht“ und „intellektuellem Interesse am Gesamtwerk“ die Baende gelesen habe, als aus innerer Freude darob der Abenteuer der Kinderschar.

Kurze Wiederholung (weil’s immer noch etwas kompliziert ist):
i.: Alle Seiten werden am haeufigsten von „irrelevanten“ Seiten zitiert und alle Seiten reden (zitieren) am haeufigsten ueber „irrelevante“ Seiten.
ii.: Der Relevanzwert entspricht bei kleinen Werten der Anzahl der Zitierungen und ist bei grøszeren Werten eine Abbildung einer Zaehlweise mit Luecken (Anzahl der Zitierungen) auf eine Zaehlweise ohne Luecken (Relevanzwert)
iii.: Aus dem zweiten Punkt folgt (indirekt), dass die Daten bei kleinen Relevanzwerten aus (sehr sehr) vielen Seiten zusammengesetzt sind. Hingegen bei groszen Relevanzwerten wird das „Signal“ von nur wenigen Seiten generiert. Bei ganz groszen Werten gar nur von einzelnen Seiten. Dadurch entsteht der Eindruck, dass das „Signal“ in diesem Bereich nur „Rauschen“ ist.
iv.: Zeilenweise Normierung zeigte beim letzten Mal, dass im „Rauschen“ bei groszen Relevanzwerten vermutlich noch Information steckt und dass dies dort nur deswegen als „Rauschen“ scheint, wegen dem was im dritten Punkt steht.

Heute folgt nun, wie man mittels einer weiteren (ich wage zu sagen: geschickten) Abbildung die Information aus dem Rauschen „ziehen“ kann.
Es wird etwas technisch am Anfang. Aber das ist wichtig um zu verstehen, dass die qualitativen Schlussfolgerungen gueltig sind, trotz der „Artefakte“ welche besagte Abbildung hinterlaeszt.

Zunaechst muss ich zu dem im dritten Punkt Zusammengefassten zurueckkehren um zu erklaeren wie das Problem zu løsen ist. Dafuer schaue man auf diese Tabelle, welche das Problem verdeutlicht.

So oft zitiertAnzahl SeitenAnzahl ZitateProzentanteil (Seiten)Prozentanteil (Zitate)kumulativer Prozentanteil (Seiten)kumulativer Prozentanteil (Zitate)
0320,08905.520
5.520
1793,588793,58813.690.4819.210.48
2601,7621,203,52410.380.7329.591.20
3483,3861,450,1588.340.8737.922.08
9162,916
1,466,2442.810.88
64.457.64
10142,2691,422,6902.450.8666.90
8.49
528,950465,4000.150.2892.2828.50(539)
538,565453,9450.150.2792.4328.78
548,241445,0140.140.2792.5729.04
557,967438,1850.140.2692.7129.31
187,5901187,5900.000017
0.1199.99(9965507)99.66
231,1961231,1960.000017
0.1499.99(9982753)
99.80
325,1281325,1280.000017
0.20
100100

In der ersten Spalte ist die Anzahl der Zitierungen welcher identisch ist mit dem Relevanzwert bis zu einem Wert von 2075. Da die Bedeutung dieser beiden Begriffe die selbe ist, benutze ich diese beiden synonym an dieser Stelle.
In der zweiten Spalte sieht man die Anzahl der Seiten die so oft zitiert wurden wie in der ersten Spalte angegeben. In der vierten Spalte steht dann wie vielen Seiten das prozentual entspricht und der aufaddierte Anteil an Seiten ist in der sechsten Spalte zu sehen.
Das Produkt aus der ersten und zweiten Spalte ergibt die Anzahl der Zitate, die diese Gruppe auf sich vereint (dritte Spalte). Der entsprechende Prozentanteil (an der Summe aller Zitate) ist in der fuenften Spalte und der kumulative Anteil in der siebten Spalte zu sehen.

Die prozentualen Anteile verdeutlichen das Problem ganz gut. Bei kleinen Relevanzwerten befinden sich im Gesamtsignal deutlich mehr „Treffer“ (ausgedrueckt durch den Prozentanteil der Zitate) als bei groszen Relevanzwerten. Das ist das was ich mit ungleicher Schrittweite meine und das aendert sich auch nicht durch eine Normierung. Das Problem kønnte entsprechend durch eine gleiche Schrittweite geløst werden und da kommen die Prozentanteile ins Spiel. Es ist naemlich so, dass dieser Wert bei den Zitaten (anders als bei den Seiten) niemals grøszer als 1 wird und der Unterschied von „Schritt zu Schritt“ auch nicht so grosz ist. Vielmehr ist es so, dass der Unterschied mit grøszeren Relevanzwerten abnimmt. Das ist toll, denn bedeutet dies doch, dass ich die Daten von mehreren Relevanzwerten zusammenfassen kann um „Meta-Gruppen“ zu erstellen, die alle eine mehr oder weniger gleiche Schrittweite und damit „Signalstaerke“ haben. Das „mehr oder weniger“ wird nochmal wichtig.

Zur Veranschaulichung nehme man die Werte bei 52, 53, 54 und 55 Zitierungen. Wenn ich diese vier Zeilen zusammenfasse, erhalte ich die „Meta-Gruppe“ mit dem Namen 29. Der Name kommt daher, dass alle diese Werte beim kumulativen Prozentanteil (der Zitate) auf 29 % gerundet werden.
Bei kleinen Relevanzwerten bis 8 entspricht auch hier wieder der Name der „Meta-Gruppe“ der Anzahl der Zitierungen. Aber bereits ab 9 Zitierungen muss ich anfangen Zeilen zusammen zu fassen.

Wie angesprochen wird nun aber das „mehr oder weniger“ nochmal wichtig.
Im Durchschnitt repraesentiert jede Meta-Gruppe ca. 1.6 Millionen Zitierungen (der Median ist aehnlich). Aber insbesondere bei den ersten Meta-Gruppen (also bei kleinen Relevanzwerten) kann diese Zahl deutlich grøszer werden.
Zur Veranschaulichung nehme man die Werte bei 9 und 10 Zitierungen. Diese „komprimieren“ zu Meta-Gruppe 8 %. Aber die Menge an Zitaten die dadurch repraesentiert wird ist mit 2,888,934 Zitaten fast doppelt so grosz wie der Durchschnitt.
DAS wiederum fuehrt im (normierten) Falschfarbenbild zu Streifen; den oben erwaehnten Artefakten. Die Anzahl dieser „Grenzfaelle“ ist zum Glueck gering und die Artefakte aendern an der Nuetzlichkeit dieser Abbildung auf Meta-Gruppen, welche ungefaehr gleich grosze Mengen an Zitierungen repraesentieren, nichts.

Aber nun endlich die Falschfarbenbilder. Zunaechst die totalen Zahlen und die spaltenweise normierten Daten:

Ich habe diese beiden Darstellungen in ein Bild gepackt, weil sich keine neuen Erkentnisse ergeben. Immer noch gilt, dass die Relevanz aller Seiten durch Zitierungen von „irrelevanten“ Seiten kommt. Durch die Komprimierung sieht man es diesmal sogar schon in der totalen Anzahl der Zitierungen im linken Diagramm (gruener Streifen parallel zur Abzsisse bei kleinen Relevanzwerten). Dort sieht man ebenso rechts unten einen roten Punkt. Das liegt daran, dass die wenigen Seiten hin zum 100 % Wert so krass viele Zitate auf sich vereinen, dass dies in den (totalen) komprimierten (a.k.a. zusammengefassten) Zahlen dann deutlich auffaellt.
Auszerdem treten die erwaehnten horizontalen und vertikalen Streifen auf; besagete Artefakte. Im linken Bild sind diese Linien sowohl auf der Abzsisse als auch auf der Ordinate den selben Werten zuzuordnen. Durch die spaltenweise Normierung „verschwinden“ die vertikalen Streifen im rechten Diagramm, denn alle Spalten sind ja auf den selben maximalen Wert normiert.

Das soll genug sein fuer heute. Dieser Beitrag sollte vor allem das Prinzip der Komprimierung der Daten klar machen und was das fuer die Resultate bedeutet. Beim naechsten Mal zeige ich dann die zeilenweise normierten Daten und da gibt es einiges zu diskutieren.

Nachdem ich im Solsystem fertig war mit der Besichtigung von Sehenswuerdigkeiten, machte ich mich wieder auf den Weg zu ein paar Rekorden in der Galaxis.

Bleia Dryiae PD-E c1-2 16 haelt 6 dieser Rekorde … und alle folgen, weil dies von allen entdeckten Planeten DER Planet (auf dem man landen kann) mit der laengsten Halbachse des Orbits ist. Mit 106,129,094,372,391.58 m. oder ca. 709.43 au ist die so grosz, dass der Planet im Urpsrungssystem weit hinter der Heliopause liegen wuerde.
Damit folgen dann (wie so oft) die Rekorde fuer den grøszten orbitalen Umfang (666,692,700,281,545.0 m) und die laengste orbitale Periode (725,315,485,696.0001 s oder fast 23 k Jahre).

Das sind drei von sechs … die anderen drei sind Rekorde in den selben Characteristiken, aber fuer den spezifischen Planetentyp — Icy body (auf dem man landen kann).

Desweiteren ist dies der Ursprungsplanet fuer das galaktische Band — der dicke Stein auf der rechten Seite — wie man in diesem Beweisphoto sehen kann:

Die letzte „ancient probe“ im Ursprungssystem war …

Voyager 1. Naja, streng genommen ist keine dieser Sonden mehr im Ursprungssystem. Und diese Probe hier war ueberhaupt das allererste menschliche Stueck Kultur welches die Grenzen des Solsystems passierte. Schon krass, was man damals vor ueber 1000 Jahren schon alles erreicht hat, trotz der primitiven Technologie.
Aber so richtig in der „Nachbarschaft“ sind die Sonden auch noch nicht angekommen. Das dauert noch 50-tausend Jahre oder so.

Apropos primitive Technologie. Das was da so „raus guckt“ war die Energieversorgung der Sonde — drei Radionuklidbatterien. Die sind natuerlich laengst nicht mehr aktiv und man kann sich das ohne Gefahren aus der Naehe anschauen:

Hach … da kommen mir ja fast die Traenen, wenn ich an all die Traeume und Hoffnungen der Mensche von damals denke, welche mit den „Weltraumabenteuern“ verbunden waren. Aber auch wie grosz der Jubel und die Freude gewesen sein muss, als diese Sonden Daten aus der groszen unbekannten Leere schickten. Das muss schon eine Zeit der (wissenschaftlichen) Wunder gewesen sein.