Søren in Norwegen

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (v (b)) – wertende Komprimierung

Wie bereits beim vorletzten Mal versprochen (und dann aus organisatorischen und didaktischen Gruenden einmal verschoben), gehe ich heute auf die zweite Art der Komprimierung ein.

Anders als bei der vorher behandelten Bedeutungskomprimierung, ist die Wertekomprimierung sehr einfach zu verstehen. Hierbei schaut man naemlich nur auf den Gesamtinhalt einer Spalte (oder Zeile) und setzt den ins Verhaeltniss zum Inhalt der gesamten Matrix. Im weiteren spreche ich nur von Spalten, aber wie vormals gilt das Gleiche auch fuer die Zeilen (mutatis mutandis … und ja, ich such nach Gelegenheiten diesen Ausdruck so oft wie møglich zu verwenden … ich find den so fein).

Der Inhalt der gesamten Matrix ist die Summe ueber alle (Gesamt)Spalteninhalte. Oder anders: das ist die Summe aller Zitate die alle Seiten haben … was natuerlich der Summe aller Links aller Seiten entspricht … was natuerlich der Summe ueber alle (Gesamt)Zeileninhalte ist … was natuerlich bedeutet, dass diese Zahl komplett unabhangig von den Achsenbedeutungen ist und dieser eine Wert sowohl fuer die Spalten- als auch die Zeilenkomprimierung zu benutzen ist.

Der Gesamtinhalt einer Spalte ist die Summe ueber alle Zellen der gegebenen Spalte. Es ist zu beachten, dass diese Werte davon abhaengig sind, welche Bedeutung die Abzsisse und Ordinate haben, obwohl es sich hierbei NICHT um eine Bedeutungkomprimierung handelt. Ich gehe darauf weiter unten etwas genauer ein.
Fuer jede Spalte wird dann der Anteil berechnet, den diese am Inhalt der gesamten Matrix hat und dieser Wert wird dann wie bei der Bedeutungskomprimierung herangezogen um zu ermitteln, wie wieviele Spalten aufaddiert werden muessen, um den festgelegten Komprimierungswert zu erreichen.

Insgesamt hat man also vier verschiedene Komprimierungen fuer die Spalten und Zeilen. Wenn die Abzsisse die Anzahl der Zitate (die eine Seite erhalten hat) repraesentiert, dann ist der Gesamtinhalt einer gegebenen Spalte unabhaengig davon, ob die Ordinate das Selbe repraesentiert, oder die Anzahl der Links einer Seite. Es gibt also nur zwei unterschiedliche Komprimierungen fuer die Spalten, entsprechend den zwei møglichen Bedeutungen; nennen wir diese hier mal kurz A und B. Das Gleiche gilt natuerlich fuer die Zeilen und diese zwei Komprimierungen nenn ich mal kurz 1 und 2. Beides kombiniert ergibt am Ende vier Falschfarbenbilder, mit den Komprimierungskombinationen A1, A2, B1 und B2.

Hier muss ich etwas weiter ausholen, denn auf den ersten Blick scheint das wie bei der Bedeutungskomprimierung zu sein; dort gab es auch vier Falschfarbenbilderkomprimierungskombinationen. Der wichtige Unterschied ist aber, dass die Bedeutungskomprimierung nur fuer eine Achse ausgerechnet werden muss und dann auch fuer die andere Achse gilt (so diese dann die selbe Bedeutung hat). Bei der Wertekomprimierung gilt das nicht und kurz gesagt liegt das daran, dass die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Oder anders: bei der Bedeutungskomprimierung hat man nur zwei Komprimierungen (A & 1) und die Kombinationen waeren AA, A1, 1A und 11. Es ist zu beachten, dass es bei der Wertekomprimierung KEINE AA-, BB-, 11-, oder 22-Komprimierungskombinationen gibt.

Ein Beispiel macht das hoffenlich anschaulicher. Man denke sich eine Seite die 5 Mal zitiert wird und selber 23 Zitate hat. Wenn die Abzsisse die Anzahl der Zitate repraesentiert wird diese Seite in Spalte 5 gezaehlt und wenn die Bedeutung der Abzsisse die Anzahl der Links ist in Spalte 23. Qualitativ ist das bei beiden Komprimierungsarten im Wesentlichen das Gleiche (auch wenn quantitativ was anderes bei raus kommt). Wichtig ist nun, dass, wie auch immer die Bedeutung der Abzsisse ist, diese Seite in jedem Fall zu der jeweiligen Spalte immer nur 5 „Punkte“ beitraegt, denn (und ich wiederhole mich hier) in den Falschfarbenbildern ist dargestellt, wie oft die Seiten auf der Abzsisse von den Seiten auf der Ordinate zitiert werden.
Nun wende man sich zur Ordinate. Hier findet sich diese Seite in Zeile 5 oder 23 wieder. Soweit erstmal kein Unterschied und das ist der Grund, warum man die Bedeutungskomprimierung nur fuer eine Achse ausrechnen musste. Weil diese Seite aber 23 andere Seiten zitiert, ist der Beitrag dieser Seite zur jeweils gegebenen Zeile 23 „Punkte“. Oder anders: ein und die selbe Seite traegt zu den Spalten anders bei als zu den Zeilen. Deswegen muss man jeweils zwei Anteilverteilungen (der jeweiligen Spalte / Zeilen) pro Achse berechnen.

Und jetzt passiert was kurioses … ist aber logisch, wenn man mal drueber nachdenkt, was ich euch, meinen lieben Leserinnen und Lesern als Hausaufgabe ueberlasse. Wenn die Abzsisse die Anzahl der Zitate repraesentiert so ist der SPALTENanteil identisch mit der Bedeutungskomprimierung, bezogen auf die ZITATE. Das gilt nicht, wenn die Abzsisse die Anzahl der Links repraesentiert.
Der ZEILENanteil wird identisch mit der Bedeutungskomprimierung, bezogen auf die LINKS, wenn die Ordinate die Anzahl der Links repraesentiert. Das passiert aber nicht wenn die Ordinate die Anzahl der Zitate repraesentiert.
Oder anders: wenn ich die Links ueber Zitate darstelle, so sollten die Falschfarbenbilder der Bedeutungs- und Wertekomprimierung identisch sein … da muss ich dran denken, dass beim naechsten Mal zu kontrollieren.

Ich erwaehne das, denn dieser Umstand ist hier und heute von Vorteil. Anstatt vier Anteilsverteilungen (und deren Komprimierungen) muss ich nur zwei zeigen, denn die anderen beiden sind ja schon im Beitrag vom vorletzten Mal zu sehen … man muss dann in Gedanken nur die Beschriftung der Ordinate aendern, aus „Anteil an allen Zitaten / Links (%)“ wird „Spaltenanteil (%)“ bzw. „Zeilenanteil (%)“ (dito … mutatis mutandis … hehe … bei den Anteilen der komprimierten Gruppen).

Nun muss ich gar nicht mehr all zu viel sagen zu den folgenden Diagrammen, denn beim Beitrag zur Bedeutungskomprimierung hatte ich ausfuehrlich besprochen, wie man solche Diagramme liest und deren Informationsinhalt betrachtet.
Hier die Diagramme mit der neuen Information bzw. des Spalten- bzw. Zeilenanteils (bei entsprechender Bedeutung der jeweiligen Achse):

Form und Maximum der Kurve des Spaltenanteils (wenn die Abzsisse die Linksgruppen repraesentiert, linkes Diagramm) sind qualitativ wie bei der Bedeutungskomprimierung (aber quantitativ natuerlich anders). Das Einzige was (sogar im Wortsinne) heraus sticht ist der von der Wikipedia Hauptseite verursachte Punkt in den 2023 Daten. Das ist ja nun nicht mehr unerwartet, aber dieser macht den Unterschied in den beiden Komprimierungsmethoden deutlich, trotz aller qualitativen (und bei entsprechenden Achsenbedeutungen auch quantitativen) Aehnlichkeiten.

Die Kurve fuer den Zeilenanteil (wenn die Ordinate die Zitategruppen repraesentiert, rechtes Diagramm) ist hingegen vøllig anders; wenn man aber mal drueber nachdenkt dennoch logisch.
Hier sieht man auch, warum solche Diagramme wichtig sind, um die komprimierten Falschfarbenbilder vernuenftig zu interpretieren. Ich werde naemlich wieder ein Komprimierungsintervall von einem Prozent waehlen, aber die ersten zehn Zitategruppen liegen da extrem deutlich drueber.

Viel mehr gibt’s hierzu nicht zu sagen und ich kann ohne Umschweife zu den (auf ca. 1 %) komprimierten Gruppen kommen:

Hier muss ich nun fast gar nix mehr sagen, denn die Spruenge, warum einige Punkte unter, bzw. ueber ein Prozent liegen und wieso die Anzahl der komprimierten Gruppen nicht 100 betraegt, wurde ausfuehrlich beim letzten Mal diskutiert. Was ich im letzten Abschnitt bzgl. den extrem-deutlich-ueber-1-%-Anteilen der ersten zehn Zeilen sagte spiegelt sich natuerlich im rechten Diagramm wieder und ist der Grund, warum es hier gerade mal 66 komprimierte Gruppen gibt.

Alright … wenn’s nix zu sagen gibt, dann will ich das auch nicht unnøtig in die Laenge ziehen. Beim naechsten Mal gibt’s die dazugehørigen Falschfarbenbilder.

Posted by Tentacel on 2025/01/29 at 13:37 under Allgemein.
Comment on this post.

Ich stehe vor auf Dingen: eine originale Appollokapsel

Ich bin so sehr mit Kevin Bacon beschaeftigt, dass ich gerade keine richtige Lust habe, lange Sachen fuer die Artikel dazwischen zu schreiben. Zum Glueck hab ich noch ’n paar Bilder in denen ich vor … bzw. in diesem Falle AUF …

… Dingen stehe. Das hier ist ’ne originale Appollo(leider-nur-test)kapsel mit mir oben drauf. Aber die Grøszenverhaeltnisse und so stimmen.

Arschcool wie ich bin … Wortspielkasse … warum wird gleich klar… hab ich natuerlich auch in der Wueste von Arizona (wo die Kapsel rum lag) schwarze Kleidung an. Es ist festzuhalten: ich war schon immer ziemlich fesch … auszerdem, ist die Kapsel echt winzig.

Posted by Tentacel on 2025/01/23 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (vi (a)) – bedeutend komprimiert

Beim letzten Mal schrieb ich, dass ich …

[…] die zweite Art der Komprimierung auf’s naechste Mal [verschiebe].

Als ich mir alles anschaute dachte ich mir allerdings dass es besser ist, wenn ich zunaechst die bedeutungskomprimierten Falschfarbenbilder zeige.

Wie immer „huepfen“ die Bilder zwischen den 2020-Daten und den 2023-Daten. Weil ich damals ein Prozent als Wert fuer die Komprimierung benutzte, tat ich das auch hier wieder. Vom letzten Mal wissen wir, dass das NICHT zu notwendigerweise zu 100 komprimierten Bedeutungsgruppen und zu „Spruengen zwischen einigen Spalten“ fuehrt. Auszerdem kann die Anzahl der komprimierten Gruppen bei den verschiedenen Datensaetzen unterschiedlich sein. Es ist wichtig dies im Hinterkopf zu haben, damit die dadurch verursachten „Effekte“ in den Bildern nicht die Interpretation der eigentlichen Information støren. So fuehren die besagten „Spruenge zwischen den Spalten“ zu Streifenstrukturen und die Unterschiede in der Anzahl der Gruppen zu Spruengen bei den Skalen der Achsen).
Und nicht vergessen: die durch die Abszisse repraesentierten Seiten werden von den durch die Ordinate repraesentierten Seiten zitiert.

(Auch) Wie immer fange ich mit dem Reproduzierbarkeitsteil an und der ist hier im linken Falschfarbenbild zu sehen, in dem die bedeutungskomprimierte Zitategruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen ist:

Huch! Im Vergleich zu damals sieht man ja nuescht! … nun ja … wenn man genau hinschaut sieht man schon die gleichen Merkmale wie damals … aber noch viel besser sieht man, warum ich die Farbpalette wechselte; wie gesagt, meine Lieblingsfarbpalette „luegt“ und gaukelt mir Informationen vor die eigentlich gar nicht da sind.
Ansonsten sieht man wieder die gewaltige Dominanz der Wikipedia-Hauptseite in den 2023-Daten.

Im rechten Bild ist die bedeutungskomprimierte Linksgruppe ueber der bedeutungskomprimierten Zitategruppe abgetragen. Interessant ist der helle Punkt in der rechten unteren Ecke. Der tritt in beiden Datensaetzen auf und kommt deswegen NICHT durch die Wikipedia Hauptseite zustande. Als einzelner Punkt „ueberstraehlt“ dessen Intensitaet diese sogar! (Wobei die Summe ueber die gesamte Spalte sicherlich grøszer ist fuer die Hauptseite). Aber wie so oft in dieser Phase des bereits so lange andauernden Kevin-Bacon-Projekts: ich hab keine Lust (mehr) zu schauen, was das ist.
Ich weise nur darauf hin, dass dort in der Ecke anscheinend noch mehr passiert, denn dort treten etliche andere Pixel aus dem Schwarz hervor (wenn auch nicht ganz so deutlich) … eine weitere Erfolgsgeschichte fuer das neue Werkzeug :).

Weiter zu den Falschfarbenbildern, bei denen die Abszisse die komprimierten Linksgruppen repraesentiert:

Im linken Bild passiert nichts Unerwartetes. Dass die Hauptseite nicht am Ende der Abzsisse liegt (wie bei der Anzahl der Zitate), ist von vorher bekannt. Im Vergleich mit dem rechten Diagramm im oberen Bild spiegelt sich hier schøn wieder, dass die Information in diesen Bildern nicht symmetrisch ist und die Achsen nicht vertauscht werden kønnen.

Etwas spannender ist das rechte Falschfarbenbild. Sofort ins Auge fallen die hellen Punkte, welche alle in der selben Reihe liegen, und sowohl bei den 2020- als auch den 2023-Daten vorhanden sind (wenn auch an anderen Positionen auf der Abzsisse). Diese Punkte sind bereits vorher aufgetreten und ich wuerde spekulieren, dass die mit dem „helle[n] Punkt in der rechten unteren Ecke“ von weiter oben zu tun haben … ohne weitere Untersuchungen wuerde ich aber nicht drauf wetten. Falls dem so ist, ist es interessant, dass die zwar alle unterschiedliche Links, aber anscheinend (ungefaehr) gleich viele Zitate haben. Ihr meine lieben Leserinnen und Leser ahnt es sicherlich bereits: (i) ein weiteres Merkmal, enthuellt durch das neue Werkzeug, und (ii) ich werde das nicht weiter untersuchen.
Ansonsten sieht man hier deutlich, warum ich ueberhaupt erst auf die Idee der Komprimierung gekommen bin; hatte ich doch damals bereits in dem vielen Schwarz der unkomprimierten Daten doch noch Informationen vermutet. Die lila Tøne oberhalb der unteresten Reihen bestaetigen diese Vermutung. Das trifft uebrigens fuer alle Falschfarbenbilder zu, man sieht das nur nicht ueberall so gut (insb. bei den 2023-Daten, bei denen die hohe Intensitaet der Hauptseite die Farbskala festlegt und deswegen (fast) alles andere in den dunklen Bereich draengt).

Juti … ging ja schnell heute. Ich kann mich nur zitieren und sagen, dass …

[…] die zweite Art der Komprimierung […] [beim] naechste[n] Mal [behandelt wird].

Posted by Tentacel on 2025/01/15 at 13:37 under Allgemein.
Comment on this post.

Revisited: Die Simpsons

Die Simpsons waren in den 90’er Jahren des vorigen Jahrhunderts der Knaller! Und als die dann auch als Comic heraus kamen hab ich den natuerlich gekauft. Von allen Comics die ich habe, kønnten die ersten Ausgaben einige der extrem wenigen Comics sein die ich besitze, welche heutzutage einen (deutlich, wenn auch nicht gigantisch) høheren Wert haben … wenn ich die damals super ordentlich behandelt haette … hab ich aber nicht … und das ist auch nicht so schlimm, denn Comics sollten gelesen werden und nur in Ausnahmefaellen in versiegelten Plastikschalen ihr Dasein fristen.

Soweit dazu, nun zu etwas ganz Anderem. Mir ist es schwer gefallen, Cover fuer den heutigen Beitrag zu finden, die ich ohne weitere Worte einfach so „reinklatschen“ kønnte, weil sie in ihrer Form fuer sich stehen. Die Cover der Simpsons Comics sind zwar immer passend und gut, haben bei mir aber nicht so’n „COOL“-Gefuehl verursacht (wie bspw. das hier). Aus der „Not“ heraus nahm ich dann solche, die ein paar der Dinge illustrieren die ich hier ansprechen werde.

Genug der Vorrede!

Wie erwaehnt, waren Die Simpsons super populaer als sie urspruenglich erschienen und es gibt genuegend Untersuchungen und Aufsaetze die erklaeren warum (siehe bspw. hier … ich hab das nicht gelesen, der Titel klingt aber interessatn und das poppte auf der ersten Seite einer schnellen Suche auf). Relevant finde ich hier, dass ich schon damals irgendwie nicht das URST lustig fand, was alle anderen URST lustig fanden. Homer war witzig, ich fand ihn aber jetzt nicht sooo witzig. Dito bzgl. Bart oder Itchy & Scratchy. Insb. bei Letzteren tat mir die arme Katze voll leid …

… und dass ich mich nicht wirklich mit Bart identifizieren konnte muss wohl nicht weiter erklaert werden.
Seine Schwester Lisa hingegen verdient etwas mehr Worte, denn damals fand ich die langweilig … aber beim nochmaligen Lesen fand ich sie (und Marge) in der ganzen Serie am Besten. Das liegt daran, dass diese beiden Figuren die „Vernuenftigen“ sind. Lisa versucht rational zu handeln und die Welt aktiv zu verbessern, trotz der ewigen Rueckschlaege und der „Sabotage“ aller anderen. Und auch wenn ich mich heutzutage (meiner eigenen geistig / emotionalen Gesundheit wegen) mit den Weltverbesserungsversuchen sehr zurueck halte, so erinnert mich das doch eher an mich, als die „witzigen“ Streiche von Bart. Dies Alles wird sehr schøn durch dieses Cover illustriert:

In diesem Sinne scheint mir, dass viel zu viele Menschen wie Homer sind: nicht nachdenkend, zuallererst auf den eigenen und unmittelbaren Lustgewinn aus und vøllig ignorant, dass es noch den Rest des Universums gibt … siehe hier:

Homer kennt Mr. Burns (der ihn schon mehrfach als Versuchkaninchen benutzte) und sollte wissen, nicht in irgendwelche Raeume zu gehen nur weil da Sandwichutensilien drin rumliegen. Aber der unmittelbare Drang zu essen ueberwiegt und er bekommt die Mordmaschinen des Mr. Burns gar nicht mit. Ist natuerlich alles vøllig ueberspitzt und (irgendwie) witzig dargestellt, aber erinnert mich doch eher an die ewig gleichen Verdaechtigen mit ihren ewige gleichen Argumenten, bei all zu vielen Themen (Klimakatastrophe, (Elektro)Individualmobilitaet, Erbschaftssteuer etc. pp.).

Ueberhaupt sehe ich jetzt, wieviel „Realitaet“ in den Simpsons steckt. Das ist so’n bisschen wie „The Kids aren’t alright“ von The Offspring, voll das tanzbare Lied … aber die Lyrics sind niederschmetternd und lassen einen an bspw. die Opioidepidemie in den USA denken … nur dass The Offspring da in den 90’ern mit dem Finger drauf zeigt.
Zum Einen ist da natuerlich die Karikatur eines Ultrakapitalisten ohne schlechtes Gewissen oder Moral in der Form von Mr. Burns und seines Handlangers Smithers. Auszerdem waere da noch der ultrakorrupte Buergermeister Quimby (der trotz allem immer wiedergewaehlt wird). Aber beim nochmaligen Lesen habe ich das alles, vor allem in der Figur von Marge gesehen. Sie ist die Frau und Mutter die sich um alles kuemmert. Homer schafft zwar das Geld ran, aber viel mehr auch nicht. Marge ist die Person, welche die Welt der Simpsons im Hintergrund zusammen und am laufen haelt … was waeren Bart oder Homer ohne Marge?

Ueberhaupt ist Homer weder ein guter Ehemann noch ein guter Vater. Dieser Meinung bin ich trotz all der Sachen die ihn letztlich als liebevollen Menschen darzustellen versuchen, der gut im Herzen ist und der sich auch entschuldigen und Fehler eingestehen, und Dinge (meist im Nachhinein) besser machen kann. Das mag alles stimmen, und gute Ehemaenner und Vaeter sind keine Supermaenner die niemals Fehler machen … aber die machen ganz sicher nicht den ganzen Scheisz den Homer immerzu anstellt. … … … Andererseits waren das die 90’er Jahre … vermutlich war ein Vater / Ehemann wie Homer ein krasser Fortschritt zu dem was man vorher als Normal bzgl. dieser Rollen angesehen hat und erst jetzt, 30 Jahre spaeter, halte ich das nicht (mehr) fuer gut genug sondern als das absolute Minimum wie man sich als Mensch (Mann / Vater) gegenueber anderen Menschen (seiner Familie) verhalten sollte.

Deswegen hab ich beim nochmaligen Durchlesen auch viel mehr Verstaendniss fuer die Schwestern von Marge. Die lassen sich vom „Charme“ eines Homer naemlich nicht einlullen und stehen dagegen … auch hierzu ein Cover (man beachte das all zu passende Grinsen im Gesicht von Patty und Selma):

Die Bouvier-Zwilinge finde ich, der ich jetzt Mitte 40 bin, auch sympathisch wg. ihrer No-Bullshit-Attituede bzgl. dem Rest der Welt … Arbeit? Man muss ja leider. Rauchen? Mir doch egal was du davon haeltst. Zu Hause sitzen und MacGyver gucken anstatt ins Fitnessstudio zu gehen? Klar gerne! … Ist zwar das „Umgekehrte“ von „Søren, willst du nicht Projektleiter werden?“ UÆRGS! Bleib mir weg mit „Karriere“ … „Ist das ’ne Milch die du da an der Bar trinkst?“ … *hust* zocken *hust* … aber im Prinzip das Gleiche.

Lange Rede kurzer Sinn … Die Simpsons waren voll gut und die fruehen Sachen sind echt gut geaeltert … aber waehrend ich es immer noch sehr wertschaetze, so ist es doch nicht das Selbe wie zu der Zeit als ich noch ’n Teenager war … und trotz aller Nostalgie und der Wehmut, dass man die Zeit des „jung seins“ nicht wieder haben kann, ist das ist natuerlich gut so … denn dies erlaubt es mir andere Dinge darin zu sehen und zu entdecken :) .

Posted by Tentacel on 2025/01/07 at 13:37 under Kunst.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (v (a)) – bedeutende Komprimierung

Damals konnte ich in beim Hereinzoomen in die groszen, schwarzen Bereiche der Falschfarbenbilder helle Punkte wahrnehmen. Es stellte sich dann natuerlich die Frage, ob diese blosz einem „Rauschen“ entsprechen, oder ob es dort Information gibt. Zur Beantwortung der Frage „komprimierte“ ich die Daten: kurz gesagt, um die Signalstaerke zu erhøhen, addierte ich die Werte von mehreren Spalten / Reihen. Dabei habe ich natuerlich „Aufløsung“ verloren, weil ein erhøhtes Signal nicht mehr eindeutig einem Zitategruppewert zugeordnet werden konnte (denn diese Gruppen wurden ja gerade „komprimiert“).

Soweit zur Wiederholung. Beim letzten Mal schrieb ich:

[…] [die Komprimierung] konnte ich […] erweitern und generalisieren […]

… und darum geht es heute.

Zur Erinnerung: damals war ich mir nicht der Møglichkeiten dieser Analysemethode bewusst und schaute nur auf die Zitate-ueber-Zitate Daten. Die Komprimierung bestand dann darin, dass ich mir die Bedeutung jedes Wertes auf der Ordinate anschaute und damit ausrechnte wieviele Zitate die Seiten auf sich vereinten, die in der entsprechenden Spalte vertreten waren. Drei Beispiele: 100 Seiten die jeweils 5 Zitate haben, vereinen 5 x 100 = 500 aller Zitate auf sich. 50 Seiten die jeweils 10 Zitate haben, vereinen ebenso 10 x 50 = 500 aller Zitate auf sich. 5 Seiten die jeweils 23,517 Zitate haben, vereinen 5 x 23,517 = 117,585 Zitate auf sich.
Mit der Information rechnete ich dann aus, wieviele Spalten ich jeweils zusammenfassen muss, damit in einer zusammengefassten / komprimierten / „verschmolzenen“ Spalte immer ca. 1 % aller Zitate auftreten.

Soweit, so gut. Damals hatte ich mir nix weiter dabei gedacht, aber diese Art der Komprimierung nenne ich jetzt „Bedeutungskomprimierung“. Es wird naemlich nur darauf geachtet, wieviel der „kompletten Bedeutung“ eine Spalte auf sich vereint. Konkreter: wie hoch der Anteil an allen Zitaten (oder Links) aller Wikipediaseiten ist, die in der gegebenen Spalte steckt und die Achse gibt die Bedeutung vor.
Da damals Ordinate und Abzsisse die selbe Bedeutung hatten, konnte die obige Komprimierung 1:1 auf die Reihen angewandt werden.

Als ich dieses Thema das erste Mal behandelte hatte ich das nicht gezeigt, aber das Gesagte kann man auch in ein Diagramm packen. Hier ist so ein Diagramm zu sehen:

Fuer die Diskussion dessen was man hier sieht, ist es egal ob man auf die Daten aus 2020 oder aus 2024 schaut. Wenn wichtig, gehe ich auf die Unterschiede weiter unten kurz ein, aber fuer die allgemeine Besprechung macht das keinen Unterschied, denn wiedereinmal gibt es im Wesentlichen keine Unterschiede zwischen den Jahren.

Ich sollte auch erwaehnen, dass man hier noch gar keine Komprimierung sieht, sondern nur wie hoch der „Bedeutungsanteil“ einer jeden Spalte in den Falschfarbenbildern ist, wenn die Bedeutung besagter Spalte die Anzahl der Zitate ist. Auf der Abzsisse sind also die UNkomprimierten Zitategruppen abgebildet und das ist somit die Grundlage fuer die „Bedeutungskomprimierung“ im naechsten Schritt.

Bei lineaer Abzsisse (linkes Bild) sieht man, dass bei sehr kleinen Zitategruppen kurz sehr viel „passiert“. Bei logarithmischer Achse ist dieser Bereich „aufgespreizt“ und man sieht, dass einzelne Spalten bis zu (fast) 1 % aller Zitate auf sich vereinen. Dies obwohl die dazugehørenden Seiten nur (sehr) wenige Zitaten haben. Nur gibt es von denen so viele, dass da in der Summe ganz schøn viel zusammen kommt. Kleinvieh macht auch Mist (und nicht zu wenig).
Ein weiterer Vorteil der linearen Abzsisse ist, dass man am besten sieht, dass ab ca. Zitategruppe 200 der Bedeutungsanteil dann aber (sehr) klein wird und (mehr oder weniger) auf diesem kleinen Wert „verharrt“. Ausgenommen die allerletzten paar Punkte zieht sich dieses Verhalten der Kurve bis (weit) ueber Zitategruppe 5000 hin. Auch das ist einfach zu erklaeren, denn trotz zum Teil sehr hoher Anzahl an Zitaten, so bestehen gerade (sehr) hohe Zitategruppen aus nur wenigen Seiten (oft gar nur einer). Da summiert sich also in einer Spalte nicht viel auf, gesehen auf die weit ueber 100 Millionen Zitate insgesamt.
Ganz am Ende machen die Punkte dann nochmal ’nen Sprung nach oben. Bei den 2020 Daten faellt der recht klein aus, waehrend die allerletzte Zitategruppe bei den 2023 Daten ueber 2.5 % aller Zitate auf sich vereint. Das ist natuerlich wieder die Wikipedia Hauptseite die neuerdings von (fast) allen anderen Seiten zitiert wird.

Interessant ist, dass die 2023 Daten bis ca. Zitategruppe 20 etwas tiefer liegen als die 2020 Daten. Zunaechst dachte ich, dass die Hauptseite da einfach alles „runterdrueckt“, weil die so viele Zitate auf sich vereint. Aber dann haette man das auch bei høheren Zitategruppen sehen muessen. Deswegen rechnte ich den Anteil der letzten 17 Zitategruppen raus (vulgo: ich berechnete alles nochmal, aber ohne die). Waere meine Erklaerung richtig gewesen, dann haette der Verlauf der Kurven der beiden Daten im Wesentlichen gleich sein muessen. Mathematisch gesprochen, haette die Subtraktion der korrigierten 2023-Daten von den unkorrigierten 2020 Daten mehr oder weniger konstant sein muessen, mit einem Wert von null (plusminus Rauschen). Fuer Seiten in Zitategruppen grøszer als 100 ist dem auch so, aber die „Erniedrigung“ bei kleinen Zitategruppenwerten bleibt trotz Korrektur erhalten.
Dieses Ergbeniss deutet wieder auf eine „Hausmeisteraktion“ hin, bei der etliche Seiten geløscht wurden. So etwas vermutete ich bereits hier. … … … Da hat dieses neue Werkzeug wieder was aufgedeckt, fetzt wa!

Soweit zur Grundlage der Komprimierung. Wenn man die entsprechende Anzahl an Spalten dann miteinander „verschmilzt“, damit jede komprimierte Zitategruppe ungefaehr 1 % der Gesamtzitate enthaelt, erhaelt man diese zwei Diagramme:

Als erstes sei zu sagen, dass die 2020 Daten in 102 komprimierte Gruppen (ich lasse das Wørtlein „Zitate“ der Lesbarkeit jetzt weg) (bedeutungs)komprimiert (das Wørtlein „bedeutungs“ lasse ich auch weg) wurden und die 2023 in 101 Gruppen. Ich erklaere weiter unten, warum das nicht genau 100 (entsprechend 100 %) werden.
Im linken Diagramm sind auf der Abzsisse immer noch die UNkomprimierten Gruppe abgetragen, waehrend im rechten Diagramm einfach nur die (laufende) „Gruppenzahl“ der komprimierten Gruppen abgetragen ist. In beiden Faellen entsprechen die Punkte und Quadrate den komprimierten Gruppen.
Wie man an der Ordinate ablesen kann, wurde das „Versprechen“, dass die komprimierten Gruppen ungefaehr 1 % aller Zitate enthalten, eingeløst.

Auffaellig ist, dass im linken Diagramm der Abstand der Punkte anfangs sehr klein ist, dann zu nimmt und zum Ende hin wieder kleiner wird. Das ist leicht mit dem vorherigen Diagramm bzgl. der „Grundlagen der Komprimierung“ zu erklaeren. Kleine (unkomprimierte) Zitategruppen enthalten so viele Seiten, dass sie einen entsprechend hohen Anteil aller Zitate repraesentieren. Deswegen braucht man da nur wenige UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Spaeter ist es dann so, dass eine UNkomprimierte Gruppe immer weniger Seiten, (sehr) oft gar nur eine einzige, enthalten. Entsprechend mehr Gruppen muss man miteinander „verschmelzen“ um eine komprimierte Gruppe zu erhalten. Und da die „verschmolzenen“ unkomprimierten Gruppen ja alle in EINER komprimierten Gruppe landen, verschwinden die dann bei einer Abzsisse wie im linken Diagramm und der Abstand zwischen den Punkten nimmt zu. Zum Ende hin bestehen die Gruppen zwar auch nur aus einzelnen Seiten, aber weil die so viele Zitate haben, ist deren Anteil an allen Zitaten wieder grøszer und man braucht weniger UNkomprimierte Gruppen um eine komprimierte Gruppe „voll zu machen“. Deswegen nimmt der Abstand zwischen den Punkten wieder ab.
Im rechten Diagramm tritt dieses Phaenomen natuerlich nicht auf, da alle komprimierten Gruppen den gleichen Abstand zueinander haben.

Der selbe Mechanismus erklaert auch, warum das am Anfang so zappelt bzw. warum es zu „Spruengen“ im Graf auf der rechten Seite kommt. Zur Veranschaulichung ein Beispiel.
Man denke sich vier, aufeinander folgende, UNkomprimierte Gruppe, die jeweils 0.9 %, 0.5 %, 0.3 % und 0.3 % aller Zitate enthalten (in dieser Reihenfolge).
Wuerde die 0.9 % Gruppe mit der 0.5 % Gruppe verschmelzen wuerde die komprimierte Gruppe 1.4 % aller Zitate repraesentieren. Aber 1.4 % ist weiter von 1 % entfernt als 0.9 %. Deswegen findet die Verschmelzung nicht statt, die 0.9 % Gruppe wird ihre eigene komprimierte Gruppe.
Nun verschmelzen die 0.5 % Gruppe und die erste 0.3 % Gruppe und bilden zusammen eine komprimierte Gruppe die 0.8 % aller Zitate auf sich vereint. Das ist noch nicht nah genug an 1 % dran, weswegen auch die zweite 0.3 % Gruppe mit denen verschmolzen wird. Alle drei zusammen vereinen nun 1.1 % aller Zitate auf sich. Das liegt zwar ueber 1 %, ist aber naeher dran als 0.8 % und deswegen bleibt diese Verschmelzung erhalten.
Weil beide Punkte im Diagramm direkt aufeinander folgen, der erste aber unter 1 % und der zweite ueber 1 % liegt, kommt es zu einem „Sprung“. Wie man im rechten Diagramm sieht, muessen solche Spruenge nicht nur nach oben, sondern kønnen auch nach unten gehen.

Und immer noch der selbe Mechanismus ist dann auch dafuer verantwortlich, dass es mehr als 100 komprimierte Gruppen gibt (und sogar unterschiedlich mehr). Das erklaer ich jetzt aber nicht haarklein und ihr, meine lieben Leserinnen und Leser møgt euch die Details selbst ueberlegen.

So weit so gut. Ich erklaere das hier so ausgiebig, weil sich dies in den entsprechenden Falschfarbenbildern in helleren Streifen aeuszern wird. Die erklaerte ich zwar damals bereits genauso, aber weil das hier in einem vøllig andersgeartetem Diagramm (und mit besserer Notation) auftritt, bin ich nochmal drauf eingegangen.

All das gesagt, kann ich ohne viele Worte die entsprechenden, relevanten Grafen zur Bedeutungskomprimierung der Linksgruppen zeigen:

Es ist bereits bekannt, dass’s ungefaehr drei Mal weniger Links- als Zitategruppen gibt. Interessant ist, dass so viele unkomprimierte Linksgruppen (deutlich) ueber 1 % aller Links repraesentieren. Deswegen waere es vllt. besser einen etwas høheren Anteil (bspw. 1.5 %) fuer die Komprimierung zu waehlen. Das Programm kann das jetzt, aber ich mache hier alles auch weiterhin mit 1 %.
Diesee hohe Werte sind dann auch der Grund, warum ich hier fuer beide Datensaetze weniger als 100 komprimierte Gruppen erhalte; 96 fuer die 2020 Daten und 97 fuer die 2023 Daten.

Ansonsten ist das qualitativ im Wesentlichen das Gleiche, sowohl zwischen den verschiedenen Datensaetzen, als auch im Vergleich mit den komprimierten Zitategruppen oben.
Ach so … im linken Diagramm scheinen kleine Linksgruppen der 2023 Daten um eins nach rechts verschoben zu sein, im Vergleich mit den 2020 Daten. Das liegt natuerlich wieder an der Wikipedia Hauptseite, die ja nun anscheinend auf (fast) allen Seiten auftaucht. Bei høheren Linksgruppenwerten sieht man das wegen der logarithmischen Achse nur nicht mehr.

Alles hier ist bereits neue (und interessante) Information die mir vorher gar nicht aufgefallen ist, weil sie mir gar nicht vor lag. Wieder „ans Licht gebracht“ wurde das alles durch das „neue Werkzeug“ … cool wa!

Weil die Daten hier nach der BEDEUTUNG der Achse komprimiert sind, werden beim Zitate-ueber-Zitate Falschfarbenbild die Reihen natuerlich auf exakt die selbe Art und Weise komprimiert wie die Spalten. Dito (mutatis mutandis), fuer das Links-ueber-Links Falschfarbenbild. Und bei „gemischter“ Bedeutung der Achsenkombinationen wird natuerlich die jeweils richtige Bedeutungskomprimierung fuer die entsprechenden Spalten oder Reihen benutzt. Aber diese ist dann die Selbe wie hier gezeigt. Das fuehrt bei den zwei „gemischten“ Achsenbedeutungskombinationen dennoch zu unterschiedlichen Ergebnissen, weil diese beiden Falschfarbenbilder ja nicht symmetrisch sind.

Uff … jetzt ist das doch schon wieder so viel geworden. Deswegen verschiebe ich die zweite Art der Komprimierung auf’s naechste Mal.

Ich wuensche euch, meinen lieben Leserinnen und Lesern, einen guten Rutsch und ein ganz hervorragendes 2025 :) .

Posted by Tentacel on 2024/12/31 at 13:37 under Allgemein.
Comment on this post.

Spielverderber

Zum Ende meines diesjaehrigen Geburtstagsbeitrags schrieb ich:

[…] [D]as Thema […] werde ich anhand eines konkreten Beispiels an anderer Stelle nochmal aufgreifen.

Da ich bisher anderweitig beschaeftigt war, liesz die Antwort auf sich warten (und mir ist bewusst, dass der Abschluss der Hormesis-Reihe schon laenger her ist und dass auch die Feinstaubreihe noch in der Luft haengt).

Das konkrete Beispiel ueber das ich heute schreibe ist eine weitere „Anwendung“ des im Geburtstagsbeitrags anhand eines (anderen) Beispiels illustrierten Prinzips. Oder anders: wieder bleibt mir das „Hab dich!“ (bzw. hier eher „du bist ja doof“) im Halse stecken, wenn ich alles gruendlich durchdenke und mein Gegenueber deswegen besser verstehe.

In kurz geht es um diesen alten Gag …

Geklaut von hier, ’ne echte Originalquelle gibt’s sicher nicht.

… der sich (meist) ueber (US) Amerikaner lustig macht … und frueher hab ich kraeftig mitgelacht (und mitgemacht).

Irgendwann ist mir dann aber mal aufgefallen, dass ich …
… „1 Meter“ sage, mir aber eine Schrittlaenge vorstelle, und zu Fusz gehe …
… „5 Kilometer“ sage, mir aber die Strecke zwischen Buch und Grieben vorstelle, … bzw. heute bei 4 km an einen Spaziergang um den Theisendam denke … und das automatisch mit ca. 1 Stunde spazieren gehen gleichsetze … oder 20 Minuten Fahrrad fahren … oder durchgeweichten Stoffschuhen, aber trockenen Herbstschuhen, bei leichtem Regen, …
… „500 km“ sage, mir aber die Strecke Trondheim – Oslo vorstelle, … und das automatisch mit einer unbestimmten, definitiv nicht metrischen Menge Stress gleichsetze, weil das oft Fliegen bedeutet, …
… „einmal um die halbe Welt“ sage, mir aber die Strecke Norwegen – Japan vorstelle, … *opps* nun ist ja nicht mal mehr das erste metrisch, …

… … … .oO(genug der Laengen) … … …

… „ein halber Liter“ sage, mir aber ’ne Colaflasche vorstelle, …
… „25 kg“ sage, mir aber vorstelle wie schwer ein Sack Zement ist, …
… beim kochen definitiv NICHT „14.7868 Milliliter“ sage oder denke, sondern einfach ’n Essløffel voll benutze (gerne gehaeuft), …
… weisz, dass die Strecke Erde – Sonne ungefaehr 150 Millionen Kilometer sind, das aber (fast) nie benutze sondern (fast) immer an eine Astronomischen Einheit denke, …
… ich von Milli-, Micro, Nanosekunden weisz und oft genug damit zu tun hatte (und habe), ein Tag aber trotzdem 86,400 Sekunden enthaelt.

Ich møchte damit ausdruecken, dass das metrische System zwar toll ist, wenn man was zu rechnen hat und das mit Sachen die nicht in der eigenen „Werkstatt“ (im allerweitesten Sinne) gemacht wurden vergleichen muss. Aber im Alltag verdient es nicht unbedingt die Huldigungen, die es so oft bekommt … insb. von Leuten wie mir. Sobald ich eine „alltagstaugliche“ Zahl im Zusammenhang (Laenge, Masse, Zeit) høre, stelle ich mir Mehltueten anstatt Kilogram, Colaflaschen anstatt Volumen und Stress oder Zeiteinheiten anstatt Laengen vor … und letztere kønnen sogar noch unterschiedlich sein, je nach Verkehrsmittel … oder anders: ich stelle mir alles AUSZER metrischen Einheiten in meinem Alltag vor.

Und selbst das Rechnen ist physikalisch gesehen nur in kleinen Bereichen metrisch. Ich wuerde sagen bis zu Laengen von ca. 1/2 Million Kilometer, dann faengt man eher an in Lichtsekunden zu rechnen. Ab ca. 50 Millionen Kilometern in astronomischen Einheiten, ab ca. 1 Billion Kilometern in Lichtjahren und ab ca. 1 Billiarden Kilometern in Parsec … und irgendwann ist alles so weit weg, dass man nur noch in Rotverschiebung rechnet. Keine einzige dier Einheiten ist mit den anderen Einheiten mittels einer fein durch 10 teilbaren Konstante „verbunden“. Vielmehr ist es ein buntes Kuddelmuddel an Umrechnungsfaktoren. Und alle Umrechnungsfaktoren beziehen sich auf Dinge die man sich vorstellen kann (mehr oder weniger).

Dito, bei der Zeit. Im ganz Kurzen ist alles metrisch, aber schon die Minute hat 60 Sekunden … wenigstens bleibt der Faktor auch fuer die naechste Einheit erhalten. Und dann kommt der Tag mit seinen 24 Stunden … aber das basiert ja wenigstens alles noch auf der Zahl 6 … aber die 6 ist definitiv nicht metrisch. Und dann schwankt die Anzahl der Tage im Monat … und das Jahr laeszt sich weder in eine 10-er Zaehlung noch eine 6-er Zaehlung pressen (auch der franzøsische Revolutionskalendar løste Problem nicht in Gaenze). Dennoch, wird so vieles in Jahren angegeben. Und sobald man 10 Jahre voll hat, geht es wieder mit 10-Faktoren los … wobei eine Dekade oder ein Jahrhundert ja dann doch auch wieder nicht mit der „durch 1000 teilen“ Regel zusammen passt. Und ich hab auch noch nie jemanden sagen høren: ich bin jetzt 0.044 Millenia alt … vielleicht sollte ich damit anfangen, einfach um die Leute zu verwirren … tihihi.

Die gleichen Ueberlegungen zur Masse ueberlasse ich euch, meinen lieben Leserinnen und Lesern, zur Uebung als Hausaufgabe.

Die Einheitlichkeit (!) aller Masze (und Gewichte … wie man frueher sagte, auch wenn ein „Gewicht“ ja auch nur ein Masz fuer Masse ist) ueber die Dorf- und Landesgrenzen hinweg (und ebenso wichtig: ohne Aenderungen dieser Einheitlichkeit ueber die Jahre) ist wichtiger als der Umrechnungsfaktor zwischen den verschiedenen Einheiten der verschiedenen Skalen. Es ist fein, dass dieser im metrischen System ein Faktor 1000 ist. Das macht bestimmte technische Berechnungen auf gewissen, eher limitierten Skalen (siehe oben), einfacher.

Aber wenn alle Leute einheitlich irgend ein anderes System benutzen wuerden, weil sie damit aufgewachsen sind, dann waere das in den allermeisten Faellen genauso gut. Ich brauche naemlich nie ’ne Tonne Salz beim Kochen und wenn ich mal 10 Liter Milch brauche, dann schreibe ich nicht „10 Liter Milch“ auf den Einkaufszettel sondern nur „Milch x10“ (man beachte hier, dass ich die Maszeinheit weglasse). Heutzutage muss das naemlich nicht mehr im Laden abgemessen werden und ich kann mich drauf verlassen, dass eine Tuete Milch genauso viel Fluessigkeit enthaelt wie die die daneben steht. Und ja! Es liegt an genau der Vereinheitlichung, dass ich mich drauf verlassen kann. Was fuer eine das ist, ist aber egal und in den USA wuerden es dann eben nur zwei grosze Milchflaschen werden (da fehlt dann zwar ungefaehr 1 Liter, aber bei 10 Litern kommt’s darauf dann auch nicht mehr wirklich an bzw. ist das Kuchenrezept angepasst).

Zusammengefasst bedeutet das zwei Sachen:
1.: Wer im Glashaus sitzt (und selber alles als „Døner pro Fuszballfeld“ im Geiste wahrnimmt), sollte sich nicht ueber Leute lustig machen die das direkt, also ohne Umwege (mehr oder weniger) lebensferner Maszsysteme, tun.
2.: Das macht natuerlich im obigen Bilde auch schon den Ursprungsbeitrag unnuetz. Es kuemmert mich doch ueberhaupt nicht, wie viele Fuesze in einer Meile sind. Eine Meile bedeutet doch viel eher, dass ich das nicht laufen werde, sondern in 2 Minuten (eine Zeiteinheit) mit dem Auto (eine „Arbeitseinheit“ oder „Stresseinheit“ oder „Faulheitseinheit“ wenn man auch gehen kønnte) da bin.

All das Gesagte ist natuerlich anders zu sehen, wenn ich Zucker in andere Laender verschicken oder an der internationalen Raumstation mitbauen will … aber das sind lebensferne Sachen, die mit 99.999% des Lebens der aller-aller-aller-aller-aller-allermeisten Menschen nix zu tun haben … nicht mal dann, wenn sie in ferne Laender reisen, weil man sich dort dann recht schnell auf ein anderes Messsystem einstellt. Und fuer den Rest reicht es, wenn man sich auf ein System einigt, das muss aber mitnichten das Metrische sein.
Wenn man hingegen das Leben besagter aller-aller-…-allermeisten Menschen bedenkt frage ich mich dann doch, ob das Maszsystem der USA nicht vielleicht doch besser (da lebensnaeher) ist.

Da faellt mir ein, dass ich dazu mal was zur Temperatur hatte, bei der die Experten lange Zeit meinten, dass das ueberhaupt nicht objektiv gemessen werden kann (und im Alltag tun wir das immer noch nicht … da geht’s nur um warm oder kalt bzw. darum ob die Brøtchen noch weisz oder schon angebrannt sind).

So viel Geschrieben und zum Abschluss kann ich leider nur sagen, dass mich diese Erkenntnis zum „Spielverderber“ macht. Ich lache (nicht mehr) ueber Sachen die viele andere Menschen in meinem Umkreis voll witzig finden … und dann kann ich meinen Mund nicht halten und møchte den Leuten zwar nicht ihren Spasz nehmen, ihnen aber gerne klar machen, warum es sich lohnt, sich in andere Menschen hinein zu versetzen … und sehr schnell haben die Menschen um mich herum keine Lust mehr auf, als Moralpredigten wahrgenommene, lange Monologe von mir und fangen an sich selbst zu zensieren wenn ich dabei bin und erzaehlen keine Witze mehr … und damit habe ich dann doch den ganzen Spasz verdorben … *seufz*.

So … damit das nicht so traurig endet hier ein Beispiel wie man sich-lustig-machen weglassen kann und dabei dennoch lustig bleibt:

Geklaut von hier … und ich bin zu faul um den urspruenglichen Erschaffer (bzw. Quelle) zu suchen (zumal ich ohnehin nicht denke, dass das von Erfolg gekrønt waere).

Witzig!

Ich wuensche erholsame Feiertage :) .

Posted by Tentacel on 2024/12/23 at 13:37 under Allgemein.
Comment on this post.

Ich stehe vor Dingen: Adam Smith‘ Grab

Ja genau! Das war der Typ der „die unsichtbare Hand des Marktes“ erfunden hat. Auszderm schrieb er das urst bekannte, urst wichtige (da urst einflussreiche), von mir aber nicht gelesene Buch „The Wealth of Nations„. Bei aller Kritik die ich gerne und oft am kapitalistischen System aeuszere, erkenne ich doch an, dass es doch auch fuer den viele Reichtum um mich drumherum, der mir das Leben unendlich viel einfach macht als vor 200 Jahren, verantwortlich ist. Und dieser Mann hat das zum ersten Mal systematisch analysiert und aufgeschrieben und damit ganz massiv Politiker und damit die Entwicklung der (nicht nur) westlichen Welt beeinflusst. In den „social sciences“ (das kann man nicht 1:1 auf die Sozialwissenschaften im dtsch. uebertragen; es kommt aber sehr nahe) ist es von allen vor 1950 publizierten Buechern, das am zweithaeufigsten zitierte. Haeufiger zitiert ist nur „Das Kapital“.

Apropos Marx … auch wenn er gerne ueber Vulgaerøkonomen und deren Machwerke schimpft, so zaehlt er Smith nicht zu denen und lobt die Erkenntnisse die dieser Mann hatte … auch wenn er sie oft genug (und oft scharf) kritisiert.

Lange Rede kurzer Sinn: es ist nicht verwunderlich, dass ich bei meinem Besuch in Edinburgh das Grab dieses Mannes …

… besuchte. Fetzt wa!

Posted by Tentacel on 2024/12/19 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (iv (b)) – Omno(r)mno(r)mno(r)mno(r)mierte Reihen

Beim letzten Mal wurden die Spalten der Falschfarbendarstellungen normiert. Ohne weiteren Aufhebens schreibe ich heute nur, dass das Gleiche (mutatis mutandis) auch fuer die REIHEN der Falschfarbendarstellungen gemacht werden kann (und damals auch gemacht wurde). Oder anders: aus jeder originalen, nicht normierten Falschfarbendarstellung werden zwei normierte Falschfarbendarstellungen „geboren“ und beim letzten Mal zeigte ich nur eins der „Kinder“.

Zunaechst wieder der Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Reihen):

WOW! Der helle Bereich „springt“ um fast hundert Reihen nach oben von 2020 zu 2023! Mit allem was wir bisher wissen ist das aber leicht zu erklaeren. Der Grund fuer dieses Phaenomen liegt wieder einmal in der Wikipedia Hauptseite, die bei den 2020-Daten nicht dabei ist und ueber 5 Millionen Zitate auf sich vereint. Letzteres entspricht auf der Abzsisse der allerletzten Zitategruppe und die kann man hier nicht sehen, weil ich die Abzsisse bei Zitategruppe 200 abschneide. Wenn man sich das aber anschaut, dann ist da eine helle Spalte. Wenn man das in Betracht zieht wird die Frage warum es ueberhaupt einen hellen Bereich nahe der Ordinate gibt, und sich nicht nur alles am Ende tummelt, viel interessanter.
Zum Glueck ist das auch leicht zu erklaeren, denn eines der wichtigsten (noch nicht reproduzierten) Ergebnisse war, dass die Anzahl der Links und die Anzahl der Zitate zusammenhaengen. Je mehr von dem Einen, desto mehr von dem Anderen. Oder anders, wenn eine Seite nur wenige Zitate erhaelt, hat diese sehr wahrscheinlich nur wenige Links. Aber einer dieser Links geht definitiv zur Hauptseite waehrend sich die anderen Links i.A. ueber die gesamte Abzsisse verteilen kønnen (Letzteres muss gleich modifiziert werden, kann hier aber erstmal so bestehen bleiben). Das fuehrt natuerlich dazu, dass die letzte Spalte bei kleinen Werten auf der Ordinate immer heller wird, waehrend die Zaehler in den entsprechenden Zellen aller anderen Spalten nur ganz langsam grøszer werden.
Je høher man auf der Ordinate geht, desto mehr Zitate und damit mehr Links haben die entsprechenden Seiten. Prozentual gesehen nimmt der Anteil den die Hauptseite an der Anzahl der Links hat also ab. Und nun die erwaehnte Modifikation: auf der Abzisse gesehen gibt es viel mehr Seiten mit wenigen Zitaten als mit vielen Zitaten. Ja, die Links zitieren dann zwar Seiten die sich prinzipiell „gleichmaeszig ueber die gesamte Abzsisse ausdehnen“, aber es werden viel mehr Seiten nahe des Ursprungs zitiert. Das bedeutet natuerlich, dass die Zaehler dort høher zaehlen als in den allermeisten anderen Spalten und deswegen hat man einen hellen Bereich nahe der Ordinate, der dann sogar den Zaehler der Hauptseite ueberstrahlen kann (eben weil der entsprechende „Zaehler“ prozentual weniger „reinhaut“).

Ich schrieb das so ausfuehrlich, weil man das „Springen“ in allen reihenweise normierten Bildern sieht. Der Rest ist wie beim letzten Mal im Wesentlichen wieder nur „Rauschen“ und die Veraenderungen desselben. Womit ich direkt zum ich zum Links-ueber-Zitate Bild (mit normierten Reihen) ueber gehen kann:

Hier sieht man den „Sprung“ besser, weil sich die Ordinate nicht so lang hinzieht … ansonsten nix weiter von Interesse und deswegen geht’s gleich weiter zum Links-ueber-Links Bild (mit normierten Reihen):

AHA! Hier sehen wir den Uebeltaeter! … .oO(oder ist es eher eine Uebeltaeterin, denn das Substantiv „Seite“ ist weiblich?) … ja genau … hier sehen wir die Uebeltaeterin! Und was ich oben in vielen Worten beschrieb (auch wenn es keine 1000 waren) ist hier sofort zu sehen. Ich nehme an (habe es aber nicht nachgepreuft), dass der helle Streifen bei Linksgruppe 150 auf der Abzisse der Wikipedia Hauptseite entspricht. Hier hatte ich also Glueck, dass besagte Seite weniger als 200 Links hat (ich bin ziemlich sicher, dass die Anzahl der Links und die Zitategruppe hier noch 1:1 „projiziert“ werden) und damit nicht im abgeschnittenen Teil des Bildes landet.

Als Letztes noch schnell das Zitate-ueber-Links Bild (mit normierten Reihen) …

… und da ich oben bereits alles haargenau erklaerte, sieht man sieht hier eigtl. nix Neues. … Ach ja … der zweite, schwaechere, vertikale Streifen wird wohl zu der (anderen) Seite gehøren die ueber 1 Million Zitate auf sich vereint, bei der ich aber nie nachschaute um was es sich dabei handelt.

Beim letzten Mal hatte ich ganz zum Schluss noch ein Bild ohne „abgeschnittene“ Ordinate gezeigt, und dort sah man helle vertikale Streifen. Wenn man sich alles, also ohne „abgeschnittene“ Abzsisse, anschaut, denn sieht man solche Streifen auch hier wieder. Diesmal sind die natuerlich horizontal und treten wieder nur auf, wenn die Ordinate (da wir die Reihen normieren) die Linksgruppe praesentiert. Da diesbezueglich hier nix weiter zu holen ist und ich dazu alles schon beim letzten Mal sagte, spare ich mir das entsprechende Bild zu zeigen.

Sooo … das war’s … noch nicht, denn damals hatte ich den Eindruck, dass sich in den groszen schwarzen Bereichen noch Information versteckte. Um die aufzuspueren musste ich aber die Daten noch mehr bearbeiten. Diesen Prozess konnte ich auch erweitern und generalisieren und darauf gehe ich dann beim naechsten Mal ein (und sicher auch beim uebernaechsten Mal … und vielleicht darueber hinaus … das weisz ich gerade aber noch nicht).

Posted by Tentacel on 2024/12/13 at 13:37 under Allgemein.
Comment on this post.

Das ist alles nur (bei Epiktet) geklaut …

… (obligatorisches Video … .oO(sag mir wie alt du bist, ohne mir zu sagen wie alt du bist) … krass, wie „frisch“ das auch nach ueber 30 Jahren noch ist … hatten (haben) schon Talent die (damals) jungen Maenner … und das sag ich als jemand, der das damals nicht so dolle fand und der auch heute nicht solcherart Musik hørt … aber darauf wollte ich gar nicht hinaus und das hat ~~nicht mal~~ nur sehr sehr entfernt mit dem heutigen Thema zu tun.

Aber der Reihe nach.

Zunaechst verweise ich nochmals auf dieses, fuer ~~die Welt~~ das Universum so wichtige Werk:

Im Zeiten Teil — Willing, Kapitel 9 — Epictetus and the omnipotence of the Will, werden die Philosophien von Paulus (von Tarsus … JA! DER!) und Epiktet verglichen. Das ist an und fuer sich auch sehr spannend, aber mir geht es nur um diesen kurzen Abschnitt:

[…] they share an almost instinctive contempt for the body–this „bag“, in Epictetus words […]

… … … Wait! … … … WHAT?

An dieser Stelle MUSS ich wieder einmal auf den den mglw. von mir am øftesten verwiesenen Artikel (ist es doch eine Art Dreh- und Angel-, mindestens der erste, mehr oder weniger klar, artikulierte Ausgangspunkt, fuer viele, mein _ich_ betreffende Fragen) verweisen … denn diesem gab ich den Titel „Fleischsaecke“ … wait! … what?

Ich erinnere mich noch vage, dass es mir damals schwer fiel einen Titel zu finden … weniger bewusst, als viel mehr „instinctive“ landete ich dann bei dem Gewaehlten. Und auch wenn ich es nicht direkt sage, so kønnte man aus den dort ~~dargestellten~~ angerissenen Ideen einen gewissen „contempt“ fuer meine sterbliche Huelle herauslesen. Sage ich doch (diesmal ganz direkt), dass diese ja eigentlich nur den kleinsten Teil dessen ausmacht, was (ich oder) andere „sehen“, wenn sie an mich denken.

Aber ich møchte mich hier nicht wiederholen. Vielmehr geht es mir darum, dass es mir nicht zum ersten Mal passierte, dass ich was von wem Beruehmtes lese und mich dann „aergere“, dass Gedanken und Ideen die mich selber auch (oft schon laenger) beschaeftigen schon vor Jahrzehnten, Jahrhunderten, oder gar Jahrtausenden von wem anders ausgedrueckt wurden.

Wobei der Gebrauch des Wortes „aergern“ hier erklaert werden muss. Es aergert mich natuerlich mitnichten, dass die besagten beruehmten Leute das (laaaaange) vor mir diskutiert haben. Ganz im Gegenteil, vielmehr freue ich mich urst drueber. Zum Einen, weil’s schmeichelhaft ist, dass viel viel wichtigere Menschen als ich das auch beschaeftigt hat. Zum Anderen, weil eben diese Menschen eine bestimmte Idee nicht nur besser ausdruecken, sondern auch VIIIIIEEEL besser durchdacht haben und mir mit meinen eigenen Gedanken und Herangehensweisen diesbezueglich oft unglaublich voran helfen.
Der „Aerger“ betrifft eher mich selbst. Ja, ich bin auf eine Idee auch von alleine gekommen und habe die Gedanken dazu unabhaengig gedacht (wenn auch laengst nicht auf so raffinierte Art und Weise). Ich muss mich da also nicht „unter’n Scheffel stellen„.
Gleichzeitig fuehle ich mich aber wie’n „Betrueger“ der nix Originelles macht … siehe, der Titel dieses Beitrags. Dem ist natuerlich nicht so, aber trotzdem: *seufz*.

Das Zitat ist ein besonders krasses Beispiel, denn es stellt nicht nur die gleiche (gar die selbe?) Idee an sich dar, sondern benutzt auch (beinahe) die exakt gleichen Worte. Da hab ich nach dem ersten kurzen „Aerger“ und vor allem groszer Verblueffung erstmal gelacht, darob dessen, dass das Universum ganz generelle Herausforderungen fuer die Menschheit parat hat, welche auch nach Jahrtausenden nicht geløst sind und vermutlich nicht løsbar sind … zumindest nicht auf dieser Ebene des Daseins … und mir sind andere (vulgo: spirituelle) Ebenen ganz grundsaetzlich versperrt … das entbehrt schon nicht einer gewissen Ironie.

Und nun wisst ihr, meine lieben Leserinnen und Leser das auch :)

Addendum: der Gedanke mit den „Fleischsaecken“ scheint sich uebrigens durch die Philosophie ganz von Anfang an zu ziehen. Im ersten Teil Teil des selben Buches — Thinking, Kapitel 10 — The intramural warfare between thought and common sense, paraphrasiert (und zitiert) Hannah Arendt Platos Gedanken von beinahe einem halben Millenium eher (ich lasse den Kontext mal weg):

[One desire of] [t]he „true philosopher,“ […] [is that] he may be free from all kinds of business and especially be rid of his body, which always demands to be taken care of, „falls in our way at every step … and causes confusion and trouble and panic,“ […].

Und gleich im naechsten Abschnitt wird René Descartes von Hannah Arendt zitiert, welcher mehr als 1 1/2 Jahrtausende nach Epiktet meinte (Kontext wieder wieder weggelassen) …

„[…] as long as the soul is attached to the body it may be bothered in its operations by the bad disposition of the body’s organs.“

Ich kann mich nur wiederholen: „[…] vermutlich nicht løsbar […]“.

Posted by Tentacel on 2024/12/05 at 13:37 under Allgemein.
Comment on this post.

Kevin Bacon – Anhang A2 – Reproduzierbarkeit 4: ein maechtiges Werkzeug (iv (a)) – Omno(r)mno(r)mno(r)mno(r)mierte Spalten

Weil man damals nicht viel sah (und immer noch nicht viel sieht), wenn man sich alles auf einmal anschaut bzw. nur das bisschen was um den Ursprung rum passiert, normierte ich die Matrizen.
Kurz zur Wiederholung: Normierung bedeutet in diesem Fall, dass ich alle Werte einer Spalte durch den grøszten Wert in besagter Spalte dividiere. Dadurch wird die maximale Intensitaet auf eins festgesetzt und alle Spalten haben den selben maximalen Wert (nur eben (mglw.) an anderen Stellen).

Durch die Normierung wurde das viele Schwarz zumindest teilweise deutlich farbenfroher und man konnte viel mehr von dem sehen was eigentlich passiert. Das Wort „teilweise“ bezieht sich darauf, dass sich die Farben immer noch nahe der Abzsisse „tuemmelten“ … weswegen die Bilder hier und heute zwar den gesamten Definitionsbereich zeigen, auf der Ordinate aber nur bis zum Wert 200 gehen.

Und los geht’s wieder mit dem Reproduzierbarkeitsteil — das Zitate-ueber-Zitate Bild (mit normierten Spalten):

Bis auf eine Ausnahme passiert nix Wesentliches. Vielleicht gibt es ein Muster in den Bildern, ich denke aber, dass die Laenge und Intensitaet der einzelnen Spalten zufaellig ist. Das nennt man auch „Rauschen“ und Rauschen veraendert sich nunmal ueber die Zeit.
Die Ausnahme ist der helle Streifen in den 2020-Daten bei einer Zitategruppe von ca. 2600. Der ist entweder nicht mehr existent in den 2023 Daten, oder hat sich deutlich nach rechts, in die Naehe von Zitategruppe 5000 verschoben. Auch wenn ich das nicht geprueft habe, so denke ich nicht, dass Ersteres zutrifft. Der Grund liegt darin, dass sich der helle Streifen damals als zur Seite CinemaScore gehørend herausstellte. Die ist zu wichtig um einfach zu verschwinden. Auszerdem stellte sich damals auch heraus, dass die Art und Weise wann besagte Seite zitiert wird etwas speziell ist und dieses Spezielle kønnte eine deutlich høhere Anzahl an Zitaten drei Jahre spaeter durchaus mit einschlieszen.

Das schlieszt den Reproduzierbarkeitsteil ab und wie beim letzten Mal gehe ich sofort zum Links-ueber-Zitate Bild (mit normierten Spalten) ueber:

Das ist ja nun etwas komplett Neues, aber ich denke, dass man auch hier wieder vor allem Rauschen und Veraenderungen darin sieht.
Im Vergleich zum (spaltennormierten) Zitate-ueber-Zitate Bild ist es interessant, dass der helle Bereich nicht auf nur ein paar wenige Reihen nahe der Abzsisse konzentriert ist sondern sich ueber fast 30 Reihen ausdehnt. Ebenso ist der „Start“ des hellen Bereichs um ca. 10 Reihen nach oben verschoben. Und dann sind da noch zwei „Artefakte“ (?); zwei Steifen die sich etwas nach rechts ziehen. Einer in Reihe 13 oder 14 der von Zitategruppe 0 bis ca. 500 / 600 reicht und ein zweiter, schwaecherer zwischen den Reihen 32 und 36, von ca. Zitategruppe 200 bis ca. 1200.
Ich lass das alles jetzt einfach so stehen und mache da nix weiter mit.

Vielmehr gehe ich direkt ueber zum Links-ueber-Links-Bild (mit normierten Spalten)

Im Wesentlichen wieder nur Rauschen. Es gibt aber eine Abweichung die von groszem Interesse ist: der helle Bereich laeuft nicht ueber die gesamte Abzsisse. Vielmehr wird dieser „schwaecher“ ab ca. Linksgruppe 700 und ist nur noch sehr schwach, mit vielen Unterbrechungen ab ca. Linksgruppe 1100.
Das bedeutet ja, dass Seiten mit vielen Links, NICHT am haeufigsten von Seiten mit wenigen Links zitiert werden, denn dann wuerde der helle Bereich sich komplett durchziehen. Vielmehr scheint es so, dass solche Seiten von anderen Seiten mit zum Teil deutlich mehr als 50 Links zitiert werden. Letzteres ist aber nicht systematisch und deshalb sind die hellen Pixel (also das Maximum einer Spalte) bei Seiten in Linksgruppen ueber ca. 1100 zu groszen Teilen wie die Sternen am Himmel (also zufaellig) verteilt. Ich komme ganz am Ende darauf zurueck.

Als (vor)letztes das Zitate-ueber-Links-Bild (mit normierten Spalten):

Ah ja … sieht im Wesentlichen aus wie erwartet — eine Mischung der oben diskutierten und gezeigten Phaenomene. Der helle Bereich ist wieder schmal und nahe der Abzsisse (weil die Ordinate die Zitategruppe darstellt) und weil auf der Abzsisse die Linksgruppen abgetragen sind, tritt auch hier der „Sternenhimmel“ auf. Deswegen schreibe ich da niz weiter zu.
„Komisch“ sind in den 2020-Daten nur die duennen vertikalen Streifen die um Zitategruppe 110 (auf der Ordinate) auftreten. Die sieht man zwar nicht mehr, wenn man sich das Links-ueber-Links Bild (mit normierten Spalten) der 2020-Daten ohne „abgeschnittene“ Ordinate anschaut …

… aber deren „grosze Bruder“ tauchen bei ungefaehr Linksgruppe 700 auf der Ordinate auf! Ich habe da keine Erklaerung fuer, denn ich habe das nicht weiter untersucht, es sieht aber dem „Blob“ von damals erstaunlich aehnlich. Nur dass ich damals noch deutlich mehr als eine Normierung machen musste um ueberhaupt auf diese Anomalie aufmerksam zu werden, und beim „neuen Werkzeug“ faellt das einfach so raus.
Es scheint sich hierbei um eine Art „Linksphaenomen“ zu handeln, denn ich sehe das NICHT in den Bildern bei denen die Abzsisse die Zitategruppen praesentiert. Auch hier wieder: das soll reichen und es folgt nix weiter.

Abschlieszend kann ich auch dieses mal sagen: cool wa! Das neue Werkzeug „keeps on giving“. Das war’s aber noch nicht, denn weil es zu viel geworden waere, bekommen die reihenweise normierten Bilder ihren eigenen Beitrag (den naechsten).

Posted by Tentacel on 2024/11/29 at 13:37 under Allgemein.
Comment on this post.