… ist das hier: Das schønste Diagramm ist Fig. 5 aus „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction“ … *hust* … von Luis W. Alvarez, Walter Alvarez, Frank Asaro und Helen V. Michel in Science 208 (4448), 1980, pp. 1095–1108:

Fig. 2 entnommen aus Alvarez, L. W., Alvarez W., Asaro F. und Michel, H. V. „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction„, Science 208 (4448), 1980, pp. 1095–1108 … *hust*.

Ich finde das so toll, weil der Informationsinhalt so dicht und sehr aesthetisch visualisiert ist. Davon abgesehen, gibt es drei bemerkenswerte Merkmale, welche es aus der Masse der mittlerweile sicherlich mehrere tausend Diagramme, die ich gesehen und selbst erstellt habe, heraus hebt.

1.: Einige Punkte „brechen aus“ … das ist etwas, was ich unter allen Umstaenden versuche zu vermeiden … dabei kann das so gut aussehen.
2.: Vier verschiedenen Ordinaten. Zwei verschiedene Ordinaten habe ich ja auch manchmal, aber allermeistens sind diese fuer verschiedene Daten im selben Diagramm.
3.: Der absolute Clou: die Ordinaten sind logaritmisch, linear, loagrithmisch! DAS fetzt ja wohl mal voll (und traegt maszgeblich zur massiven Nuetzlichkeit (und Schønheit) dieses Diagramms bei). Ich hatte neulich ueberlegt das auch mal zu machen, mich dann aber dagegen entschieden … selbst wenn ich es gemacht haette, bezweifle ich, dass etwas derart Schmuckes herausgekommen waere.

Genug der vielen Worte … das Diagramm kann (und soll) als eigenstaendiges Kunstwerk fuer sich selbst sprechen.

Ach doch, eine Sache noch: der ganze Artikel, und insb. dieser Graf spielen auch indirekt in die Silur-Hypothese hinein. Im dazugehørigen Artikel werden nur relativ lang andauernde Ereignisse besprochen. Im obigen Diagramm sieht man aber, dass auch zeitlich sehr kurze Ereignisse (wie auch das Ende einer Zivilisation eines waere) sich gut „in den Steinen“ bemerkbar machen. Toll wa!

Warum das Ganze? Warum habe ich mich so ausfuehrlich mit einer Sache beschaeftigt, die im gesamten Wikipedialinknetzwerk weniger als 1 Promille (!) aller Seiten ausmacht?

Die Antwort auf die Frage ist ganz einfach: weil dieser Prozess das ist was Wissenschaft ausmacht und das finde ich persønlich sehr spannend und auf verschiedene Arten aeuszerst befriedigend. Man beachte das Wort „Prozess“, denn es geht dabei nicht nur um das Endresultat, sondern auch wie man dort hingelangt.
Verkuerzend gesagt fuehrte die Untersuchung und das systematische Verstehen des Zustandekommens einer Kuriositaet im (wieauchimmer gearteten) Signal nicht nur zu einem generellen Erkentnissgewinn sondern auch zur Entdeckung einer bisher unbekannten Sache.

Hier war es ein langer Schwanz bis ueber LL59 hinaus in allen Signalen. Bei den Archipelen war ein Balken in einem Histogramm mit vielen Balken etwas høher als erwartet.
Hier hielt ich es urspruenglich fuer ein Artefakt der urspruenglichen Datenaufbereitung. Bei den Archipelen haette ich es einfach auf die nicht zitierten Seiten (spaeter als „isolierte Insel der Unzitierten“ bezeichnet) schieben kønnen. In beiden Faellen haette ich die „kleinen Reste“ die nicht unter diese Erklaerungen fallen in den schon oft erwaehnten Fehler „schieben“ und es dabei belassen kønnen ohne schwerwiegende Konsequenzen fuer die allgemeineren Resultate. Letzteres ist durchaus legitim wenn die Effekte ohnehin nicht viel ausmachen.
Beide Male beschaeftigte ich mich aber mit einer Winzigkeit in der Menge aller Wikipediaseiten und machte nur dadurch die coolen Entdeckungen :) .

Was hat das nun alles mit dem Ende der Dinosaurier zu tun. Nun ja, das ist einfach zu erklaeren und ich verweise sogleich auf den schønsten wissenschaftlichen Artikel den ich in meinen ueber 40 Jahren in diesem Universum gelesen habe (und mir sind ein paar wirklich Gute untergekommen in der ganzen Zeit). Ich meine „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction“ … *hust* … von Luis W. Alvarez, Walter Alvarez, Frank Asaro und Helen V. Michel in Science 208 (4448), 1980, pp. 1095–1108.
Das ist der Artikel in dem das erste Mal das Aussterben der Dinosaurier ganz konkret in Form von Beweisen mit dem Einschlag eines Asteroiden in Verbindung gebracht wurde.

Ein Artikel der irgendwie mit Dinosauriern UND dem Weltraum zu tun hat ist ja an sich schon cool. Aber dann wird auch noch ein irgendwie mystisches Material untersucht … und mag mir hier niemand behaupten, dass Iridium so banal wie Eisen oder Aluminium ware.

Aber warum der Artikel fuer mich den Status des schønsten wissenschaftlichen Artikels (ever) hat liegt daran, weil darin genau das gemacht und dargelegt wird was mich dazu brachte Wissenschaftler zu werden (und warum ich immer noch einer bin, wenn auch eher untypisch).
Die Behauptung wird plausibel dargelegt und in einen grøszeren Zusammenhang gepackt. Die Resultate akribischer Untersuchungen werden herangefuehrt um die Behauptung zu stuetzen. Das Ganze wird mit Material von einem anderen Ort auf der Erde wiederholt. Ein Vergleich mit einem bekannten Ereignis (ein gewaltiger Vulkanausbruch) mit aehnlichen (wenn auch viel kleineren) Konsequenzen wird herangefuehrt um die Plausibilitaet weiter zu festigen und (erstaunlich genau!) abzuschaetzen wie grosz der Asteroid gewesen sein muss um die erwaehnten Resultate besagter akribischer Untersuchungen zur Folge zu haben. Letztlich werden alternative Erklaerungen ernsthaft diskutiert (und verworfen).
Und das Ganze ist wirklich gut und verstaendlich geschrieben und wird durch groszartige, aussagekraeftig und mit Informationen vollgeladene Diagramme unterstuetzt.

Und was hat das alles mit „meinen“ Archipelen oder Ketten zu tun? Das ist ebenso leicht zu erklaeren, denn die Autoren des Artikels haben eine 1 cm breite „Anomalie“ in einer ueber dreihundert Meter dicken Gesteinsschicht untersucht. Das ist ein Sprung ueber vier Grøszenordnungen. (Am zweiten Ort war die untersuchte Schicht i.A. ein paar Zentimeter und die Gesamtformation ca. 10 m dick … also immer noch zwei bis drei Grøszenordnungen). Zur besseren Veranschaulichungen zeige ich ausnahmsweise mal ein direktes (und nicht nachempfundenes, oder abfotografiertes) Bild:

Fig. 2 entnommen aus Alvarez, L. W., Alvarez W., Asaro F. und Michel, H. V. „Extraterrestrial Cause for the Cretaceous-Tertiary Extinction„, Science 208 (4448), 1980, pp. 1095–1108

Die Schichtdicke ist in Spalte (a) zu sehen und die entnommenen Proben in Spalte (f). Die Proben H bis L sind alle aus der nur 1 cm dicken, mit Iridium angereicherten Schicht. Bzgl. dessen was die restlichen Spalten darstellen verweise ich auf den Artikel.

Und da war’s wieder: fetzige Wissenschaft die sich mit einer „Kuriositaet“ in einem „Meer an Daten“ befasst und zu einem Erkentnissgewinn fuehrt, der dann sehr schnell Einzug in den Wissenskanon der Menschheit (und auch die Lehrbuecher fand).
Letzteres wird mit dem was ich hier ueber das Wikipedialinknetzwerk heraus finde natuerlich nicht passieren, aber der zugrundeliegende Prozess, die wissenschaftliche Methode, ist im Wesentlichen der Selbe … und darum mache ich das Ganze

… … …

Nun hatte ich beim letzten Mal nicht nur den schønsten wissenschaftlichen Artikel, sondern auch das schønste Diagramm was mir jemals untergekommen ist versprochen. Es ist nicht das Obige (auch wenn das erstaunlich nahe ran kommt). Weil der Artikel nun aber schon wieder so lang ist, verschiebe ich das auf ein anderes Mal.

Wow! Bis zum Buchstaben „V“ habe ich es gebracht. Ich dachte, dass es nur ein paar Beitraege (so vier oder sechs oder so) werden. Aber die „Reise“ war voll spannend und ich habe mehr und mehr voll interessante Sachen entdeckt.

Wie eigentlich fast immer begann die Reise indem ich ueber einen Artikel stolperte. Dieser enthielt ein Faktum, welches mir Angst bereitete: Zocken verursacht Krebs. Eine kurze Fermiabschaetzung des Problems brachte mich zur Erkenntnis, dass ich das mal im Detail betrachten muss. Dies fuehrte mich zu mehr Quellen und wie schon øfter erkannte ich dadurch, dass ich nicht umhin komme mir die Rohdaten zu beschaffen um das mal alles selber nachzurechnen. Letztere enthielten Begriffe die ich nicht kannte und bei denen ich erstmal lernen musste, was die bedeuten. Dieses Verstaendniss erlaubte mir Werte auszurechnen die ich gerne haben wollte, welche aber nur (mehr oder weniger) indirekt in den Rohdaten enthalten waren. Und dann ging’s erst richtig los.

Ich erkannte schnell, dass Krebs an sich im Wesentlichen nicht wirklich vermeidbar ist, aber dass es weit weniger wahrscheinlich ist daran zu erkranken oder zu sterben als meine Angst mir versucht weis zu machen. Insbesondere lernte ich, dass es rational gesehen wenig sinnvoll ist, sich ueber ganz bestimmte Krebsarten Sorgen zu machen, nur weil man von denen schon mal gehørt hat. Es sei denn wenn paffend am Strand sitzen mit dm Sangria in der Hand eine bevorzugte Freizietbeschaeftigung ist. Dies aber brachte mich zum Anfang zurueck, denn meine Lieblingsfreizeitbeschaeftigung soll demnach auch ein Risikofaktor sein; zum Glueck nur fuer eine Krebsart (da ich ein Mann bin, bei Frauen waeren es zwei). Und selbst da fuehrt es nicht zu massiv erhøhten Krebsdiagnosen. Auszerdem kann der (negative) Einfluss meines Hobbies nicht so grosz sein, dass es extra Aengste rechtfertigt, denn bei den seit Jahrzehnten zu beobachtenden Trends gibt es andere, unterliegende Ursachen die einen viel grøszeren Einfluss haben. Puuh, Glueck gehabt.

Damit haette ich alles abschlieszen kønnen, aber ich fand es voll spannend zu sehen, dass und wie sich Sitzen ueberhaupt in den Daten bemerkbar macht.
Abschlieszend, kam ich dann noch mit einer so guten Nachricht, die jedweden negativen Effekt des Zockens ueberkompensiert; toll wa!

Lange Miniserie, kurzer Sinn: Ja, um Krebs komm ich im Grunde genommen nicht drumrum. Als Mann wird es vermutlich Prostatakrebs, aber insgesamt ist es ein komplett statistischer Prozess, da kann ich NIX gegen machen, auszer vorher an ’ner anderen Sache zu sterben. Aber die Zahlen zeigen, dass es sich nicht lohnt sich den Kopf zu zerbrechen. Und so lange man nicht raucht oder urst viel saeuft oder in der Sonne liegt, und versucht jeden Tag ’n Spaziergang zu machen ist man statistisch gesehen schon auf der besseren Seite (nicht nur bzgl. Krebs sondern auch bzgl. Herz- und Kreislauf oder bzgl. des zu groszen Kørpervolumens).
Nur das Altern kann halt nicht aufgehalten werden … und ist absolut … womit sich der Kreis schlieszt … aber es ist besser, wenn ich damit jetzt meine Ruhe finde, als wenn mich das fuer den Rest meines Lebens bekuemmern wuerde … und ich mach das halt derart, dass ich mir die Daten persønlich anschaue (und interpretiere) … … … und dann ewig drueber schreibe … tihihihi.
Und wiedereinmal bin ich froh, dass ich mein Studienziel erreicht habe *froi*.

Ach so … eine Konsequenz dieses Prozess versuche jetzt jeden Tag, egal welches Wetter, wenigstens einen Spaziergang zu machen. Ich bin jetzt ueber 40, es ist høchste Zeit … mal sehen wie ich das durchhalte. Auszerdem versuche ich Zuckerprodukte noch mehr aus meiner Diaet zu entfernen … aber nicht auf Teufel komm raus. Ich mag meinen Honig im Tee und meine Kirschmarmelade und den Knoppers ab und zu schon sehr gern und die sind ja ein Teil meiner Lebensqualitaet.

Ich verweise zunaechst auf das linke Diagramm der ersten Abbildung des letzten Beitrags. Dann setze ich mich auf LL10 und finde dort 144 Familien. Eine von denen ist die Tairov OKO-X Familie bestehend aus Tairov OKO-1, Tairov OKO-4 und Tairov OKO-7.

Das machte mich stutzig, denn das sind keine unterschiedlichen Jahre von Sportvereinen … und tatsaechlich, deren Linkfrequenzen sind deckungsgleich; haben also (nicht nur) das Maximum an der selben Stelle und bilden somit keine Kette. Vielmehr werden die drei Seiten von List of aircraft (Ta) zitiert, welche auch auf LL10 maximal ist, aber bereits auf LL9 einen Wert erreicht, welcher nur 1/5 weniger als der Maximumswert ist. Letzteres erklaert, warum das Maximum der obigen drei Seiten auf LL10 und nicht auf LL11 zu finden ist.

Das ist also ’ne „falsche Familie“ und auf LL10 finde ich 12 solcher „Flugzeugtypenfamilien“ (auch wenn mindestens eine nicht zu Flugzeugen gehørt). Diese spezifische Sache kønnte prinzipiell wieder gefixt werden. Worauf ich aber immer noch keine Lust habe, denn zum Einen kann ich das wieder in den beruehmten 10%-Fehler schieben und zum Zweiten machen die im Gesamtbild noch weniger aus, als die Zahl von 12 „Flugzeugtypenfamilien“ vermuten laeszt.
Letzteres spielt darauf an, dass sich in den 144 regulaeren Familien (inkl. „Flugzeugtypenfamilien“)  insgesamt 1365 Seiten aufhalten. Die „Flugzeugtypenfamilien“ bestehen aber im Schnitt aus nur 2 oder 3 Seiten. Ueberabschaetzend enthalten solche Familien ca. 50 Seiten … das entspricht einem Fehler von weniger als vier Prozent … realistisch vermutlich sogar weniger als zwei Prozent.

Natuerlich nimmt die Anzahl solcher Sachen zu, je kleiner das Linklevel ist. Aber ich behaupte jetzt einfach, dass meine Resultate schon ganz gut stimmen ab LL10 … das ist so’n Bauchgefuehl nachdem ich mir den Kram nun so lange und im Detail angeschaut habe.

Der Clou an der ganzen „Jagd auf Artefakte“ zeigt sich aber ganz deutlich auch auf LL10: es gibt definitiv ueber 100 Ketten in denen sich mehr als 1000 Seiten tummeln!
Das sind 100 Mal mehr als ich zunaechst annahm, nach der (mehr oder weniger) zufaelligen Entdeckung des „São Paulo FC“-Artefakts. So wie die Archipele handelt es sich hierbei also definitiv um ein Charakteristikum des Wikipedialinknetzwerkes und nicht um ein Artefakt.
Besagtes Merkmal wird aber durch nur sehr wenige Seiten verursacht und ist mit vielen Effekten „verwurschtelt“, was eine genaue Betrachtung vonnøten machte um dieses Charakteristikum nachzuweisen. Das wiederum ist Wissenschaft und macht mich froh … … …

… … … und bringt mich zum Ende der Dinosaurier und dem schønsten Diagramm, welches mir in meinen 40+ Jahren in diesem Universum untergekommen ist … beim naechsten Mal.

Als ich, zwecks Katalogisierung, durch alle meine Comics ging, entdeckte ich zu meiner Freude, dass ich Star Wars Comics habe. Bzw. erinnerte ich mich dann daran, dass ich die damals wirklich gekauft hatte. Dies geschah in einem „medialen Umfeld“ welches nicht unaehnlich zu dem war was ich bzgl. Aliens und Predator schrieb.

Als ich jung war, sah es in Dtschl. mau aus was Star Wars Comics betraf und als die Special Edition zum 20-jaehrige Jubilaeum dann doch in dieser Form erschien …

… kaufte ich die vier Hefte sofort. Natuerlich waren die Comics ein nicht versteckter „cash grab“, aber da es sonst fast nix zu Star Wars gab (auszer die bei Sat1 auf VHS aufgenommenen, viel geschauten Filme) fand ich das voll toll und die sind auch gar nicht mal so schlecht.

Mit Episode I bis III kamen dann mehr, irgendwie den Filmen zuzuordnende Star Wars Comics nach Dtschl. und ich freute mich sehr darueber. Aber beim nochmals durchlesen war ich von der Qualitaet sowohl der Stories als auch der Zeichnungen ziemlich enttaeuscht. Hier stellte sich dann auch heraus, dass obiger „cash grab“ eigentlich recht gut war. Wieauchimmer, deswegen sammelte ich Star Wars Comics nicht weiter … mit einer Ausnahme auf die ich beim naechsten Mal naeher eingehe.

Neulich stolperte ich ueber diese drei Molekuelstrukturen:

Quelle, Quelle, Quelle, Lizenz, alle Molekuele erstellt von Jynto, Beschriftung von mir, alle Abbildungen sind verkleinert.

Das erste Molekuel ist dank der Beschriftung unschwer zu identifizieren. Das zweite Molekuel ist Tee und das Dritte ist besser bekannt als Schokolade.

Dass die drei Molekuele aehnlich sind war mir so halb bekannt (wenn auch definitiv mehr passives, denn aktives Wissen). Aber dass Tee und Schokolade praktisch Kaffee mit nur einer winzigen Aenderung ist, war mir nicht bewusst. Es ist ja jeweils nur eine klitzekleine CH3-Gruppe (an zwei verschiedenen Stellen) durch ein einzelnes Wasserstoffatom ausgewechselt worden!

Solche (kleinen) Aenderungen fuehren natuerlich zu einer anderen Elektronenverteilung ueber das Molekuel und somit zu (mehr oder weniger leicht) geaenderten elektrischen Potentialen. Letzteres erklaert die verschiedenen physiologischen Wirkungen. Warum Kaffee mir nun gar nicht schmeckt, Tee sehr wohl und Schokolade am meisten von den Dreien erklaert das aber auch nicht … … … jaja … ich weisz, dass da immer noch mehr als nur die drei Molekuele drin sind.

Der Ansicht von der Seite beim letzten Mal folgt heute die Draufsicht:

Aufgrund der deutlich høheren magnetischen Flussdiche bei der das rechte Bild aufgenommen wurde, treten die Unterschiede der verschiedenen Gewebearten nicht nur im Kontrast sondern auch in der Schaerfe viel klarer hervor.

Ansonsten aber bilde ich mir, dass alles gleich geblieben ist. Das waere natuerlich høchst spannend, wenn das fMRI-Bilder waeren und man da dann Veraenderungen sehen kønnte. Es ist ja doch sehr viel passiert zwischen den beiden Bildern. Aber es sind „leider“ „nur“ „normale“ MRT-Bilder.

Doch noch nicht die Zusammenfassung, denn ich stolperte ueber etwas, was in diesem Zusammenhang (sehr!) relevant ist.

Ich erwaehnte mehrfach, dass es gut ist, dass heutzutage so viele Mensche an Krebs erkranken. Dies deswegen, weil es ein Ausdruck eines gewaltigen Fortschritts ist und bedeutet, dass so viele Menschen nicht mehr an anderen, vermeid- oder behandelbaren Krankheiten sterben. Als Illustration mag die Woche vom 8. bis 15 August 1665 aus „London’s dreadful visitation: or, a collection of all the Bills of Mortality for this present year: beginning the 27th of December 1664 and ending the 19th of December following: as also the general or whole years bill. According to the report made to the King’s most excellent Majesty / by the Company of Parish-Clerks of London.“ dienen:

Das war ein Pestjahr und hatte entsprechend viele Pesttote zur Folge. Aber das unterstreicht meinen Punkt eher mehr, als weniger. Ansonsten faellt auf, dass es nur 2 Krebstote gibt. Dabei ist zu natuerlich zu beachten, dass laengst nicht alles was Krebs war auch als solcher erkannt wurde. Hier ist eine Uebersetzung (vieler) alter Krankheitsnamen zu unseren heutigen Begriffen zu finden. Bspw. bedeutet „Winde“ nicht, dass die 8 Leute sich zu Tode gepfurzt haben. Vielmehr handelt es sich dabei um verschiedenste Krankheiten, unter anderem sicherlich auch kolorektales Karzinom.

Nichtsdestotrotz, Todesursachen wie bspw. „Wormes“, „Scurvy“ oder „Found dead in the Street“ sind heutzutage so selten, dass sie tatsaechlich eine Nachricht wert sind … zum Glueck.

Und das ist natuerlich ein ganz fantastischer Fortschritt und ich bin froh, dass ich im Vergleich zu damals eine deutlich erhøhte Wahrscheinlichkeit habe, an Krebs zu erkranken. So paradox diese Aussage auch zunaechst scheinen mag.

Das PETM trat vor ca. 55.5 Millionen Jahren auf (die 55.8 Millionen Jahre in der dtsch. Wikipedia sind ohne Quellenangabe) und ist …

[n]ach übereinstimmendem wissenschaftlichem Urteil […] die prägnanteste und am schnellsten auftretende natürliche Erwärmungsphase […] der letzten 66 Millionen Jahre.

Im rechten oberen Diagramm von Fig. 1 zeigen Schmidt und Frank die δ13C und δ18O Signale … und ich habe ein paar Probleme mit damit.
Zum Ersten die unterschiedlichen Einheiten der Ordinate; Promille fuer δ13C und equivalente Temperatur fuer δ18O. Das geht, sieht aber scheisze aus und waere meiner Meinung nach besser mit zwei unterschiedlichen Ordinaten gewesen. Auszerdem ist’s komisch, denn das muss ja noch extra umgerechnet werden.
Zum Zweiten størt mich die Einteilung der Abszisse mit dem Nullpunkt am Start des PETM. Ja das geht und ist im Rahmen des Artikels durchaus sinnvoll, aber ich finde das unnøtig kompliziert.
Deswegen machte ich mich auf, die Originaldaten zu finden … um (mal wieder) festzustellen, dass das nicht so einfach ist wie ich (mal wieder) gehofft hatte. Die entsprechenden Artikel sind meist nicht frei verfuegbar bzw. die Rohdaten ohnehin nirgendwo verøffentlicht. Zumindest einen Artikel aus dem Daten fuer besagtes Diagramm stammen konnte ich lesen. Was ich in dortiger Fig. 3a sehe stimmt mit dem was Schmidt und Frank zeigen ueberein (auch wenn dort die Tiefe (des Bohrkerns) benutzen wird anstatt der Zeit, aber das kann man umrechnen).

Aber ich wollte Schmidt und Frank gar nicht kontrollieren; ich vertraue darauf, dass deren Daten stimmen. Ich wollte das aber selber darstellen und dafuer brauche ich die Rohdaten … an die ich nicht heran komme.
Zum Glueck gibt es flinke Menschen die freie (Hurrah!) und kostenlose Software programmieren welche eine massive Unterstuetzung dabei sind, Daten aus Diagrammen herauszupulen, wenn diese nur als Bild vorliegen. Toll wa!

Und so sieht das PETM (aus der Perspektive der δ13C und δ18O Signale) aus:

Nochmals kann ich nur sagen: toll, wa! Das zappelt zwar alles, aber trotzdem das Signal sehr klein ist (eine Aenderung des Isotopenverhaeltnisses ist erst in der dritten Nachkommastelle bemerkbar) kann man das PETM ziemlich klar auch nach ueber 55 Millionen Jahren noch erkennen. Ich find das voll krass und super spannend.

Das zeigt eindeutig, dass δ13C und δ18O als Kennzeichen fuer betraechtliche Umweltumwaelzungen auch nach vielen Millionen Jahren hergenommen werden kønnen.
Andererseits ziehen sich die Aenderungen des PETM ueber mindestens tausende von Jahren hin und sind somit nicht als Zeichen bzgl. des Endes einer Zivilisation zu interpretieren. Trotzdem fetzig!

Das soll genug sein fuer heute. Beim naechsten Mal geht’s noch weiter in die Vergangenheit zurueck.

Beim vorvorletzten Mal beschrieb ich, wie ich potentielle Kandidaten fuer „Ketten“ von Wikipediaseiten (vormals als „Artefakte“ bezeichnet) im Linkfrequenzsignal entdecken kann. Dann „setzte“ ich mich auf zwei Linklevel und beschrieb die letzten beiden Male welche Resultate eine solche Analyse zur Folge hat und wie die zu interpretieren sind.
Dabei machte ich auf vier generelle (!) „Phaenomene“ aufmerksam die alle zu einem „Kandidatensignal“ fuehren:
– Ketten aus Seiten die alle den selben „Familiennamen“ haben (bis auf eine unterschiedliche Zahl),
– „Patchworkfamilien“ in denen die Seiten eine Kette bilden aber alle unterschiedliche Namen haben,
– „Anhaenger“ zu den ersten Beiden und
– Seiten die aus welchem Grund auch immer ein „Kandidatensignal“ haben (bspw. „Anhaenger“ zu Seiten die NICHT zu einer Kette gehøren) aber nicht zu den ersten Beiden gehøren.

Nachdem diese viele Vorarbeit geleistet ist, kann ich ganz ohne Umschweife vorstellen, wie sich all das von Linklevel zu Linklevel veraendert:

Im linken Diagramm sieht man die „Entwicklung“ der ersten beiden Phaenomene. Das rechte Diagramm zeigt pro Linklevel die Anzahl aller potentiellen Kandidaten (schwarz), wieviele sich davon in regularen „Familien“ (rot) bzw. „Patchworkfamilien“ (blau) aufhalten und wie viele „Anhaenger“ (orange) es gibt. Das vierte Phaenomen ist nicht von Interesse, folgt aber aus den Zahlen der ersten drei.
Die gestrichelten Linien bei den Grafen zu den „Patworkfamilien“ dient nur der Fuehrung des Auges und kommt dadurch zustande, dass die entsprechenden Werte an der Stelle Null sind.

Zunachst ist zu sagen, dass bei kleinen Linkleveln die Kategorisierungen vermutlich immer schlechter werden, insb. fuer die „Patchworkfamilien“. Auf LL5 ergibt die Analyse 50-tausend „Patchworkfamilien“, aber ich nehme an, dass die alle nicht echt sind und es sich hierbei nur um die Ketten mit 2 Elementen handelt, welche ich ja bereits beim letzten Mal als „verdaechtig“ und vermutlich (oft) unechte Ketten einstufte. Es sind also mehr oder weniger regulaere Seiten die aus welchem Grund auch immer ein Kandidatensignal haben mit ’nem Anhaenger dazu
Indirekt bestaetigt wird diese Vermutung durch den gewaltigen (!) „Absturz“ dieses Grafen innerhalb der … mhm … ich sag jetzt mal naechsten 5 Linklevel. Das bedeutet nicht, dass das Problem auf LL10 nicht mehr auftritt, aber zumindest, dass dessen Einfluss deutlich schwaecher ausfaellt.

Ab LL47 gibt es dann nur noch eine Familie, welche natuerlich das wohlbekannte „São Paulo FC“-Artefakt ist in welchem sich dann auch die noch verbleibenden Kandidaten alle aufhalten. Letzteres drueckt sich darin aus, dass ab LL48 die rote und schwarze Kurve im rechten Diagramm deckungsgleich sind. Der Unterschied von einem Linklevel kommt daher, weil von der anderen Familie die sich bis LL47 haelt nur noch das Endelement vorhanden ist. Weil es aber ganz allein steht und auch nicht als Anhaenger dem „São Paulo FC“-Artefakt zugeordent werden kann, faellt es unter das vierte Phaenomen. Dies wiederfaehrt auch dem „São Paulo FC“-Artefakt auf LL67 wo es noch einen Kandidaten, aber keine Familien (oder Anhaenger) mehr gibt.

Wichtiger Einschub: was ich im letzten Absatz schrieb war die besser zu verstehende Version; die Realitaet sieht ein klein wenig komplizierter aus (aendert aber Obiges nur so geringfuegig, dass ich die vereinfachte Erklaerung ueber der richtigen vorzog). Es ist bekannt, dass die letzten Nachzuegler erst auf LL72 aussteigen. Das bedeutet, dass die sich auf LL72 im Jahr 1930 des „São Paulo FC“-Artefakts befinden und von dort nicht wegkommen. Das bedeutet, dass das Jahr 1930 auf LL71 die letzten drei Zitate erhaelt, bevor die drei Nachzuegler im naechsten Schritt ins Jahr 1930 springen. Die Kette hørt also NICHT bei LL67 sondern geht noch ein paar Schritte weiter.
ABER auf LL67 befindet sich das Maximum des Jahres 1930. Danach ist das durchschritten und die Seite wird nicht mehr als Kandidat erkannt.
Lange Rede kurzer Sinn: alles Gesagte muss um ein paar Linklevel verschoben werden, weil das Maximum der Linkfrequenz einer Kettenseite nicht das Ende bedeutet. Nachzuegler generieren fuer ein paar Schritte mehr noch ein Antwortsignal (welches aber nicht mehr als Signal zur Erkennung von Kettenseiten herangezogen werden kann) und halten eine Kette die paar Schritte noch „im Rennen“. Aber das ist nur ’ne Kleinigkeit die qualitativ nix aendert und quantitativ nur ein Offset ist den man leicht hinzufuegen kann und deswegen handle ich das nur als Einschub ab.

Wieauchimmer, das war der einfache Teil. Nun geht’s um das erklaerungsbeduerftige Detail, dass die Anzahl der „Patchworkfamilien“ nicht monoton abnimmt. Das haengt auch mit dem eben Beschriebenen zusammen und ich erklaere genau anhand des Beispiels von LL22 (mit einer „Patchworkfamilie“) zu LL23 (mit fuenf „Patchworkfamilie“).

Dafuer schauen wir zunaechst auf die regulaeren Familien von denen es auf LL22 15 gibt und zwei von denen haben nur 2 „Familienmitglieder“. Im naechsten Schritt fallen die also (wie oben beschrieben) „raus“. Von Interesse ist nur die Familie welche auf LL22 aus 2000–01 Hyderabad C.A. season und 2001–02 Hyderabad C.A. season besteht wobei die zeitlich frueheste Seite, also die 2001-02 season, das Endelement ist auf dem man „sitzt und schaut“ wenn man sich auf LL24 befindet.
Deren Linkfrequenzen sind zusammen mit den Linkfrequenzen dreier relevanter Anhaenger in diesem Diagramm zu sehen (cf. text):

Das Endelement der obigen regulaeren Kette hat sieben Anhaenger. Vier davon werden NUR vom Endelement zitiert und verhalten sich wie erwartet (haben ihr Maximum in der Linkfrequenz also auf LL24): Fathima Reddy, Parth Satwalkar, Renjith Menon und Vijay Kumar (cricketer).
Interessanter ist der fuenfte Anhaenger Mangalapally Srinivas welcher von BEIDEN obigen seasons zitiert wird. Deswegen faellt das Maximum der Linkfrequenz von dieser Seite auf LL23; massiv zitiert durch die 2001-02 season (auf der man „sitzt und schaut“ auf LL23) und ein paar Zitate durch das Endelement, in dem sich auf LL23 schon ein paar „vorauseilende“ Seiten befinden. Weil das Maximum aber nicht VOR LL23 liegt wird Mangalapally Srinivas immer noch als Kandidat erkannt und faellt aus der Analyse nicht raus.
Die verbleibenden beiden Anhaenger Mohammad Ghouse Baba und Shivaji Yadav werden auch von zeitlich spaeteren seasons (in der Kette also frueheren Seiten) zitiert, haben das Maximum deswegen auf LL22 und fallen aus der Analyse raus, weil sie auf LL23 dadurch NICHT mehr als Kandidaten gehandelt werden.

Die ersten 5 Anhaenger bilden zusammen mit der 2000–01 Hyderabad C.A. season fuenf „Patchworkfamilien“ auf LL23 und der entsprechende Zaehler geht nach oben.
Die Kombination aus Endelement und Anhaenger fuehrt also zu falschen (?) „Patchworkfamilien“ … aber das diskutierte ich ja bereits beim letzten Mal.

Wie oben erwaehnt, vermute ich, dass bei kleinen Linkleveln unheimlich viele solcher falschen „Patchworkfamilien“ vorkommen. Prinzipiell liesze sich das fixen, indem man sich die Historie anschaut und Seiten die auf dem vorhergehenden Linklevel noch Anhaenger waren nicht als Element fuer „2 Mitglieder Patchworkfamilien“ zulaeszt. Da habe ich aber keine Lust drauf und das wuerde vermutlich auch nicht sooo einen riesigen Unterschied machen. Letzteres weder nach LL10 (weil man Endelemente von regulaeren Familien braucht und davon nie uebermaeszig viele auf einmal enden) und auch nicht vor LL10 denn da ist so viel „Schmu“ dabei (siehe oben), dass das Beseitigen falscher „Patchworkfamilien“ auch nicht mehr viel aus macht.

Im Allgemeinen ist das Konzept der „Patchworkfamilien“ gut um Ketten zu finden und es funktioniert auch. Die technische Umsetzung kønnte geaendert werden oder ich kønnte alle „Patchworkfamilien“ mit nur 2 Mitgliedenr raus schmeiszen. Dadurch wuerden vermutlich aber auch etliche wahre Patchworkfamilien raus fliegen und das løst auch nicht das Problem mit ECHTEN „Patchworkfamilien“ plus Anhaeger. Wie man’s dreht und wendet, man wuerde einen Nachteil gegen einen anderen tauschen und ich denke, dass sich die Ergebnisse qualitativ vermutlich nicht sehr aendern wuerden.
Wegen all des eben Gesagten behalte ich „Patchworkfamilien“ bei, aendere nix und bin mir der Nachteile bei der Betrachtung der Grafen bewusst.

Das soll fuer heute genug sein. Beim naechsten Mal zeige ich, dass es auch „falsche echte Familien“ gibt und gehe kurz darauf ein, warum trotz all diese Einschraenkungen das alles voll fetzig ist :) .