Archive for the ‘Allgemein’ Category

Endlich nach vielen Jahren (man schaue auf das Verøffentlichungsdatum des verlinkten Beitrags) wurde Ende des letzten Jahres nun endlich der zweite Band (des zweiten Teils) fertig:

Im ersten Teil liegen geologische Aeonen, Aeras und im Durchschnitt mindestens Perioden zwischen den einzelnen Bildern. Im zweiten Teil Anfangs immer noch Perioden aber der Abstand zwischen den Bildern schrumpfte schnell auf Epochen, Subepochen und Alter. Hier nun ist’s durchschnittlich ein Bild pro annum.

Es war eine sinnvolle Entscheidung dies in einen eigenen Band auszugliedern. Jetzt sind’s nur noch ein paar Jahre bis ich den Zukunftsband der Trilogie in vier Teilen in meinen Haenden halten kann. Ich freu mich drauf :)

Beim letzten Mal hatte ich im sechsten Diagramm drei Datenpunkt hervorgehoben. Diese wurden zufaellig ausgesucht (bzw. war der einzige „Nichtzufall“, dass die ungefaehr zum Anfang und Ende, bzw. der Mitte des Querbalkens gehøren sollten). Ich erwaehne das nochmal, denn das Verhalten der zugehørigen Seiten habe ich genauer untersucht. Dies zunaechst um den Ursprung des besagten Querbalkens aufzudecken. Das schaffte ich … und darum soll es heute gehen. Aber viel toller ist, dass ich dadurch Beweise fuer einen Sachverhalt fand, dessen Existenz ich schon fast von Anfang an vermutete. Aufgrund der involvierten Datenmenge konnte ich dem aber nie auf die Spur kommen … aber ich bin vor lauter Freude darueber schon viel zu weit im Erzaehlen … daher, der Reihe nach.

Hier nochmals das relevante Diagramm vom letzten Mal:

Fuer diese drei Punkte schaute ich mir die Linkfrequenz per Linklevel an. Zunaechst zeige ich die Daten aber nur fuer Umuarama und Robert John „Mutt“ Lange:

Kein Sorge, das „Chaos“ im rechten Diagramm ist kein Chaos sondern vielmehr das linke Diagramm nur anders aufgetragen.
Beide Seiten verhalten sich zunaechst so wie beim letzten Mal besprochen. Das Durchlaufen des (ersten) Maximums fuehrt zum (ersten) „Kreis“. Dann aber erfahren beide Seiten um LL25  nochmals eine „Welle von Zitierungen“. Naiv wuerde ich jetzt zunaechst denken, dass das zu einem zweiten Kreis fuehrt. Man beachte aber, dass beide Kurven einen „Knick“ im zweiten Maximum haben. Der sieht zwar eher unbedeutend aus, aber es ist dran zu denken, dass die Ordinate des linken Diagramms logarithmisch ist und die des rechten Diagramms linear.
Und plops … wenn man den Kurven im rechten Diagramm folgt (mit einem Auge auf den Kurvenverlauf im linken Diagramm), dann sieht man wieso im obersten Diagramm der Querbalken auftaucht: Das ist ein Resultat gespaltener Maxima (hier) um LL25.

Andererseits erklaert das aber nur die direkte Beobachtung und nicht wie der Querbalken ueberhaupt erst entsteht. Hier aber brachte mich der „Knick“ im zweiten Maximum auf die richtige Spur, denn das sieht verdaechtig wie das „São Paulo FC“-Artefakt aus. Es kann natuerlich nicht das Artefakt selber sein, denn zum Einen sind die Namen der Seiten falsch und zum Anderen werden beide Seiten bereits auf niedrigen Linkleveln zitiert. Dann sind’s vermutlich Meta-Artefakte, welche nur zustande kommen, weil die Seiten vom „São Paulo FC“-Artefakt zitiert werden.

Das kann ich natuerlich kontrollieren und tatsaechlich, Umuarama wird von den Jahren 1972 und 1974 (der São Paulo FC season(s)) zitiert. Kurz ueberschlagen … 1930 ist maximal auf LL66 … 1972 ist 42 Schritte von 1930 entfernt … die erste Spitze des zweiten Maximums von Umuarama liegt bei 24 … plus 42 = 66 … ditt stimmt! Super!
Im Uebrigen ist es sehr gut, dass da die „Zitiatluecke“ bei 1973 ist. Dies deswegen, weil des gespaltene Maximum bei den Artefaktseiten durch „Reflexionen“ zustande kommt. Meta-Artefakte kønnen grundsaetzlich keine Reflexionen aufweisen. Aber weil 1974 von den meisten Seiten zwei Linklevel spaeter erreicht wird, entstehen dennoch zwei Spitzen.

Bei Robert John „Mutt“ Lange sieht die Situation anders aus. Aber der Artikel wuerde zu lang werden, wenn ich darauf noch eingehen wuerde. Darum verschiebe ich das lieber auf’s naechste Mal … und damit auch die im Diagramm angekuendigte „Ueberraschung“.

Beim letzten Mal machte ich (hoffentlich) klar, dass die DNA an sehr vielen Stellen (bis zu 80 %) mit Methylgruppen besetzt ist, die ueberhaupt erst die richtige Funktion der DNA sicherstellen.

Aber das war nur der erste Teil dieser sehr spannenden Sache. Der zweite Teil, zum beim letzten Mal verlinkten ersten Teil (einer dreiteiligen Reihe), hat den schønen (weil eindeutigen und klaren) Titel „Epigenetics of the mammalian germline“ … und oioioi der ist voll toll.
Fuer den Zweck dieser Miniserie sei nur so viel gesagt: DNA-Methylierung wird zwei Mal geløscht.

Die erste Løschung geschieht kurz nach der Befruchtung der Eizelle und entfernt fast alle Methylgruppen von der DNA. Die Ausnahmen sind aeuszerst wichtig (wie so ziemlich jedes kleine Fitzelchen im Zusammenhang mit den Genen) und ich komme da beim zweiten Grund drauf zurueck. Die „Entsorgung“ der Methylanhaengsel ist wichtig (da war es wieder), denn von der DNA der Mutter und der Vater soll ja alles kopiert werden in der frisch befruchteten Eizelle. Da darf jetzt also keine Methylgruppe dran sein welche „Beruehren verboten“ ausdrueckt.
Auszerdem muss die DNA in den Gameten fuer sich genommen andere „Aufgaben uebernehmen“ als in der befruchteten Eizelle. Diese „Programmierung“ muss geløscht werden, bevor neue Aufgaben uebernommen werden kønnen.
Sobald sich die befruchtete Eizelle oft genug geteilt hat (bei Menschen wohl ab 8 Zellen) wird die DNA „reaktiviert“ durch „Neubestueckung“ mit Metylgruppen an den richtigen Stellen.

Die zweite Løschung passiert waehrend der Gametogenese. Genauer gesagt waehrend der Meiose, welche ja anders ist als die Mitose bei normaler Zellteilung (und hier im Webog bereits an anderer Stelle auftauchte). Der Grund liegt zum Einen in dem was ich bereits oben schrieb: die Gameten muessen spezifische (andere) Aufgaben erfuellen, entsprechend muss deren DNA anders „ausgedrueckt“ werden und die Methylgruppen an anderen Stellen sein.
Ein weiterer Grund liegt darin, dass bestimmte Gene, nur von einer Kopie (also NUR vom Vater oder NUR von der Mutter) „ausgedrueckt“ werden. Ein Beispiel ist das sogenannte Insulin-like growth factor 2, von dem nur das vaeterliche Allel „benutzt“ wird. Das liebevoll IGF2 abgekuerzte Gen ist natuerlich auch bei Frauen aktiviert, aber diese Aktivierung muss waehrend der Meiose der Eizelle geløscht werden, damit beim Kind nur das (gleiche) Gen des Vaters benutzt wird.

Achtung: all das ist eine super-mega-dolle Vereinfachung der Vereinfachung des verlinkten Artikels.

Wieauchimmer, am Ende all der Løschungen haben nur noch ca. 5 % der DNA Methylanhaengsel. Die Ausnahmen sind zum Einen die erwaehnten speziell markierten Gene wie IGF2, sind aber zum grøszten Teil sogenannten Transposonen zuzuordnen. Letztere sind sind DNA-Abschnitte die bei der Reproduktion an andere Stellen im genetischen Code „springen“ kønnen. Das kann natuerlich fatale Konsequenzen haben und durch die Methylgruppen wird der Zelle mitgeteilt, dass die nicht „aktiviert“ werden sollen bei den vielen Zellteilungen die nach der Befruchtung stattfinden, damit die bleiben wo sie sind.

Lange Rede kurzer Sinn: beim letzten Mal sagte ich, dass DNA-Methylierung urst wichtig ist und haeufig vorkommt und durchaus durch aeuszere Prozesse wie lange Hungerperioden entstehen kann. Hier ist nun festzuhalten, dass Methylierung bei der Entstehung neuen Lebens gruendlich geløscht wird und in nur ganz wenigen Faellen auf das Kind uebertragen wird.
Beim naechsten Mal komme ich dann dazu wie das dennoch durchaus, in seltenen Ausnahmen (!), zu „Uebertragungen“ auf’s Kind (und mglw. gar auf den Enkel) fuehren kann, aber mehr auch nicht.

Nach den linklevelabhaengigen Verteilungen der Linkfrequenz folgt die Abhaengigkeit der Linkfrequenz auf einem Linklevel vom Wert der Linkfrequenz auf dem Linklevel davor.
Gleichartige Untersuchungen waren bei den Selbstreferenzen sehr fruchtbar und mindestens interessant bei den totalen (und neuen) Links. Bei denen hielt sich das „Gezappel“ der Datenpunkte in Grenzen und ich konnte relativ viele (repraesentative) Verteilungen zeigen.
Heute muss ich das kleinteilig aufdrøseln, …

… denn die Daten streuen zu sehr und wuerden sich gegenseitig ueberdecken, wenn ich bei kleinen Linkleveln mehr als eine Verteilung in das selbe Diagramm packen wuerde. Zum Glueck passiert nicht all zu viel Unerwartetes und alles kann ganz schnell generalisiert werden, sodass ich ingesamt nur wenige repraesentative Kurven zeigen muss. Aber der Reihe nach.

Der sich zu nach rechts oben zuspitzende Blob aus Punkten zeigt im Wesentlichen ein Resultat welches schon nach der allerersten Auswertung der zuallererst untersuchten Grøsze (der Summenverteilung der totalen Links) qualitativ hergeleitet werden kann. Es ist wieder eine Kombination aus drei bekannten Sachverhalten. Zum einen wenigen Links und daraus resultierenden wenigen Zitaten anderer Seiten auf LL1. „Wenig“ bedeutet hier so ca. 1000 oder gar 10-tausend. Zum zweiten ein starker Anstieg der Anzahl von Links beim Uebergang zu LL2 und dem daraus folgenden starken Anstieg der Linkfrequenz. So Pi mal Daumen und nur ganz schnell auf den Blob geschaut wuerd ich sagen, dass ein Anstieg um zwei Grøszenordnungen stattfindet … was gut (genug) mit den totalen Links uebereinstimmt. Zum dritten halten sich „beliebte Seiten“ nicht bei kleinen Zahlen auf und bilden die nach rechts oben zeigende „Spitze“.

Im rechten oberen Diagramm ist der Uebergang von LL3 zu LL4 zu sehen; es wurde also nur ein Schritt ausgelassen. Der „Blob“ bei kleinen Werten nimmt zwar ab, aber verschwindet nicht. Das ist auch sinnvoll, denn es gibt immer noch Seiten mit niedrigen Linkfrequenzen, mindestens die im „São Paulo FC“-Artefakt.
Die meisten Seiten hingegen befinden sich jetzt im (breiten)  Maximum bzgl. der Links die sie jetzt „sehen“. Da die Linkfrequenz aber nur zaehlt _ob_ und nicht wie oft eine Seite gezaehlt wird, gibt es eine „scharfe Kante“ bzgl. der Linkfrequenz. Und das macht sich im 90-Grad-Knick rechts oben bemerkbar. Im Maximum werden Seiten von anderen Seiten maximal zitiert und beim naechsten Schritt gilt das weiterhin (die Seiten befinden sich immer noch im Maximum, oder nicht weit weg davon). Das fuehrt dazu, dass sich viele Seiten in die obere Ecke draengen.
Weiterhin wissen wir bereits, dass das Maximum fast genauso schnell wie es angestiegen ist, auch wieder abfaellt. Die Datenpunkte befinden sich also auf der Abzsisse immer noch bei hohen Werten, brechen im naechsten Schritt aber um bis zu drei Grøszenordnungen auf der Ordinate ein. Das ist da wo die Kurve eine Wende macht und sich „auf dem Weg zurueck“ begibt.

Im linken unteren Diagramm ist die Entwicklung um weitere drei Linklevel voran geschritten. Die Daten beschreiben jetzt einen „Kreis“ (im uebertragenen Sinne). Die Kurve „zieht“ ihr Ende nicht mit (wie bspw. bei den „Orbits“ der totalen Links), sondern wird immer weiter gedehnt … wie ein Kaugummi. Die Erklaerungen sind im Wesentlichen wie oben.

Im rechten unteren Diagramm sind beispielhaft drei deutlich høhere Linklevel gezeigt. Das Bild aendert sich quantitativ, aber nicht qualitiativ; das „Gezappel“ nimmt ab (weil weniger Seiten ingesamt zitiert werden), aber der zugrundeliegende Mechanismus aendert sich nicht. Die gruenen Punkte replizieren dann (wieder einmal) die bereits bekannten Werte aus dem „São Paulo FC“-Artefakt (nur auf andere Weise).

Mhmmm … also eigtl. scheint hier nix Interessantes zu passieren … bis man sich das Ganze mal (beispielhaft am Uebergang von LL25 zu LL26) in linearer Darstellung anschaut:

Wait! What!? Das aus der Ellipse ein Viereck wird verwundert mich nicht … aber wo zum Teufel kommt denn der Querbalken her? Ich muss das wohl wieder mal der Reihe nach angehen und nicht versuchen gleich alles auf einmal zu bearbeiten.

Zunaechst ist das gelbe Quadrat da mit Absicht drin. Es verdeutlicht ganz beeindruckend die logarithmische Komprimierung: bei linearer Darstellung sind die kleinen Werte, welche in der doppellogarithmischen Darstellung zu sehen sind, an den Rand und noch mehr in die Ecke gedraengt. Wir sehen die also „nicht“ mehr. Umgekehrt gilt natuerlich das Gleiche fuer grosze Werte.
Das ist natuerlich kein Nachteil der einen oder der anderen Darstellung. Beide sind sehr wertvoll und offenbaren unterschiedliche Informationen.

Was ist nun aber mit dem gigantischen Querbalken? Nun ja, der ist fuer die feine „innere Rundung“ in der logarithmischen Darstellung verantwortlich. Nach dem oben Besprochenen sollte es hier nur eine spitze Ecke geben (und die sehen wir ja auch). Durch den Querbalken, welcher (bei linearer Darstellung) Werte „in der Mitte des gelben Quadrats“ repraesentiert, wird die Bedingung der  „scharfe Kante“ aber „aufgeweicht“ und die Kurve nach innen abgerundet. Durch das Hervorheben von drei Datenpunkten versuche ich diesen Sachverhalt zu verdeutlichen.

Das soll fuer heute reichen. Ich habe den zugrundeliegend Mechanismus der zur Entstehung des „Kreises“ so ausfuehrlich behandelt, weil das Wissen darum nuetzlich wird, wenn ich beim naechsten Mal versuche der Entstehung des Querbalkens auf die Spur zu kommen.

Der Trend vom letzten Mal war der „Average Annual Percent Change“ (AAPC) der Maenner zwischen 20 und 49 Jahren, die mit kolorektalem Karzinom (CRC) in den Jahren 2002 bis 2012 diagnostiziert wurden. Fuer Norwegen lag der Wert bei 0.7 und fuer Dtschl. bei 2.
Da dieser Trend mit historischen Daten berechnet wurde, kann ich das fuer die oben genannte Gruppe (in einer anderen Tabelle) nachschlagen (klick mich) und sehe dort, dass dieser Trend im Wesentlichen mit der Datennahme in den 50’er Jahren anfing … seltsam … das muss ich mir mal genauer anschauen:

In diesen zwei Diagrammen sieht man die Crude Rate per Altersgruppe (farbkodiert), fuer norwegische Maenner, bezogen auf das Jahr wann die Diagnose „kolorektales Karzinom“ gestellt wurde. Man beachte die unterschiedlichen Skalen der Ordinaten. Die Altersgruppe 45-49 Jahre ist zur Referenz in beiden Diagrammen dargestellt (rote Datenpunkte/Linie). Wie immer dienen die Linien nur zur besseren Visualisierung des Trends.

Im linken Diagramm sieht man, dass fuer norwegische Maenner unter 40 (und ueber 20) Jahre mglw. tatsaechlich ein neuer (!) aufsteigender Trend seit ca. der Jahrtausendwende stattfindet. Gleichzeitig sieht man aber auch, dass fuer norwegische Maenner ueber 40 Jahre die „Kurven“ schon immer einen positive Anstieg haben und nicht nur um einen Mittelwert zappeln. Das Selbe gilt fuer noch aeltere Maenner, wie man im rechten Diagramm sieht.
Letzteres ist natuerlich verstaendlich und haengt wieder damit zusammen, dass weniger (aeltere und alte) Menschen an anderen vermeid- oder behandelbaren Ursachen sterben. Fuer Maenner unter 40 Jahre spielt das keine grosze Rolle ab ca. den 60’ern des letzten Jahrhunderts (denn von denen ueberleben die Allermeisten schon laenger).
Gleichzeitig ist relevant, dass sich in dem aufgetragenen Zeitraum das Berufsleben (mehr sitzende Berufe) und der Lebensstil im Allgemeinen (høhere Kørpermasse, ungesundes Essen, weniger Bewegung) geaendert hat. Fuer ueber 60’jaehrige spielt das nur in den letzten paar Datenpunkten eine (untergeordnete) Rolle, da alte Menschen in vorherigen Jahren diesen Faktoren nicht lange genug „ausgesetzt“ waren. Fuer junge Menschen fuehrt dies zu dem oben erwaehnten Trend ab der Jahrtausendwende (nicht unbedingt davor, denn da war drauszen-spielen noch weiter verbreitet und Eltern pass(t)en bei der Ernaehrung der Kinder noch mehr auf als bei sich selber).

Ich erwaehne dies alles weil das problematisch wird, wenn die Gruppe der 40-59-Jaehrigen betrachtet wird. Ganz offensichtlich sterben weniger von denen seit den spaeten 50’er Jahren (die entsprechenden Kurven gehen stetig aufwaerts). Gleichzeitig ist diese Gruppe vom veraenderten Lebensstil betroffen (aber noch nicht genug, wenn die Diagnose 1962 gestellt wurde).

Im Artikel von Ugai, T., et al. (immer noch nicht befreit) werden die 40-49-Jaehrigen als zu den jungen Menschen gehørend betrachtet. Das bedeutet, dass beim letzten Mal erwaehnten Trend des AAPC diese vermutlich einen groszen Anteil beitragen. Das wiederum hat zur Folge, dass besagter Trend noch viel weniger durch Sitzen (oder Cola trinken und Pizza essen) ausgløst sein kann, also ich zunaechst annahm, weil ja bei denen auch der nicht-an-anderen-Sachen-verstorben-Effekt eine nicht unbedeutende Rolle spielt. Toll wa!

Ebenso møchte ich darauf hinweisen, dass selbst die hohe Crude Rate von ueber 600 bei den ueber 80-Jaehrigen immer noch eine Chance von weniger als 1 % entspricht an CRC zu erkranken. Noch so’n „toll wa!“-Ding.

Damit kønnte beim naechsten Mal alles mit Ja-der-Effekt-is-echt-aber-im-groszen-und-Ganzen-ist’s-doch-vom-Zufall-abhaengig-ob-und-was-fuer’n-Krebs-ich-bekomme-und-deswegen-muss-ich-mir-keine-all-zu-grosze-Sorgen-machen-und-schon-gar-nicht-mein-mir-liebstes-Hobby-aufgeben zusammenfassen. Ich will aber nochmal darauf zurueckkommen, dass man den Einfluss einens sitzendes Lebensstils tatsaechlich in den Krebsdaten sieht. Ist naemlich voll spannend … und wenn ich damit durch bin, dann kommt die Zusammenfassung und das Ende dieser Miniserie.

Dieser Beitrag ist einfach zu schreiben.

Krankheiten werden Teil der Persønlichkeit. Das geht schon bei der Erkaeltung los und gilt fuer chronische Krankheiten sowieso. Das ist auch gar nicht schlimm, denn im Leben eines (chronisch) kranken Menschen spielt besagte Krankheit zwangslaeufig eine wichtige Rolle. Letzteres weil betroffene Menschen ihren Alltag deswegen anpassen muessen.

Im Zusammenhang mit dieser Miniserie meine ich damit hauptsaechlich Krankheiten die „in den Genen liegen“ und somit an die Kinder weitergegeben werden kønnen. Also nicht Krebs, denn dieser entsteht (meistens) zufaellig. Vielmehr meine ich Krankheiten wie Marfan-Syndrom, Chorea Huntington, Haemophilie oder Sichelzellenkrankheit; aber auch Diabetes, Allergien, Depressionen (die alle genetische Komponenten haben) und auch relativ harmlose Sachen wie Laktoseintoleranz … ach und eigentlich auch Haarausfall, denn der liegt meist auch in den Genen … ist aber natuerlich keine Krankheit.

Einschub (weil’s so spannend ist): man vermutet, dass defekte mitochondriale-DNA bei der die Entstehung von Diabetes einen Einfluss hat … voll spannend wa! … meine Quelle ist das beim letzten Mal empfohlene Buch.

Die Situation ist also die Folgende: eine Krankheit ist „Teil“ dessen was einen Elternteil ausmacht (oder beide) und ohne das zu pruefen behaupte ich, dass die allermeisten Menschen von diesem „Teil“ nicht møchten, dass deren Kinder das „weitertragen“. Oft genug steht das natuerlich nicht zur Wahl.

Alles zusammen fuehrt aber in ein „Dilemma“.
Zwei harmlose Beispiele zur Illustration (schwerwiegende Krankheiten sind selbsterklaerend). Eine Frau mit (genetisch bedingter) Glatze ist erpicht direkte Sonne zu vermeiden. Darum verbringt sie ihren Urlaub nicht im Sueden sondern woanders und findet das ueberhaupt nicht schlimm. Bei den Kollegen ist sie deswegen liebevoll als „der Eskimo“ bekannt und sie nimmt das fuer sich selbst auch an. Dennoch møchte sie nicht, dass ihre Kinder die Glatze „weitertragen“.
Ein Mann mit einer Eiallergie hat es sich zum Hobby gemacht Kuchenrezepte zu lernen, die keine Eier brauchen. Auf Arbeit erzaehlt er gerne davon und immer wenn’s dort Kuchen gibt bringt er einen mit. Deswegen ist er als „der Kuchenmann“ bekannt und er nimmt das fuer sich selbst auch an. Dennoch møchte er nicht, dass seine Kinder die Allergie „weitertragen“.

Aber ohne diese „Eigenheiten“ waeren die Beispielpersonen andere (und bei schlimmeren Krankeiten zum Teil sehr andere) Menschen — das Eine geht nicht ohne das Andere.
Meiner Meinung nach løst sich dieses Dilemma nur dadurch indem man einsieht, dass das im Titel beschriebene Konzept Unsinn ist. Leibliche Kinder tragen (vereinfachend gesagt) 50 % der elterlichen Gene in sich, aber keinen einzigen Teil dessen was das Wesen der Eltern ausmacht.

Weil ich nun schon mehrfach zu diesem Resultat gekommen bin muss ich dazu nicht mehr sagen.

Auch dieses Bild bedarf keiner weiteren Worte:

*lacht schon wieder*

Schmidt und Frank diskutieren kurz zwei Dinge, die charakteristisch fuer die Menschheit sind: globale Umweltverschmutzung durch …

[…] persistent organic pollutants (organic molecules that are resistant to degradation by chemical, photo-chemical or biological processes) […]

und globale Umweltverschmutzung durch Plaste. Letzteres ist eindeutig; Ersteres sind (stark vereinfachend gesagt) vor allem Pestizide und kuenstliche Schmiermittel welche sich wie ein duenner Film mittlerweile ueber die ganze Erde ziehen.

Bereits besprochenen wurden Kohlenstoff-, Sauerstoff- und Stickstoffanomalien. Die zugehørigen Prozesse treten aber auch natuerlich auf und das Signal muss (verinfachend gesagt) von diesem natuerlich vorkommenden Untergrund extrahiert werden.

Fuer „persistent organic pollutants“ die nicht in der Natur vorkommen ist es leicht vorstellbar, wie diese als Markierungen fuer eine Zivilisation benutzt werden kønnen.
Manche dieser Molekuele sind aber auch das Resultat natuerlicher Prozesse. Wenn kuenstlich erzeugte Molekuele solcher Art in vielen Millionen Jahren gefunden werden, so kann man diese dennoch von den natuerlich auftretenden Molekuelen unterscheiden. Der Trick liegt darin sich den Drehsinn besagter Molekuele (deren Chiralitaet) nutzbar zu machen.
In natuerlich auftreten Prozessen entstehen (fast) ausschlieszlich monochirale Molekuele. In unseren (bisherigen) technischen Herstellungsmethoden wird dies aber nicht unterschieden und somit treten beide Drehsinne in gleicher Menge auf. Wenn man dann ein sich falsch drehendes Molekuel findet, so ist das wie wenn man eins findet welches natuerlich nicht in der Natur vorkommt.

Demgegenueber sind Plaste einfach abzuhandeln. Wie bekannt landen diese als Mikroplastik im Ozean. Dort werden sie von Plankton gefressen und wenn das stirbt, „regnet“ es auf den Meeresboden wo es dann liegen bleibt.

Bei beiden Sachen weisz man nicht wie lange die sich halten. Aber beide Sachen sind (leider) oft ueber mindestens viele Jahrhunderte stabil. Die Stabilitaet haengt auszerdem von den Umweltbedingungen ab. Bei viel Sauerstoff und einer Sonne die Waerme und Licht spendet, gehen die Molekuele schneller kaputt als auf dem dunklen, kalten und sauerstoffarmen Boden der Meere. In der letztgenannten Umgebung haben kuenstliche Molekuele damit eine gute Chance in den sich zur Zeit bildenden Gesteinsschichten eingebaut und dort permanenter bewahrt zu bleiben.

Das soll dazu reichen. Beim naechsten Mal schaue ich mal, wie sich zwei der vorgeschlagenen Kennzeichen in bekannten Massenaussterbeereignissen bemerkbar machen.

Beim letzten Mal erklaerte ich detailliert anhand der totalen Links und den Selbstreferenzen was ich mit den „Seiten pro Grøzenordnung“ meine. Deswegen kann ich heute ohne viel Aufhebens sofort zur Linkfrequenz uebergehen. Zunaechst wieder zwei repraesentative Verteilungen zur Erinnerung:

Am Beispiel der Daten von LL16 kann man noch einen anderen Grund sehen, warum ich ueberhaupt auf die Idee gekommen bin die Seiten pro Grøszenordnung zu untersuchen (abgesehen davon, dass ich die „kollektive Bewegung“ untersuchen wollte). Aufgrund der Ueberlappung der Datenpunkte und weil diese (scheinbar?) gleichverteilt sind (die „Amplitude bleibt im Mittel gleich ab einer Linkfrequenz von ca. 100), sieht es so aus, als ob in jedem Intervall ungefaehr gleich viele Seiten liegen. Dem sollte aber nicht so sein, allein schon wg. der (visuellen) „logarithmischen Komprimierung“.
Bei den totalen Links kommt so ein Eindruck nicht auf, weil sich die Seiten nicht gleich verteilen. Bei den Selbstreferenzen ebenso nicht aufgrund des linearen Zusammenhangs (die Amplitude veraendert sich ueber ein Intervall).

Darum nun endlich die Verteilung der Seiten ueber die Grøszenordnung(en) in Abhaengigkeit vom Linklevel:

Uff, hier passiert am Anfang viel. Deswegen gehe ich da Schritt fuer Schritt durch.

Zunaechst lasse ich Gruppe 0 auszen vor. Die ist erstmal nicht relevant.
Auf LL0 befinden sich die meisten Seiten in Gruppe 1, werden also nur 1 bis 10 mal von anderen Seiten auf diesem Linklevel zitiert. Nur noch halb so viele Seiten werden 11 bis 100 mal zitiert (Gruppe 2) und gar 20 mal weniger Seiten befinden sich in Gruppe 3. Noch sehr viel (viel viel) weniger Seiten sind in den Gruppen 4 bis 6. Keine einzige Seite wir mehr als 1 Million mal zitiert.
Auf LL1 gibt es dann aber schon massiv viel mehr (totale) Links (zu LL2) und deswegen bewegen sich 80 % der Seiten aus Gruppe 1 raus und in høhere Gruppen hinein (werden also von (deutlich) mehr als 10 anderen Seiten zitiert, auch wenn der Wert von Gruppe 2 ebenso etwas abnimmt). Entsprechend steigt der Wert fuer alle høheren Gruppen an und wir sehen auch zum ersten mal Seiten die sich in Gruppe 7 befinden.
Auf den naechsten paar Linkleveln nimmt der Wert fuer høhere Gruppen weiter zu. Aber je „tiefer“ eine Gruppe liegt, um so eher ereilt sie das gleiche Schicksal wie Gruppe 1 und 2; die Seiten bewegen sich von dort zu høheren Gruppen. Fuer Gruppen 3 und 4 geschieht das auf LL2, fuer Gruppen 5 und 6 auf LL3 bzw. LL4.
Letztlich landen die allermeisten Seiten in Gruppe 7 deren (zugegeben relativ breites) Maximum ungefaehr mit den Minima der anderen Gruppen zusammen faellt.

Nach dem Durchschreiten des Maximums von Gruppe 7 aendert sich das Vorzeichen der „Bewegung“ und die Werte aller Gruppen (auszer von Gruppe 7) steigen ab LL7 wieder an. Hier aber geschieht das Gegenteil zum Anfang. Je „høher“ eine Gruppe ist, um so kuerzer ist die „Erholungsperiode“, denn die Seiten „migrieren“ schnell weiter zu „tieferen“ Gruppen. Entsprechend fallen die Werte aller Gruppen nach durchlaufen eines (weiteren) Maximums rasch wieder ab.

Ab LL9 fangen die meisten Seiten an in Gruppe 0 ueber zu gehen und ab LL11 sind die allermeisten Seiten dort angelangt, werden also nicht mehr zitiert.
Ich wuerde noch nicht sagen, dass dort dann schon die zitierenden Ursprungsseiten ins „São Paulo FC“-Artefakt „eingetreten“ sind. Dafuer ist die Dynamik in den Kurven der Gruppen noch zu grosz. Aber das laeszt nicht lange auf sich warten und auch wenn ich den genauen „Eingang ins Artefakt“ bisher nicht entdeckt habe, so ist mir das in so vielen „Messungen“ begegnet, dass ich sagen wuerde, dass der um LL20 liegt. Der ganze lange Schwanz kann ab dort eigentlich auszer acht gelassen werden.

Als ich mir die Kurven genauer anschaute wurde ich stutzig. Das sieht doch so aus, als ob das (zweite) Maximum von Gruppe 1 genau am Wendepunkt der Kurve von Gruppe 7 ist.  Faszinierend! Also habe ich die Gruppe 7 Kurve zwei Mal (numerisch) abgeleitet und siehe da …

… qualitiativ (also von der Form) aehnelt die Kurve von Gruppe 1 tatsaechlich der 2. Ableitung der Kurve von Gruppe 7.
Ich zerbrach mir einen Abend und den darauffolgenden Morgen den Kopf wie das sein kønnte. Ich ueberlegte hin und her wie die kollektive Bewegung der Seiten aussieht und verlor manches Mal den Ueberblick wo sich denn eine Seite nun befindet von einem Linklevel zum naechsten bzw. was eine Bewegung bedeutet. Am Ende kam ich auf den folgenden Mechanismus der obige Beobachtung erklaeren wuerde.

Die erste Ableitung ist der Anstieg einer Kurve. In diesem Zusammenhang also wie viel grøszer (oder kleiner) der Wert der Kurve von Gruppe 7 auf dem im naechsten Linklevel ist. Der Wert auf dem naechsten Linklevel wird aber dadurch bestimmt, wieviele Seiten von „niedrigeren“ Gruppen sich zu Gruppe 7 bewegen. Das wuerde zur Folge haben, dass die Kurven von niedrigeren Gruppen eigtl. der 1. Ableitung aehneln sollten. Und wenn man da mal schaut, dann findet sich durchaus eine Aehnlichkeit (auch wenn ich das hier nicht zeige, weil’s reicht das zu sagen). Fetzt ja.
Aber warum aehnelt die Kurve von Gruppe 1 dann der 2. Ableitung? Nun ja, (fast) alle Seiten befinden sich zunaechst in Gruppe 1. Von dort migrieren sie aber nur in den seltensten Faellen direkt zu Gruppe 7 (wenn ueberhaupt, ich habe das nicht kontrolliert). Viel mehr ist es so, dass sich die Seiten von Gruppe 1 zunaechst in die Gruppen 2 bis 6 bewegen. Damit „treiben“ die Seiten die Aenderung der Werte in diesen „Zwischengruppen“. Aha! Gruppe 0 ist demnach der Anstieg von denen. Und wenn die Zwischengruppen den Anstieg von Gruppe 7 bestimmen, so ist Gruppe 0 der Anstieg vom Anstieg und das ist genau das was die 2. Ableitung ist. Cool wa!

Da hab ich mich urst gefreut, dass ich darauf gekommen bin … … … und dann machten sich bereits am fruehen Nachmittag Zweifel breit, denn das ist alles viel zu gut um wahr zu sein.
Deswegen suchte ich nach Fehlern und fand die nicht in der Argumentation sondern in der Ausgangslage. Denn wenn man mal genauer hinschaut, dann aehnelt die Kurve von Gruppe 1 deutlich weniger der 2. Ableitung der Kurve von Gruppe 7, als es im obigen Diagramm den Anschein hat. Da ist mein Gehirn auf seine eigene, von der Evolution so eingerichteten, Mustererkennung hereingefallen.

Klar, das sieht auf den ersten Blick so aus, aber die Minima und Maxima der beiden Kurven sind selbst bei groszzuegiger Interpretierung um mindestens ein Linkelvel verschoben. Das fuer sich allein ist erstmal nicht so schlimm. Ich bin sicher, dass man dafuer eine Erklaerung finden kann und ich hatte schon angefangen nach einer zu suchen.
Dann kommt aber hinzu, dass die Funktionswerte auch nicht hinhauen. Klar, oben sind die linke und die rechte Ordinate schøn skaliert (hab ich mit Absicht gemacht). Aber die 2. Ableitung hat viel kleinere und auszerdem auch negative (!) Werte.
Es bleibt also nur noch die Form der Kurven ueber. Und wenn ich da ehrlich bin, sollte man nicht das Eine logarithmisch und das Andere linear darstellen sondern beide linear und das sieht dann so aus:

Tjaaaa … da war die grosze Aehnlichkeit dann (fast) ganz fort. Naja, intellektuell war’s dennoch ein interessantes Puzzle, auch wenn’s nicht stimmt.
Andererseits wiederum denke ich, dass obiger Mechanismus plausibel ist. Mein Bauchgefuehl sagt mir, dass das zumindest eine Rolle bei der „kollektiven Bewegung“ spielt. Aber in der mathematisch „geschlossenen“ Form wie besagter Mechanismus vorgaukelt sicherlich nicht.

Ich finde es wichtig auch die Fehler und wie man zu denen kommt und diese erkennt zu zeigen. „Falsch“ eingeschlagene Wege und daraus gelernte Lektionen sind (sehr) oft ein Weg zu neuen Erkenntnissen. Fehler sind also ein wichtiger Teil der wissenschaftlichen Methode, aber meistens unsichtbar, weil man ja nur die Erfolge aufschreibt.

Ach ja, es war natuerlich natuerlich ein „brain fart„, dass ich aus der (scheinbaren) Position des (zweiten) Maximums von Gruppe Null ueber dem Wendepunkt von Gruppe 7 schloss, dass Erstere die 2. Ableitung der Letzteren ist. Im Wendepunkt wird die 2. Ableitung naemlich null.

Und damit soll’s genug sein fuer heute.

Weil das „gemischten Verhalten“ der Linkfrequenzverteilungen so schwer zu interpretieren war, nahm ich mir beim letzten Mal vor mal zu schauen, wie sich das „Kollektiv“ der Wikipediaseiten von  niedrigen zu hohen Linkfrequenzen „bewegt“. Die schiere Datenmenge steht sich dabei selbst im Weg und deswegen entschied ich mich diese zu komprimieren und mir fuer jedes Linklevel nur anzuschauen …

[…] wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“ […]

Ich gab auch eine kurze Erklaerung was ich damit meinte:

[…] ich [schaue] mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. […] erhalten haben.

Das ist ein neues Konzept und recht viel auf einmal. Deswegen zeige ich erstmal wie das bei den totalen Links und den Selbstreferenzen aussieht, auch wenn man die „kolletkive Bewegung“ schon aus den einzeilnen Verteilunge ablesen kann.

Zur Erinnerung sind hier alle Verteilungen bzgl. der totalen Links pro Linklevel zu sehen und ich zeige nochmal zwei (mehr oder weniger) repraesentative Verteilungen:

Die grauen gestrichelten Linien illustrieren einen Teil des Konzepts der Datenkomprimierung. Weiterhin ist auch gleich eine weitere Vereinfachung zu sehen; anstatt immer zu sagen „wie viele Seiten 11 bis 100 Zitierungen haben“ (usw. usf.) sag ich einfach (in diesem Fall) Gruppe 2. Die Gruppennummer ist dabei die Zehnerpotenz der oberen Grenze des Intervalls auf der Abszisse. Der Wert fuer die untere Grenze is i.A. der Wert de oberen Grenze geteilt durch 10. Der Wert an der oberen Grenze ist in der jeweiligen Gruppe enthalten, der an der unteren Grenze nicht. Die einzigen Ausnahmen sind Gruppe 0 und Gruppe 1 wegen der Besonerheiten der nullten Potenz. Zur Ersteren zaehlen NUR die Seiten, die den Nullwert annehmen (der rote Balken, der zu LL2 gehørt). Zur Letzteren zaehle ich auch alle Seiten die den Wert eins annehmen.

Bei den zwei Beispielverteilungen wuerde ich also auf LL2 erwarten, dass alle Gruppen einen Wert haben, waehrend auf LL16 nur Gruppe 4 einen Wert hat.
Damit soll genug gesagt sein zum Prinzip und das ist das Ergebnis:

Weil das bei kleinen Linkleveln so unuebersichtlich ist habe ich nur ein paar repraesentative Gruppen reingepackt. Auszerdem ist das Diagramm ausnahmsweise laenger, damit man bei besagten kleinen Linkleveln nicht die Uebersicht verliert. Gestrichelte Linien verbinden Teile der Kurve einer Gruppe zwischen denen es keine Werte gibt.

Beim letzten Mal schrieb ich diesbzgl.:

Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben.

Und das ist genau das was man hier sieht … abgesehen von der letzten Aussage, weil ich Gruppe 0 weggelassen hab. Diese replizierte naemlich wieder nur ein altbekanntes Resultat, welches durch die ausfuehrliche und mehrfache Besprechung des „São Paulo FC“-Artefakts hinreichend bekannt ist. Aber der Reihe nach (und es mag helfen, wenn man das Gezappel der individuellen Verteilungen, die oben verlinkt sind, nochmal anschaut).

Auf LL0 befinden sich (im Diagram) viele Seiten in den Gruppen 1 bis 3, nur eine Seite in Gruppe 5 und keine Seite in Gruppe 8. Auf LL1 nimmt die Anzahl der Seiten in den drei erstgenannten Gruppen rapide ab, dafuer aber in Gruppe 5 rapide zu. Das ist die „kollektive Bewegung“ von der ich sprach. Auf LL2 wird dann auch Gruppe 8 (zunaechst etwas zøgerlich) besetzt und von LL3 bis LL6 halten sich praktisch (fast) alle Seiten dort auf und die Gruppen 1 bis 3 sind komplett leergeraeumt.
Abe LL7 setzt dann die „Rueckwaertsbewegung“ ein. Diese ist aber nicht so „chaotisch“ wie die „Vorwaertsbewegung“ und die Gruppen werden in absteigender Reihenfolge nach und nach gefuellt und dann wieder geleert, wenn die Seiten zur naechsttieferen Gruppe „weiterwandern“. Zunaechst natuerlich Gruppe 5, aber dann auch die Gruppen 3 und 2. Gruppe 1 wird nie wieder besetzt, da am Ende alle Seiten direkt von Gruppe 2 zu Gruppe 0 springen.

Das war letztlich easy peasy zu verstehen, insb. wenn man (wie bereits erwaehnt), das (oben verlinkte) Gezappel der linklevlabhaengigen Verteilungen der totalen Links sich nochmal anschaut.
Deswegen geht’s gleich weiter mit den Selbstreferenzen. Zur Erinnerung zwei Beispielverteilungen:

Die Gruppen gehen nicht ganz so weit wie bei den totalen Links und nicht gezeigt ist Gruppe 6, weil sich da ueber alle Linklevel gesehen nur zwei Seiten aufhalten (siehe das naechste Diagramm). Von der Andersartigkeit der Verteilungen abgesehen (welche aber bereits ausfuehrlich besprochen wurde) gibt’s aber letztlich nichts Neues und deswegen geht’s gleich weiter mit den Seiten pro Grøszenordnung:

Das hier ist so viel uebersichtlicher, dass ich alle Gruppen dringelassen habe. Beim letzten Mal schrieb ich nur kurz:

[e]s ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat […]

… und das ist was man sieht; Gruppe 1 ist immer høher als Gruppe 2 ist immer høher als Gruppe 3 usw. usf. Das aendert sich auch dann nicht, wenn Gruppen die Seiten mit mehr (und viel mehr) Selbstreferenzen repraesentieren, bei LL2 oder LL3 ein høheres Signal aufweisen als am Anfang. Die Erhøhung kommt naemlich durch das Vorhandensein von mehr totalen Links zustande und wenn ich davon mehr habe, habe ich (dem maechtigen Gesetz entsrpechend) auch mehr Seiten in Gruppe 1.
Wieauchimmer, ab ungefaehr LL10 befinden sich onehin die meisten Seiten in Gruppe 0 und es passiert nicht mehr wirklich was.

Alles in allem sind die Seiten pro Grøszenordnung sowohl fuer die totalen Links, als auch fuer die Selbstreferenzen leicht zu verstehen, da diese relativ direkt aus den Verteilungen pro Linklevel folgen. Das ist der Hauptgrund, warum ich zunaechst diese abgehandelt habe, damit man etwas vertrauter wird mit der Datenkomprimierung und was man da dann eigtl. sieht.
Das bedeutet aber auch, dass man fuer diese beiden Grøszen da nichts weiter „rausholen“ kann.
Beim naechsten Mal dann das Gleiche fuer die Linkfrequenzen. Das ist komplizierter und da passiert viel mehr.