Archive for Juni, 2023

Schmidt und Frank diskutieren kurz zwei Dinge, die charakteristisch fuer die Menschheit sind: globale Umweltverschmutzung durch …

[…] persistent organic pollutants (organic molecules that are resistant to degradation by chemical, photo-chemical or biological processes) […]

und globale Umweltverschmutzung durch Plaste. Letzteres ist eindeutig; Ersteres sind (stark vereinfachend gesagt) vor allem Pestizide und kuenstliche Schmiermittel welche sich wie ein duenner Film mittlerweile ueber die ganze Erde ziehen.

Bereits besprochenen wurden Kohlenstoff-, Sauerstoff- und Stickstoffanomalien. Die zugehørigen Prozesse treten aber auch natuerlich auf und das Signal muss (verinfachend gesagt) von diesem natuerlich vorkommenden Untergrund extrahiert werden.

Fuer „persistent organic pollutants“ die nicht in der Natur vorkommen ist es leicht vorstellbar, wie diese als Markierungen fuer eine Zivilisation benutzt werden kønnen.
Manche dieser Molekuele sind aber auch das Resultat natuerlicher Prozesse. Wenn kuenstlich erzeugte Molekuele solcher Art in vielen Millionen Jahren gefunden werden, so kann man diese dennoch von den natuerlich auftretenden Molekuelen unterscheiden. Der Trick liegt darin sich den Drehsinn besagter Molekuele (deren Chiralitaet) nutzbar zu machen.
In natuerlich auftreten Prozessen entstehen (fast) ausschlieszlich monochirale Molekuele. In unseren (bisherigen) technischen Herstellungsmethoden wird dies aber nicht unterschieden und somit treten beide Drehsinne in gleicher Menge auf. Wenn man dann ein sich falsch drehendes Molekuel findet, so ist das wie wenn man eins findet welches natuerlich nicht in der Natur vorkommt.

Demgegenueber sind Plaste einfach abzuhandeln. Wie bekannt landen diese als Mikroplastik im Ozean. Dort werden sie von Plankton gefressen und wenn das stirbt, „regnet“ es auf den Meeresboden wo es dann liegen bleibt.

Bei beiden Sachen weisz man nicht wie lange die sich halten. Aber beide Sachen sind (leider) oft ueber mindestens viele Jahrhunderte stabil. Die Stabilitaet haengt auszerdem von den Umweltbedingungen ab. Bei viel Sauerstoff und einer Sonne die Waerme und Licht spendet, gehen die Molekuele schneller kaputt als auf dem dunklen, kalten und sauerstoffarmen Boden der Meere. In der letztgenannten Umgebung haben kuenstliche Molekuele damit eine gute Chance in den sich zur Zeit bildenden Gesteinsschichten eingebaut und dort permanenter bewahrt zu bleiben.

Das soll dazu reichen. Beim naechsten Mal schaue ich mal, wie sich zwei der vorgeschlagenen Kennzeichen in bekannten Massenaussterbeereignissen bemerkbar machen.

Beim letzten Mal erklaerte ich detailliert anhand der totalen Links und den Selbstreferenzen was ich mit den „Seiten pro Grøzenordnung“ meine. Deswegen kann ich heute ohne viel Aufhebens sofort zur Linkfrequenz uebergehen. Zunaechst wieder zwei repraesentative Verteilungen zur Erinnerung:

Am Beispiel der Daten von LL16 kann man noch einen anderen Grund sehen, warum ich ueberhaupt auf die Idee gekommen bin die Seiten pro Grøszenordnung zu untersuchen (abgesehen davon, dass ich die „kollektive Bewegung“ untersuchen wollte). Aufgrund der Ueberlappung der Datenpunkte und weil diese (scheinbar?) gleichverteilt sind (die „Amplitude bleibt im Mittel gleich ab einer Linkfrequenz von ca. 100), sieht es so aus, als ob in jedem Intervall ungefaehr gleich viele Seiten liegen. Dem sollte aber nicht so sein, allein schon wg. der (visuellen) „logarithmischen Komprimierung“.
Bei den totalen Links kommt so ein Eindruck nicht auf, weil sich die Seiten nicht gleich verteilen. Bei den Selbstreferenzen ebenso nicht aufgrund des linearen Zusammenhangs (die Amplitude veraendert sich ueber ein Intervall).

Darum nun endlich die Verteilung der Seiten ueber die Grøszenordnung(en) in Abhaengigkeit vom Linklevel:

Uff, hier passiert am Anfang viel. Deswegen gehe ich da Schritt fuer Schritt durch.

Zunaechst lasse ich Gruppe 0 auszen vor. Die ist erstmal nicht relevant.
Auf LL0 befinden sich die meisten Seiten in Gruppe 1, werden also nur 1 bis 10 mal von anderen Seiten auf diesem Linklevel zitiert. Nur noch halb so viele Seiten werden 11 bis 100 mal zitiert (Gruppe 2) und gar 20 mal weniger Seiten befinden sich in Gruppe 3. Noch sehr viel (viel viel) weniger Seiten sind in den Gruppen 4 bis 6. Keine einzige Seite wir mehr als 1 Million mal zitiert.
Auf LL1 gibt es dann aber schon massiv viel mehr (totale) Links (zu LL2) und deswegen bewegen sich 80 % der Seiten aus Gruppe 1 raus und in høhere Gruppen hinein (werden also von (deutlich) mehr als 10 anderen Seiten zitiert, auch wenn der Wert von Gruppe 2 ebenso etwas abnimmt). Entsprechend steigt der Wert fuer alle høheren Gruppen an und wir sehen auch zum ersten mal Seiten die sich in Gruppe 7 befinden.
Auf den naechsten paar Linkleveln nimmt der Wert fuer høhere Gruppen weiter zu. Aber je „tiefer“ eine Gruppe liegt, um so eher ereilt sie das gleiche Schicksal wie Gruppe 1 und 2; die Seiten bewegen sich von dort zu høheren Gruppen. Fuer Gruppen 3 und 4 geschieht das auf LL2, fuer Gruppen 5 und 6 auf LL3 bzw. LL4.
Letztlich landen die allermeisten Seiten in Gruppe 7 deren (zugegeben relativ breites) Maximum ungefaehr mit den Minima der anderen Gruppen zusammen faellt.

Nach dem Durchschreiten des Maximums von Gruppe 7 aendert sich das Vorzeichen der „Bewegung“ und die Werte aller Gruppen (auszer von Gruppe 7) steigen ab LL7 wieder an. Hier aber geschieht das Gegenteil zum Anfang. Je „høher“ eine Gruppe ist, um so kuerzer ist die „Erholungsperiode“, denn die Seiten „migrieren“ schnell weiter zu „tieferen“ Gruppen. Entsprechend fallen die Werte aller Gruppen nach durchlaufen eines (weiteren) Maximums rasch wieder ab.

Ab LL9 fangen die meisten Seiten an in Gruppe 0 ueber zu gehen und ab LL11 sind die allermeisten Seiten dort angelangt, werden also nicht mehr zitiert.
Ich wuerde noch nicht sagen, dass dort dann schon die zitierenden Ursprungsseiten ins „São Paulo FC“-Artefakt „eingetreten“ sind. Dafuer ist die Dynamik in den Kurven der Gruppen noch zu grosz. Aber das laeszt nicht lange auf sich warten und auch wenn ich den genauen „Eingang ins Artefakt“ bisher nicht entdeckt habe, so ist mir das in so vielen „Messungen“ begegnet, dass ich sagen wuerde, dass der um LL20 liegt. Der ganze lange Schwanz kann ab dort eigentlich auszer acht gelassen werden.

Als ich mir die Kurven genauer anschaute wurde ich stutzig. Das sieht doch so aus, als ob das (zweite) Maximum von Gruppe 1 genau am Wendepunkt der Kurve von Gruppe 7 ist.  Faszinierend! Also habe ich die Gruppe 7 Kurve zwei Mal (numerisch) abgeleitet und siehe da …

… qualitiativ (also von der Form) aehnelt die Kurve von Gruppe 1 tatsaechlich der 2. Ableitung der Kurve von Gruppe 7.
Ich zerbrach mir einen Abend und den darauffolgenden Morgen den Kopf wie das sein kønnte. Ich ueberlegte hin und her wie die kollektive Bewegung der Seiten aussieht und verlor manches Mal den Ueberblick wo sich denn eine Seite nun befindet von einem Linklevel zum naechsten bzw. was eine Bewegung bedeutet. Am Ende kam ich auf den folgenden Mechanismus der obige Beobachtung erklaeren wuerde.

Die erste Ableitung ist der Anstieg einer Kurve. In diesem Zusammenhang also wie viel grøszer (oder kleiner) der Wert der Kurve von Gruppe 7 auf dem im naechsten Linklevel ist. Der Wert auf dem naechsten Linklevel wird aber dadurch bestimmt, wieviele Seiten von „niedrigeren“ Gruppen sich zu Gruppe 7 bewegen. Das wuerde zur Folge haben, dass die Kurven von niedrigeren Gruppen eigtl. der 1. Ableitung aehneln sollten. Und wenn man da mal schaut, dann findet sich durchaus eine Aehnlichkeit (auch wenn ich das hier nicht zeige, weil’s reicht das zu sagen). Fetzt ja.
Aber warum aehnelt die Kurve von Gruppe 1 dann der 2. Ableitung? Nun ja, (fast) alle Seiten befinden sich zunaechst in Gruppe 1. Von dort migrieren sie aber nur in den seltensten Faellen direkt zu Gruppe 7 (wenn ueberhaupt, ich habe das nicht kontrolliert). Viel mehr ist es so, dass sich die Seiten von Gruppe 1 zunaechst in die Gruppen 2 bis 6 bewegen. Damit „treiben“ die Seiten die Aenderung der Werte in diesen „Zwischengruppen“. Aha! Gruppe 0 ist demnach der Anstieg von denen. Und wenn die Zwischengruppen den Anstieg von Gruppe 7 bestimmen, so ist Gruppe 0 der Anstieg vom Anstieg und das ist genau das was die 2. Ableitung ist. Cool wa!

Da hab ich mich urst gefreut, dass ich darauf gekommen bin … … … und dann machten sich bereits am fruehen Nachmittag Zweifel breit, denn das ist alles viel zu gut um wahr zu sein.
Deswegen suchte ich nach Fehlern und fand die nicht in der Argumentation sondern in der Ausgangslage. Denn wenn man mal genauer hinschaut, dann aehnelt die Kurve von Gruppe 1 deutlich weniger der 2. Ableitung der Kurve von Gruppe 7, als es im obigen Diagramm den Anschein hat. Da ist mein Gehirn auf seine eigene, von der Evolution so eingerichteten, Mustererkennung hereingefallen.

Klar, das sieht auf den ersten Blick so aus, aber die Minima und Maxima der beiden Kurven sind selbst bei groszzuegiger Interpretierung um mindestens ein Linkelvel verschoben. Das fuer sich allein ist erstmal nicht so schlimm. Ich bin sicher, dass man dafuer eine Erklaerung finden kann und ich hatte schon angefangen nach einer zu suchen.
Dann kommt aber hinzu, dass die Funktionswerte auch nicht hinhauen. Klar, oben sind die linke und die rechte Ordinate schøn skaliert (hab ich mit Absicht gemacht). Aber die 2. Ableitung hat viel kleinere und auszerdem auch negative (!) Werte.
Es bleibt also nur noch die Form der Kurven ueber. Und wenn ich da ehrlich bin, sollte man nicht das Eine logarithmisch und das Andere linear darstellen sondern beide linear und das sieht dann so aus:

Tjaaaa … da war die grosze Aehnlichkeit dann (fast) ganz fort. Naja, intellektuell war’s dennoch ein interessantes Puzzle, auch wenn’s nicht stimmt.
Andererseits wiederum denke ich, dass obiger Mechanismus plausibel ist. Mein Bauchgefuehl sagt mir, dass das zumindest eine Rolle bei der „kollektiven Bewegung“ spielt. Aber in der mathematisch „geschlossenen“ Form wie besagter Mechanismus vorgaukelt sicherlich nicht.

Ich finde es wichtig auch die Fehler und wie man zu denen kommt und diese erkennt zu zeigen. „Falsch“ eingeschlagene Wege und daraus gelernte Lektionen sind (sehr) oft ein Weg zu neuen Erkenntnissen. Fehler sind also ein wichtiger Teil der wissenschaftlichen Methode, aber meistens unsichtbar, weil man ja nur die Erfolge aufschreibt.

Ach ja, es war natuerlich natuerlich ein „brain fart„, dass ich aus der (scheinbaren) Position des (zweiten) Maximums von Gruppe Null ueber dem Wendepunkt von Gruppe 7 schloss, dass Erstere die 2. Ableitung der Letzteren ist. Im Wendepunkt wird die 2. Ableitung naemlich null.

Und damit soll’s genug sein fuer heute.

Weil das „gemischten Verhalten“ der Linkfrequenzverteilungen so schwer zu interpretieren war, nahm ich mir beim letzten Mal vor mal zu schauen, wie sich das „Kollektiv“ der Wikipediaseiten von  niedrigen zu hohen Linkfrequenzen „bewegt“. Die schiere Datenmenge steht sich dabei selbst im Weg und deswegen entschied ich mich diese zu komprimieren und mir fuer jedes Linklevel nur anzuschauen …

[…] wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“ […]

Ich gab auch eine kurze Erklaerung was ich damit meinte:

[…] ich [schaue] mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. […] erhalten haben.

Das ist ein neues Konzept und recht viel auf einmal. Deswegen zeige ich erstmal wie das bei den totalen Links und den Selbstreferenzen aussieht, auch wenn man die „kolletkive Bewegung“ schon aus den einzeilnen Verteilunge ablesen kann.

Zur Erinnerung sind hier alle Verteilungen bzgl. der totalen Links pro Linklevel zu sehen und ich zeige nochmal zwei (mehr oder weniger) repraesentative Verteilungen:

Die grauen gestrichelten Linien illustrieren einen Teil des Konzepts der Datenkomprimierung. Weiterhin ist auch gleich eine weitere Vereinfachung zu sehen; anstatt immer zu sagen „wie viele Seiten 11 bis 100 Zitierungen haben“ (usw. usf.) sag ich einfach (in diesem Fall) Gruppe 2. Die Gruppennummer ist dabei die Zehnerpotenz der oberen Grenze des Intervalls auf der Abszisse. Der Wert fuer die untere Grenze is i.A. der Wert de oberen Grenze geteilt durch 10. Der Wert an der oberen Grenze ist in der jeweiligen Gruppe enthalten, der an der unteren Grenze nicht. Die einzigen Ausnahmen sind Gruppe 0 und Gruppe 1 wegen der Besonerheiten der nullten Potenz. Zur Ersteren zaehlen NUR die Seiten, die den Nullwert annehmen (der rote Balken, der zu LL2 gehørt). Zur Letzteren zaehle ich auch alle Seiten die den Wert eins annehmen.

Bei den zwei Beispielverteilungen wuerde ich also auf LL2 erwarten, dass alle Gruppen einen Wert haben, waehrend auf LL16 nur Gruppe 4 einen Wert hat.
Damit soll genug gesagt sein zum Prinzip und das ist das Ergebnis:

Weil das bei kleinen Linkleveln so unuebersichtlich ist habe ich nur ein paar repraesentative Gruppen reingepackt. Auszerdem ist das Diagramm ausnahmsweise laenger, damit man bei besagten kleinen Linkleveln nicht die Uebersicht verliert. Gestrichelte Linien verbinden Teile der Kurve einer Gruppe zwischen denen es keine Werte gibt.

Beim letzten Mal schrieb ich diesbzgl.:

Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben.

Und das ist genau das was man hier sieht … abgesehen von der letzten Aussage, weil ich Gruppe 0 weggelassen hab. Diese replizierte naemlich wieder nur ein altbekanntes Resultat, welches durch die ausfuehrliche und mehrfache Besprechung des „São Paulo FC“-Artefakts hinreichend bekannt ist. Aber der Reihe nach (und es mag helfen, wenn man das Gezappel der individuellen Verteilungen, die oben verlinkt sind, nochmal anschaut).

Auf LL0 befinden sich (im Diagram) viele Seiten in den Gruppen 1 bis 3, nur eine Seite in Gruppe 5 und keine Seite in Gruppe 8. Auf LL1 nimmt die Anzahl der Seiten in den drei erstgenannten Gruppen rapide ab, dafuer aber in Gruppe 5 rapide zu. Das ist die „kollektive Bewegung“ von der ich sprach. Auf LL2 wird dann auch Gruppe 8 (zunaechst etwas zøgerlich) besetzt und von LL3 bis LL6 halten sich praktisch (fast) alle Seiten dort auf und die Gruppen 1 bis 3 sind komplett leergeraeumt.
Abe LL7 setzt dann die „Rueckwaertsbewegung“ ein. Diese ist aber nicht so „chaotisch“ wie die „Vorwaertsbewegung“ und die Gruppen werden in absteigender Reihenfolge nach und nach gefuellt und dann wieder geleert, wenn die Seiten zur naechsttieferen Gruppe „weiterwandern“. Zunaechst natuerlich Gruppe 5, aber dann auch die Gruppen 3 und 2. Gruppe 1 wird nie wieder besetzt, da am Ende alle Seiten direkt von Gruppe 2 zu Gruppe 0 springen.

Das war letztlich easy peasy zu verstehen, insb. wenn man (wie bereits erwaehnt), das (oben verlinkte) Gezappel der linklevlabhaengigen Verteilungen der totalen Links sich nochmal anschaut.
Deswegen geht’s gleich weiter mit den Selbstreferenzen. Zur Erinnerung zwei Beispielverteilungen:

Die Gruppen gehen nicht ganz so weit wie bei den totalen Links und nicht gezeigt ist Gruppe 6, weil sich da ueber alle Linklevel gesehen nur zwei Seiten aufhalten (siehe das naechste Diagramm). Von der Andersartigkeit der Verteilungen abgesehen (welche aber bereits ausfuehrlich besprochen wurde) gibt’s aber letztlich nichts Neues und deswegen geht’s gleich weiter mit den Seiten pro Grøszenordnung:

Das hier ist so viel uebersichtlicher, dass ich alle Gruppen dringelassen habe. Beim letzten Mal schrieb ich nur kurz:

[e]s ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat […]

… und das ist was man sieht; Gruppe 1 ist immer høher als Gruppe 2 ist immer høher als Gruppe 3 usw. usf. Das aendert sich auch dann nicht, wenn Gruppen die Seiten mit mehr (und viel mehr) Selbstreferenzen repraesentieren, bei LL2 oder LL3 ein høheres Signal aufweisen als am Anfang. Die Erhøhung kommt naemlich durch das Vorhandensein von mehr totalen Links zustande und wenn ich davon mehr habe, habe ich (dem maechtigen Gesetz entsrpechend) auch mehr Seiten in Gruppe 1.
Wieauchimmer, ab ungefaehr LL10 befinden sich onehin die meisten Seiten in Gruppe 0 und es passiert nicht mehr wirklich was.

Alles in allem sind die Seiten pro Grøszenordnung sowohl fuer die totalen Links, als auch fuer die Selbstreferenzen leicht zu verstehen, da diese relativ direkt aus den Verteilungen pro Linklevel folgen. Das ist der Hauptgrund, warum ich zunaechst diese abgehandelt habe, damit man etwas vertrauter wird mit der Datenkomprimierung und was man da dann eigtl. sieht.
Das bedeutet aber auch, dass man fuer diese beiden Grøszen da nichts weiter „rausholen“ kann.
Beim naechsten Mal dann das Gleiche fuer die Linkfrequenzen. Das ist komplizierter und da passiert viel mehr.

Nach all den vielen Artikeln bewege ich mich jetzt endlich wieder direkt(er) in the Richtung, mit der diese Miniserie begann. Dazu verweise ich zunaechst nochmals auf den Artikel von Ugai, T., et al. (fuer den ich immer noch keine freie Quelle finde … *seufz*).

Die viele Information die sich im Fliesztext befindet, ist dort nochmal schøn in Tabellen zusammengefasst und heute relevant ist Tabelle 1 mit dem Titel „Possible risk-factors for early onset cancers“. Dort finde ich, dass „inactivity“ oder „sedentary behaviour“ nur als møglicher (!) Risikofaktor bei Brustkrebs und kolorektalem Karzinom zaehlt. Das wunderte mich etwas, denn ich haette auch bei so ziemlich allen anderen Organen erwartet, dass langes Sitzen dort einen Effekt hat. Wieauchimmer, Ersteres ist in dieser Serie nicht von Interesse und fuer Letzteres werden nur zwei Studien zitiert … im Gegensatz zu deutlich mehr Studien fuer alle anderen Risikofaktoren.

Das nur zwei Studien zitiert werden ist erstmal nicht all zu schlimm.
Gleichzeitig ist es aber nicht von der Hand zu weisen, dass fuer kolorektales Karzinom sieben andere Risikofaktoren aufgezaehlt werden:

Obesity […], metabolic syndrome […], type 2 diabetes […], hyperlipidaemia […], diet (such as western diet, sugar-sweetened beverages, low Vitamin D intake, red meat) […], alcohol consumption […], inflammatory bowel disease […]

Fuer alle sieben (zusaetzlichen) Risikofaktoren ist es viel leichter zu erkennen, warum diese zu besagtem Krebs fuehren. Oder anders: Alkholkonsum oder Diabetes sind sicherlich viel schaedlicher als Sitzen und der Beitrag des Letzteren somit deutlich schwerer aus dem Signal „herauszupopeln“. Beim letzten Mal schrieb ich etwas dazu, wie relativ klein der Einfluss von „red meat“ ist. Das ist aber viel besser bekannt als das viel Sitzen Krebs zur Folge haben kønnte.
Ich gehe davon aus, dass diese beiden Studien das schon richtig gemacht haben und ein møglicher Effekt des Sitzens real ist (auch wenn ich besagte Studien nicht las; aber so ist das nunmal in der Wissenschaft, man verlaeszt sich darauf, dass andere Wissenschaftler das ordentlich machen … was ja leider viel viel øfter als einem lieb sein kann nicht der Fall ist … *seufz*).

Worauf ich hinaus will: wir sprechen hier von (sehr) kleinen Effekten des Sitzens und viel grøszeren Effekten anderer Risikofaktoren!
In nachfolgenden Artikeln gehe ich (unrichtigerweise!) davon aus, dass der gesamte Anstieg der Zahlen bzgl. kolorektalem Karzinoms _nur_ auf langes Sitzen zurueckzufuehren ist. Das ist falsch und dient nur der Vereinfachung der Argumentation. Erst ganz am Ende betrachte ich dann alle Argumente unter dem (richtigen) Gesichtspunkt, dass Sitzen nur einer von mehreren (und schwerwiegenderen) Risikofaktoren ist.
Und damit soll’s genug sein fuer heute.

Ich hatte zwar bereits individuelle Linkfrequenzverteilungen gezeigt, aber noch nicht die „kollektiven“ Linkfrequenzverteilungen per Linklevel, so wie es „Tradition“ ist. Das hole ich heute nach.

Bei den totalen Links war nicht viel. Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben. Es gab keine Seite die wenige totale Links hatte, waehrend andere sehr sehr sehr viele hatten (und umgekehrt).
Eine Idee die mir in dem Zusammenhang in den kopf kam fuehrte mich in eine Sackgasse. Aber letztlich wurde ich dadurch auch das erste Mal auf das „São Paulo FC“-Artefakt aufmerksam und das Wissen darum half mir ein paar Mal weitere Seltsamkeiten richtig einzuordnen.

Weil die neuen Links letztlich zu aehnlich den totalen Links sind, gab es da entsprechend nix Neues zu holen.

Die Selbstreferenzen hatten ganz andere Verteilungen. Die Andersartigkeit folgte aber aus der Natur der Selbstreferenzen und der Wikipedia. Es ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat und dies folgt einem maechtigen Gesetz. Letztlich entdeckte ich dadurch aber die Gesetzmaeszigkeit wie schnell die thematische Aehnlichkeit der Wikipediaseiten von Linklevel zu Linklevel abnimmt, was eine urst coole Entdeckung ist. Ebenso brachte mich das auf die Idee mich mal an einer Simulation des Ganzen zu versuchen.

Ich will damit auf das Folgende hinaus: auch wenn diese Verteilungen immer erstmal eher langweilig sind, so bin ich aber letztlich dadurch immer auf coole Sachen aufmerksam geworden. Deswegen heute die Verteilungen der Linkfrequenzen pro Linklevel anhand repraesentativer Beispiele:

Hier passiert viel, aber der Reihe nach, beginnend mit dem linken oberen Diagramm in dem die Verteilungen von LL0 bis LL4 zu sehen sind.
Zunaechst einmal scheint mir hier (mehr oder weniger fuer alle Veteilungen) eine Mischung im Verhalten vorzuliegen, welches man bei den totalen Links und den Selbstreferenzen sieht. Die Verteilungen von LL0 (welche uebrigens wieder nur eine alte Beobachtung auf andere Weise repliziert ist) bis LL2 sind qualitativ noch naeher an den Selbstreferenzen. Aber ab LL3 „zerfasert“ sich die Verteilung ab Linkfrequenzen ueber ca. 1000 (Zitierungen von anderen Seiten), was man daran sieht, dass die blauen Punkte ein breites Band bilden. Dadurch gibt es in der Summe mehr Seiten mit vielen bis sehr vielen Zitierungen von anderen Seiten als solche mit wenigen. Aber die gehen nicht alle in „Zustaende“ nahe dem Ende der Abszisse (wie bei den totalen Links), sondern verteilen sich ueber (fast) die ganze Breite ab ca. 1000 Zitierungen (das ist was ich mit „Zerfaserung“ meine).
Dieses Verhalten verstaerkt sich noch fuer LL4 und LL5 (dann schon im Diagramm rechts oben). Immer mehr Seiten mit wenigen Zitierungen gehen ueber in das „zerfaserte Band“. Die „Amplitude“ des linearen Teils nimmt ab.

Dann aber kehrt sich das Verhalten um. Zunaechst waechst auf LL6 ein „Buckel“ zwischen ca. 100 und ca. 10,000 Zitierungen. Von LL7 bis LL9 nimmt die „Amplitude“ des linearen Teils wieder zu, waehrend das „zerfaserte Band“ nicht verschwindet, aber die Høhe abnimmt.
Im linken unteren Diagramm sieht man dann, dass sich diese Entwicklung ueber etliche Linklevel fortsetzt. Zu beachten ist aber, dass die Amplitude des linearen Teils wieder abnimmt, denn die Seiten „wandern“ in den „Nullzustand“; dem Punkt der sich links oben an die Ordinate schmiegt.

Am Ende haben wir ein bereits bekanntes Bild in anderer Form. Alle zitierenden Ursprungsseiten befinden sich um Artefakt und nur noch ca. 75 Seiten werden ueberhaupt zitiert (davon aber einige sehr sehr oft).

Die Verteilungen sind nicht so eindeutig wie bei den Selbstreferenzen oder den totalen Links. Deswegen wollte ich gerne mal sehen, wie die Seiten sich von niedrigen zu hohen Linkfrequenzen „bewegen“. Also nicht einzelne Seiten, sondern wie die „kollektive Bewegung“ aussieht. Nun kann ich mir aber nicht alle fast 6 Millionen Seiten anschauen. Ich musste also einen Weg finden die Information zu komprimieren.
Dabei kommt mir (ausnahmsweise) zur Hilfe, dass bei den Werten fuer die Linkfrequenz (aber auch bei den totalen Links und den Selbstreferenzen) mehrere Grøszenordnungen „ueberstrichen“ werden. Da bot sich førmlich an, dass ich mir mal anschaute, wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“; das Ganze natuerlich pro Linklevel … … … HAEH?
In kurz und knapp, schaute ich mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. (also von einem langen Strich auf der Abszisse zum naechsten) auf jedem Linklevel erhalten haben. Dadurch kann ich die Information von ueber 12 Millionen Datenpunkten (verteilt ueber mehr als 70 Linklevel) auf nur 8 Datenpunkte pro Linklevel reduzieren.

Aber das wuerde zu viel werden fuer heute. Deswegen erklaer ich das Ganze beim naechsten Mal nochmal an einem Beispiel (und hoffe, dass dann klarer wird worauf ich hinaus will). Auszerdem fange ich am Besten auch nicht gleich mit dem Schwersten (also den Linkfrequenzen) an, sondern erstmal „nur“ mit den totalen Links und den Selbstreferenzen. Die sind naemlich leichter zu verstehen.
So, das soll genug sein fuer heute.

Vor ueber einem Jahr entschied ich mich die Entdeckungen im Weltraum mal eine Weile ruhen zu lassen. Ich half zwar ein bisschen mit bei einem Datensammelprojekt in der Naehe der Erde, aber da ist ja nix weiter interessantes.

Mich langweilend machte ich mich neulich dann endlich mal auf die Socken um einem seit langer Zeit in den Spacer-Spelunken herumgeisternden Geruecht auf die Spur zu kommen. Dabei handelte es sich um eine gestrandete Anaconda im HR 5906 System. Ich flog also hin und es gab auf einem Mond ein „menschliches Signal“. Seltsamerweise erschien es nicht als anpeilbares Ziel fuer meinen Boardcomputer. Musste ich’s also mit meinen eigenen, eingebauten Sensoren (vulgo: Augen) finden. Und siehe da, ich fand tatsaechlich eine alte Anaconda:

An der Seite pappte ein kleiner Auszenposten dran:

Da hat die Rettung der Pilotin wohl etwas laenger gedauert und diese hat sich zu helfen gewusst. Genuegend Material hatte sie ja allein schon durch’s Ausschlachten ihres Schiffes.

Ich bin mal ein bisschen naeher rangefahren, …

… aber es war niemand (mehr) zu Hause.

Obligtorischer Videoschnipsel.

Nach dem vielen Text vom letzten Mal, muss ich heute nix mehr erklaeren und kann sofort in die Vollen gehen:

Woohoo! Es ist genau so wie ich es beim letzten Mal vorausgesehen habe!

Zum Ersten kann die Verteilung der Summe der Linkfrequenzen ueber aller Linklevel tatsaechlich in zwei unterschiedliche, deutlich (!) voneinander getrennte Gruppen eingeteilt werden.
Zum Zweiten weist die erste Gruppe keine hohen Summenwerte auf. Nicht eine einzige Seite liegt ueber einem Summewert von 150.
Zum Dritten liegt die zweite Gruppe ueber einem „strengen“ Grenzwert welcher bei 5,692,712 liegt.

Cool wa! Der Clou kommt aber erst noch. Die Anzahl der Seiten aus denen die ersten Gruppe besteht betraegt naemlich 481,522 Seiten. Dieser Wert entspricht exakt dem beim letzten Mal angegebenen Wert fuer die Anzahl aller Archipelseiten.
Dadurch wird nicht nur die dort aufgestellte Behauptung, dass sich im „Nullwertbalken“ der dortigen Verteilung Archipelseiten verstecken, indirekt bestaetigt sondern das bedeutet auch, dass mir bei meiner urspruenglichen Analyse keine Archipele „entkommen“ sind … Jippie!

Haette ich die obige Infornation bereits vor besagter urspruenglichen Analyse gehabt, so haette ich eben diese auf nur die Seiten mit einer kleinen Linkfrequenzsumme einschraenken kønnen. Das haette die rekursiv durchzugehende Datenmenge auf weniger als 1/10 reduziert …

… *ueberleg* …

Kurz ueberschlagen (und die Zahlen gerundet so dass es sich einfacher ueberschlagen laeszt) gibt es 5 Millionen Seiten. Diese weren auf 1/10 reduziert. Aber die 5 Millionen Seiten haben insgesamt 150 Millionen Links die alle durchgegangen werden muessten. Hier brauche ich aber nur Links zu anderen Archipelseiten was eine Reduzierung um einen Faktor 300 bedeutet! Die Analyse waere also 3000 Mal schneller gegangen! Das sind drei Grøszenordnungen! Krassomat … naja … nun bin ich fertig aber ’s ist schon interessant zu sehen was møglich ist, wenn man mehr Information hat.

Joa … øhm … das war’s fuer heute … ich musste ja beim letzten Mal so viel erklaeren, da ist’s auch mal schøn, wenn’s mal schnell geht :)

Hier erwaehnte ich das Folgende:

[…] superhoher Stress (bspw. durch Misshandlungen durch besagte Eltern) [kann] auch nach der Geburt (via DNA-Methylierung) noch die DNA veraendern […]

… so ist das Quatsch und ich zitierte diesen Artikel, von dem ich mittlerweile aber auch denke, dass der Quark ist … aber der Reihe nach.

Ich wusste, dass sich Methylgruppen tatsaechlich an die DNA anlagern und damit deren Funktion beeintraechtigen. Ich wusste auch, dass das durch schwerwiegende Umweltveraenderungen passieren kann. Mir war vage bewusst, dass dies vor allem im Zusammengang mit (langanhaltenden) Hungerzustaende passiert. Unter dem Eindruck von Artikeln wie dem oben zitierten habe ich das auch auf andere Stresssituaton uebertragen. Das war kein Fehler solchen Artikeln zu vertrauen. So funktioniert das nunmal (zunaechst) in der Wissenschaft.
Ich wusste auch, dass das selten auf’s Kind uebertragen wird, aber dass eine Uebertragung durchaus stattfinden kann. Das war mein zweiter Fehler; mit dem Gebrauch der Worte „selten“ und „durchaus“ versuche ich zu vermitteln, wie krass ich die Chance dafuer ueberschaetzt habe. Dazu komme ich beim naechsten Mal.

Heute geht es um die meinen ersten Fehler: ich dachte, dass DNA-Methylierung urst selten passiert.

Dieser Fehler wurde gluecklicherweise korrigiert, denn ich stolperte ueber mehrere Artikel diesbezeuglich. Der Erste (in einer Reihe bzgl. Epigenetik in Saeugetieren) ist ziemlich technisch, dafuer aber kurz. Wegen des sehr technischen Aspekts fand ich den relativ schwer zu lesen, aber ich fand den auch sehr praezise und auf den Punkt gebracht.
Der Zweite erklaert alles etwas besser fuer normale Leute wie mich (ist also weniger technisch), ich fand den aber etwas laenglich. Letztlich lohnt es sich das Anschauen beider.

Wieauchimmer, durch das Lesen der Artikel habe ich gelernt, dass DNA-Methylierung urst haeufig vorkommt und vorkommen muss. Bis zu 80 % der DNA sind derart modifiziert (und auch die Histone, die mit der DNA „zusammenspielen“).
Das ist URST wichtig, denn erst das Vorhandensein solcher Methylgruppen „(de)aktiviert“ bestimmte DNA-Abschnitte und das ist lebensnotwendig. Der Grund fuer Letzteres liegt darin, weil jede Zelle IMMER die gesamte DNA hat, aber nur eine ganz konkrete Aufgabe erfuellen soll und nicht alles auf einmal. In bspw. einer Leberzelle sorgen die angelagerten Methylgruppen nun dafuer, dass die Leberzwelle weisz, dass es mit den derart markierten Abschnitte einfach nichts tun soll.

Das Ganze ist etwas komplizierter, denn Methylgruppen kønnen einen DNA-Abschnitt auch ueberhaupt erst aktivieren, aber das Prinzip ist letztlich das Gleiche.
Und dann wird das ganze noch viel komplizierter, denn es gibt nicht nur Methylierung sondern auch

[…] acetylation, methylation, ubiquitylation, phosphorylation, sumoylation, ribosylation and citrullination.

Aber die Menschheit weisz bisher nicht so super viel darueber.

Wieauchimmer, ich verbleibe bei Methylierung und es ist festzuhalten, dass es fuer die DNA total normal und wichtig ist mit Methylgruppen „dekoriert“ zu sein. Deswegen ist es auch nicht verwunderlich wenn sowas bspw. bei einer groszen Hungersnot passiert, wenn dadurch das Ueberleben des Organismus gesichert werden kann (bspw. indem der Energiebedarf modifiziert wird).

Mehr muss ich dazu nicht sagen. Beim naechsten Mal komme ich zu meinem zweiten Fehler und gehe ein bisschen darauf ein, dass von den vielen Methylierungen (fast) nix uebrig bleibt wenn neues Leben entsteht.

Mitochondrien sind voll spannend und da kønnte man ganze Buecher drueber schreiben … ach was sag ich, da gibt es ganze Buecher drueber und dieses hier von Nick Lane

… gehørt zu den fesselndsten Buechern die mir je untergekommen sind; eine unbedingte Lesempfehlung! … … … .oO(Endlich konnte ich das mal unterbringen.)

Fuer heute soll reichen, dass Mitochondrien eigene DNA haben UND dass Mitochondrien IMMER von der Mutter kommen. Eine Eizelle hat richtig viele Mitochondrien und eine Samenzelle gerade mal so viele, sodass diese sich bewegen kann. Nach der Verschmelzung „kaempfen“ diese gegeneinander. Natuerlich nicht mit Schwert und Bogen aber auf molekularer Ebene geschieht das derart, dass die jeweils anderen Zellen zerstørt werden. Die Sieger sind (fast immer) die muetterlichen Mitochondrien.

Das alles ist natuerlich total vereinfacht und auf Heteroplasmie geh ich nicht weiter ein. Aber der Grund warum die muetterlichen Gene gewinnen (muessen) liegt darin, dass die Zell(kern)-DNA ein paar Sachen kodiert, die fuer das Ueberleben der Mitochondrien an sich wichtig ist. Das aber ist nicht unabhaengig von der mitochondrialen DNA. Oder anders: Mitochondrien-DNA und Zell(kern)-DNA muessen gut aufeinander abgestimmt sein. Ist das nicht der Fall, ist das schlecht fuer Beide und fuehrt im „besten“ Fall zu mitochondrialen Krankheiten und ist in den meisten Faellen mit dem Leben nicht vereinbar. Siehe auch die Hausmeistergene vom letzten Mal.

Bei den Mitochondrien der Eizelle ist die optimlae Situation von sich aus gegeben, die entsprechenden DNA-Abschnitte (auf beiden Seiten) haben in der Mutter schon gut funktioniert und werden auch im Kind gut funktionieren. Nun kommt aber bei der Erschaffung eines neuen Menschen 50 % fremde DNA dazu; was passiert da denn jetzt?
Nun, die fuer obige Aufgaben notwendige, vom Vater stammende DNA muss dann natuerlich auch kompatibel sein.

Das aber bedeutet, dass die vaeterliche DNA im Wesentlichen der muetterlichen DNA gleich (wenn nicht gar identisch) ist. Damit kommt das zwar vom Vater kann aber kein spezifisches Teil des Dingens sein, was von ihm im Kind „weitergetragen“ wird. Oder anders, es ist ziemlich egal wo diese DNA-Abschnitte herkommen, so lange die kompatibel mit den Mitochondrien sind.

Letztlich ist also auch dieser Umstand ein Fingerzeig auf die Tatsache wie bekloppt das im Titel enthaltene Konzept ist.
In dem hier dargestellten Zusammenhang ist das extra ironisch, denn ich habe den Eindruck, dass besagtes Konzept insb. fuer Maenner wichtig scheint. Aber oben Geschriebenes zeigt, dass die Gene der Mutter deutlich wichtiger sind als die des Vaters (bzw. in einer erweiterten Herangehensweise die Aehnlichkeit der vaeterlichen Gene zu den muetterlichen Genen).… tihihi

Das soll reichen fuer heute. Ich kønnte noch stundenlang ueber Mitochondrien reden weil das so urst krass spannend ist. Aber da verweise ich lieber auf das oben erwaehnte Buch, denn besser als das kann ich das nicht.

Dieses Bild bedarf keiner weiteren Worte:

*lacht*