Archive for the ‘Allgemein’ Category

Beim letzten Mal machte ich (hoffentlich) klar, dass die DNA an sehr vielen Stellen (bis zu 80 %) mit Methylgruppen besetzt ist, die ueberhaupt erst die richtige Funktion der DNA sicherstellen.

Aber das war nur der erste Teil dieser sehr spannenden Sache. Der zweite Teil, zum beim letzten Mal verlinkten ersten Teil (einer dreiteiligen Reihe), hat den schønen (weil eindeutigen und klaren) Titel „Epigenetics of the mammalian germline“ … und oioioi der ist voll toll.
Fuer den Zweck dieser Miniserie sei nur so viel gesagt: DNA-Methylierung wird zwei Mal geløscht.

Die erste Løschung geschieht kurz nach der Befruchtung der Eizelle und entfernt fast alle Methylgruppen von der DNA. Die Ausnahmen sind aeuszerst wichtig (wie so ziemlich jedes kleine Fitzelchen im Zusammenhang mit den Genen) und ich komme da beim zweiten Grund drauf zurueck. Die „Entsorgung“ der Methylanhaengsel ist wichtig (da war es wieder), denn von der DNA der Mutter und der Vater soll ja alles kopiert werden in der frisch befruchteten Eizelle. Da darf jetzt also keine Methylgruppe dran sein welche „Beruehren verboten“ ausdrueckt.
Auszerdem muss die DNA in den Gameten fuer sich genommen andere „Aufgaben uebernehmen“ als in der befruchteten Eizelle. Diese „Programmierung“ muss geløscht werden, bevor neue Aufgaben uebernommen werden kønnen.
Sobald sich die befruchtete Eizelle oft genug geteilt hat (bei Menschen wohl ab 8 Zellen) wird die DNA „reaktiviert“ durch „Neubestueckung“ mit Metylgruppen an den richtigen Stellen.

Die zweite Løschung passiert waehrend der Gametogenese. Genauer gesagt waehrend der Meiose, welche ja anders ist als die Mitose bei normaler Zellteilung (und hier im Webog bereits an anderer Stelle auftauchte). Der Grund liegt zum Einen in dem was ich bereits oben schrieb: die Gameten muessen spezifische (andere) Aufgaben erfuellen, entsprechend muss deren DNA anders „ausgedrueckt“ werden und die Methylgruppen an anderen Stellen sein.
Ein weiterer Grund liegt darin, dass bestimmte Gene, nur von einer Kopie (also NUR vom Vater oder NUR von der Mutter) „ausgedrueckt“ werden. Ein Beispiel ist das sogenannte Insulin-like growth factor 2, von dem nur das vaeterliche Allel „benutzt“ wird. Das liebevoll IGF2 abgekuerzte Gen ist natuerlich auch bei Frauen aktiviert, aber diese Aktivierung muss waehrend der Meiose der Eizelle geløscht werden, damit beim Kind nur das (gleiche) Gen des Vaters benutzt wird.

Achtung: all das ist eine super-mega-dolle Vereinfachung der Vereinfachung des verlinkten Artikels.

Wieauchimmer, am Ende all der Løschungen haben nur noch ca. 5 % der DNA Methylanhaengsel. Die Ausnahmen sind zum Einen die erwaehnten speziell markierten Gene wie IGF2, sind aber zum grøszten Teil sogenannten Transposonen zuzuordnen. Letztere sind sind DNA-Abschnitte die bei der Reproduktion an andere Stellen im genetischen Code „springen“ kønnen. Das kann natuerlich fatale Konsequenzen haben und durch die Methylgruppen wird der Zelle mitgeteilt, dass die nicht „aktiviert“ werden sollen bei den vielen Zellteilungen die nach der Befruchtung stattfinden, damit die bleiben wo sie sind.

Lange Rede kurzer Sinn: beim letzten Mal sagte ich, dass DNA-Methylierung urst wichtig ist und haeufig vorkommt und durchaus durch aeuszere Prozesse wie lange Hungerperioden entstehen kann. Hier ist nun festzuhalten, dass Methylierung bei der Entstehung neuen Lebens gruendlich geløscht wird und in nur ganz wenigen Faellen auf das Kind uebertragen wird.
Beim naechsten Mal komme ich dann dazu wie das dennoch durchaus, in seltenen Ausnahmen (!), zu „Uebertragungen“ auf’s Kind (und mglw. gar auf den Enkel) fuehren kann, aber mehr auch nicht.

Nach den linklevelabhaengigen Verteilungen der Linkfrequenz folgt die Abhaengigkeit der Linkfrequenz auf einem Linklevel vom Wert der Linkfrequenz auf dem Linklevel davor.
Gleichartige Untersuchungen waren bei den Selbstreferenzen sehr fruchtbar und mindestens interessant bei den totalen (und neuen) Links. Bei denen hielt sich das „Gezappel“ der Datenpunkte in Grenzen und ich konnte relativ viele (repraesentative) Verteilungen zeigen.
Heute muss ich das kleinteilig aufdrøseln, …

… denn die Daten streuen zu sehr und wuerden sich gegenseitig ueberdecken, wenn ich bei kleinen Linkleveln mehr als eine Verteilung in das selbe Diagramm packen wuerde. Zum Glueck passiert nicht all zu viel Unerwartetes und alles kann ganz schnell generalisiert werden, sodass ich ingesamt nur wenige repraesentative Kurven zeigen muss. Aber der Reihe nach.

Der sich zu nach rechts oben zuspitzende Blob aus Punkten zeigt im Wesentlichen ein Resultat welches schon nach der allerersten Auswertung der zuallererst untersuchten Grøsze (der Summenverteilung der totalen Links) qualitativ hergeleitet werden kann. Es ist wieder eine Kombination aus drei bekannten Sachverhalten. Zum einen wenigen Links und daraus resultierenden wenigen Zitaten anderer Seiten auf LL1. „Wenig“ bedeutet hier so ca. 1000 oder gar 10-tausend. Zum zweiten ein starker Anstieg der Anzahl von Links beim Uebergang zu LL2 und dem daraus folgenden starken Anstieg der Linkfrequenz. So Pi mal Daumen und nur ganz schnell auf den Blob geschaut wuerd ich sagen, dass ein Anstieg um zwei Grøszenordnungen stattfindet … was gut (genug) mit den totalen Links uebereinstimmt. Zum dritten halten sich „beliebte Seiten“ nicht bei kleinen Zahlen auf und bilden die nach rechts oben zeigende „Spitze“.

Im rechten oberen Diagramm ist der Uebergang von LL3 zu LL4 zu sehen; es wurde also nur ein Schritt ausgelassen. Der „Blob“ bei kleinen Werten nimmt zwar ab, aber verschwindet nicht. Das ist auch sinnvoll, denn es gibt immer noch Seiten mit niedrigen Linkfrequenzen, mindestens die im „São Paulo FC“-Artefakt.
Die meisten Seiten hingegen befinden sich jetzt im (breiten)  Maximum bzgl. der Links die sie jetzt „sehen“. Da die Linkfrequenz aber nur zaehlt _ob_ und nicht wie oft eine Seite gezaehlt wird, gibt es eine „scharfe Kante“ bzgl. der Linkfrequenz. Und das macht sich im 90-Grad-Knick rechts oben bemerkbar. Im Maximum werden Seiten von anderen Seiten maximal zitiert und beim naechsten Schritt gilt das weiterhin (die Seiten befinden sich immer noch im Maximum, oder nicht weit weg davon). Das fuehrt dazu, dass sich viele Seiten in die obere Ecke draengen.
Weiterhin wissen wir bereits, dass das Maximum fast genauso schnell wie es angestiegen ist, auch wieder abfaellt. Die Datenpunkte befinden sich also auf der Abzsisse immer noch bei hohen Werten, brechen im naechsten Schritt aber um bis zu drei Grøszenordnungen auf der Ordinate ein. Das ist da wo die Kurve eine Wende macht und sich „auf dem Weg zurueck“ begibt.

Im linken unteren Diagramm ist die Entwicklung um weitere drei Linklevel voran geschritten. Die Daten beschreiben jetzt einen „Kreis“ (im uebertragenen Sinne). Die Kurve „zieht“ ihr Ende nicht mit (wie bspw. bei den „Orbits“ der totalen Links), sondern wird immer weiter gedehnt … wie ein Kaugummi. Die Erklaerungen sind im Wesentlichen wie oben.

Im rechten unteren Diagramm sind beispielhaft drei deutlich høhere Linklevel gezeigt. Das Bild aendert sich quantitativ, aber nicht qualitiativ; das „Gezappel“ nimmt ab (weil weniger Seiten ingesamt zitiert werden), aber der zugrundeliegende Mechanismus aendert sich nicht. Die gruenen Punkte replizieren dann (wieder einmal) die bereits bekannten Werte aus dem „São Paulo FC“-Artefakt (nur auf andere Weise).

Mhmmm … also eigtl. scheint hier nix Interessantes zu passieren … bis man sich das Ganze mal (beispielhaft am Uebergang von LL25 zu LL26) in linearer Darstellung anschaut:

Wait! What!? Das aus der Ellipse ein Viereck wird verwundert mich nicht … aber wo zum Teufel kommt denn der Querbalken her? Ich muss das wohl wieder mal der Reihe nach angehen und nicht versuchen gleich alles auf einmal zu bearbeiten.

Zunaechst ist das gelbe Quadrat da mit Absicht drin. Es verdeutlicht ganz beeindruckend die logarithmische Komprimierung: bei linearer Darstellung sind die kleinen Werte, welche in der doppellogarithmischen Darstellung zu sehen sind, an den Rand und noch mehr in die Ecke gedraengt. Wir sehen die also „nicht“ mehr. Umgekehrt gilt natuerlich das Gleiche fuer grosze Werte.
Das ist natuerlich kein Nachteil der einen oder der anderen Darstellung. Beide sind sehr wertvoll und offenbaren unterschiedliche Informationen.

Was ist nun aber mit dem gigantischen Querbalken? Nun ja, der ist fuer die feine „innere Rundung“ in der logarithmischen Darstellung verantwortlich. Nach dem oben Besprochenen sollte es hier nur eine spitze Ecke geben (und die sehen wir ja auch). Durch den Querbalken, welcher (bei linearer Darstellung) Werte „in der Mitte des gelben Quadrats“ repraesentiert, wird die Bedingung der  „scharfe Kante“ aber „aufgeweicht“ und die Kurve nach innen abgerundet. Durch das Hervorheben von drei Datenpunkten versuche ich diesen Sachverhalt zu verdeutlichen.

Das soll fuer heute reichen. Ich habe den zugrundeliegend Mechanismus der zur Entstehung des „Kreises“ so ausfuehrlich behandelt, weil das Wissen darum nuetzlich wird, wenn ich beim naechsten Mal versuche der Entstehung des Querbalkens auf die Spur zu kommen.

Der Trend vom letzten Mal war der „Average Annual Percent Change“ (AAPC) der Maenner zwischen 20 und 49 Jahren, die mit kolorektalem Karzinom (CRC) in den Jahren 2002 bis 2012 diagnostiziert wurden. Fuer Norwegen lag der Wert bei 0.7 und fuer Dtschl. bei 2.
Da dieser Trend mit historischen Daten berechnet wurde, kann ich das fuer die oben genannte Gruppe (in einer anderen Tabelle) nachschlagen (klick mich) und sehe dort, dass dieser Trend im Wesentlichen mit der Datennahme in den 50’er Jahren anfing … seltsam … das muss ich mir mal genauer anschauen:

In diesen zwei Diagrammen sieht man die Crude Rate per Altersgruppe (farbkodiert), fuer norwegische Maenner, bezogen auf das Jahr wann die Diagnose „kolorektales Karzinom“ gestellt wurde. Man beachte die unterschiedlichen Skalen der Ordinaten. Die Altersgruppe 45-49 Jahre ist zur Referenz in beiden Diagrammen dargestellt (rote Datenpunkte/Linie). Wie immer dienen die Linien nur zur besseren Visualisierung des Trends.

Im linken Diagramm sieht man, dass fuer norwegische Maenner unter 40 (und ueber 20) Jahre mglw. tatsaechlich ein neuer (!) aufsteigender Trend seit ca. der Jahrtausendwende stattfindet. Gleichzeitig sieht man aber auch, dass fuer norwegische Maenner ueber 40 Jahre die „Kurven“ schon immer einen positive Anstieg haben und nicht nur um einen Mittelwert zappeln. Das Selbe gilt fuer noch aeltere Maenner, wie man im rechten Diagramm sieht.
Letzteres ist natuerlich verstaendlich und haengt wieder damit zusammen, dass weniger (aeltere und alte) Menschen an anderen vermeid- oder behandelbaren Ursachen sterben. Fuer Maenner unter 40 Jahre spielt das keine grosze Rolle ab ca. den 60’ern des letzten Jahrhunderts (denn von denen ueberleben die Allermeisten schon laenger).
Gleichzeitig ist relevant, dass sich in dem aufgetragenen Zeitraum das Berufsleben (mehr sitzende Berufe) und der Lebensstil im Allgemeinen (høhere Kørpermasse, ungesundes Essen, weniger Bewegung) geaendert hat. Fuer ueber 60’jaehrige spielt das nur in den letzten paar Datenpunkten eine (untergeordnete) Rolle, da alte Menschen in vorherigen Jahren diesen Faktoren nicht lange genug „ausgesetzt“ waren. Fuer junge Menschen fuehrt dies zu dem oben erwaehnten Trend ab der Jahrtausendwende (nicht unbedingt davor, denn da war drauszen-spielen noch weiter verbreitet und Eltern pass(t)en bei der Ernaehrung der Kinder noch mehr auf als bei sich selber).

Ich erwaehne dies alles weil das problematisch wird, wenn die Gruppe der 40-59-Jaehrigen betrachtet wird. Ganz offensichtlich sterben weniger von denen seit den spaeten 50’er Jahren (die entsprechenden Kurven gehen stetig aufwaerts). Gleichzeitig ist diese Gruppe vom veraenderten Lebensstil betroffen (aber noch nicht genug, wenn die Diagnose 1962 gestellt wurde).

Im Artikel von Ugai, T., et al. (immer noch nicht befreit) werden die 40-49-Jaehrigen als zu den jungen Menschen gehørend betrachtet. Das bedeutet, dass beim letzten Mal erwaehnten Trend des AAPC diese vermutlich einen groszen Anteil beitragen. Das wiederum hat zur Folge, dass besagter Trend noch viel weniger durch Sitzen (oder Cola trinken und Pizza essen) ausgløst sein kann, also ich zunaechst annahm, weil ja bei denen auch der nicht-an-anderen-Sachen-verstorben-Effekt eine nicht unbedeutende Rolle spielt. Toll wa!

Ebenso møchte ich darauf hinweisen, dass selbst die hohe Crude Rate von ueber 600 bei den ueber 80-Jaehrigen immer noch eine Chance von weniger als 1 % entspricht an CRC zu erkranken. Noch so’n „toll wa!“-Ding.

Damit kønnte beim naechsten Mal alles mit Ja-der-Effekt-is-echt-aber-im-groszen-und-Ganzen-ist’s-doch-vom-Zufall-abhaengig-ob-und-was-fuer’n-Krebs-ich-bekomme-und-deswegen-muss-ich-mir-keine-all-zu-grosze-Sorgen-machen-und-schon-gar-nicht-mein-mir-liebstes-Hobby-aufgeben zusammenfassen. Ich will aber nochmal darauf zurueckkommen, dass man den Einfluss einens sitzendes Lebensstils tatsaechlich in den Krebsdaten sieht. Ist naemlich voll spannend … und wenn ich damit durch bin, dann kommt die Zusammenfassung und das Ende dieser Miniserie.

Dieser Beitrag ist einfach zu schreiben.

Krankheiten werden Teil der Persønlichkeit. Das geht schon bei der Erkaeltung los und gilt fuer chronische Krankheiten sowieso. Das ist auch gar nicht schlimm, denn im Leben eines (chronisch) kranken Menschen spielt besagte Krankheit zwangslaeufig eine wichtige Rolle. Letzteres weil betroffene Menschen ihren Alltag deswegen anpassen muessen.

Im Zusammenhang mit dieser Miniserie meine ich damit hauptsaechlich Krankheiten die „in den Genen liegen“ und somit an die Kinder weitergegeben werden kønnen. Also nicht Krebs, denn dieser entsteht (meistens) zufaellig. Vielmehr meine ich Krankheiten wie Marfan-Syndrom, Chorea Huntington, Haemophilie oder Sichelzellenkrankheit; aber auch Diabetes, Allergien, Depressionen (die alle genetische Komponenten haben) und auch relativ harmlose Sachen wie Laktoseintoleranz … ach und eigentlich auch Haarausfall, denn der liegt meist auch in den Genen … ist aber natuerlich keine Krankheit.

Einschub (weil’s so spannend ist): man vermutet, dass defekte mitochondriale-DNA bei der die Entstehung von Diabetes einen Einfluss hat … voll spannend wa! … meine Quelle ist das beim letzten Mal empfohlene Buch.

Die Situation ist also die Folgende: eine Krankheit ist „Teil“ dessen was einen Elternteil ausmacht (oder beide) und ohne das zu pruefen behaupte ich, dass die allermeisten Menschen von diesem „Teil“ nicht møchten, dass deren Kinder das „weitertragen“. Oft genug steht das natuerlich nicht zur Wahl.

Alles zusammen fuehrt aber in ein „Dilemma“.
Zwei harmlose Beispiele zur Illustration (schwerwiegende Krankheiten sind selbsterklaerend). Eine Frau mit (genetisch bedingter) Glatze ist erpicht direkte Sonne zu vermeiden. Darum verbringt sie ihren Urlaub nicht im Sueden sondern woanders und findet das ueberhaupt nicht schlimm. Bei den Kollegen ist sie deswegen liebevoll als „der Eskimo“ bekannt und sie nimmt das fuer sich selbst auch an. Dennoch møchte sie nicht, dass ihre Kinder die Glatze „weitertragen“.
Ein Mann mit einer Eiallergie hat es sich zum Hobby gemacht Kuchenrezepte zu lernen, die keine Eier brauchen. Auf Arbeit erzaehlt er gerne davon und immer wenn’s dort Kuchen gibt bringt er einen mit. Deswegen ist er als „der Kuchenmann“ bekannt und er nimmt das fuer sich selbst auch an. Dennoch møchte er nicht, dass seine Kinder die Allergie „weitertragen“.

Aber ohne diese „Eigenheiten“ waeren die Beispielpersonen andere (und bei schlimmeren Krankeiten zum Teil sehr andere) Menschen — das Eine geht nicht ohne das Andere.
Meiner Meinung nach løst sich dieses Dilemma nur dadurch indem man einsieht, dass das im Titel beschriebene Konzept Unsinn ist. Leibliche Kinder tragen (vereinfachend gesagt) 50 % der elterlichen Gene in sich, aber keinen einzigen Teil dessen was das Wesen der Eltern ausmacht.

Weil ich nun schon mehrfach zu diesem Resultat gekommen bin muss ich dazu nicht mehr sagen.

Auch dieses Bild bedarf keiner weiteren Worte:

*lacht schon wieder*

Schmidt und Frank diskutieren kurz zwei Dinge, die charakteristisch fuer die Menschheit sind: globale Umweltverschmutzung durch …

[…] persistent organic pollutants (organic molecules that are resistant to degradation by chemical, photo-chemical or biological processes) […]

und globale Umweltverschmutzung durch Plaste. Letzteres ist eindeutig; Ersteres sind (stark vereinfachend gesagt) vor allem Pestizide und kuenstliche Schmiermittel welche sich wie ein duenner Film mittlerweile ueber die ganze Erde ziehen.

Bereits besprochenen wurden Kohlenstoff-, Sauerstoff- und Stickstoffanomalien. Die zugehørigen Prozesse treten aber auch natuerlich auf und das Signal muss (verinfachend gesagt) von diesem natuerlich vorkommenden Untergrund extrahiert werden.

Fuer „persistent organic pollutants“ die nicht in der Natur vorkommen ist es leicht vorstellbar, wie diese als Markierungen fuer eine Zivilisation benutzt werden kønnen.
Manche dieser Molekuele sind aber auch das Resultat natuerlicher Prozesse. Wenn kuenstlich erzeugte Molekuele solcher Art in vielen Millionen Jahren gefunden werden, so kann man diese dennoch von den natuerlich auftretenden Molekuelen unterscheiden. Der Trick liegt darin sich den Drehsinn besagter Molekuele (deren Chiralitaet) nutzbar zu machen.
In natuerlich auftreten Prozessen entstehen (fast) ausschlieszlich monochirale Molekuele. In unseren (bisherigen) technischen Herstellungsmethoden wird dies aber nicht unterschieden und somit treten beide Drehsinne in gleicher Menge auf. Wenn man dann ein sich falsch drehendes Molekuel findet, so ist das wie wenn man eins findet welches natuerlich nicht in der Natur vorkommt.

Demgegenueber sind Plaste einfach abzuhandeln. Wie bekannt landen diese als Mikroplastik im Ozean. Dort werden sie von Plankton gefressen und wenn das stirbt, „regnet“ es auf den Meeresboden wo es dann liegen bleibt.

Bei beiden Sachen weisz man nicht wie lange die sich halten. Aber beide Sachen sind (leider) oft ueber mindestens viele Jahrhunderte stabil. Die Stabilitaet haengt auszerdem von den Umweltbedingungen ab. Bei viel Sauerstoff und einer Sonne die Waerme und Licht spendet, gehen die Molekuele schneller kaputt als auf dem dunklen, kalten und sauerstoffarmen Boden der Meere. In der letztgenannten Umgebung haben kuenstliche Molekuele damit eine gute Chance in den sich zur Zeit bildenden Gesteinsschichten eingebaut und dort permanenter bewahrt zu bleiben.

Das soll dazu reichen. Beim naechsten Mal schaue ich mal, wie sich zwei der vorgeschlagenen Kennzeichen in bekannten Massenaussterbeereignissen bemerkbar machen.

Beim letzten Mal erklaerte ich detailliert anhand der totalen Links und den Selbstreferenzen was ich mit den „Seiten pro Grøzenordnung“ meine. Deswegen kann ich heute ohne viel Aufhebens sofort zur Linkfrequenz uebergehen. Zunaechst wieder zwei repraesentative Verteilungen zur Erinnerung:

Am Beispiel der Daten von LL16 kann man noch einen anderen Grund sehen, warum ich ueberhaupt auf die Idee gekommen bin die Seiten pro Grøszenordnung zu untersuchen (abgesehen davon, dass ich die „kollektive Bewegung“ untersuchen wollte). Aufgrund der Ueberlappung der Datenpunkte und weil diese (scheinbar?) gleichverteilt sind (die „Amplitude bleibt im Mittel gleich ab einer Linkfrequenz von ca. 100), sieht es so aus, als ob in jedem Intervall ungefaehr gleich viele Seiten liegen. Dem sollte aber nicht so sein, allein schon wg. der (visuellen) „logarithmischen Komprimierung“.
Bei den totalen Links kommt so ein Eindruck nicht auf, weil sich die Seiten nicht gleich verteilen. Bei den Selbstreferenzen ebenso nicht aufgrund des linearen Zusammenhangs (die Amplitude veraendert sich ueber ein Intervall).

Darum nun endlich die Verteilung der Seiten ueber die Grøszenordnung(en) in Abhaengigkeit vom Linklevel:

Uff, hier passiert am Anfang viel. Deswegen gehe ich da Schritt fuer Schritt durch.

Zunaechst lasse ich Gruppe 0 auszen vor. Die ist erstmal nicht relevant.
Auf LL0 befinden sich die meisten Seiten in Gruppe 1, werden also nur 1 bis 10 mal von anderen Seiten auf diesem Linklevel zitiert. Nur noch halb so viele Seiten werden 11 bis 100 mal zitiert (Gruppe 2) und gar 20 mal weniger Seiten befinden sich in Gruppe 3. Noch sehr viel (viel viel) weniger Seiten sind in den Gruppen 4 bis 6. Keine einzige Seite wir mehr als 1 Million mal zitiert.
Auf LL1 gibt es dann aber schon massiv viel mehr (totale) Links (zu LL2) und deswegen bewegen sich 80 % der Seiten aus Gruppe 1 raus und in høhere Gruppen hinein (werden also von (deutlich) mehr als 10 anderen Seiten zitiert, auch wenn der Wert von Gruppe 2 ebenso etwas abnimmt). Entsprechend steigt der Wert fuer alle høheren Gruppen an und wir sehen auch zum ersten mal Seiten die sich in Gruppe 7 befinden.
Auf den naechsten paar Linkleveln nimmt der Wert fuer høhere Gruppen weiter zu. Aber je „tiefer“ eine Gruppe liegt, um so eher ereilt sie das gleiche Schicksal wie Gruppe 1 und 2; die Seiten bewegen sich von dort zu høheren Gruppen. Fuer Gruppen 3 und 4 geschieht das auf LL2, fuer Gruppen 5 und 6 auf LL3 bzw. LL4.
Letztlich landen die allermeisten Seiten in Gruppe 7 deren (zugegeben relativ breites) Maximum ungefaehr mit den Minima der anderen Gruppen zusammen faellt.

Nach dem Durchschreiten des Maximums von Gruppe 7 aendert sich das Vorzeichen der „Bewegung“ und die Werte aller Gruppen (auszer von Gruppe 7) steigen ab LL7 wieder an. Hier aber geschieht das Gegenteil zum Anfang. Je „høher“ eine Gruppe ist, um so kuerzer ist die „Erholungsperiode“, denn die Seiten „migrieren“ schnell weiter zu „tieferen“ Gruppen. Entsprechend fallen die Werte aller Gruppen nach durchlaufen eines (weiteren) Maximums rasch wieder ab.

Ab LL9 fangen die meisten Seiten an in Gruppe 0 ueber zu gehen und ab LL11 sind die allermeisten Seiten dort angelangt, werden also nicht mehr zitiert.
Ich wuerde noch nicht sagen, dass dort dann schon die zitierenden Ursprungsseiten ins „São Paulo FC“-Artefakt „eingetreten“ sind. Dafuer ist die Dynamik in den Kurven der Gruppen noch zu grosz. Aber das laeszt nicht lange auf sich warten und auch wenn ich den genauen „Eingang ins Artefakt“ bisher nicht entdeckt habe, so ist mir das in so vielen „Messungen“ begegnet, dass ich sagen wuerde, dass der um LL20 liegt. Der ganze lange Schwanz kann ab dort eigentlich auszer acht gelassen werden.

Als ich mir die Kurven genauer anschaute wurde ich stutzig. Das sieht doch so aus, als ob das (zweite) Maximum von Gruppe 1 genau am Wendepunkt der Kurve von Gruppe 7 ist.  Faszinierend! Also habe ich die Gruppe 7 Kurve zwei Mal (numerisch) abgeleitet und siehe da …

… qualitiativ (also von der Form) aehnelt die Kurve von Gruppe 1 tatsaechlich der 2. Ableitung der Kurve von Gruppe 7.
Ich zerbrach mir einen Abend und den darauffolgenden Morgen den Kopf wie das sein kønnte. Ich ueberlegte hin und her wie die kollektive Bewegung der Seiten aussieht und verlor manches Mal den Ueberblick wo sich denn eine Seite nun befindet von einem Linklevel zum naechsten bzw. was eine Bewegung bedeutet. Am Ende kam ich auf den folgenden Mechanismus der obige Beobachtung erklaeren wuerde.

Die erste Ableitung ist der Anstieg einer Kurve. In diesem Zusammenhang also wie viel grøszer (oder kleiner) der Wert der Kurve von Gruppe 7 auf dem im naechsten Linklevel ist. Der Wert auf dem naechsten Linklevel wird aber dadurch bestimmt, wieviele Seiten von „niedrigeren“ Gruppen sich zu Gruppe 7 bewegen. Das wuerde zur Folge haben, dass die Kurven von niedrigeren Gruppen eigtl. der 1. Ableitung aehneln sollten. Und wenn man da mal schaut, dann findet sich durchaus eine Aehnlichkeit (auch wenn ich das hier nicht zeige, weil’s reicht das zu sagen). Fetzt ja.
Aber warum aehnelt die Kurve von Gruppe 1 dann der 2. Ableitung? Nun ja, (fast) alle Seiten befinden sich zunaechst in Gruppe 1. Von dort migrieren sie aber nur in den seltensten Faellen direkt zu Gruppe 7 (wenn ueberhaupt, ich habe das nicht kontrolliert). Viel mehr ist es so, dass sich die Seiten von Gruppe 1 zunaechst in die Gruppen 2 bis 6 bewegen. Damit „treiben“ die Seiten die Aenderung der Werte in diesen „Zwischengruppen“. Aha! Gruppe 0 ist demnach der Anstieg von denen. Und wenn die Zwischengruppen den Anstieg von Gruppe 7 bestimmen, so ist Gruppe 0 der Anstieg vom Anstieg und das ist genau das was die 2. Ableitung ist. Cool wa!

Da hab ich mich urst gefreut, dass ich darauf gekommen bin … … … und dann machten sich bereits am fruehen Nachmittag Zweifel breit, denn das ist alles viel zu gut um wahr zu sein.
Deswegen suchte ich nach Fehlern und fand die nicht in der Argumentation sondern in der Ausgangslage. Denn wenn man mal genauer hinschaut, dann aehnelt die Kurve von Gruppe 1 deutlich weniger der 2. Ableitung der Kurve von Gruppe 7, als es im obigen Diagramm den Anschein hat. Da ist mein Gehirn auf seine eigene, von der Evolution so eingerichteten, Mustererkennung hereingefallen.

Klar, das sieht auf den ersten Blick so aus, aber die Minima und Maxima der beiden Kurven sind selbst bei groszzuegiger Interpretierung um mindestens ein Linkelvel verschoben. Das fuer sich allein ist erstmal nicht so schlimm. Ich bin sicher, dass man dafuer eine Erklaerung finden kann und ich hatte schon angefangen nach einer zu suchen.
Dann kommt aber hinzu, dass die Funktionswerte auch nicht hinhauen. Klar, oben sind die linke und die rechte Ordinate schøn skaliert (hab ich mit Absicht gemacht). Aber die 2. Ableitung hat viel kleinere und auszerdem auch negative (!) Werte.
Es bleibt also nur noch die Form der Kurven ueber. Und wenn ich da ehrlich bin, sollte man nicht das Eine logarithmisch und das Andere linear darstellen sondern beide linear und das sieht dann so aus:

Tjaaaa … da war die grosze Aehnlichkeit dann (fast) ganz fort. Naja, intellektuell war’s dennoch ein interessantes Puzzle, auch wenn’s nicht stimmt.
Andererseits wiederum denke ich, dass obiger Mechanismus plausibel ist. Mein Bauchgefuehl sagt mir, dass das zumindest eine Rolle bei der „kollektiven Bewegung“ spielt. Aber in der mathematisch „geschlossenen“ Form wie besagter Mechanismus vorgaukelt sicherlich nicht.

Ich finde es wichtig auch die Fehler und wie man zu denen kommt und diese erkennt zu zeigen. „Falsch“ eingeschlagene Wege und daraus gelernte Lektionen sind (sehr) oft ein Weg zu neuen Erkenntnissen. Fehler sind also ein wichtiger Teil der wissenschaftlichen Methode, aber meistens unsichtbar, weil man ja nur die Erfolge aufschreibt.

Ach ja, es war natuerlich natuerlich ein „brain fart„, dass ich aus der (scheinbaren) Position des (zweiten) Maximums von Gruppe Null ueber dem Wendepunkt von Gruppe 7 schloss, dass Erstere die 2. Ableitung der Letzteren ist. Im Wendepunkt wird die 2. Ableitung naemlich null.

Und damit soll’s genug sein fuer heute.

Weil das „gemischten Verhalten“ der Linkfrequenzverteilungen so schwer zu interpretieren war, nahm ich mir beim letzten Mal vor mal zu schauen, wie sich das „Kollektiv“ der Wikipediaseiten von  niedrigen zu hohen Linkfrequenzen „bewegt“. Die schiere Datenmenge steht sich dabei selbst im Weg und deswegen entschied ich mich diese zu komprimieren und mir fuer jedes Linklevel nur anzuschauen …

[…] wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“ […]

Ich gab auch eine kurze Erklaerung was ich damit meinte:

[…] ich [schaue] mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. […] erhalten haben.

Das ist ein neues Konzept und recht viel auf einmal. Deswegen zeige ich erstmal wie das bei den totalen Links und den Selbstreferenzen aussieht, auch wenn man die „kolletkive Bewegung“ schon aus den einzeilnen Verteilunge ablesen kann.

Zur Erinnerung sind hier alle Verteilungen bzgl. der totalen Links pro Linklevel zu sehen und ich zeige nochmal zwei (mehr oder weniger) repraesentative Verteilungen:

Die grauen gestrichelten Linien illustrieren einen Teil des Konzepts der Datenkomprimierung. Weiterhin ist auch gleich eine weitere Vereinfachung zu sehen; anstatt immer zu sagen „wie viele Seiten 11 bis 100 Zitierungen haben“ (usw. usf.) sag ich einfach (in diesem Fall) Gruppe 2. Die Gruppennummer ist dabei die Zehnerpotenz der oberen Grenze des Intervalls auf der Abszisse. Der Wert fuer die untere Grenze is i.A. der Wert de oberen Grenze geteilt durch 10. Der Wert an der oberen Grenze ist in der jeweiligen Gruppe enthalten, der an der unteren Grenze nicht. Die einzigen Ausnahmen sind Gruppe 0 und Gruppe 1 wegen der Besonerheiten der nullten Potenz. Zur Ersteren zaehlen NUR die Seiten, die den Nullwert annehmen (der rote Balken, der zu LL2 gehørt). Zur Letzteren zaehle ich auch alle Seiten die den Wert eins annehmen.

Bei den zwei Beispielverteilungen wuerde ich also auf LL2 erwarten, dass alle Gruppen einen Wert haben, waehrend auf LL16 nur Gruppe 4 einen Wert hat.
Damit soll genug gesagt sein zum Prinzip und das ist das Ergebnis:

Weil das bei kleinen Linkleveln so unuebersichtlich ist habe ich nur ein paar repraesentative Gruppen reingepackt. Auszerdem ist das Diagramm ausnahmsweise laenger, damit man bei besagten kleinen Linkleveln nicht die Uebersicht verliert. Gestrichelte Linien verbinden Teile der Kurve einer Gruppe zwischen denen es keine Werte gibt.

Beim letzten Mal schrieb ich diesbzgl.:

Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben.

Und das ist genau das was man hier sieht … abgesehen von der letzten Aussage, weil ich Gruppe 0 weggelassen hab. Diese replizierte naemlich wieder nur ein altbekanntes Resultat, welches durch die ausfuehrliche und mehrfache Besprechung des „São Paulo FC“-Artefakts hinreichend bekannt ist. Aber der Reihe nach (und es mag helfen, wenn man das Gezappel der individuellen Verteilungen, die oben verlinkt sind, nochmal anschaut).

Auf LL0 befinden sich (im Diagram) viele Seiten in den Gruppen 1 bis 3, nur eine Seite in Gruppe 5 und keine Seite in Gruppe 8. Auf LL1 nimmt die Anzahl der Seiten in den drei erstgenannten Gruppen rapide ab, dafuer aber in Gruppe 5 rapide zu. Das ist die „kollektive Bewegung“ von der ich sprach. Auf LL2 wird dann auch Gruppe 8 (zunaechst etwas zøgerlich) besetzt und von LL3 bis LL6 halten sich praktisch (fast) alle Seiten dort auf und die Gruppen 1 bis 3 sind komplett leergeraeumt.
Abe LL7 setzt dann die „Rueckwaertsbewegung“ ein. Diese ist aber nicht so „chaotisch“ wie die „Vorwaertsbewegung“ und die Gruppen werden in absteigender Reihenfolge nach und nach gefuellt und dann wieder geleert, wenn die Seiten zur naechsttieferen Gruppe „weiterwandern“. Zunaechst natuerlich Gruppe 5, aber dann auch die Gruppen 3 und 2. Gruppe 1 wird nie wieder besetzt, da am Ende alle Seiten direkt von Gruppe 2 zu Gruppe 0 springen.

Das war letztlich easy peasy zu verstehen, insb. wenn man (wie bereits erwaehnt), das (oben verlinkte) Gezappel der linklevlabhaengigen Verteilungen der totalen Links sich nochmal anschaut.
Deswegen geht’s gleich weiter mit den Selbstreferenzen. Zur Erinnerung zwei Beispielverteilungen:

Die Gruppen gehen nicht ganz so weit wie bei den totalen Links und nicht gezeigt ist Gruppe 6, weil sich da ueber alle Linklevel gesehen nur zwei Seiten aufhalten (siehe das naechste Diagramm). Von der Andersartigkeit der Verteilungen abgesehen (welche aber bereits ausfuehrlich besprochen wurde) gibt’s aber letztlich nichts Neues und deswegen geht’s gleich weiter mit den Seiten pro Grøszenordnung:

Das hier ist so viel uebersichtlicher, dass ich alle Gruppen dringelassen habe. Beim letzten Mal schrieb ich nur kurz:

[e]s ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat […]

… und das ist was man sieht; Gruppe 1 ist immer høher als Gruppe 2 ist immer høher als Gruppe 3 usw. usf. Das aendert sich auch dann nicht, wenn Gruppen die Seiten mit mehr (und viel mehr) Selbstreferenzen repraesentieren, bei LL2 oder LL3 ein høheres Signal aufweisen als am Anfang. Die Erhøhung kommt naemlich durch das Vorhandensein von mehr totalen Links zustande und wenn ich davon mehr habe, habe ich (dem maechtigen Gesetz entsrpechend) auch mehr Seiten in Gruppe 1.
Wieauchimmer, ab ungefaehr LL10 befinden sich onehin die meisten Seiten in Gruppe 0 und es passiert nicht mehr wirklich was.

Alles in allem sind die Seiten pro Grøszenordnung sowohl fuer die totalen Links, als auch fuer die Selbstreferenzen leicht zu verstehen, da diese relativ direkt aus den Verteilungen pro Linklevel folgen. Das ist der Hauptgrund, warum ich zunaechst diese abgehandelt habe, damit man etwas vertrauter wird mit der Datenkomprimierung und was man da dann eigtl. sieht.
Das bedeutet aber auch, dass man fuer diese beiden Grøszen da nichts weiter „rausholen“ kann.
Beim naechsten Mal dann das Gleiche fuer die Linkfrequenzen. Das ist komplizierter und da passiert viel mehr.

Nach all den vielen Artikeln bewege ich mich jetzt endlich wieder direkt(er) in the Richtung, mit der diese Miniserie begann. Dazu verweise ich zunaechst nochmals auf den Artikel von Ugai, T., et al. (fuer den ich immer noch keine freie Quelle finde … *seufz*).

Die viele Information die sich im Fliesztext befindet, ist dort nochmal schøn in Tabellen zusammengefasst und heute relevant ist Tabelle 1 mit dem Titel „Possible risk-factors for early onset cancers“. Dort finde ich, dass „inactivity“ oder „sedentary behaviour“ nur als møglicher (!) Risikofaktor bei Brustkrebs und kolorektalem Karzinom zaehlt. Das wunderte mich etwas, denn ich haette auch bei so ziemlich allen anderen Organen erwartet, dass langes Sitzen dort einen Effekt hat. Wieauchimmer, Ersteres ist in dieser Serie nicht von Interesse und fuer Letzteres werden nur zwei Studien zitiert … im Gegensatz zu deutlich mehr Studien fuer alle anderen Risikofaktoren.

Das nur zwei Studien zitiert werden ist erstmal nicht all zu schlimm.
Gleichzeitig ist es aber nicht von der Hand zu weisen, dass fuer kolorektales Karzinom sieben andere Risikofaktoren aufgezaehlt werden:

Obesity […], metabolic syndrome […], type 2 diabetes […], hyperlipidaemia […], diet (such as western diet, sugar-sweetened beverages, low Vitamin D intake, red meat) […], alcohol consumption […], inflammatory bowel disease […]

Fuer alle sieben (zusaetzlichen) Risikofaktoren ist es viel leichter zu erkennen, warum diese zu besagtem Krebs fuehren. Oder anders: Alkholkonsum oder Diabetes sind sicherlich viel schaedlicher als Sitzen und der Beitrag des Letzteren somit deutlich schwerer aus dem Signal „herauszupopeln“. Beim letzten Mal schrieb ich etwas dazu, wie relativ klein der Einfluss von „red meat“ ist. Das ist aber viel besser bekannt als das viel Sitzen Krebs zur Folge haben kønnte.
Ich gehe davon aus, dass diese beiden Studien das schon richtig gemacht haben und ein møglicher Effekt des Sitzens real ist (auch wenn ich besagte Studien nicht las; aber so ist das nunmal in der Wissenschaft, man verlaeszt sich darauf, dass andere Wissenschaftler das ordentlich machen … was ja leider viel viel øfter als einem lieb sein kann nicht der Fall ist … *seufz*).

Worauf ich hinaus will: wir sprechen hier von (sehr) kleinen Effekten des Sitzens und viel grøszeren Effekten anderer Risikofaktoren!
In nachfolgenden Artikeln gehe ich (unrichtigerweise!) davon aus, dass der gesamte Anstieg der Zahlen bzgl. kolorektalem Karzinoms _nur_ auf langes Sitzen zurueckzufuehren ist. Das ist falsch und dient nur der Vereinfachung der Argumentation. Erst ganz am Ende betrachte ich dann alle Argumente unter dem (richtigen) Gesichtspunkt, dass Sitzen nur einer von mehreren (und schwerwiegenderen) Risikofaktoren ist.
Und damit soll’s genug sein fuer heute.

Ich hatte zwar bereits individuelle Linkfrequenzverteilungen gezeigt, aber noch nicht die „kollektiven“ Linkfrequenzverteilungen per Linklevel, so wie es „Tradition“ ist. Das hole ich heute nach.

Bei den totalen Links war nicht viel. Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben. Es gab keine Seite die wenige totale Links hatte, waehrend andere sehr sehr sehr viele hatten (und umgekehrt).
Eine Idee die mir in dem Zusammenhang in den kopf kam fuehrte mich in eine Sackgasse. Aber letztlich wurde ich dadurch auch das erste Mal auf das „São Paulo FC“-Artefakt aufmerksam und das Wissen darum half mir ein paar Mal weitere Seltsamkeiten richtig einzuordnen.

Weil die neuen Links letztlich zu aehnlich den totalen Links sind, gab es da entsprechend nix Neues zu holen.

Die Selbstreferenzen hatten ganz andere Verteilungen. Die Andersartigkeit folgte aber aus der Natur der Selbstreferenzen und der Wikipedia. Es ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat und dies folgt einem maechtigen Gesetz. Letztlich entdeckte ich dadurch aber die Gesetzmaeszigkeit wie schnell die thematische Aehnlichkeit der Wikipediaseiten von Linklevel zu Linklevel abnimmt, was eine urst coole Entdeckung ist. Ebenso brachte mich das auf die Idee mich mal an einer Simulation des Ganzen zu versuchen.

Ich will damit auf das Folgende hinaus: auch wenn diese Verteilungen immer erstmal eher langweilig sind, so bin ich aber letztlich dadurch immer auf coole Sachen aufmerksam geworden. Deswegen heute die Verteilungen der Linkfrequenzen pro Linklevel anhand repraesentativer Beispiele:

Hier passiert viel, aber der Reihe nach, beginnend mit dem linken oberen Diagramm in dem die Verteilungen von LL0 bis LL4 zu sehen sind.
Zunaechst einmal scheint mir hier (mehr oder weniger fuer alle Veteilungen) eine Mischung im Verhalten vorzuliegen, welches man bei den totalen Links und den Selbstreferenzen sieht. Die Verteilungen von LL0 (welche uebrigens wieder nur eine alte Beobachtung auf andere Weise repliziert ist) bis LL2 sind qualitativ noch naeher an den Selbstreferenzen. Aber ab LL3 „zerfasert“ sich die Verteilung ab Linkfrequenzen ueber ca. 1000 (Zitierungen von anderen Seiten), was man daran sieht, dass die blauen Punkte ein breites Band bilden. Dadurch gibt es in der Summe mehr Seiten mit vielen bis sehr vielen Zitierungen von anderen Seiten als solche mit wenigen. Aber die gehen nicht alle in „Zustaende“ nahe dem Ende der Abszisse (wie bei den totalen Links), sondern verteilen sich ueber (fast) die ganze Breite ab ca. 1000 Zitierungen (das ist was ich mit „Zerfaserung“ meine).
Dieses Verhalten verstaerkt sich noch fuer LL4 und LL5 (dann schon im Diagramm rechts oben). Immer mehr Seiten mit wenigen Zitierungen gehen ueber in das „zerfaserte Band“. Die „Amplitude“ des linearen Teils nimmt ab.

Dann aber kehrt sich das Verhalten um. Zunaechst waechst auf LL6 ein „Buckel“ zwischen ca. 100 und ca. 10,000 Zitierungen. Von LL7 bis LL9 nimmt die „Amplitude“ des linearen Teils wieder zu, waehrend das „zerfaserte Band“ nicht verschwindet, aber die Høhe abnimmt.
Im linken unteren Diagramm sieht man dann, dass sich diese Entwicklung ueber etliche Linklevel fortsetzt. Zu beachten ist aber, dass die Amplitude des linearen Teils wieder abnimmt, denn die Seiten „wandern“ in den „Nullzustand“; dem Punkt der sich links oben an die Ordinate schmiegt.

Am Ende haben wir ein bereits bekanntes Bild in anderer Form. Alle zitierenden Ursprungsseiten befinden sich um Artefakt und nur noch ca. 75 Seiten werden ueberhaupt zitiert (davon aber einige sehr sehr oft).

Die Verteilungen sind nicht so eindeutig wie bei den Selbstreferenzen oder den totalen Links. Deswegen wollte ich gerne mal sehen, wie die Seiten sich von niedrigen zu hohen Linkfrequenzen „bewegen“. Also nicht einzelne Seiten, sondern wie die „kollektive Bewegung“ aussieht. Nun kann ich mir aber nicht alle fast 6 Millionen Seiten anschauen. Ich musste also einen Weg finden die Information zu komprimieren.
Dabei kommt mir (ausnahmsweise) zur Hilfe, dass bei den Werten fuer die Linkfrequenz (aber auch bei den totalen Links und den Selbstreferenzen) mehrere Grøszenordnungen „ueberstrichen“ werden. Da bot sich førmlich an, dass ich mir mal anschaute, wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“; das Ganze natuerlich pro Linklevel … … … HAEH?
In kurz und knapp, schaute ich mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. (also von einem langen Strich auf der Abszisse zum naechsten) auf jedem Linklevel erhalten haben. Dadurch kann ich die Information von ueber 12 Millionen Datenpunkten (verteilt ueber mehr als 70 Linklevel) auf nur 8 Datenpunkte pro Linklevel reduzieren.

Aber das wuerde zu viel werden fuer heute. Deswegen erklaer ich das Ganze beim naechsten Mal nochmal an einem Beispiel (und hoffe, dass dann klarer wird worauf ich hinaus will). Auszerdem fange ich am Besten auch nicht gleich mit dem Schwersten (also den Linkfrequenzen) an, sondern erstmal „nur“ mit den totalen Links und den Selbstreferenzen. Die sind naemlich leichter zu verstehen.
So, das soll genug sein fuer heute.