Archive for the ‘Allgemein’ Category

Nach all den vielen Artikeln bewege ich mich jetzt endlich wieder direkt(er) in the Richtung, mit der diese Miniserie begann. Dazu verweise ich zunaechst nochmals auf den Artikel von Ugai, T., et al. (fuer den ich immer noch keine freie Quelle finde … *seufz*).

Die viele Information die sich im Fliesztext befindet, ist dort nochmal schøn in Tabellen zusammengefasst und heute relevant ist Tabelle 1 mit dem Titel „Possible risk-factors for early onset cancers“. Dort finde ich, dass „inactivity“ oder „sedentary behaviour“ nur als møglicher (!) Risikofaktor bei Brustkrebs und kolorektalem Karzinom zaehlt. Das wunderte mich etwas, denn ich haette auch bei so ziemlich allen anderen Organen erwartet, dass langes Sitzen dort einen Effekt hat. Wieauchimmer, Ersteres ist in dieser Serie nicht von Interesse und fuer Letzteres werden nur zwei Studien zitiert … im Gegensatz zu deutlich mehr Studien fuer alle anderen Risikofaktoren.

Das nur zwei Studien zitiert werden ist erstmal nicht all zu schlimm.
Gleichzeitig ist es aber nicht von der Hand zu weisen, dass fuer kolorektales Karzinom sieben andere Risikofaktoren aufgezaehlt werden:

Obesity […], metabolic syndrome […], type 2 diabetes […], hyperlipidaemia […], diet (such as western diet, sugar-sweetened beverages, low Vitamin D intake, red meat) […], alcohol consumption […], inflammatory bowel disease […]

Fuer alle sieben (zusaetzlichen) Risikofaktoren ist es viel leichter zu erkennen, warum diese zu besagtem Krebs fuehren. Oder anders: Alkholkonsum oder Diabetes sind sicherlich viel schaedlicher als Sitzen und der Beitrag des Letzteren somit deutlich schwerer aus dem Signal „herauszupopeln“. Beim letzten Mal schrieb ich etwas dazu, wie relativ klein der Einfluss von „red meat“ ist. Das ist aber viel besser bekannt als das viel Sitzen Krebs zur Folge haben kønnte.
Ich gehe davon aus, dass diese beiden Studien das schon richtig gemacht haben und ein møglicher Effekt des Sitzens real ist (auch wenn ich besagte Studien nicht las; aber so ist das nunmal in der Wissenschaft, man verlaeszt sich darauf, dass andere Wissenschaftler das ordentlich machen … was ja leider viel viel øfter als einem lieb sein kann nicht der Fall ist … *seufz*).

Worauf ich hinaus will: wir sprechen hier von (sehr) kleinen Effekten des Sitzens und viel grøszeren Effekten anderer Risikofaktoren!
In nachfolgenden Artikeln gehe ich (unrichtigerweise!) davon aus, dass der gesamte Anstieg der Zahlen bzgl. kolorektalem Karzinoms _nur_ auf langes Sitzen zurueckzufuehren ist. Das ist falsch und dient nur der Vereinfachung der Argumentation. Erst ganz am Ende betrachte ich dann alle Argumente unter dem (richtigen) Gesichtspunkt, dass Sitzen nur einer von mehreren (und schwerwiegenderen) Risikofaktoren ist.
Und damit soll’s genug sein fuer heute.

Ich hatte zwar bereits individuelle Linkfrequenzverteilungen gezeigt, aber noch nicht die „kollektiven“ Linkfrequenzverteilungen per Linklevel, so wie es „Tradition“ ist. Das hole ich heute nach.

Bei den totalen Links war nicht viel. Wikipediaseiten haben zuerst wenige, dann viel mehr, dann viel viel viel mehr totale Links um dann wieder weniger, viel weniger, viel viel viel weniger und letztlich gar keine Links mehr zu haben. Es gab keine Seite die wenige totale Links hatte, waehrend andere sehr sehr sehr viele hatten (und umgekehrt).
Eine Idee die mir in dem Zusammenhang in den kopf kam fuehrte mich in eine Sackgasse. Aber letztlich wurde ich dadurch auch das erste Mal auf das „São Paulo FC“-Artefakt aufmerksam und das Wissen darum half mir ein paar Mal weitere Seltsamkeiten richtig einzuordnen.

Weil die neuen Links letztlich zu aehnlich den totalen Links sind, gab es da entsprechend nix Neues zu holen.

Die Selbstreferenzen hatten ganz andere Verteilungen. Die Andersartigkeit folgte aber aus der Natur der Selbstreferenzen und der Wikipedia. Es ist viel wahrscheinlicher, dass eine Seite sehr wenige Selbstreferenzen als viele hat und dies folgt einem maechtigen Gesetz. Letztlich entdeckte ich dadurch aber die Gesetzmaeszigkeit wie schnell die thematische Aehnlichkeit der Wikipediaseiten von Linklevel zu Linklevel abnimmt, was eine urst coole Entdeckung ist. Ebenso brachte mich das auf die Idee mich mal an einer Simulation des Ganzen zu versuchen.

Ich will damit auf das Folgende hinaus: auch wenn diese Verteilungen immer erstmal eher langweilig sind, so bin ich aber letztlich dadurch immer auf coole Sachen aufmerksam geworden. Deswegen heute die Verteilungen der Linkfrequenzen pro Linklevel anhand repraesentativer Beispiele:

Hier passiert viel, aber der Reihe nach, beginnend mit dem linken oberen Diagramm in dem die Verteilungen von LL0 bis LL4 zu sehen sind.
Zunaechst einmal scheint mir hier (mehr oder weniger fuer alle Veteilungen) eine Mischung im Verhalten vorzuliegen, welches man bei den totalen Links und den Selbstreferenzen sieht. Die Verteilungen von LL0 (welche uebrigens wieder nur eine alte Beobachtung auf andere Weise repliziert ist) bis LL2 sind qualitativ noch naeher an den Selbstreferenzen. Aber ab LL3 „zerfasert“ sich die Verteilung ab Linkfrequenzen ueber ca. 1000 (Zitierungen von anderen Seiten), was man daran sieht, dass die blauen Punkte ein breites Band bilden. Dadurch gibt es in der Summe mehr Seiten mit vielen bis sehr vielen Zitierungen von anderen Seiten als solche mit wenigen. Aber die gehen nicht alle in „Zustaende“ nahe dem Ende der Abszisse (wie bei den totalen Links), sondern verteilen sich ueber (fast) die ganze Breite ab ca. 1000 Zitierungen (das ist was ich mit „Zerfaserung“ meine).
Dieses Verhalten verstaerkt sich noch fuer LL4 und LL5 (dann schon im Diagramm rechts oben). Immer mehr Seiten mit wenigen Zitierungen gehen ueber in das „zerfaserte Band“. Die „Amplitude“ des linearen Teils nimmt ab.

Dann aber kehrt sich das Verhalten um. Zunaechst waechst auf LL6 ein „Buckel“ zwischen ca. 100 und ca. 10,000 Zitierungen. Von LL7 bis LL9 nimmt die „Amplitude“ des linearen Teils wieder zu, waehrend das „zerfaserte Band“ nicht verschwindet, aber die Høhe abnimmt.
Im linken unteren Diagramm sieht man dann, dass sich diese Entwicklung ueber etliche Linklevel fortsetzt. Zu beachten ist aber, dass die Amplitude des linearen Teils wieder abnimmt, denn die Seiten „wandern“ in den „Nullzustand“; dem Punkt der sich links oben an die Ordinate schmiegt.

Am Ende haben wir ein bereits bekanntes Bild in anderer Form. Alle zitierenden Ursprungsseiten befinden sich um Artefakt und nur noch ca. 75 Seiten werden ueberhaupt zitiert (davon aber einige sehr sehr oft).

Die Verteilungen sind nicht so eindeutig wie bei den Selbstreferenzen oder den totalen Links. Deswegen wollte ich gerne mal sehen, wie die Seiten sich von niedrigen zu hohen Linkfrequenzen „bewegen“. Also nicht einzelne Seiten, sondern wie die „kollektive Bewegung“ aussieht. Nun kann ich mir aber nicht alle fast 6 Millionen Seiten anschauen. Ich musste also einen Weg finden die Information zu komprimieren.
Dabei kommt mir (ausnahmsweise) zur Hilfe, dass bei den Werten fuer die Linkfrequenz (aber auch bei den totalen Links und den Selbstreferenzen) mehrere Grøszenordnungen „ueberstrichen“ werden. Da bot sich førmlich an, dass ich mir mal anschaute, wieviele Seiten eigentlich in jeder Grøszenordnung „stecken“; das Ganze natuerlich pro Linklevel … … … HAEH?
In kurz und knapp, schaute ich mir an, wie viele Seiten eine bis zehn Zitierungen, wie viele Seiten 11 bis 100 Zitierungen, wie viele Seiten 101 bis 1000 Zitierungen usw. usf. (also von einem langen Strich auf der Abszisse zum naechsten) auf jedem Linklevel erhalten haben. Dadurch kann ich die Information von ueber 12 Millionen Datenpunkten (verteilt ueber mehr als 70 Linklevel) auf nur 8 Datenpunkte pro Linklevel reduzieren.

Aber das wuerde zu viel werden fuer heute. Deswegen erklaer ich das Ganze beim naechsten Mal nochmal an einem Beispiel (und hoffe, dass dann klarer wird worauf ich hinaus will). Auszerdem fange ich am Besten auch nicht gleich mit dem Schwersten (also den Linkfrequenzen) an, sondern erstmal „nur“ mit den totalen Links und den Selbstreferenzen. Die sind naemlich leichter zu verstehen.
So, das soll genug sein fuer heute.

Obligtorischer Videoschnipsel.

Nach dem vielen Text vom letzten Mal, muss ich heute nix mehr erklaeren und kann sofort in die Vollen gehen:

Woohoo! Es ist genau so wie ich es beim letzten Mal vorausgesehen habe!

Zum Ersten kann die Verteilung der Summe der Linkfrequenzen ueber aller Linklevel tatsaechlich in zwei unterschiedliche, deutlich (!) voneinander getrennte Gruppen eingeteilt werden.
Zum Zweiten weist die erste Gruppe keine hohen Summenwerte auf. Nicht eine einzige Seite liegt ueber einem Summewert von 150.
Zum Dritten liegt die zweite Gruppe ueber einem „strengen“ Grenzwert welcher bei 5,692,712 liegt.

Cool wa! Der Clou kommt aber erst noch. Die Anzahl der Seiten aus denen die ersten Gruppe besteht betraegt naemlich 481,522 Seiten. Dieser Wert entspricht exakt dem beim letzten Mal angegebenen Wert fuer die Anzahl aller Archipelseiten.
Dadurch wird nicht nur die dort aufgestellte Behauptung, dass sich im „Nullwertbalken“ der dortigen Verteilung Archipelseiten verstecken, indirekt bestaetigt sondern das bedeutet auch, dass mir bei meiner urspruenglichen Analyse keine Archipele „entkommen“ sind … Jippie!

Haette ich die obige Infornation bereits vor besagter urspruenglichen Analyse gehabt, so haette ich eben diese auf nur die Seiten mit einer kleinen Linkfrequenzsumme einschraenken kønnen. Das haette die rekursiv durchzugehende Datenmenge auf weniger als 1/10 reduziert …

… *ueberleg* …

Kurz ueberschlagen (und die Zahlen gerundet so dass es sich einfacher ueberschlagen laeszt) gibt es 5 Millionen Seiten. Diese weren auf 1/10 reduziert. Aber die 5 Millionen Seiten haben insgesamt 150 Millionen Links die alle durchgegangen werden muessten. Hier brauche ich aber nur Links zu anderen Archipelseiten was eine Reduzierung um einen Faktor 300 bedeutet! Die Analyse waere also 3000 Mal schneller gegangen! Das sind drei Grøszenordnungen! Krassomat … naja … nun bin ich fertig aber ’s ist schon interessant zu sehen was møglich ist, wenn man mehr Information hat.

Joa … øhm … das war’s fuer heute … ich musste ja beim letzten Mal so viel erklaeren, da ist’s auch mal schøn, wenn’s mal schnell geht :)

Hier erwaehnte ich das Folgende:

[…] superhoher Stress (bspw. durch Misshandlungen durch besagte Eltern) [kann] auch nach der Geburt (via DNA-Methylierung) noch die DNA veraendern […]

… so ist das Quatsch und ich zitierte diesen Artikel, von dem ich mittlerweile aber auch denke, dass der Quark ist … aber der Reihe nach.

Ich wusste, dass sich Methylgruppen tatsaechlich an die DNA anlagern und damit deren Funktion beeintraechtigen. Ich wusste auch, dass das durch schwerwiegende Umweltveraenderungen passieren kann. Mir war vage bewusst, dass dies vor allem im Zusammengang mit (langanhaltenden) Hungerzustaende passiert. Unter dem Eindruck von Artikeln wie dem oben zitierten habe ich das auch auf andere Stresssituaton uebertragen. Das war kein Fehler solchen Artikeln zu vertrauen. So funktioniert das nunmal (zunaechst) in der Wissenschaft.
Ich wusste auch, dass das selten auf’s Kind uebertragen wird, aber dass eine Uebertragung durchaus stattfinden kann. Das war mein zweiter Fehler; mit dem Gebrauch der Worte „selten“ und „durchaus“ versuche ich zu vermitteln, wie krass ich die Chance dafuer ueberschaetzt habe. Dazu komme ich beim naechsten Mal.

Heute geht es um die meinen ersten Fehler: ich dachte, dass DNA-Methylierung urst selten passiert.

Dieser Fehler wurde gluecklicherweise korrigiert, denn ich stolperte ueber mehrere Artikel diesbezeuglich. Der Erste (in einer Reihe bzgl. Epigenetik in Saeugetieren) ist ziemlich technisch, dafuer aber kurz. Wegen des sehr technischen Aspekts fand ich den relativ schwer zu lesen, aber ich fand den auch sehr praezise und auf den Punkt gebracht.
Der Zweite erklaert alles etwas besser fuer normale Leute wie mich (ist also weniger technisch), ich fand den aber etwas laenglich. Letztlich lohnt es sich das Anschauen beider.

Wieauchimmer, durch das Lesen der Artikel habe ich gelernt, dass DNA-Methylierung urst haeufig vorkommt und vorkommen muss. Bis zu 80 % der DNA sind derart modifiziert (und auch die Histone, die mit der DNA „zusammenspielen“).
Das ist URST wichtig, denn erst das Vorhandensein solcher Methylgruppen „(de)aktiviert“ bestimmte DNA-Abschnitte und das ist lebensnotwendig. Der Grund fuer Letzteres liegt darin, weil jede Zelle IMMER die gesamte DNA hat, aber nur eine ganz konkrete Aufgabe erfuellen soll und nicht alles auf einmal. In bspw. einer Leberzelle sorgen die angelagerten Methylgruppen nun dafuer, dass die Leberzwelle weisz, dass es mit den derart markierten Abschnitte einfach nichts tun soll.

Das Ganze ist etwas komplizierter, denn Methylgruppen kønnen einen DNA-Abschnitt auch ueberhaupt erst aktivieren, aber das Prinzip ist letztlich das Gleiche.
Und dann wird das ganze noch viel komplizierter, denn es gibt nicht nur Methylierung sondern auch

[…] acetylation, methylation, ubiquitylation, phosphorylation, sumoylation, ribosylation and citrullination.

Aber die Menschheit weisz bisher nicht so super viel darueber.

Wieauchimmer, ich verbleibe bei Methylierung und es ist festzuhalten, dass es fuer die DNA total normal und wichtig ist mit Methylgruppen „dekoriert“ zu sein. Deswegen ist es auch nicht verwunderlich wenn sowas bspw. bei einer groszen Hungersnot passiert, wenn dadurch das Ueberleben des Organismus gesichert werden kann (bspw. indem der Energiebedarf modifiziert wird).

Mehr muss ich dazu nicht sagen. Beim naechsten Mal komme ich zu meinem zweiten Fehler und gehe ein bisschen darauf ein, dass von den vielen Methylierungen (fast) nix uebrig bleibt wenn neues Leben entsteht.

Mitochondrien sind voll spannend und da kønnte man ganze Buecher drueber schreiben … ach was sag ich, da gibt es ganze Buecher drueber und dieses hier von Nick Lane

… gehørt zu den fesselndsten Buechern die mir je untergekommen sind; eine unbedingte Lesempfehlung! … … … .oO(Endlich konnte ich das mal unterbringen.)

Fuer heute soll reichen, dass Mitochondrien eigene DNA haben UND dass Mitochondrien IMMER von der Mutter kommen. Eine Eizelle hat richtig viele Mitochondrien und eine Samenzelle gerade mal so viele, sodass diese sich bewegen kann. Nach der Verschmelzung „kaempfen“ diese gegeneinander. Natuerlich nicht mit Schwert und Bogen aber auf molekularer Ebene geschieht das derart, dass die jeweils anderen Zellen zerstørt werden. Die Sieger sind (fast immer) die muetterlichen Mitochondrien.

Das alles ist natuerlich total vereinfacht und auf Heteroplasmie geh ich nicht weiter ein. Aber der Grund warum die muetterlichen Gene gewinnen (muessen) liegt darin, dass die Zell(kern)-DNA ein paar Sachen kodiert, die fuer das Ueberleben der Mitochondrien an sich wichtig ist. Das aber ist nicht unabhaengig von der mitochondrialen DNA. Oder anders: Mitochondrien-DNA und Zell(kern)-DNA muessen gut aufeinander abgestimmt sein. Ist das nicht der Fall, ist das schlecht fuer Beide und fuehrt im „besten“ Fall zu mitochondrialen Krankheiten und ist in den meisten Faellen mit dem Leben nicht vereinbar. Siehe auch die Hausmeistergene vom letzten Mal.

Bei den Mitochondrien der Eizelle ist die optimlae Situation von sich aus gegeben, die entsprechenden DNA-Abschnitte (auf beiden Seiten) haben in der Mutter schon gut funktioniert und werden auch im Kind gut funktionieren. Nun kommt aber bei der Erschaffung eines neuen Menschen 50 % fremde DNA dazu; was passiert da denn jetzt?
Nun, die fuer obige Aufgaben notwendige, vom Vater stammende DNA muss dann natuerlich auch kompatibel sein.

Das aber bedeutet, dass die vaeterliche DNA im Wesentlichen der muetterlichen DNA gleich (wenn nicht gar identisch) ist. Damit kommt das zwar vom Vater kann aber kein spezifisches Teil des Dingens sein, was von ihm im Kind „weitergetragen“ wird. Oder anders, es ist ziemlich egal wo diese DNA-Abschnitte herkommen, so lange die kompatibel mit den Mitochondrien sind.

Letztlich ist also auch dieser Umstand ein Fingerzeig auf die Tatsache wie bekloppt das im Titel enthaltene Konzept ist.
In dem hier dargestellten Zusammenhang ist das extra ironisch, denn ich habe den Eindruck, dass besagtes Konzept insb. fuer Maenner wichtig scheint. Aber oben Geschriebenes zeigt, dass die Gene der Mutter deutlich wichtiger sind als die des Vaters (bzw. in einer erweiterten Herangehensweise die Aehnlichkeit der vaeterlichen Gene zu den muetterlichen Genen).… tihihi

Das soll reichen fuer heute. Ich kønnte noch stundenlang ueber Mitochondrien reden weil das so urst krass spannend ist. Aber da verweise ich lieber auf das oben erwaehnte Buch, denn besser als das kann ich das nicht.

Dieses Bild bedarf keiner weiteren Worte:

*lacht*

Heute brauche ich NICHT den Artikel von Ugai, T., et al. (immer noch nicht befreit). Jedenfalls nicht direkt, denn das worueber ich schreiben will findet sich in den frei zugaenlichen „Supplementary Information„. Genauer geht es um die Werte zu „Colorectal cancer“ (CRC) bei Maennern in Tabelle 1. Zur Erinnerung, neben Brustkrebs waren das die einzigen Krebsarten auf die ein „sitzender Lebensstil“ einen Einfluss hat.
Die Abkuerzung AAPC steht fuer „Average Annual Percentag Change“ (und das ist der „Trend“ aus dem Titel). LCI bzw. UCI sind das untere (lower) bzw. obere (upper) Konfidenzintervall des AAPC. Etwas salopp gesagt, liegt der wahre Wert des AAPC mit 95 % Wahrscheinlichkeit innerhalb dieser Grenzen. Ich betrachte das LCI und UCI nicht weiter, sondern nehme den AAPC als wahren Wert an. Letztlich ist das nur eine weitere Diskussion was alles sein kønnte und man trifft sich am Ende dann doch in der Mitte.

Nimmt man nun wieder Norwegen so betraegt der AAPC im Untersuchungszeitraum (2002-2012) 0.7 und der von Dtschl. 2. Letzteres bedeutet, dass es 2012 in Norwegen 7 % mehr Faelle von CRC gab als 2002 und in Dtschl. 20 % mehr Faelle. Dies gilt fuer Maenner zwischen 20 und 49 Jahren und hørt sich ganz schøn viel (und furchterregend) an.

Deswegen denke ich mal einen Schritt weiter und betrachte dafuer (wieder fuer norwegische Maenner) die Zahlen fuer 2020. Man sieht, dass es in der Altergruppe 20-49 Jahre nur 115 CRC-Faelle gab. Dies entspricht einer Crude Rate von 10.2 — also nur einer von zehntausend Maennern (in dieser Altersgruppe, in Norwegen) bekommt ueberhaupt CRC.
Schaut man sich die altersgruppenspezifischen Crude Rates an, erhaelt man dieses Diagramm (die Zahlen ueber jedem Datenpunkt geben wieder die Anzahl aller diagnostizierten Faelle an):

In meiner Altersgruppe wurde bei insgesamt ca. 180-tausend Maennern ueberhaupt nur 30 mal CRC diagnostiziert. Nun bin ich mir aber ziemlich sicher, dass deutlich mehr von diesen ca. 180-tausend Maennern viel zockt und sitzend arbeitet.
Die 70-74-Jaehrigen haben viel grøszere Zahlen. Aber auch in dieser Altersgruppe erkrankten von den ca. 130-tausend Maennern gerade mal 514 an CRC.

Dies fuehrt mich (mal wieder) zu der Schlussfolgerung: das ist alles gar nicht so schlimm, wie es auf den ersten Blick aussieht. Dies gilt selbst dann, wenn man annimmt, dass alle diese 30 (bzw. 514) Maenner ausschlieszlich wegen des vielen Sitzens an CRC erkrankten … was _definitiv_ (!) NICHT der Fall ist.

*erleichtert aufatme* … nochmal Glueck gehabt. Aber ich bin damit noch nicht fertig bzgl. der Auswirkungen des Sitzens auf CRC. Mehr dazu beim naechsten Mal.

Ein weiteres Kennzeichen in stratitgraphischen Aufzeichnungen die auf eine Zivilisation hindeuten (kønnten) ist das Auftreten von (neuen) Fossilien, bzw. das Abhandensein (von alten) Fossilien.

Ersteres bezieht sich nicht notwendigerweise auf die Mitglieder der Zivilisation an sich (wie bereits im ersten Beitrag kurz angesprochen). Vielmehr sind damit (vor allem kleine) Tiere gemeint, die uns begleiten wo immer wir auftauchen. Oder in den Worten von Schmidt und Frank:

[t]he last few centuries have seen significant changes in the abundance and spread of small animals, particularly rats, mice and cats, etc. that are associated with human exploration and biotic exchanges.

An und fuer sich gelten fuer diese die gleichen Beschraenkungen wie fuer besagte MItglieder der Zivilisation; vor allem dass der Zeitraum fuer Fossilienbildung bisher zu kurz war. Aber von diesen Tieren gibt es so krass viele mehr, sodass sich die Chancen dafuer deutlich erhøhen.

The fossil record will likely indicate a large faunal radiation of these indicator species […].

Nun stelle man sich vor, dass in vielen Millionen Jahren in verschiedensten Gegenden Katzenfossilien gefunden werden. Diese befinden sich in Gesteinsschichten, die erdgeschichtlich gesehen den selben Zeitpunkt beschreiben (diesbezueglich sind ein paar tausend Jahre Unterschied der selbe Zeitpunkt). Aber zur Zeit der Bildung dieser Schichten waren die Gegenden unueberwindbar (bspw. durch einen Ozean) getrennt. Dann weist das darauf hin, dass die Katzen mit Lebewesen kamen, die diese Hindernisse regelmaeszig und in groszer Zahl ueberwunden haben. Das wiederum weist auf eine Zivilisation hin.
Im Wesentlichen war dies eines der Argumente welches fuer die Postulierung der Plattentektonik benutzt wurde. Nur das dort natuerlich der umgekehrte Fall vorlag.

Mit der Ausbreitung solcher Spezies folgt aber auch, dass weltweit einheimische Spezies verdraengt werden:

[…] many other species […] are likely to become, extinct, and their disappearance from the fossil record will be noticeable.

Øhm ja, mehr gibt’s dazu nicht zu sagen.

Diese beiden Sachen kann man sich einfach vorstellen und deswegen soll das dazu reichen.

Das zweite Diagramm beim letzten Mal zeigte die linklevelabhaengigen Linkfrequenzen  dreier Beispielseiten. Die Summe ueber alle Linklevel einer Seite war da weit unter 1000. Dies im starken Gegensatz zu allem was ich davor gesehen hatte. Die drei Beispiele sehen alle aus als ob das Archipelseiten sind (ohne das zu pruefen … ist nur so’n Bauchgefuehl weil ich mich ja jetzt ein bisschen damit auskenne) und entsprechend schrieb ich:

Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte.

Mit „damit“ meine ich die Summe ueber alle Linklevel einer Seite (in diesem Fall fuer die Linkfrequenz) und die erste Frage ist nun, warum das mglw. klappen kønnte.

Eine kurze Ueberlegung nimmt die (oben nochmals verlinkten) individuellen Linkfrequenzverteilungen dreier Seiten des „São Paulo FC“-Artefakts heran.
Diese Seiten gehøren zu den am wenigsten zitierten Seiten die aber dennoch Teil des gesamten Wikipedianetzes sind (also NICHT zum Archipel gehøren). Das ist so, weil alle (anderen) Seiten nie direkt dorthin zitieren. Jedes Jahr des Artefakts kann nur ueber des jeweils spaetere Jahre zitiert werden. Jede Artefaktseite erhaelt also von jeder anderen Ursprungsseite maximal ein Zitat. Reflexionen lasse ich der Einfachheit mal auszen vor, bzw. kønnte man auch nur das Jahr 1930 des Artefakts betrachten, denn dieses hat keine Reflexionen in der Linkfrequenz.
Die Summe der Linkfrequenzen ueber alle Linklevel betraegt demnach mindestens 5.5 Millionen (sogar etwas mehr) fuer solche Seiten.

Seiten die zwei Mal zitiert werden sieht man in der roten und schwarzen Kurve im zweiten Diagramm des selben Beitrags. Das sind die, bei denen sich „Metaartefakte“ im Schwanz bemerkbar machen, weil die dort nochmal massiv zitiert werden. Die Summe der Linkfrequenz ueber alle Linklevel verdoppelt sich also (so ungefaehr).
Eine Verdopplung ist das Maximale was in dem Fall passieren kann, denn die zwei Peaks kønnten sich auch ueberlagern und dann waere es weniger als das Doppelte. Das Wichtige ist, dass die obigen 5.5 Millionen eine harte untere Grenze sind, unter die keine Seite kommt, wenn diese irgendwie aus dem gesamten Linknetzwerk zu erreichen ist.

Und das ist der Clou, denn Archipelseiten sind NICHT aus dem gesamten Linknetzwerk zu erreichen. Es ist ja gerade das Merkmal der Seiten aus denen das Archipel besteht, dass diese (wenn ueberhaupt) _nur_ von anderen Archipelseiten zitiert werden, waehrend sie im Allgemeinen aber durchaus auch „nach drauszen“ linken .
Und deswegen nehme ich an, dass die Summe ueber alle Linklevel einer Seite bei den Linkfrequenzen von Archipelseiten immer unter obiger Grenze liegt. In den allermeisten Faellen sogar drastisch darunter, also bei null oder eins oder zwei oder vielleicht auch mal zehn oder 69 wie bei Chrysoprasis beim letzten Mal.
Ich gebe aber zu, dass das vor allem eine praktische Ueberlegung ist, mit Wissen darueber wie das Archipel aussieht. Prinzipiell kønnte eine Archipelseite ueber den Grenzwert kommen, wenn es eine starke Vernetzung gibt und besagte Seite von vielen (Archipel-)Ursprungsseiten auf mehreren Linkleveln zitiert wird. Da gibt es konzeptionell keinen Unterschied zum Rest des Wikipedianetzwerkes. Aber wie gesagt, so sieht das Archipel nicht aus.

Die naechste Frage ist, warum ich das wuerde machen wollen, denn ich habe doch alle Seiten des Archipels bereits identifiziert.
Der Grund liegt darin dass die dortige Identifizierung eher umstaendlich war. Sowohl vom Konzept, als auch von der Implementierung.
Mir hat das natuerlich Freude bereitet, war es letztlich doch ein intellektuelles Puzzle. Aber insbesondere die Implementierung hatte ihre Schwaechen, denn ich musste rekursiv oft ueber viele Daten „fahren“ um Archipelseiten zu identifizieren. Die Schwaeche liegt dabei nicht in der Rekursion, diese machte eher den grøszten Reisz fuer mich aus … auch wenn viele Leute das mglw. anders sehen. Aber das „oft ueber viele Daten fahren“ dauert sehr lange. Mitunter mehrere Stunden, was das Testen und Ausprobieren arg beschraenkt. Deswegen setzte ich eine Limitierungen bei der ich annahm, dass wenn ein Netzwerk von zitierenden Seiten grøszer als so und so viele zitierende Seiten ist (bspw. 100), die Ursprungssite høchstwahrscheinlich nicht zum Archipel gehørt.
Das ist eine durchaus sinnvolle Annahme denke ich und ich testete den maximalen Wert fuer die Limitierung, bis es nicht mehr sinnvoll war (einfach, weil es zu lange dauerte). Ab einem Wert von ca. 100 zitierenden Seiten (also nahe an den Werten der drei Beispiele vom letzten Mal) sah ich dann keine Veraenderungen mehr, es schien also als ob alle Archipelseiten weniger Zitate erhalten als das Limit erlaubt. Aber eine Garantie ist das natuerlich nicht, mir kønnten durchaus Archipele „entkommen“ sein.

Wieauchimmer, die Summe ueber die alle Linkfrequenzen einer Seite zu bilden und zu schauen ob diese (weit) unter einem Grenzwert liegt ist natuerlich deutlich einfacher, viel schneller und einfach zu implementieren. Und wie immer interessieren mich einzelne Seiten weniger sondern die Verteilung dieser Summen.

Daraus stellt sich dann gleich die dritte Frage: worin liegt denn der Unterschied zu den bisherigen Summenverteilungen?
Nach all dem oben Geschriebenen sollte das einfach zu verstehen sein: bei allen vorherigen Summenverteilungen summierte ich fuer jedes Linklevel ueber alle Seiten. Das fuehrte zu linklevelahaengigen Verteilungen mit maximal 73 Werten. Hier aber summiere ich (wie bereits erwaehnt) ueber alle Linklevel einer Seite und das sollte bei ca. 6 Millionen Seiten zu einer Verteilung mit deutlich mehr als 73 Werten fuehren. Kurioserweise nur deswegen weil es das Archipel gibt, aber dazu mehr weiter unten.

Als Letztes stellt sich dann die Frage, warum ich das nicht schon mit den totalen / neuen Links bzw. den Selbstreferenzen gemacht habe.
Nun das ist ganz einfach zu beantworten: weil das nicht sinnvoll erschien … aber fuer die Begruendung der Antwort muss ich etwas ausholen und ich fange mit den totalen Links an.

Zunaechst lasse ich die Archipelseiten auszen vor. Dies auch deswegen, weil ich vom Archipel noch nicht mal etwas ahnte, als ich die totalen Links genauer untersuchte. Unter der Annahme, dass es kein Archipel gibt, sollte die Verteilung der Summen ueber die totalen Links genau zwei Werte haben: Null und ungefaher 165 Millionen.
Der Wert Null kommt durch die Seiten zustande die zwar zitiert werden, aber selber keine Links haben. Hier sollten sich nur ein paar tausend Seiten tummeln. Der weitaus grøszte Anteil der Seiten sollte sich beim Wert von ca. 165 Millionen Wert aufhalten, denn das ist natuerlich genau die Anzahl aller Links ueber alle Seiten. Dies folgt daraus, weil jede Seite im Linknetzwerk zu jeder anderen Seite kommt and dadurch alle Links sieht. Das heiszt aber auch, dass jede Seite am Ende ihres Linknetzwerkes die selbe Anzahl an totalen Links gesehen hat wie jede andere Seite.
Daraus folgt, dass es nur zwei Werte geben sollte und das war der Grund warum ich das damals nicht machte.

Wie man im linken Diagramm dieses Bildes sieht, ist das auch tatsaechlich (fast) so:

Mein Bauchgefuehl sagt mir, dass das schon stimmt mit den ca. 5500 Seiten beim Nullwert. Die ca. 6 Millionen Seiten die sich bei einem Wert von knapp unter 200 Millionen versammeln sind ja genau wie „vorhergesagt“. Und auch wenn ich mich wiederhole: dieses Ergebnis bestaetigt, dass es nicht sinnvoll war die „neue Summe“ ueber die totalen Links zu bilden.

Diese Aussage stimmt nur noch bedingt, wenn man Archipele mit in die Betrachtungen einbezieht, denn diese fuehren zu mehreren (relativ kleinen) Modifikationen.

Zum Einen ist obiger zweiter Wert um ein paar Millionen Seiten kleiner als theoretisch angenommen. Das Archipel besteht aus ungefaehr 500-tausend Seiten und im Durchschnitt hat jede Seite so 10 bis 30 Links. Die durchschnittliche Anzahl an Links pro Seite (und die Nachteile dieses Ansatzes) wurde bereits mehrfach diskutiert, ich finde auf die Schnelle aber nicht wo genau das war. Wenn man sich in der Mitte bei 20 Links pro Seite trifft, fuehrt das zu einem um 10 Millionen kleineren Hauptwert. Und das ist auch das was man sieht … zuegegeben, nicht im linken Diagramm, aber wenn man reinzoomt (so wie im rechten Diagramm, mehr dazu weiter unten), dann ist das tatsaechlich so.

Zum Zweiten wuerde ich vermuten, dass mglw. ein paar niedrige Werte in der Verteilung dazu kommen. Dabei wuerde es sich um Archipelseiten handeln, die bspw. Links zu nur einer oder ein paar wenigen andere Seiten haben und von dort zurueck zitiert wird und wenn keine einzige dieser Seiten einen Link zum groszen Wikipedianetzwerk hat. Davon sollte es aber nicht viele geben, denn es ist selten, dass eine Seite nicht irgendwie ins grosze Linknetzwerk zitiert, selbst wenn sie von da keine Zitate bekommt.
Obiger (linker) Graf bestaetigt das durch die kurzen Balken bei den Werten eins, zwei und drei.

Zum Dritten sollte es etliche (aber maximal ca. 500-tausend, der Anzahl der Archipelseiten, vermutlich deutlich weniger) Werte geben, die ueber den Wert von ca. 155 Millionen (siehe der erste Punkt) hinaus gehen.
Bei kleinen Abweichungen vom Wert den die allermeisten Seiten annehmen handelt es sich um Seiten, die zusaetzlich zum groszen Linknetzwerk nur ihre eigenen Links sehen. Das sind also Seiten des „No-way-home“-Archipels die NUR ins grosze Linknetzwerk zitieren, aber NICHT auf andere Archipelseiten. Fuer Archipelseiten die auch andere Archipelseiten zitieren nimmt der Abstand vom „Hauptwert“ natuerlich entsprechend mehr zu.
Aber alles in allem sollten diese Abweichungen nicht all zu grosz sein. Deswegen sieht man die im linken Diagramm nicht, denn wegen der logarithmischen Abzsisse schmiegen die Balken sich an den Hauptwert. Wenn man aber mal beim Hauptwert rein zoomt (so wie im rechten Bild; man beachte die lineare Abzsisse!) sieht man, dass da tatsaechlich noch was hinter dem høchsten Balken kommt und das verhaelt sich qualitativ so wie erwartet.
Um zu sehen ob das auch quantitativ stimmt  muss man mal die Anzahl der Seiten bestimmen, die sich in den „zusaetzlichen“ Balken befinden und mit der Anzahl der Archipelseiten vergleichen.

Ersteres ist einfach, denn da muss ich nur zaehlen und komme auf 65 + 45 + 3 Seiten bei den Werten von eins bis drei und 481,118 Seiten _hinter_ dem Hauptwert. Zusammen sind das 481,231 Seiten.
Die Anzahl der Archipelseiten hatte ich schonmal, deren Menge wurde da nur nicht erwaehnt. Diese entspricht aber dem Integral unter der roten „Kurve“ (jaja, es sind Punkte) im zweiten Diagramm dieses Beitrags. Da komme ich auf 481.522 … also ein paar mehr … mhmmm … das kønnten Seiten sein die nur von Archipelseiten zitiert werden und selber keine Links haben.
Jau! Das haut hin wenn man das mal grob ueberschlaegt. Es gibt ungefaehr zehn mal mehr Seiten im groszen Netzwerk als auf den Archipelen. Letztere unterscheiden sich aber nicht von Ersteren (auszer, dass die nicht von denen zitiert werden). Deswegen wuerde ich erwarten, dass es auch zehn Mal weniger „Nullwertseiten“ gibt, die nur von Archipelseiten zitiert werden. Das waeren dann so Pi mal Daumen 300. Die Diskrepanz liegt also im „Nullwertbalken“ versteckt und den kann ich nicht ohne weiteres auseinanderpopeln.

Festzuhalten ist das Folgende: haette ich die „neue Summe“ schon bei den totalen Links angeschaut, dann waere ich auf die Existenz der Archipele mglw. schon frueher aufmerksam geworden. Hab ich aber nicht, weil es mir nicht sinnvoll erschien.

Sososososo … der Beitrag ist schon lang genug … ach doch … zwei Sachen noch, die gehen aber schnell.

Es war auch nicht sinnvoll diese „neue Summe“ ueber die neuen Links zu bilden, denn da sieht das (fast) genauso so aus. Der grøszte Unterschied liegt darin, dass der Hauptwert nicht (ungefaehr) bei der Anzahl aller Links, sondern bei der Anzahl aller Seiten liegt … muss ja so sein. Ich habe das natuerlich kontrolliert und es ist tatsaechlich so.

Und schlussendlich war das auch nicht sinnvoll diese „neue Summe“ ueber die Selbstreferenzen zu bilden, denn da wuerde ich ja nur zaehlen wie oft eine Seite von anderen Seiten zitiert wird. Das habe ich aber vor langer Zeit schonmal anders untersucht und die Kontrolle ergibt, dass das auch mit der „neuen Summe“ genau so raus kommt.

Nun ist aber wirklich Schluss fuer heute. Die Verteilung der „neuen Summe(n)“ bzgl. der Linkfrequenzen aller Seiten verschiebe ich auf’s naechste Mal.

Ich gehe nochmal zurueck zum Anfang und verweise auf das zweite Diagramm in welchem die Position des Maximums dargestellt ist. Wie schon bei den Selbstreferenzen erschien mir der erste Balken mit einem Wert von fast 470-tausend viel zu hoch.

Der Verweis auf die Selbstreferenzen ist gut, denn dort liegt auch des Raetsels Løsung: die Høhe des Balkens wird im Wesentlichen bereits durch das „No-way-home“-Archipel beschrieben.
Die ungefaehr 320-tausend „Einwohner“ der

„isolierte[n] Insel der Unzitierten“

werden ja ueberhaupt nicht zitiert und somit liegt das „Maximum“ am Anfang der konstanten Verteilung (mit Wert Null) also auf LL0. Desweiteren stellte ich damals fest, dass

[…] 124.139 Seiten […] zwar nicht Teil der „isolierten Insel“ sind, aber NUR von dort Zitate erhalten.

Das bedeutet, dass die Seiten der „isolierte Insel der Unzitierten“ die Ursprungsseiten sind und dann sofort (also auf LL0) diese anderen 124.139 Seiten zitieren. Da die zitierten Seiten keine weiteren Zitate erhalten ist das dann automatisch auch das Maximum. Da werden zwar sicherlich Mehrfachzaehlungen dabei sein, aber von der Grøszenordnung haut das schon hin. Summa Summarum kønnen vom Wert 470-tausend ungefaehr 445-tausend sofort erklaert werden.

Um den fehlenden 25-tausend auf die Spur zu kommen schaute ich mir mal an, wie die Verteilung der Werte der Maxima aussieht von den Seiten die auf LL0 ihr Maximum in der Linkfrequenz haben:

Aha! Da sind sie, die ca. 320-tausend Seiten mit null Zitierungen. Der zweite Balken ist mit fast 135-tausend Seiten etwas høher als die oben erwaehnten ungefaehr 125-tausend Seiten (ich gebe zu, dass man das im Diagramm nicht sieht). Das war zu erwarten, denn es gibt ja noch ca. 20-tausend Seiten die sich nicht auf dem „No-way-home“-Archipel, aber immer noch auf dem Archipel, befinden.
Hierbei ist daran zu denken, dass eine Seite die aus dem groszen Linknetzwerk zitiert wird letztlich von (fast) allen Seiten der Wikipedia gesehen wird. Der Maximumswert der meisten Seiten sollte also deutlich høher als 1 oder 2 oder gar 10 oder 100 sein. Siehe auch die hier gezeigten individuellen Verteilungen ausgewaehlter Seiten.
Wieauchimmer, von den „fehlenden“ 25-tausend Seiten befinden sich 10-tausend im zweiten Balken. 10-tausend weitere folgen gleich im dritten Balken und was dann noch fehlt ist im Rest. Ich will jetzt aber nicht wieder ins Erbsenzaehlen verfallen. Zum Glueck sieht das alles schon richtig aus und die Verteilung geht auch schnell genug runter. Das ein paar hundert Seiten mehr als ein mal zitiert werden ist normal und war zu erwarten.
Wie mehr als ein oder zwei Zitate zustande kommen ist leicht zu erklaeren, wenn man sich mal die Ausreiszer anschaut (und von dort „rueckwaerts argumentiert“):

Ja, die Linkfrequenzzaehler der Ausreiszer gehen nicht ueber LL2 hinaus und das vom Cheshmeh Ziarat Rural District geht gar nur bis zum ersten Linklevel. Das ist uebrigens ein Verwandter einer unserer Bekannten, den wir von den „Information Operations“ von vor langer Zeit kennen.
Die Vehicle registration plates of the Canal Zone sind uns (dem køniglichen) vor nicht all zu langer Zeit schonmal begegnet.

Chrysoprasis ist uns direkt noch nicht, aber in aehnlicher Form (bspw. als Lepidoptera (auch) bei den „Information Operations“) dann doch schon untergekommen  … und wie diese Seite sich verhaelt ist uns bekannt, denn das ist eine weitere Reflexion. Wenn man dem Link folgt findet man 69 (weitere) Links die alle zu Kaefern dieser Gattung gehøren. Ich finde die Seiten aus Prinzip uebrigens voll toll, denn da hat sich anscheinend eine Expertin mal hingesetzt und aufgeschrieben wer die entsprechenden Krabbeltiere als erstes beschrieben hat. Manchmal sogar mit Bildern.
Wieauchimmer, diese 69 Kaefer zitieren die Gattung Chrysoprasis auf LL0 und werden dort dann alle „reflektiert“ um nochmal auf LL2 (von sich selbst aus gesehen, das sind also Selbstreferenzen) zitiert zu werden. Das eine Zitat auf LL1 kommt von Chrysoprasis selber, denn die Seite geht von LL0 zu den 69 Kaefern, befindet sich dann auf LL1 und wird da 69 mal zitiert … aber das wird nur ein Mal gezaehlt, weil es sich um die Linkfrequenz handelt.

So, das soll reichen fuer heute. Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte … mhmmmm … naechstes Mal!