Archive for the ‘Allgemein’ Category

Hier erwaehnte ich das Folgende:

[…] superhoher Stress (bspw. durch Misshandlungen durch besagte Eltern) [kann] auch nach der Geburt (via DNA-Methylierung) noch die DNA veraendern […]

… so ist das Quatsch und ich zitierte diesen Artikel, von dem ich mittlerweile aber auch denke, dass der Quark ist … aber der Reihe nach.

Ich wusste, dass sich Methylgruppen tatsaechlich an die DNA anlagern und damit deren Funktion beeintraechtigen. Ich wusste auch, dass das durch schwerwiegende Umweltveraenderungen passieren kann. Mir war vage bewusst, dass dies vor allem im Zusammengang mit (langanhaltenden) Hungerzustaende passiert. Unter dem Eindruck von Artikeln wie dem oben zitierten habe ich das auch auf andere Stresssituaton uebertragen. Das war kein Fehler solchen Artikeln zu vertrauen. So funktioniert das nunmal (zunaechst) in der Wissenschaft.
Ich wusste auch, dass das selten auf’s Kind uebertragen wird, aber dass eine Uebertragung durchaus stattfinden kann. Das war mein zweiter Fehler; mit dem Gebrauch der Worte „selten“ und „durchaus“ versuche ich zu vermitteln, wie krass ich die Chance dafuer ueberschaetzt habe. Dazu komme ich beim naechsten Mal.

Heute geht es um die meinen ersten Fehler: ich dachte, dass DNA-Methylierung urst selten passiert.

Dieser Fehler wurde gluecklicherweise korrigiert, denn ich stolperte ueber mehrere Artikel diesbezeuglich. Der Erste (in einer Reihe bzgl. Epigenetik in Saeugetieren) ist ziemlich technisch, dafuer aber kurz. Wegen des sehr technischen Aspekts fand ich den relativ schwer zu lesen, aber ich fand den auch sehr praezise und auf den Punkt gebracht.
Der Zweite erklaert alles etwas besser fuer normale Leute wie mich (ist also weniger technisch), ich fand den aber etwas laenglich. Letztlich lohnt es sich das Anschauen beider.

Wieauchimmer, durch das Lesen der Artikel habe ich gelernt, dass DNA-Methylierung urst haeufig vorkommt und vorkommen muss. Bis zu 80 % der DNA sind derart modifiziert (und auch die Histone, die mit der DNA „zusammenspielen“).
Das ist URST wichtig, denn erst das Vorhandensein solcher Methylgruppen „(de)aktiviert“ bestimmte DNA-Abschnitte und das ist lebensnotwendig. Der Grund fuer Letzteres liegt darin, weil jede Zelle IMMER die gesamte DNA hat, aber nur eine ganz konkrete Aufgabe erfuellen soll und nicht alles auf einmal. In bspw. einer Leberzelle sorgen die angelagerten Methylgruppen nun dafuer, dass die Leberzwelle weisz, dass es mit den derart markierten Abschnitte einfach nichts tun soll.

Das Ganze ist etwas komplizierter, denn Methylgruppen kønnen einen DNA-Abschnitt auch ueberhaupt erst aktivieren, aber das Prinzip ist letztlich das Gleiche.
Und dann wird das ganze noch viel komplizierter, denn es gibt nicht nur Methylierung sondern auch

[…] acetylation, methylation, ubiquitylation, phosphorylation, sumoylation, ribosylation and citrullination.

Aber die Menschheit weisz bisher nicht so super viel darueber.

Wieauchimmer, ich verbleibe bei Methylierung und es ist festzuhalten, dass es fuer die DNA total normal und wichtig ist mit Methylgruppen „dekoriert“ zu sein. Deswegen ist es auch nicht verwunderlich wenn sowas bspw. bei einer groszen Hungersnot passiert, wenn dadurch das Ueberleben des Organismus gesichert werden kann (bspw. indem der Energiebedarf modifiziert wird).

Mehr muss ich dazu nicht sagen. Beim naechsten Mal komme ich zu meinem zweiten Fehler und gehe ein bisschen darauf ein, dass von den vielen Methylierungen (fast) nix uebrig bleibt wenn neues Leben entsteht.

Mitochondrien sind voll spannend und da kønnte man ganze Buecher drueber schreiben … ach was sag ich, da gibt es ganze Buecher drueber und dieses hier von Nick Lane

… gehørt zu den fesselndsten Buechern die mir je untergekommen sind; eine unbedingte Lesempfehlung! … … … .oO(Endlich konnte ich das mal unterbringen.)

Fuer heute soll reichen, dass Mitochondrien eigene DNA haben UND dass Mitochondrien IMMER von der Mutter kommen. Eine Eizelle hat richtig viele Mitochondrien und eine Samenzelle gerade mal so viele, sodass diese sich bewegen kann. Nach der Verschmelzung „kaempfen“ diese gegeneinander. Natuerlich nicht mit Schwert und Bogen aber auf molekularer Ebene geschieht das derart, dass die jeweils anderen Zellen zerstørt werden. Die Sieger sind (fast immer) die muetterlichen Mitochondrien.

Das alles ist natuerlich total vereinfacht und auf Heteroplasmie geh ich nicht weiter ein. Aber der Grund warum die muetterlichen Gene gewinnen (muessen) liegt darin, dass die Zell(kern)-DNA ein paar Sachen kodiert, die fuer das Ueberleben der Mitochondrien an sich wichtig ist. Das aber ist nicht unabhaengig von der mitochondrialen DNA. Oder anders: Mitochondrien-DNA und Zell(kern)-DNA muessen gut aufeinander abgestimmt sein. Ist das nicht der Fall, ist das schlecht fuer Beide und fuehrt im „besten“ Fall zu mitochondrialen Krankheiten und ist in den meisten Faellen mit dem Leben nicht vereinbar. Siehe auch die Hausmeistergene vom letzten Mal.

Bei den Mitochondrien der Eizelle ist die optimlae Situation von sich aus gegeben, die entsprechenden DNA-Abschnitte (auf beiden Seiten) haben in der Mutter schon gut funktioniert und werden auch im Kind gut funktionieren. Nun kommt aber bei der Erschaffung eines neuen Menschen 50 % fremde DNA dazu; was passiert da denn jetzt?
Nun, die fuer obige Aufgaben notwendige, vom Vater stammende DNA muss dann natuerlich auch kompatibel sein.

Das aber bedeutet, dass die vaeterliche DNA im Wesentlichen der muetterlichen DNA gleich (wenn nicht gar identisch) ist. Damit kommt das zwar vom Vater kann aber kein spezifisches Teil des Dingens sein, was von ihm im Kind „weitergetragen“ wird. Oder anders, es ist ziemlich egal wo diese DNA-Abschnitte herkommen, so lange die kompatibel mit den Mitochondrien sind.

Letztlich ist also auch dieser Umstand ein Fingerzeig auf die Tatsache wie bekloppt das im Titel enthaltene Konzept ist.
In dem hier dargestellten Zusammenhang ist das extra ironisch, denn ich habe den Eindruck, dass besagtes Konzept insb. fuer Maenner wichtig scheint. Aber oben Geschriebenes zeigt, dass die Gene der Mutter deutlich wichtiger sind als die des Vaters (bzw. in einer erweiterten Herangehensweise die Aehnlichkeit der vaeterlichen Gene zu den muetterlichen Genen).… tihihi

Das soll reichen fuer heute. Ich kønnte noch stundenlang ueber Mitochondrien reden weil das so urst krass spannend ist. Aber da verweise ich lieber auf das oben erwaehnte Buch, denn besser als das kann ich das nicht.

Dieses Bild bedarf keiner weiteren Worte:

*lacht*

Heute brauche ich NICHT den Artikel von Ugai, T., et al. (immer noch nicht befreit). Jedenfalls nicht direkt, denn das worueber ich schreiben will findet sich in den frei zugaenlichen „Supplementary Information„. Genauer geht es um die Werte zu „Colorectal cancer“ (CRC) bei Maennern in Tabelle 1. Zur Erinnerung, neben Brustkrebs waren das die einzigen Krebsarten auf die ein „sitzender Lebensstil“ einen Einfluss hat.
Die Abkuerzung AAPC steht fuer „Average Annual Percentag Change“ (und das ist der „Trend“ aus dem Titel). LCI bzw. UCI sind das untere (lower) bzw. obere (upper) Konfidenzintervall des AAPC. Etwas salopp gesagt, liegt der wahre Wert des AAPC mit 95 % Wahrscheinlichkeit innerhalb dieser Grenzen. Ich betrachte das LCI und UCI nicht weiter, sondern nehme den AAPC als wahren Wert an. Letztlich ist das nur eine weitere Diskussion was alles sein kønnte und man trifft sich am Ende dann doch in der Mitte.

Nimmt man nun wieder Norwegen so betraegt der AAPC im Untersuchungszeitraum (2002-2012) 0.7 und der von Dtschl. 2. Letzteres bedeutet, dass es 2012 in Norwegen 7 % mehr Faelle von CRC gab als 2002 und in Dtschl. 20 % mehr Faelle. Dies gilt fuer Maenner zwischen 20 und 49 Jahren und hørt sich ganz schøn viel (und furchterregend) an.

Deswegen denke ich mal einen Schritt weiter und betrachte dafuer (wieder fuer norwegische Maenner) die Zahlen fuer 2020. Man sieht, dass es in der Altergruppe 20-49 Jahre nur 115 CRC-Faelle gab. Dies entspricht einer Crude Rate von 10.2 — also nur einer von zehntausend Maennern (in dieser Altersgruppe, in Norwegen) bekommt ueberhaupt CRC.
Schaut man sich die altersgruppenspezifischen Crude Rates an, erhaelt man dieses Diagramm (die Zahlen ueber jedem Datenpunkt geben wieder die Anzahl aller diagnostizierten Faelle an):

In meiner Altersgruppe wurde bei insgesamt ca. 180-tausend Maennern ueberhaupt nur 30 mal CRC diagnostiziert. Nun bin ich mir aber ziemlich sicher, dass deutlich mehr von diesen ca. 180-tausend Maennern viel zockt und sitzend arbeitet.
Die 70-74-Jaehrigen haben viel grøszere Zahlen. Aber auch in dieser Altersgruppe erkrankten von den ca. 130-tausend Maennern gerade mal 514 an CRC.

Dies fuehrt mich (mal wieder) zu der Schlussfolgerung: das ist alles gar nicht so schlimm, wie es auf den ersten Blick aussieht. Dies gilt selbst dann, wenn man annimmt, dass alle diese 30 (bzw. 514) Maenner ausschlieszlich wegen des vielen Sitzens an CRC erkrankten … was _definitiv_ (!) NICHT der Fall ist.

*erleichtert aufatme* … nochmal Glueck gehabt. Aber ich bin damit noch nicht fertig bzgl. der Auswirkungen des Sitzens auf CRC. Mehr dazu beim naechsten Mal.

Ein weiteres Kennzeichen in stratitgraphischen Aufzeichnungen die auf eine Zivilisation hindeuten (kønnten) ist das Auftreten von (neuen) Fossilien, bzw. das Abhandensein (von alten) Fossilien.

Ersteres bezieht sich nicht notwendigerweise auf die Mitglieder der Zivilisation an sich (wie bereits im ersten Beitrag kurz angesprochen). Vielmehr sind damit (vor allem kleine) Tiere gemeint, die uns begleiten wo immer wir auftauchen. Oder in den Worten von Schmidt und Frank:

[t]he last few centuries have seen significant changes in the abundance and spread of small animals, particularly rats, mice and cats, etc. that are associated with human exploration and biotic exchanges.

An und fuer sich gelten fuer diese die gleichen Beschraenkungen wie fuer besagte MItglieder der Zivilisation; vor allem dass der Zeitraum fuer Fossilienbildung bisher zu kurz war. Aber von diesen Tieren gibt es so krass viele mehr, sodass sich die Chancen dafuer deutlich erhøhen.

The fossil record will likely indicate a large faunal radiation of these indicator species […].

Nun stelle man sich vor, dass in vielen Millionen Jahren in verschiedensten Gegenden Katzenfossilien gefunden werden. Diese befinden sich in Gesteinsschichten, die erdgeschichtlich gesehen den selben Zeitpunkt beschreiben (diesbezueglich sind ein paar tausend Jahre Unterschied der selbe Zeitpunkt). Aber zur Zeit der Bildung dieser Schichten waren die Gegenden unueberwindbar (bspw. durch einen Ozean) getrennt. Dann weist das darauf hin, dass die Katzen mit Lebewesen kamen, die diese Hindernisse regelmaeszig und in groszer Zahl ueberwunden haben. Das wiederum weist auf eine Zivilisation hin.
Im Wesentlichen war dies eines der Argumente welches fuer die Postulierung der Plattentektonik benutzt wurde. Nur das dort natuerlich der umgekehrte Fall vorlag.

Mit der Ausbreitung solcher Spezies folgt aber auch, dass weltweit einheimische Spezies verdraengt werden:

[…] many other species […] are likely to become, extinct, and their disappearance from the fossil record will be noticeable.

Øhm ja, mehr gibt’s dazu nicht zu sagen.

Diese beiden Sachen kann man sich einfach vorstellen und deswegen soll das dazu reichen.

Das zweite Diagramm beim letzten Mal zeigte die linklevelabhaengigen Linkfrequenzen  dreier Beispielseiten. Die Summe ueber alle Linklevel einer Seite war da weit unter 1000. Dies im starken Gegensatz zu allem was ich davor gesehen hatte. Die drei Beispiele sehen alle aus als ob das Archipelseiten sind (ohne das zu pruefen … ist nur so’n Bauchgefuehl weil ich mich ja jetzt ein bisschen damit auskenne) und entsprechend schrieb ich:

Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte.

Mit „damit“ meine ich die Summe ueber alle Linklevel einer Seite (in diesem Fall fuer die Linkfrequenz) und die erste Frage ist nun, warum das mglw. klappen kønnte.

Eine kurze Ueberlegung nimmt die (oben nochmals verlinkten) individuellen Linkfrequenzverteilungen dreier Seiten des „São Paulo FC“-Artefakts heran.
Diese Seiten gehøren zu den am wenigsten zitierten Seiten die aber dennoch Teil des gesamten Wikipedianetzes sind (also NICHT zum Archipel gehøren). Das ist so, weil alle (anderen) Seiten nie direkt dorthin zitieren. Jedes Jahr des Artefakts kann nur ueber des jeweils spaetere Jahre zitiert werden. Jede Artefaktseite erhaelt also von jeder anderen Ursprungsseite maximal ein Zitat. Reflexionen lasse ich der Einfachheit mal auszen vor, bzw. kønnte man auch nur das Jahr 1930 des Artefakts betrachten, denn dieses hat keine Reflexionen in der Linkfrequenz.
Die Summe der Linkfrequenzen ueber alle Linklevel betraegt demnach mindestens 5.5 Millionen (sogar etwas mehr) fuer solche Seiten.

Seiten die zwei Mal zitiert werden sieht man in der roten und schwarzen Kurve im zweiten Diagramm des selben Beitrags. Das sind die, bei denen sich „Metaartefakte“ im Schwanz bemerkbar machen, weil die dort nochmal massiv zitiert werden. Die Summe der Linkfrequenz ueber alle Linklevel verdoppelt sich also (so ungefaehr).
Eine Verdopplung ist das Maximale was in dem Fall passieren kann, denn die zwei Peaks kønnten sich auch ueberlagern und dann waere es weniger als das Doppelte. Das Wichtige ist, dass die obigen 5.5 Millionen eine harte untere Grenze sind, unter die keine Seite kommt, wenn diese irgendwie aus dem gesamten Linknetzwerk zu erreichen ist.

Und das ist der Clou, denn Archipelseiten sind NICHT aus dem gesamten Linknetzwerk zu erreichen. Es ist ja gerade das Merkmal der Seiten aus denen das Archipel besteht, dass diese (wenn ueberhaupt) _nur_ von anderen Archipelseiten zitiert werden, waehrend sie im Allgemeinen aber durchaus auch „nach drauszen“ linken .
Und deswegen nehme ich an, dass die Summe ueber alle Linklevel einer Seite bei den Linkfrequenzen von Archipelseiten immer unter obiger Grenze liegt. In den allermeisten Faellen sogar drastisch darunter, also bei null oder eins oder zwei oder vielleicht auch mal zehn oder 69 wie bei Chrysoprasis beim letzten Mal.
Ich gebe aber zu, dass das vor allem eine praktische Ueberlegung ist, mit Wissen darueber wie das Archipel aussieht. Prinzipiell kønnte eine Archipelseite ueber den Grenzwert kommen, wenn es eine starke Vernetzung gibt und besagte Seite von vielen (Archipel-)Ursprungsseiten auf mehreren Linkleveln zitiert wird. Da gibt es konzeptionell keinen Unterschied zum Rest des Wikipedianetzwerkes. Aber wie gesagt, so sieht das Archipel nicht aus.

Die naechste Frage ist, warum ich das wuerde machen wollen, denn ich habe doch alle Seiten des Archipels bereits identifiziert.
Der Grund liegt darin dass die dortige Identifizierung eher umstaendlich war. Sowohl vom Konzept, als auch von der Implementierung.
Mir hat das natuerlich Freude bereitet, war es letztlich doch ein intellektuelles Puzzle. Aber insbesondere die Implementierung hatte ihre Schwaechen, denn ich musste rekursiv oft ueber viele Daten „fahren“ um Archipelseiten zu identifizieren. Die Schwaeche liegt dabei nicht in der Rekursion, diese machte eher den grøszten Reisz fuer mich aus … auch wenn viele Leute das mglw. anders sehen. Aber das „oft ueber viele Daten fahren“ dauert sehr lange. Mitunter mehrere Stunden, was das Testen und Ausprobieren arg beschraenkt. Deswegen setzte ich eine Limitierungen bei der ich annahm, dass wenn ein Netzwerk von zitierenden Seiten grøszer als so und so viele zitierende Seiten ist (bspw. 100), die Ursprungssite høchstwahrscheinlich nicht zum Archipel gehørt.
Das ist eine durchaus sinnvolle Annahme denke ich und ich testete den maximalen Wert fuer die Limitierung, bis es nicht mehr sinnvoll war (einfach, weil es zu lange dauerte). Ab einem Wert von ca. 100 zitierenden Seiten (also nahe an den Werten der drei Beispiele vom letzten Mal) sah ich dann keine Veraenderungen mehr, es schien also als ob alle Archipelseiten weniger Zitate erhalten als das Limit erlaubt. Aber eine Garantie ist das natuerlich nicht, mir kønnten durchaus Archipele „entkommen“ sein.

Wieauchimmer, die Summe ueber die alle Linkfrequenzen einer Seite zu bilden und zu schauen ob diese (weit) unter einem Grenzwert liegt ist natuerlich deutlich einfacher, viel schneller und einfach zu implementieren. Und wie immer interessieren mich einzelne Seiten weniger sondern die Verteilung dieser Summen.

Daraus stellt sich dann gleich die dritte Frage: worin liegt denn der Unterschied zu den bisherigen Summenverteilungen?
Nach all dem oben Geschriebenen sollte das einfach zu verstehen sein: bei allen vorherigen Summenverteilungen summierte ich fuer jedes Linklevel ueber alle Seiten. Das fuehrte zu linklevelahaengigen Verteilungen mit maximal 73 Werten. Hier aber summiere ich (wie bereits erwaehnt) ueber alle Linklevel einer Seite und das sollte bei ca. 6 Millionen Seiten zu einer Verteilung mit deutlich mehr als 73 Werten fuehren. Kurioserweise nur deswegen weil es das Archipel gibt, aber dazu mehr weiter unten.

Als Letztes stellt sich dann die Frage, warum ich das nicht schon mit den totalen / neuen Links bzw. den Selbstreferenzen gemacht habe.
Nun das ist ganz einfach zu beantworten: weil das nicht sinnvoll erschien … aber fuer die Begruendung der Antwort muss ich etwas ausholen und ich fange mit den totalen Links an.

Zunaechst lasse ich die Archipelseiten auszen vor. Dies auch deswegen, weil ich vom Archipel noch nicht mal etwas ahnte, als ich die totalen Links genauer untersuchte. Unter der Annahme, dass es kein Archipel gibt, sollte die Verteilung der Summen ueber die totalen Links genau zwei Werte haben: Null und ungefaher 165 Millionen.
Der Wert Null kommt durch die Seiten zustande die zwar zitiert werden, aber selber keine Links haben. Hier sollten sich nur ein paar tausend Seiten tummeln. Der weitaus grøszte Anteil der Seiten sollte sich beim Wert von ca. 165 Millionen Wert aufhalten, denn das ist natuerlich genau die Anzahl aller Links ueber alle Seiten. Dies folgt daraus, weil jede Seite im Linknetzwerk zu jeder anderen Seite kommt and dadurch alle Links sieht. Das heiszt aber auch, dass jede Seite am Ende ihres Linknetzwerkes die selbe Anzahl an totalen Links gesehen hat wie jede andere Seite.
Daraus folgt, dass es nur zwei Werte geben sollte und das war der Grund warum ich das damals nicht machte.

Wie man im linken Diagramm dieses Bildes sieht, ist das auch tatsaechlich (fast) so:

Mein Bauchgefuehl sagt mir, dass das schon stimmt mit den ca. 5500 Seiten beim Nullwert. Die ca. 6 Millionen Seiten die sich bei einem Wert von knapp unter 200 Millionen versammeln sind ja genau wie „vorhergesagt“. Und auch wenn ich mich wiederhole: dieses Ergebnis bestaetigt, dass es nicht sinnvoll war die „neue Summe“ ueber die totalen Links zu bilden.

Diese Aussage stimmt nur noch bedingt, wenn man Archipele mit in die Betrachtungen einbezieht, denn diese fuehren zu mehreren (relativ kleinen) Modifikationen.

Zum Einen ist obiger zweiter Wert um ein paar Millionen Seiten kleiner als theoretisch angenommen. Das Archipel besteht aus ungefaehr 500-tausend Seiten und im Durchschnitt hat jede Seite so 10 bis 30 Links. Die durchschnittliche Anzahl an Links pro Seite (und die Nachteile dieses Ansatzes) wurde bereits mehrfach diskutiert, ich finde auf die Schnelle aber nicht wo genau das war. Wenn man sich in der Mitte bei 20 Links pro Seite trifft, fuehrt das zu einem um 10 Millionen kleineren Hauptwert. Und das ist auch das was man sieht … zuegegeben, nicht im linken Diagramm, aber wenn man reinzoomt (so wie im rechten Diagramm, mehr dazu weiter unten), dann ist das tatsaechlich so.

Zum Zweiten wuerde ich vermuten, dass mglw. ein paar niedrige Werte in der Verteilung dazu kommen. Dabei wuerde es sich um Archipelseiten handeln, die bspw. Links zu nur einer oder ein paar wenigen andere Seiten haben und von dort zurueck zitiert wird und wenn keine einzige dieser Seiten einen Link zum groszen Wikipedianetzwerk hat. Davon sollte es aber nicht viele geben, denn es ist selten, dass eine Seite nicht irgendwie ins grosze Linknetzwerk zitiert, selbst wenn sie von da keine Zitate bekommt.
Obiger (linker) Graf bestaetigt das durch die kurzen Balken bei den Werten eins, zwei und drei.

Zum Dritten sollte es etliche (aber maximal ca. 500-tausend, der Anzahl der Archipelseiten, vermutlich deutlich weniger) Werte geben, die ueber den Wert von ca. 155 Millionen (siehe der erste Punkt) hinaus gehen.
Bei kleinen Abweichungen vom Wert den die allermeisten Seiten annehmen handelt es sich um Seiten, die zusaetzlich zum groszen Linknetzwerk nur ihre eigenen Links sehen. Das sind also Seiten des „No-way-home“-Archipels die NUR ins grosze Linknetzwerk zitieren, aber NICHT auf andere Archipelseiten. Fuer Archipelseiten die auch andere Archipelseiten zitieren nimmt der Abstand vom „Hauptwert“ natuerlich entsprechend mehr zu.
Aber alles in allem sollten diese Abweichungen nicht all zu grosz sein. Deswegen sieht man die im linken Diagramm nicht, denn wegen der logarithmischen Abzsisse schmiegen die Balken sich an den Hauptwert. Wenn man aber mal beim Hauptwert rein zoomt (so wie im rechten Bild; man beachte die lineare Abzsisse!) sieht man, dass da tatsaechlich noch was hinter dem høchsten Balken kommt und das verhaelt sich qualitativ so wie erwartet.
Um zu sehen ob das auch quantitativ stimmt  muss man mal die Anzahl der Seiten bestimmen, die sich in den „zusaetzlichen“ Balken befinden und mit der Anzahl der Archipelseiten vergleichen.

Ersteres ist einfach, denn da muss ich nur zaehlen und komme auf 65 + 45 + 3 Seiten bei den Werten von eins bis drei und 481,118 Seiten _hinter_ dem Hauptwert. Zusammen sind das 481,231 Seiten.
Die Anzahl der Archipelseiten hatte ich schonmal, deren Menge wurde da nur nicht erwaehnt. Diese entspricht aber dem Integral unter der roten „Kurve“ (jaja, es sind Punkte) im zweiten Diagramm dieses Beitrags. Da komme ich auf 481.522 … also ein paar mehr … mhmmm … das kønnten Seiten sein die nur von Archipelseiten zitiert werden und selber keine Links haben.
Jau! Das haut hin wenn man das mal grob ueberschlaegt. Es gibt ungefaehr zehn mal mehr Seiten im groszen Netzwerk als auf den Archipelen. Letztere unterscheiden sich aber nicht von Ersteren (auszer, dass die nicht von denen zitiert werden). Deswegen wuerde ich erwarten, dass es auch zehn Mal weniger „Nullwertseiten“ gibt, die nur von Archipelseiten zitiert werden. Das waeren dann so Pi mal Daumen 300. Die Diskrepanz liegt also im „Nullwertbalken“ versteckt und den kann ich nicht ohne weiteres auseinanderpopeln.

Festzuhalten ist das Folgende: haette ich die „neue Summe“ schon bei den totalen Links angeschaut, dann waere ich auf die Existenz der Archipele mglw. schon frueher aufmerksam geworden. Hab ich aber nicht, weil es mir nicht sinnvoll erschien.

Sososososo … der Beitrag ist schon lang genug … ach doch … zwei Sachen noch, die gehen aber schnell.

Es war auch nicht sinnvoll diese „neue Summe“ ueber die neuen Links zu bilden, denn da sieht das (fast) genauso so aus. Der grøszte Unterschied liegt darin, dass der Hauptwert nicht (ungefaehr) bei der Anzahl aller Links, sondern bei der Anzahl aller Seiten liegt … muss ja so sein. Ich habe das natuerlich kontrolliert und es ist tatsaechlich so.

Und schlussendlich war das auch nicht sinnvoll diese „neue Summe“ ueber die Selbstreferenzen zu bilden, denn da wuerde ich ja nur zaehlen wie oft eine Seite von anderen Seiten zitiert wird. Das habe ich aber vor langer Zeit schonmal anders untersucht und die Kontrolle ergibt, dass das auch mit der „neuen Summe“ genau so raus kommt.

Nun ist aber wirklich Schluss fuer heute. Die Verteilung der „neuen Summe(n)“ bzgl. der Linkfrequenzen aller Seiten verschiebe ich auf’s naechste Mal.

Ich gehe nochmal zurueck zum Anfang und verweise auf das zweite Diagramm in welchem die Position des Maximums dargestellt ist. Wie schon bei den Selbstreferenzen erschien mir der erste Balken mit einem Wert von fast 470-tausend viel zu hoch.

Der Verweis auf die Selbstreferenzen ist gut, denn dort liegt auch des Raetsels Løsung: die Høhe des Balkens wird im Wesentlichen bereits durch das „No-way-home“-Archipel beschrieben.
Die ungefaehr 320-tausend „Einwohner“ der

„isolierte[n] Insel der Unzitierten“

werden ja ueberhaupt nicht zitiert und somit liegt das „Maximum“ am Anfang der konstanten Verteilung (mit Wert Null) also auf LL0. Desweiteren stellte ich damals fest, dass

[…] 124.139 Seiten […] zwar nicht Teil der „isolierten Insel“ sind, aber NUR von dort Zitate erhalten.

Das bedeutet, dass die Seiten der „isolierte Insel der Unzitierten“ die Ursprungsseiten sind und dann sofort (also auf LL0) diese anderen 124.139 Seiten zitieren. Da die zitierten Seiten keine weiteren Zitate erhalten ist das dann automatisch auch das Maximum. Da werden zwar sicherlich Mehrfachzaehlungen dabei sein, aber von der Grøszenordnung haut das schon hin. Summa Summarum kønnen vom Wert 470-tausend ungefaehr 445-tausend sofort erklaert werden.

Um den fehlenden 25-tausend auf die Spur zu kommen schaute ich mir mal an, wie die Verteilung der Werte der Maxima aussieht von den Seiten die auf LL0 ihr Maximum in der Linkfrequenz haben:

Aha! Da sind sie, die ca. 320-tausend Seiten mit null Zitierungen. Der zweite Balken ist mit fast 135-tausend Seiten etwas høher als die oben erwaehnten ungefaehr 125-tausend Seiten (ich gebe zu, dass man das im Diagramm nicht sieht). Das war zu erwarten, denn es gibt ja noch ca. 20-tausend Seiten die sich nicht auf dem „No-way-home“-Archipel, aber immer noch auf dem Archipel, befinden.
Hierbei ist daran zu denken, dass eine Seite die aus dem groszen Linknetzwerk zitiert wird letztlich von (fast) allen Seiten der Wikipedia gesehen wird. Der Maximumswert der meisten Seiten sollte also deutlich høher als 1 oder 2 oder gar 10 oder 100 sein. Siehe auch die hier gezeigten individuellen Verteilungen ausgewaehlter Seiten.
Wieauchimmer, von den „fehlenden“ 25-tausend Seiten befinden sich 10-tausend im zweiten Balken. 10-tausend weitere folgen gleich im dritten Balken und was dann noch fehlt ist im Rest. Ich will jetzt aber nicht wieder ins Erbsenzaehlen verfallen. Zum Glueck sieht das alles schon richtig aus und die Verteilung geht auch schnell genug runter. Das ein paar hundert Seiten mehr als ein mal zitiert werden ist normal und war zu erwarten.
Wie mehr als ein oder zwei Zitate zustande kommen ist leicht zu erklaeren, wenn man sich mal die Ausreiszer anschaut (und von dort „rueckwaerts argumentiert“):

Ja, die Linkfrequenzzaehler der Ausreiszer gehen nicht ueber LL2 hinaus und das vom Cheshmeh Ziarat Rural District geht gar nur bis zum ersten Linklevel. Das ist uebrigens ein Verwandter einer unserer Bekannten, den wir von den „Information Operations“ von vor langer Zeit kennen.
Die Vehicle registration plates of the Canal Zone sind uns (dem køniglichen) vor nicht all zu langer Zeit schonmal begegnet.

Chrysoprasis ist uns direkt noch nicht, aber in aehnlicher Form (bspw. als Lepidoptera (auch) bei den „Information Operations“) dann doch schon untergekommen  … und wie diese Seite sich verhaelt ist uns bekannt, denn das ist eine weitere Reflexion. Wenn man dem Link folgt findet man 69 (weitere) Links die alle zu Kaefern dieser Gattung gehøren. Ich finde die Seiten aus Prinzip uebrigens voll toll, denn da hat sich anscheinend eine Expertin mal hingesetzt und aufgeschrieben wer die entsprechenden Krabbeltiere als erstes beschrieben hat. Manchmal sogar mit Bildern.
Wieauchimmer, diese 69 Kaefer zitieren die Gattung Chrysoprasis auf LL0 und werden dort dann alle „reflektiert“ um nochmal auf LL2 (von sich selbst aus gesehen, das sind also Selbstreferenzen) zitiert zu werden. Das eine Zitat auf LL1 kommt von Chrysoprasis selber, denn die Seite geht von LL0 zu den 69 Kaefern, befindet sich dann auf LL1 und wird da 69 mal zitiert … aber das wird nur ein Mal gezaehlt, weil es sich um die Linkfrequenz handelt.

So, das soll reichen fuer heute. Das bringt mich aber auf eine Idee, ob ich damit nicht alle Archipelseiten auf einfache Art und Weise identifizieren kønnte … mhmmmm … naechstes Mal!

In Fortfuehrung des Artikels vom letzten Mal, heute weiterere Umstaende, wann man sich berechtigt Gedanken ueber Krebs machen sollte.

Zuallererst sei der regelmaeszige Konsum von Tabakprodukten genannt. Hierbei konzentriere ich mich auf das Rauchen, aber auch Kau- oder Schnupftabak sind kausal mit gewissen Krebsarten in Verbindung gebracht. Letztere sind aber deutlich weniger schlimm und wenn alle Raucher darauf umsteigen wuerden, waere das immer noch ein riesiger Gewinn fuer die Gesundheitssysteme.

Bzgl. des Rauchens gibt es einen umfassenden (sowohl was die Anzahl der Seiten, als auch die Anzahl der dort behandelten Themen angeht) Report mit dem Titel „The Health Consequences of Smoking–50 Years of Progress: A Report of the Surgeon General“ … ich gebe zu, dass ich nur Teile, davon gelesen habe. In kurz: Rauchen ist wirklich wirklich ganz furchtbar schlecht fuer den Menschen und verursacht viel mehr Krankheiten als Krebs. Aber hier geht es nur um Krebs und ich zitiere aus der Zusammenfassung zu Kapitel 6 Zeug was NICHT mit Lungenkrebs oder Krebs das Rachen und Mundraums zusammenhaengt (denn des waere zu einfach):

The evidence is sufficient to infer a causal relationship between smoking and […] [liver cancer].

The evidence is sufficient to infer a causal relationship between smoking and [colorectal cancer].

The evidence is suggestive of a higher risk of death from prostate cancer in smokers than in nonsmokers.

[etc. pp.]

Ein weiterer Risikofaktor auf derart breitem Niveau ist Alkohol (auch wenn deutlich weniger schlimm, verglichen mit dem urst krass schlechten Rauchen). Dazu sage ich aber nix, denn da gibt es eine eigene Reihe. Auch wenn es darin eigtl. um was Anderes geht, so kann der Sinn des dort Gesagten uebertragen werden, denn die Konsequenzen von Alkohol auf die Entstehung von gewissen Krebsarten ist laengst nicht mehr umstritten.

Und dann sind da natuerlich noch Faktoren fuer spezifische Krebsarten. Das offensichtliche Beispiel wenn man zu sich (zu viel) in der Sonne bewegt ist natuerlich Hautkrebs.
Weniger offensichtlich und mit laengst nicht so starken Effekten waere da Darmkrebs wegen der Ernaehrung (bspw. der Konsum von sog. „red meat„) und natuerlich auch das womit die Serie anfing: wenig Bewegung.
Womit ich bei den Ueberlegungen ganz vom Anfang der Serie bin. Dafuer folge man dem obigen Link zu „red meat“ und dort steht, dass bei „high intake“ das (lebenslange) Risiko an Darmkrebs zu erkranken bei 6.6 Prozent liegt, aber bei normalem Fleischkonsum bei 5.6 Prozent. Das ist kein Grund Vegetarier zu werden.

Lange Rede kurzer Sinn: ein Mensch der sich vor der Sonne scheut, nicht raucht, extrem wenig Alkohol trinkt und versucht den  Fleischkonsum einzuschraenken … was fuer ein Zufall, das klingt sehr nach mir … braucht sich nur wegen des vielen Sitzens Gedanken machen.
Und nach all diesen Artikel bewege ich mich beim naechstem Mal endlich wieder mehr in diese Richtung. Aber Umwege sind ja ganz normal beim verstehen komplexer Themen.

Beim letzten Mal hatte ich gezeigt wie die Verteilungen der Linkfrequenzen fuer drei Seiten des „São Paulo FC“-Artefakts aussehen. Zur Erinnerung: diese weisen ein zweigeteiltes Maximum auf (das zweite Maximum ist etwas kleiner) welche durch ein Phaenomen das ich „Reflexion“ nannte (und dort genauer beschrieb) zustande kommt.

Nicht zu vergessen ist, dass ich das Mysterium aufklaeren will, warum die Anzahl der totalen Links und die Anzahl aufsummierten Linkfrequenzen so nahe beieinander liegen fuer høhere und hohe Linklevel. Aber eben _weil_ die so nahe zusammen liegen muss ich genau wissen, wie die Werte fuer die Grøszen zustande kommen; daher der Titel dieses Beitrags.
All das Zaehlen veranschauliche ich genau anhand eines Beispiels: welche Seiten tragen auf LL66 zur Linkfrequenz bei; dito bzgl. der totalen Links. Am Ende diskutiere ich dann, inwieweit das verallgemeinert werden kann.

Also auf geht’s mit allen (!) Seiten die auf LL66 von anderen Seiten zitiert werden.

Nur 75 Seiten werden ueberhaupt auf LL66 zitiert. Und alle davon erhalten Zitate NUR von den Jahren 1936 bis 1930 des „São Paulo FC“-Artefakts. Weiter unten wird klar warum das so sein muss. Farbig hervorgehoben sind ein paar Beispiele und wie viele Zitate diese auf LL66 erhalten sind angegeben. Diese Werte sollen nun erklaert werden. Aber dazu muss ich etwas weiter ausholen und zunaechst nochmal ein Ergebnis von vor langer Zeit zeigen (ich bitte zu entschuldigen, dass ich hier uneinheitlich bin und Punkte, anstatt Kommas (wie oben), als Trennung nach jeder dritten Stelle benutz(t)e):

Zur Erinnerung: das ist nur ein Hereinzoomen in das Ende der Verteilung der Aussteiger (bezogen auf die totalen Links) pro Linklevel. Das bedeutet je weiter links ein Balken liegt, umso eher ist der „ausgestiegen“. Im hiesigen Zusammenhang bedeutet das, dass die Seiten die einen weiter links liegenden Balken ausmachen, ein gegebenes Jahr des Artefakts frueher durchlaufen haben und sich damit schon im darauffolgenden Jahr befinden. Die Gruppennamen sind heute im Wesentlichen nicht zu beachten; nur die Zahlen an den Balken sind wichtig (und das was ich im Satz zuvor schrieb).

Das Diagramm ganz oben zeigt, dass die 1931 São Paulo FC season auf LL66 am meisten zitiert wird und dort 4,484,327 Zitate hat. Aus der ersten Untersuchung des Artefakts wissen wir auch, dass die Seiten das Selbige schøn der Reihe nach, von hohen zu niedrigeren Jahren, durchlaufen. Daraus folgt dann, dass sich die meisten Seiten im Jahre 1932 des Artefakts befinden und von dort 1931 zitieren.
Aus dem zweiten Diagramm lesen wir nun ab, dass „die meisten Seiten“ bedeutet, dass es sich dabei um 4,453,693 handelt. Das reicht nicht ganz fuer die Anzahl der Zitate die 1931 erhaelt. Hier kommt aber die „Reflexion“ ins Spiel, denn wie erwaehnt sind die Seiten die den Balkens der zwei Schritte weiter links liegt ausmachen bereits im Jahre 1930. Von dort wird 1931 natuerlich auch zitiert.
Schwuppdiwupp: 4,453,693 + 30,643 = 4,484,327 … fetzt, wa!

Das erklaert ebenso, warum das Jahr 1933 mit 4,462,345 die zweitmeisten Zitate erhaelt. Das sind zunaechst wieder die 4,453,693 Seiten auf 1932 die zurueck nach 1933 reflektieren. Und dann noch die 8,652 „Nachzuegler“ die sich auf LL66 erst im Jahre 1934 befinden und von dort 1933 zitieren.

So kann man das mit allen Seiten des Artefakts machen. Dabei sieht man dann, dass sich auf LL66 keine einzige Seite in spaeteren Jahren (also somit frueher in der „Artefaktkette“) sein kann als 1936. Denn das sind die letzten drei Nachzuegler die sich dort befinden, alle spaeteren Jahre wurden bereits von allen Seiten komplett durchlaufen.

Soweit dazu. Wie erhaelt nun aber die Campeonato Paulista 5,792,420 Zitate?
Ganz einfach, die wird in allen Jahren die auf LL66 noch „aktiv“ sind (also von 1936 bis 1930) zitiert. Wenn man die Summe der Zahlen bildet die an den letzten sieben Balken stehen, dann kommt man auf genau diese Zahl.
So macht man das auch fuer den Associação Portuguesa de Desportos muss aber beachten, dass dieser im Jahre 1936 NICHT zitiert wird. In 1936 befinden sich ja nur noch die letzten 3 Nachzuegler, somit fehlen drei Zitate (wie angegeben).
Der CR Vasco da Gama wird nicht zitiert in den Jahren 1936 und 1935. Deswegen muessen von der maximalen Anzahl an møglichen Zitaten welche die Campeonato Paulista erhalten hat 3 + 137 (die letzten zwei Balken) abgezogen werden.

Und das geht dann so weiter, bis man beim Clube Atlético Paulista (und allen anderen Seiten die nur drei Zitate erhalten) ankommt, denn diese werden nur noch im Jahre 1936 zitiert.

Super. Damit ist der Ursprung der Zitate aufgeklaert und die Summe ueber alle Punkte des obersten Diagramms ergibt, dass die Summe aller Linkfrequenzen auf LL66 133,684,373 betraegt.
Ich muss eingestehen, dass ich peinlich lange brauchte um all das genau heraus zu bekommen und zu verstehen woran das liegt. Denn der Ansatz den ich oben schrieb der kam mir erst beim Zusammenschreiben. Ich naeherte mich der Sache auf eine kompliziertere Art und Weise wo ich genau aufpassen musste von wo welche Seite zitiert wird und in welchen Jahren sich jetzt die zitierenden Seiten (und wie viele von denen) genau befinden und wie sich das durchzieht. Das Verstehen hat mir natuerlich geholfen das relativ kurz und knapp oben zusammen zu fassen und den Zusammenhang zu einem frueheren Ergebis zu sehen und warum das richtig ist das so zu machen anstatt des urspruenglichen, komplizierteren Ansatzes.

Wieauchimmer, nun zur Anzahl der totalen Links; nach obigem Erbsenzaehlen ist das beinahe trivial.
Wir wissen, dass sich alle Seiten nur noch in den Jahren 1936 bis 1930 befinden. Getreu dem Titel dieses Beitrags heiszt das ganz konkret:
– 30,634 Fruehaufsteher sind auf LL66 bereits im Jahr 1930 mit 27 Links,
– 519,452 Fruehaufsteher sind auf LL66 bereits im Jahr 1931 mit 30 Links,
– die 4,453,693 Seiten des Hauptfelds sind auf LL66 im Jahr 1932 mit 22 Links,
– 779,849 Nachzuegler sind auf LL66 noch im Jahr 1933 mit 26 Links,
– 8,652 Nachzuegler sind auf LL66 noch im Jahr 1934 mit (ebenso) 26 Links,
– 137 Nachzuegler sind auf LL66 noch im Jahr 1935 mit 24 Links und endlich
– 3 Nachzuegler sind auf LL66 noch im Jahr 1936 mit 31 Links.

Wenn man die Gruppengrøsze mit der Anzahl der Links multipliziert und dann alles aufsummiert, erhaelt man genau 134,896,331 totale Links auf LL66.

Damit ist das Mysterium auch aufegklaert, denn grob gesagt _muessen_ die Summen ueber diese zwei Grøszen (totale Links und Linkfrequenz) per Linklevel so nahe beieinander liegen. So viele verschiedene Links wie man hat ungefaehr genau so viele Zitate (Linkfrequenz) erhaelt man. Aber Letztere sollten immer ein bisschen darunter liegen.
Zur Veranschaulichung stelle man sich zunaechst vor, dass _alle_ Seiten des Artefakts von 1936 bis 1930 genau 23 Links haben und zwar die 23 selben (!) Links. Dann liegt fue jede dieser verlinkten Seiten eine Situation wie bei Campeonato Paulista vor und die wuerden alle maximal viele Zitate auf LL66 haben; naemlich 5,792,420. Die Summe ueber alle diese Linkfrequenzen ergaebe 133,225,660.
Wenn nun aber jede dieser Seiten 23 Links hat, dann folgt nach der zweiten detaillierten Rechnung oben, dass man auch genau so viele totale Links hat.

Nun stelle man sich vor, dass ein (und nur ein) Link mit einem anderen Link ausgetauscht wird. Die Anzahl der total Links bleibt in dem Szenario gleich. Der ausgetauschte Link (bzw. die Seite auf die der verweist) erhaelt nun nicht mehr die maximale Anzahl an Zitierungen. Vielmehr sind es nur noch so viele Zitate, wie sich Mitglieder in der Gruppe befinden, die sich auf dem gegebenen Linklevel auch auf der Seite mit besagtem ausgetauschtem Link aufhalten. Das ist im Wesentlichen das was oben bei allen anderen Seiten passierte die nicht Campeonato Paulista sind.
Und deswegen muss die Summe ueber die Linkfrequenzen zwar nahe an der Summe der totalen Links sein, kann aber maximal gleich grosz werden und ist aufgrund der geschilderten Ursache aber in allen Faellen kleiner.

Damit hat sich das Mysterium so’n kleines bisschen umgekehrt und die Frage ist nun, warum es bei kleinen Linkleveln Grøszenordnungen kleiner ist? Das ist schnell erklaert und liegt (wieder) an der Zaehlweise der Linkfrequenz.
Auf kleinen Linkleveln hat eine Ursprungsseite „Zugriff“ auf URST viele Seiten (einfach, weil sich das Linknetzwerk so schnell verzweigt). Dadurch hat man auch eine entsrpechend hohe Zahl an (totalen) Links und je nach Linklevel sind dies hauptsaechlich Mehrfachzaehlungen. Das natuerlich deswegen, weil Seiten oft von mehreren (anderen) Seiten zitiert werden und von Letzteren kønnen sich mehrere auf dem selben Linklevel wiederfinden (einfach weil es da so viele Seiten gibt).
Bei der Linkfrequenz wird aber jede zitierte Seite nur ein Mal pro Linklevel gezaehlt, egal wie viele Zitate die wirklich erhaelt. Und das fuehrt bei kleinen Linkleveln zu einer hohen Diskrepanz.

So, nun ist’s aber genug mit der Erbsenzaehlerei. Mal schauen, was ich beim naechsten Mal mache.

Vor vielen Jahren fragte ich

Warum zuechten wir eigentlich keine Menschen, um die dann zu essen?

Dieser Beitrag ist die dort vor so langer Zeit versprochene Fortsetzung … irgendwie … *leise wegschleich*.
Die Frage ist mitnichten banal zu beantworten, denn sie enthaelt unheimlich viele soziale und gesellschafliche „Ankerpunkte“ die unheimlich interessant zu diskutieren sind … aber ach, letztlich laeuft’s darauf raus, dass wir so erzogen sind.

Ich komme darauf zum Ende nochmal zurueck, muss aber zunaechst Churchill zitieren:

We shall escape the absurdity of growing a whole chicken in order to eat the breast or wing, by growing these parts separately under a suitable medium. Synthetic food will […] be used in the future.

Und Churchill lag nur mit der Zeit ein wenig daneben, denn bereits 40 Jahre spaeter (anstatt 50 wie der Titel seines Aufsatzes sagt) wurde zum ersten Mal Muskelfleisch kuenstlich gewachsen. Zugegeben, es dauerte dann nochmal fast 50 Jahre bevor sich um diese Sache eine Industrie anfing zu bilden.

Trotzdem (bisher!) nicht alle ethischen Bedenken mit kuenstlich hergestelltem Fleisch verschwinden, so denke ich, dass es offensichtlich ist, warum diese Umstellung der menschlichen Esskultur nicht nur wuenschenswert sondern geboten (!) ist. Deswegen werde ich das hier nicht diskutieren sondern zur Auffrischung der Offensichtlickeiten nur hierauf und hierauf und hierauf verweisen.

Neulich stolperte ich nun ueber diesen Artikel. Kurz zusammengefasst: es geht darum, dass wir nur deswegen Huhn und Kuh und Schwein essen, weil die leicht zu domestizieren waren / sind. Wenn diese Restriktion weg faellt und auch noch kein einziges Tier getøtet werden muess, dann steht nix mehr im Weg Løwenfleischburger, Tiger-Tacos und Zebrasushi zu essen.

Tja … damit komme ich auf obiges Selbstzitat zurueck und modifiziere die Frage etwas: wenn Menschenfleisch kuenstlich gewachsen wird, warum sollte man das denn dann nicht auch essen?

Und wie schon beim ersten Mal, lasse ich euch, meine lieben Leserinnen und Leser, mit dieser Frage allein :) .