Archive for the ‘Allgemein’ Category

Bei der Simulation hat man gesehen, dass diese systematisch zu zu hohen Werte fuehrt. Zum Einen lag das daran, dass die Parameter besagter Entwicklung konstant gehalten wurden. Die Entwicklungsparameter wiederum entsprechen der Regressionsgeraden und diese ist im Wesentlichen der Mittelwert zu einer gegebenen Anzahl an Selbstreferenzen. Das ist nicht falsch und funktioniert, wie beim letzten Mal diskutiert, im Mittel gar nicht so schlecht. Aber dieser Mittelwert entsteht aus einem „Blob“ an Datenpunkten.
Oder anders an einem Beispiel: in der Simulation wird fuer jede Seite die auf LL4 zehn Selbstzitierungen hat berechnet, dass diese den Schritt zu LL5 macht und dort dann oben erwaehnten Mittelwert an Selbstzitierungen annimmt. Hier treffen also zwei Dinge zusammen: jede einzelne Seite macht zwingend (!) den Schritt zum naechsten Linklevel und jede Seite hat dort die gleiche Anzahl an Selbstzitaten.

In Wahrheit sieht die Verteilung der Selbstzitate auf LL5 fuer alle Seiten die auf LL4 zehn Selbstreferenzen hat aber so aus:

Das ist also eine Verteilung um den Mittelwert (aber keine Normalverteilung). Der (nicht aus den gewaehlten Entwicklungsparametern sondern hier genau berechnete) Mittelwert fuer 10 Selbstreferenzen auf LL4 fuehrt zu einem Wert von ca. 3 Selbstreferenzen auf LL5 und „ueberhøht“ somit das „mittlere Verhalten“ einer Seite. Letzteres deswegen weil, wie man am obigen Diagramm sieht, dass die Haelfte dieser Seiten zwei oder weniger Selbstreferenzen auf LL5 haben. Der ziemlich grosze Unterschied (hier 50 %!) zwischen Median und Mittelwert wird beim naechsten Beitrag nochmal wichtig.
Eigentllich muesste man diese Verteilung in die Simulation einbauen. Aber dafuer muesste man fuer jedes Linklevel und fuer jede Anzahl an Selbstreferenzen diese Verteilung ermitteln, analysieren und dann modellieren fuer die Simulation. Ersteres ist an sich gar nicht so schwer, denn das kann automatisiert werden. Zweiteres ginge prinzipiell auch noch. Die Betonung liegt auf „prinzipiell“, denn dabei handelt es sich sicherlich um Tausende von Verteilungen. Desweiteren nehme ich an, dass die aus der Analyse herausfallenden Parameter signifikant streuen. Womit man wieder in der gleichen Situation wie bei der Bestimmung der letztlich benutzten Entwicklungsparamter ist und dann mglw. doch wieder nur alles (unzureichend?) vereinfachen muesste. Deswegen spare ich mir das lieber gleich.

Eine andere Sache die bereits erwaehnt wurde ist aber viel einfacher zu korrigieren: Seiten deren Kette an Selbstreferenzen gebrochen ist, die also null Selbstreferenzen auf dem naechsten Linklevel haben, kønnen „rausfliegen“. Das waere sogar eine Korrektur mit „langfristiger“ Wirkung. Nicht nur tragen solche „ausgestiegenen“ Seiten faelschlicherweise zum Signal auf dem naechsten Linklevel bei, sondern auch bei den Linkleveln die danach kommen. Wie man am obigen Diagramm sieht, kann es sich mitunter um eine signifikante Menge an „Aussteigern“ handeln und deren Bezug auf eine sich erhøhende Diskrepanz zwischen gemessenen und simulierten Werten ist leicht einzusehen.

Deswegen habe ich hier im linken Diagramm mal aufgetragen, wie viele Seiten pro Linklevel aussteigen:

Das sind ja insbesondere auf den ersten Linkleveln ganz schøn viele! Selbst unter dem Aspekt, dass es mich bis LL3 nicht kuemmert, denn die bis dahin ausgestiegenen Seiten wurden in der Praeparierung des Ausgangszustands beruecksichtigt.
Nun ist aber die Anzahl der aussteigenden Seiten nicht nur vom Linklevel sondern auch von der Anzahl der Selbstreferenzen auf diesem Linklevel abhaengig. Dieser Sachverhalt ist an drei Beispielen im rechten Diagramm gezeigt. Wie zu erwarten war, steigen (deutlich) mehr Seiten mit wenigen Selbstreferenzen auf einem gegebenen Linklevel auf, als solche mit vielen Selbstreferenzen. Aber wenn man diese Information pro Linklevel hat, dann kann man sich an eine Korrektur machen.
Dazu komme ich aber erst beim naechsten Mal.

Ach so, eine letzte Sache noch. Bei diesen Grafen kann (und soll) Doppelzaehlung auftreten.
Ein Beispiel: Wenn fuer eine Seite die Kette von Selbstreferenzen auf LL3 abbricht, so steigt diese auf LL3 aus. Man nehme nun an, dass auf LL5 und LL6 (aber nicht danach) jeweils eine weitere Selbstreferenz auftritt. Dann hat man eine neue Kette, die auch wieder abbricht. Somit steigt diese Seite zwei Mal aus und wird entsprechend doppelt gezaehlt.
Aber ich nehme an, dass diese Mehrfachaussteiger insgesamt nicht sehr zahlreich sind und deshalb nicht all zu sehr ins Gewicht fallen werden. Der Grund liegt darin, dass man sich thematisch immer schneller von der Ursprungsseite entfernt und es sehr schnell unwahrscheindlich wird eine Selbstreferenz zu erhalten (und somit neue Ketten aufzubauen).
Mit einer Ausnahme: sehr fruehe Linklevel und wenn es sich nur im eine (reaktivierte) Selbstreferenz handelt. Aber diese sind bei der Korrektur der Simulation nicht all zu sehr von Interesse, denn zum Einen ist der Ausgangszustand fuer die Simulation erst bei LL3 und dass die Simulation ein Problem mit zu vielen einfachen Selbstreferenzen hat ist bekannt und an entsprechender Stelle bereits diskutiert worden.

Zum letzten Mal wollte ich noch kurz zwei Dinge anfuehren. Zum Einen, dass das unkorrigierte kumulative Risiko angibt, wie hoch die Wahrscheinlichkeit ist, dass ich Krebs in irgendeiner (!) Altersgruppe bis zur gegebenen bekomme unter der (kuriosen) Lage, dass man hierbei davon ausgeht, dass man in KEINER der vorhergehenden Altersgruppen mit Krebs diagnostiziert werden kann, denn dann haette man es ja gar nicht bis dahin geschafft. Wie gesagt ist das sinnvoll, wenn man nur die altersgruppenspezifische kumulative Rate angibt (die Wahrscheinlichkeiten also nicht aufaddiert). Das korrigierte kumulative Risiko umgeht das, indem dort „erlaubt“ wird, dass man auch in vorhergehenden Altersgruppen Krebs bekommen kann. Ich hatte das trotzdem alles aufgeschrieben, weil der Unterschied zwischen diesen beiden Grøszen erst bei alten Altersgruppen relevant wird, das unkorrigierte kumulative Risiko aber etwas leichter zu verstehen ist.
Zum Zweiten werden auch beim korrigierten kumulativen Risiko keine anderen Todesarten in Betracht gezogen! Auch wenn ich beim letzten Mal oft „ueberleben (bis zur gegebenen Altersgruppe)“ schreibe, so ist damit nur gemeint, dass man keinen Krebs bekommt. Das tut aber nix zur Sache, denn andere Todesursachen veraendern Zaehler und Nenner fuer die Crude Rate proportional. Dies selbst dann wenn ein Mensch mit einer anderen Todesursache spaeter im Leben Krebs bekommen haette. Der Grund liegt darin, weil Letzteres nur mit einer bestimmten Wahrscheinlichkeit passiert und man viele Menschen mit eine andere Todesursache haben muss, bevor einer dabei ist, der Krebs bekommen haette. Der Zaehler wird dann also bswp. um einen kleiner, aber der Nenner um bspw. 500.

Aber eigentlich wollte ich heute ueber etwas anderes schreiben, naemlich wie ich auf die Zahlen fuer die Altersgruppen 74-79, 80-84 und 85+ komme. Diese sind in der Tabelle naemlich gar nicht abrufbar, weil das grøszte untere Alterslimit 70 Jahre betraegt. Ich bekomme also nur die zusammengefassten (!) Daten fuer alle Maenner zwischen 70-79 Jahren, 70-84 Jahren und 70-85+ Jahren.
Lange Rede kurzer Sinn: ich habe alle Zahlen ganz einfach ausgerechnet und den Prozess erklaere ich heute … damit man mir da kein schummeln unterstellen kann.

Zur Berechnung der Crude Rate braucht man die Anzahl der Krebsfaelle und die Anzahl der Personen in einer Altersgruppe.
Die altersgruppenspezifischen Krebsfaelle sind easypeasy, indem man schrittweise rueckwaerts rechnet. Aus der Tabelle bekommt man die Anzahl der Krebsfaelle fuer Altersintervall 70-85+ und fuer Altersintervall 70-84. Zieht man Letzteres von Ersterem ab, so hat man die Zahlen fuer die Altersgruppe 85+. Mit entsprechend modifizierten Altersgrenzen bekommt man die Anzahl der Krebsfaelle fuer die anderen beiden Altersgruppen.

Fuer die Anzahl der Personen in den Altersgruppen muss man etwas mehr machen, aber letztlich ist’s nur ein schrittweises vorwaerts rechnen.
Die Crude Rate fuer die Altersgruppe 70-74 ist noch angegeben und damit kann ich dann die Anzahl der Maenner in besagter Altersgruppe ausrechnen.
Die Anzahl der Maenner in Altersgruppe 74-79 ergibt sich, wenn man diese einfache Formel umstellt:

Der Wert fuer die linke Seite der Gleichung findet sich in der Tabelle; dito bzgl. des Zaehlers und den ersten Summanden haben wir ja im vorhergehenden Schritt ausgerechnet.
Fuer die nachfolgenden Altersgruppen erweitert man die entsprechenden Altersintervalle fuer die Crude Rate und die Anzahl der Krebsfaelle. Auszerdem muss man natuerlich weitere Summanden in den Zaehler packen, welche die (schrittweise ausgerechneten) Anzahl der Maenner der  vorherhgehenden Altersgruppen repraesentieren.

Wenn alle Zahlen bekannt sind, kann die altersgruppenspezifische Crude Rate (und alles andere) ausgerechnet werden.

Nachdem nun der Ausgangszustand praepariert ist und ich weisz wie die Entwicklung des Systems vonstatten geht, kann ich mir nun jede simulierte Seite aus Ersterem hernehmen und mit dem Wissen von Letzterem die Anzahl der Selbstreferenzen pro Linklevel berechnen. Daraus sollte mindestens qualitiativ dann wieder das herauskommen was auch gemessen wurde.

Zunaechst ein paar repraesentative Verteilungen der Selbstreferenzen, denn diese sind das direkte Resultat der Simulation:

Die Daten sind fuer jedes beispielhafte Linklevel farbkodiert, wobei die schwachfarbigen Punkte die Messungen sind und die starkfarbigen Punkte die Simulation.
Die Datenpunkte fuer jedes beispielhafte Linklevel sind gegeneinander verschoben damit man besser sieht was vor sich geht.

Man sieht, dass die Simulation zunaechst ganz gut passt. Hier beispielhaft an den Daten fuer LL5 gezeigt. Das ist nicht verwunderlich, wurden die Parameter der Entwicklung doch vor allem mit Hinblick auf die ersten paar Linklevel gewaehlt.
Ziemlich schnell kommt es aber zu Diskrepanzen, die mit fortlaufender Entwicklung grøszer werden. Letzteres macht sich dadurch bemerkbar, dass sich die simulierten Punkte immer weiter von den gemessenen Punkten entfernen. Auch dies ist nicht verwunderlich, denn die realen Entwicklungsparameter werden schnell kleiner, waehrend ich sie fuer diese Simulation konstant (und auf (relativ) hohen Werten) halte.

Desweiteren faellt auf, dass der „Schwanz“ der simulierten Verteilungen „abgeschnitten“ ist. Das kommt natuerlich weil ich schon im Ausgangszustand den Sehr-viele-Selbstzitierungen-Schwanz weglasse; da kann der nicht fuer høhere Linklevel pløtzlich auftreten.

Eine weitere Sache ist der Wert fuer die Anzahl der Seiten (pro Linklevel) die nur eine Selbstzitierung aufweisen. Dieser ist eigentlich fast immer zu hoch, bei spaeteren Schritten VIEL zu hoch. Das liegt zum Einen wieder daran, weil die Entwicklungsparameter konstant bleiben; da hat dann auch eine Seite mit nur einer Selbstzitierung auf dem naechsten Level in ueber 70 Prozent der Faelle wieder eine Selbstzitierung. Der zweite Grund haengt indirekt damit zusammen, denn ich erlaube keine „(mehr oder weniger) spontanen Aussteiger“. Also Seiten deren Kette von Selbstzitierungen abbricht (egal ob es nun 23 oder nur eine waren). Die gibt es in Wirklichkeit aber und die tragen dann natuerlich nicht weiter zum gemessenen Signal bei.

Zum Abschluss ist zu sagen, dass die simulieten Daten mehr oder weniger nur bis LL12 sinnvoll sind. Danach habe ich im wesentlich nur noch einen oder zwei Datenpunkte. Auch das ist nicht verwunderlich, folgt dies doch aus dem oben Gesagten und selbst bei den gemessenen Daten sind die dort noch vorhandenen Punkte wahrscheinlich alles eher Ausnahmen, als die Regel.

Trotz Allem ist es aber wichtig zu sehen, dass dieses sehr einfache Model qualitativ gar nicht so falsch ist. Zum Einen werden die Diskrepanzen zwischen simuliertem und gemessenem Singal nicht unendlich grosz. Eine Grøszenordnung (spaeter etwas mehr) ist zwar nicht zu unterschaetzen aber liegt innerhalb dessen was ich erwarten wuerde bei einem so einfach gehaltenen Modell.

Schaut man sich nun die (vor mehreren Monaten zum ersten Mal vorgestellte) totale Anzahl an Selbstzitierungen per (relevantem) Linklevel an …

… dann sieht man beim Vergleich der schwarzen und roten Punkte, dass das auch hier Anfangs wieder ganz gut hinhaut und dann aber schnell eine grosze Diskrepanz und ganz anderes Verhalten (der Graf „biegt“ sich falsch) entsteht.
Nun erwaehnte ich aber weiter oben, dass ich zu viele Seiten mit einer Selbstreferenz habe. Wenn man diese ab LL6 (vorher zeichnet sich dieser Sachverhalt nicht als Problem ab) komplett weglasse, dann erhaelt man die blauen Punkte. Na aber Hallo! Das sieht doch viel besser aus. Die Luecke zwischen Simulation und Messung reduziert sich deutlich und nun zeigt auch die Simulation ein lineares Verhalten (bei doppellogarithmischer Darstellung). Die Luecke schlieszt sich nicht komplett und ein Unterschied von bis zu ca. einer Grøszenordnung bleibt erhalten. Letzteres war zu erwarten, wenn man das oben Besprochene bedenkt.
Alles in allem wuerde ich das aber als einen ziemlichen Erfolg der Simulation ansehen.

Ich kønnte an der Stelle aufhøren. Das waere aber unehrlich, denn eine weitere (ganz fantastische) Beobachtung waren die Regressionsparamter der individuellen Verteilungen der Selbstreferenzen pro Linklevel. Der Vergleich von Messung und Simulation dieser Grøszen sieht so aus:

ACHTUNG: man beachte die unterschiedlichen Skalen fuer simulierte bzw. gemessene Werte!

Man sieht, dass das generelle Verhalten qualitativ reproduziert wird; die Werte sowohl des Anstiegs als auch des absoluten Glieds nehmen ab. Hurra! Ein weiterer Erfolg fuer mein einfaches Modell.
Wenn man genauer hinschaut (deswegen der Hinweis mit den unterschiedlichen Skalen) sieht man, dass bis ungefaehr LL6 die Werte fuer diese beiden Grøszen noch ganz gut uebereinstimmen. Danach wird der simulierte Anstieg allerdings VIEL zu schnell steiler und das absolute Glied nimmt viel zu langsam ab.
Dies liegt zum Einen wieder an dem oben Gesagten. Zum Zweiten liegt es daran, dass ich bei der Bestimmung der Regressionsparamter der Simulation die Daten nicht fuer die Regression „optimiert“ habe (siehe mein Kommentar diesbezueglich im zitierten Beitrag). Fuer LL10 habe ich das mal gemacht; also „unpassende“ Punkte am Anfang und am Ende der Daten weggelassen. Das Ergebniss ist der blaue Punkt in den beiden Diagrammen und der bewegt sich nicht nur in die richtige Richtung, sondern ist auch signifikant anders als wenn man diese „Korrektur“ nicht vornimmt.

Letztlich ist zu sagen, dass das Modell die Daten qualitativ gut genug beschreibt. Quantitativ allerdings gibt es Diskrepanzen von bis zu einer Grøszenordnung. Wenn man bedenkt, dass das Modell sehr einfach gehalten ist, so ist das immer noch beeindruckend. Es zeigt aber auch, dass fuer eine bessere Beschreibung weitere Effekte zu beruecksichtigen sind. Das werde ich nicht machetun … mit einer Ausnahme: ich schau mir beim naechsten Mal an, wie das Abbrechen von Linkketten pro Linklevel aussieht (oben erwaehnte „Aussteiger“). Ich habe aber nicht vor das ins Modell einzuarbeiten, denn ich bin mit den Ergebnissen zufrieden genug und habe genug Zeit damit verbracht und ehrlich gesagt auch keine Lust mehr drauf.

Hier nochmal der Direktlink zur Tabelle mit den Daten.

Beim letzten Mal sagte ich, dass …

[…] mein jaehrliches Risiko […] ueberhaupt irgend einen Krebs zu bekommen […] nur 0.138 % [betraegt] […]

Wie kommt es dann aber, dass das Gesamtrisiko im Leben Krebs zu bekommen bei 50 % (und darueber) liegt? Dies ist nicht ganz einfach zu erklaeren unddeswegen der Reihe nach.

Alle Zahlen der Tabelle gehen davon aus, dass man nur ein Mal im Leben Krebs bekommt. Das ist nicht ganz richtig (und der Grund fuer komplizierte Korrekturen die ich hier erwaehnte) aber in Naeherung ist das gut genug.
Das unkorrigierte kumulative Risiko geht im Prinzip davon aus, dass es keinen „Verlust“ von Altersgruppe zu Altersgruppe gibt. Das bedeutet im Grunde, dass die Chance in der gegebenen Altersgruppe Krebs zu bekommen unabhaengig davon ist, in einer anderen (vorherigen) Altersgruppe Krebs zu bekommen. Oder anders: diese beiden Ereignisse sind inkompatibel (denn ansonsten haette ein Individuum es ja gar nicht bis zu der gegebenen Altersgruppe geschafft). Bei inkompatiblen Ereignissen greift das dritte Axiom von Kolmogorow und ich muss einfach nur die Summe aller (altersgruppenspezifischen) Einzelwahrscheinlichkeiten bis zur gegebenen Altersgruppe bilden, um das (unkorrigierte) kumulative Risiko zu erhalten.
Weil es so wichtig ist noch mal: bei dieser Rechnung gehe ich von meiner konkreten Situation aus. Ich nehme also an, dass es bis ins 43. Lebensjahr gekommen bin, OHNE dass Krebs diagnostiziert wurde.
Fuer norwegische Maenner und alle Krebsdiagnosen zusammen drueckt sich das eben Geschriebene in der lila Kurve in diesem Diagramm aus:

Sehr gut: alle Wahrschienlichkeiten zusammen ergeben weniger als 100 % (so wie es sein muss … denn das Universum wuerde verpuffen, wenn die Summe aller Wahrscheinlichkeiten ueber 100 % liegt). Es ist auch gut, dass ich am Ende 100 % erreiche, denn wenn ich an nix anderem sterbe, dann bleibt ja nur noch Krebs als Todesursache uebrig.

Die Situation fuer einen frischgeschluepften Mensch muss aber anders angegangen werden. Es gilt auch fuer diesen neuen Menschen, dass man nur ein Mal Krebs bekommt. Nun muss man im Hinterkopf haben, dass die Statistiken NUR ueber Personen gehen, die ueberhaupt Krebs bekommen kønnen (im Wesentlichen ist das im Konzept der „person-years at risk“ enthalten). Das bedeutet, wenn ein Mensch in einer Altersgruppe Krebs bekommt, dann faellt dieser aus der Statistik fuer die darauffolgenden Altersgruppen raus. Der Grund liegt darin, dass die zugehørigen „person-years at risk“ Null werden, sobald Krebs diagnostiziert wurde. Das bedeutet nicht, dass man stirbt, sondern nur, dass man nicht mehr zu den gefaehrdeten Personen gehørt. Das Konzept kann man sich leichter klar machen, wenn man sich Grippe anstatt Krebs denkt. Wenn man mit der Grippe durch ist, ist man immun, kann nicht mehr angesteckt werden und ist damit keinem Risiko mehr ausgesetzt.

Oder anders: die Wahrscheinlichkeit in einer gegebenen Altersgruppe Krebs zu bekommen ist _abhaengig_ (!) davon ob ich zur gefaehrdeten Personengruppe gehøre. Letzteres ist abhaengig (!) davon, ob ich bis hierhin „ueberlebt“ (also keinen Krebs bekommen) habe.
Ein Krebs-„Ereigniss“ in einer gegebenen Altersgruppe ist also abhaengig (!) davon, dass besagtes „Ereigniss“ nicht in einer vorhergehenden Altersgruppe auftrat.

Die Wahrscheinlichkeit eine gegebene Altersgruppe zu „ueberleben“ ist ganz einfach 100 % minus die Wahrscheinlichkeit, dass man Krebs bekommt. Das folgt aus dem zweiten Axiom von Kolmogorow: die Wahrscheinlichkeit fuer das sichere Ereigniss ist 100 % und das sichere Ereigniss ist in diesem Fall, dass ich Krebs bekomme oder nicht (also beide einzelnen Ereignisse zusammen genommen).
Weil es sich nun um voneinander abhaengige Ereignisse handelt, muss man die altergruppenspezifischen Ueberlebenswahrscheinlichkeiten miteinander multiplizieren, um heraus zu bekommen, ob man bis zu einer gegebenen Altersgruppe ueberlebt. Das korrigierte kumulative Risiko ist dann wieder nur 100 % minus die Ueberlebenswahrscheinlichkeit.

Diese Multiplikation der einzelnen Ueberlebens(!)wahrscheinlichkeiten (anstatt der Addition der einzelnen Krebs(!)wahrscheinlichkeiten wie im ersten Fall) ist mathematisch aequivalent zur „exponentiellen Abnahme der Anzahl der Menschen“ (die fuer die Statistik ueberhaupt in Betracht gezogen werden kønnen).

In der blauen Kurve im obigen Diagramm kommt also zum Ausdruck, dass man es eben gerade NICHT ohne Krebsdiagnose bis zur naechsten Altersgruppe geschafft hat, waehrend bei der lila Kurve davon ausgegangen wird (!), dass man von Datenpunkt zu Datenpunkt zu den „Ueberlebenden“ gehørt.

Ich weisz, ich weisz, statistische Aussagen (und wann welche Betrachtungsweise gewaehlt werden muss) kønnen knifflig sein. Aber ich wollte hier erklaert haben, warum ich weniger an der blauen, korrigierten Kurve und vielmehr an den Zahlen die zur lila,unkorrigierten Kurve fuehren, interessiert bin — das liegt an meiner Situation … … … und das soll nun wirklich genug sein fuer heute.

Spam Spam Spam Spam Spam […]

Hab ich mich gefreut, als ich das Original …

… in einem Laden in England entdeckte. Natuerlich kaufte ich gleich eine Dose … um zu meiner Ueberraschung (und Enttaeuschung) festzustellen, dass es sich dabei nur um eine Art von Jagdwurst handelt.
In Scheiben geschnitten, in der Pfanne gebrutzelt und auf auf ’ne schøne Scheibe Brot gepackt ist’s durchaus ’n OK’es Mahl.

Zur Erinnerung: hier zog ich als Analogon zu den Selbstreferenzen die Geschwindigkeitsverteilung von Gasteilchen in einer heiszen Box heran … und diskutierte dort inwieweit das zulaessig bzw. auch vøllig unzulaessig ist. Dieses Analogon werde ich auch heute benutzen.

Bei einer Simulation bzgl. der Entwicklung eines Systems braucht man zunaechst einen Anfangszustand. Der Anfangszustand bzgl. der Selbstreferenzen ist natuerlich LL0 … aber da gibt es keine Selbstreferenzen (von Artefakten abgesehen) und das entspricht einem klassischen (definitiv nicht quantenmechanischem!) Gas mit einer absoluten Temperatur von 0 K. Null Kelvin ist schwerlich als heisz zu bezeichnen … tihihi.

Wie sieht’s denn mit LL1 als Ausgangszustand aus? Das ist zwar besser, aber wir wissen, dass es sich bei der Verteilung auch um eine Ausnahme handelt, ist diese doch selbst mit Augen zudruecken nicht linear (bei doppellogarithmischer Darstellung). Im Analogon kønnte man sich vorstellen, dass bei LL1 die Heizplatte noch angestellt ist und definitiv noch kein Equilibrium im Gas erreicht wurde. Gleichgewicht mit dem „Aeuszeren“ sowieso nicht, denn das ist ja der Entwickluingsprozess (am Gasbild: das Abkuehlen) den ich simulieren will.

Dann also LL2 … jup … das geht gut genug linear, im Bild des heiszen Gases ist die Heizplatte also ausgeschaltet. Aber … mhmmmm … da ist ein kleiner Knick in der Kurve … ach dann beschreibe ich das abschnittsweise linear, eine Funktion fuer Werte zwischen 2 und 20 und eine andere fuer alles darueber … da kønnte man sich denken, dass die Heizplatte noch ein ganz klein bisschen Restwaerme hatte und der Knick durch die paar wenigen Gasteilchen zustande kommt die sich nochmal schnell „aufgewaermt“ (also Energie erhalten) haben und die daraus resultierende høhere Geschwindigkeit noch nicht durch Støsze mit den restlichen Teilchen abgegeben haben. Aber wie gesagt ist der Vergleich von Gasteilchengeschwindigkeiten und Selbstreferenzen physikalisch (und mathematisch) gesehen vølliger Quatsch. Aber ein Analogon dient ja zur Illustration eines weniger leicht fassbaren Sachverhalts mit einer bekannten Sache. Und all das hier schreibe ich um zu illustrieren, dass es auch in anderen Systemen Sachen gibt die nicht in das ideale Bild passen, man dafuer aber immer Gruende finden kann.

Wenn man das so mit den Regressionsgeraden macht, dann liegen mir die Werte fuer keine und eine Selbstreferenz(en) etwas weit abseits der ersten Geraden. Da nehme ich dann lieber die experimentell ermittelten Werte bzgl. dessen wie wahrscheinlich das ist, keine oder eine Selbstreferenz(en) zu haben. Zum Zweiten sind die Verteilungen auf LL2 und LL3 ja beinahe deckungsgleich. Deswegen wird LL3 fuer die Simulation der Entwicklung des Systems als Ausgangszustand angesehen.

Wieauchimmer, wenn man das alles so macht und dann die Anzahl der Selbstreferenzen 6 Millionen mal simuliert (jedes „Gasteilchen“ muss separat simuliert werden),  dann ist der simulierte Ausgangszustand eine (fuer die hiesigen Zwecke) hinreichend gute Naeherung. Dies und (fast) alles was ich Oben schrieb ist in diesem Diagramm nochmals zu sehen:

Eine Sache faellt auf: der lange „Schwanz“ der blauen Verteilung wird nicht durch die (zweite oder erste) Regressionslinie beschrieben. Das kann man fixen, ich habe das aber der Einfachheit halber nicht gemacht. Deswegen der „Abbruch“ in den roten Punkten bei 3000 Selbstreferenzen … mal schauen, wie sich das im weiteren Verhaelt.

So, das war’s … … … aber ich møchte an dieser Stelle ein bisschen darauf eingehen, wie ich von der gemessenen Verteilung der Selbstreferenzen auf LL1 zur Simulation derselbigen komme (abgesehen von dem bereits Gesagten).

Zunaechst einemal gilt natuerlich, dass diese Verteilung eine Wahrscheinlichkeitsverteilung ist … wenn man diese durch die Anzahl aller Seiten dividiert. Beim IQ ist das mit einer Normalverteilung leichter vorstellbar (Letzteres gilt auch fuer die Maxwell-Boltzmann-Verteilung der Geschwindigkeit von Gasteilchen). Aber die zugrundeliegende Mathematik ist die gleiche: wenn ich zufaellig eine Seite (Teilchen) aus dem Ensemble heraus nehme, so hat diese(s) eine bestimmte Wahrscheinlichkeit eine bestimmte Menge an Selbstreferenzen (Geschwindigkeit) zu haben. Die mathematische Funktion p in Abhaengigkeit von der Anzahl der Selbstreferenzen x der hiesigen Wahrscheinlichkeitsverteilung sieht so aus:

Wie oben geschrieben: explizit definierte Wahrschienlichkeiten fuer keine und eine Selbstreferenz(en) und zwei (bei doppellogarithmischer Darstellung lineare) Funktionen darueber hinaus.

Soweit ist das noch ganz einfach. Nun kommt aber der Haken an der Sache. Fuer eine zu simulierende Seite muss ich die Anzahl der Selbstreferenzen, also das x (!), berechen, habe aber nur p(x). Letzteres ist im Einzelfall nur sinnvoll wenn man x schon hat, aber die Gesamtheit aller Einzelfaelle muss p(x) ergeben. Aber wenn ich die erste Seite simuliere dann weisz ich ja noch nicht, wieviele Selbstreferenzen alle anderen Seiten haben.
Ich gebe zu, dass ich beschaemend lange brauchte um auf die Løsung zu kommen, aber letztlich ist’s ganz einfach. Doch dafuer muss ich ein bisschen ausholen.

Wenn ich eine Seite simuliere (und ich mache das 6 Millionen mal), dann ziehe ich eine zufaellige Zahl zwischen Null und Eins. Die Abschnitte auf dieser Zahlengerade von Null bis Eins entsprechen dann der Summe der Wahrscheinlichkeiten bis zu einer gegebener Anzahl an Selbstreferenzen. Also 0 bis 0.4561 wird null Selbstreferenzen zugeordnet, 0.4561 bis 0.6458 (= 0.4561 + 0.1897) einer Selbstreferenz und danch muss das entsprechend berechnet werden und die Abschnitte werden sehr schnell sehr klein.
Mathematisch ausgedrueckt entspricht diese zufaellige Zahl dem bestimmten (!) Integral unter obiger Kurve von Null bis zu einer gegebenen Anzahl an Selbstreferenzen. Anders als sonst ueblich bin ich also nicht an dem Wert des Integrals interessiert (denn das ist der Wert aus der zufaelligen Ziehung und somit bekannt), sondern am oberen Limit.
Fuer null und eins kann man sich einfach den Zufallswert anschauen und das sofort rausbekommen. Fuer alle anderen muss das berechnet werden und dabei ist zu beachten dass das Integral dann natuerlich erst bei der richtigen unteren Grenze (also 1 oder 20) los geht (um die vorhergehende Bemerkung einzubeziehen).
Ist das schøn, dass wir es so oft mit maechtigen Gesetzen zu tun haben! *froi*. Da ist das Integral einfach zu berechnen und leicht nach x umzustellen und somit kann jedem gezogenen Zufallswert eine Selbstreferenz zugeordnet werden.

Dabei sind zwei Sachen zu beachten. Zum ersten muss der Zufallswert korrigiert werden. Der Grund liegt in dem was ich oben schrieb: dieser Wert ist die SUMME aller Wahrscheinlichkeiten (bis zu der dem Zufallswert zuzuordnenden Anzahl an Selbstreferenzen). Das (bestimmte) Integral geht aber erst bei den gegebenen Grenzen los, faengt also bei Null zu „zaehlen“ an. Das ist aber ganz einfach, denn vom besagten Zufallswert muss nur die Summe der Wahrscheinlichkeiten bis zu dem Wert ab der die jeweilige Funktion gueltig ist (also bis 1 bzw. bis 20) abgezogen werden.
Zum Zweiten kommen da natuerlich krumme Zahlen raus und die muessen auf die naechste ganze Zahl gerundet werden. Werte die kleiner als 1.5 sind werden zu eins abgerundet. Das ist aber doof, denn Seiten die nur eine Selbstreferenz haben sind ja durch die Fallunterscheidung alle schon erledigt. Der Einfachheit halber habe ich solche simulierten Seiten dann nur rausgeschmissen. Dadurch fehlen ca. eine halbe Million Seiten … das kann man sicherlich fixen, ich hatte aber keine Lust mehr und schmeisz das einfach in den beruehmten „ca.-10-Prozen-Fehler“.

Mit dem letzten und diesem Mal kommen da ein paar krasse Vereinfachungen zusammen. Beim naechsten Mal zeige ich, wie weit man damit dennoch kommt.

Es geht weiterhin um die Daten in der bekannten Tabelle. In den letzten drei Artikeln habe ich mit den folgenden Begriffen „um mich geworfen“ und erklaert was diese bedeuten: Crude Rate, altersspezifische Rate, kumulative Rate und kumulatives Risiko. Zum grøszten Teil kønnen die zugehørigen Zahlen direkt aus der Tabelle abgelesen werden. Dort ist dies aber jeweils immer nur fuer gegebene Altersintervalle møglich und man sieht nur die Zahlen. Desweiteren sind die Zahlen dort eher fuer ganzheitliche Aspekte (bspw. gesundheitspolitische) „aufbereitet“. Ich persønliche will besagte Zahlen aber unter einem anderen Blickwinkel sehen — dem des maennlichen, in Norwegen wohnenden Individuums im 43 Lebensjahr, welches versucht eine „Gefahr“ abzuschaetzen. Ohne weitere Vorrede, zeige ich deswegen heute ein Diagramm in dem alle relevanten Grøszen vorkommen und bespreche das, damit die vorangegangene Theorie etwas handfester wird:

Alle Datenpunkte beinhalten ALLE Krebsfaelle und sind altergruppenspezifisch. Ersteres bedeutet, dass fuer diese Daten nur die Diagnose „Krebs“ wichtig war, nicht aber welche spezifische Krebsart (das kommt spaeter). Letzteres bedeutet, die sind NUR gueltig fuer die die gegebene Altergruppe. Das ist wichtig fuer mich ganz persønlich (siehe oben) oder fuer Aerzte um abzuschaetzen ab wann Vorsorgeuntersuchungen gemacht werden sollten.
Altersgruppen gehen ueber jeweils fuenf Jahre (mit Ausnahme der allerletzten, die alle Maenner ueber 85 Jahren zusammenfasst) und die Striche an der Abszisse geben die Altersgrenzen an.
Ebenso sind die Zahlen NUR fuer Maenner in Norwegen und die Verbindungslinien zwischen den Punkten sind nur zur besseren Visualisierung der Kurvenverlaeufe (vulgo: um das Auge zu leiten); es gibt natuerlich keine Daten dazwischen.
Die linke Ordinate ist (pro Altersgruppe) fuer die Anzahl der Krebsfaelle (schwarze Kurve) und das jaehrliche Risiko (Crude Rate, rote Kurve). Die rechte Ordinate ist (wieder pro Altersgruppe) fuer das korrigierte (blaue Kurve) und unkorrigierte (lila Kurve) kumulative Risiko.

Zunaechst zur Anzahl der Krebsfaelle. Am Anfang passiert nicht viel und damit man ueberhaupt den Anstieg in den ersten vierzig Jahren sieht, ist die linke Ordinate logarithmisch. Im Wesentlichen zeigt die schwarze Kurve einen linearen Anstieg. Bei logarithmischer Achse bedeutet das, dass das Krebsrisiko mit jedem Lebensjahr exponentiell zu nimmt. Das erklaert auch, warum ich beim letzten Mal meinte, dass die exponentielle Abnahme der Anzahl der zu betrachtetenden Menschen zur Berechnunge des wahre(re)n kumulativen Risikos durchaus plausibel ist.
Das jaehrliche Risiko berechnet sich aus diesen Zahlen und hat (von Ausnahmen abgesehen, siehe weiter unten) dementsprechend den gleichen Verlauf.

Aber Moment mal, hier sagte ich doch, dass die Sterberaten erst ab 30 Jahren exponentiell zunehmen. Das ist leicht zu erklaeren, denn wenn man den Grafen dort anschaut, dann fallen viel viel mehr junge Maenner anderen Sachen zum Opfer als Krebs. Dieser traegt erst ab ca. 30 Jahren signifikant(er) zum Signal bei.

Mit ueber 75 Jahren nimmt die Anzahl der Krebsfaelle wieder ab, aber die Crude Rate (rote Kurve) nimmt weiterhin zu. Dies ist natuerlich dadurch zu erklaeren, dass bei Letzterer die Anzahl der Faelle durch die Anzahl aller Maenner in der Altergruppe geteilt wird. Und der Nenner dieses Bruchs wird schneller kleiner (weil halt wenige Maenner so alt werden) als der Zaehler. Das ist genau der Grund, warum ich an der (altersspezifische) Crude Rate mehr interessiert bin als an der Anzahl der Krebsfaelle; ich will naemlich (wieder) so alt werden.
Es ist zu beachten, dass bei dieser Betrachtungsweise die Crude Rate auch die altersspezifische Rate ist. Das liegt natuerlich daran, dass innerhalb einer Altersgruppe keine anderen Altersgruppen vorkommen und dadurch keine juengeren (oder aelteren) Maenner mit in Betracht gezogen werden muessen. Ach so, die auf die Weltbevølkerung berechnte altersspezifische Rate interessiert mich natuerlich nicht. Ich wohne nunmal in Norwegen.

Das unkorrigierte (!) Risiko fuer eine Altersgruppe ist die jaehrliche Rate mal fuenf. Die lila Kurve hat also den selben (!) Verlauf wie die rote Kurve (nur mit grøszeren Werten). Das sieht man hier aber nicht, weil die rechte Abzsisse eine lineare Ordinate hat (dafuer sieht man aber, was ich oben mit „am Anfang passiert nicht viel“ meinte).
Wenn man das korrigiert bezueglich der Maenner die in der gegebenen Altersgruppe sterben (und damit keinem Risiko mehr ausgesetzt sind), erhaelt man die blaue Kurve. Wie beim letzten mal erwaehnt, sind die Unterschiede nicht bedeutend und machen sich erst bei ueber 70 Jahren ueberhaupt bemerkbar.

Die gute Nachricht fuer heute: mein jaehrliches Risiko (Crude Rate) ueberhaupt irgend einen Krebs zu bekommen betraegt z.Z. nur 0.138 % und ist selbst in hohem Alter nur ca. 5 %. Ich sagte ja, dass eine der wichtigen Erkentnisse war, dass ich mir darueber eigentlich gar keinen Kopf zerbrechen muss.

Genug fuer heute, denn ich wollte doch versuchen, diese Artikel „schlank“ zu halten. Beim naechsten Mal gehe ich kurz auf das kumulative Risiko ab Geburt ein.

Weil zu viel abzuhandeln ist, knuepfe ich ohne viel Aufhebens direkt an das beim letzten Mal Besprochene an:

Pro Datensatz gilt das Folgende. Zunaechst wurde auf der Abzsisse abgetragen, wie viele Selbstreferenzen eine Seite auf einem gegebenen Linklevel i hat. Dann wurde fuer die selbe Seite geschaut, wieviele Selbstreferenzen diese auf dem naechsten Linklevel i + 1 hat. Dieser Wert wurde hier nicht abgetragen. Vielmehr bildete ich den Mittelwert der Selbstreferenzen auf Linklevel i + 1 fuer fuer _alle_ Seiten  die genausoviele Selbstrefenzen auf Linklevel i aufweisen wie die oben einzeln betrachtete Seite. Dieser Mittelwert ist auf der Ordinate abgetragen und ich diskutierte das beim letzten Mal genauer.

Dabei ist zu beachten, dass Seiten die auf einem Linklevel _keine_ Selbstreferenzen haben, NICHT weiter betrachtet wurden; ich behandle solche Seiten also als ob die bei diesem Linklevel „ausgestiegen“ sind. Dies gilt auch dann, wenn eine solche Seite auf einem høheren Linklevel wieder Selbstreferenzen aufweist. Eine eventuelle „Reaktivierung“ wird als irrelevant angenommen; empirisch ist das durchaus berechtigt, da es meist doch nur eine Selbstreferenz auf hohen Linkleveln gibt. Im Wesentlichen sieht man in diesem Diagrammen also nur Seiten, welche durchgehende „Ketten“ von Selbstreferenzen aufweisen.
In einem spaeteren Beitrag schau ich mir mal an, wie sich diese „Ausstiege“ und eventuelle „Reaktivierungen“ verhalten.

Damit hab ich gleich abgehandelt, warum im Wesentlichen ab LL22 nix mehr zu sehen ist (und so weit geh ich auch nur deswegen, damit das konsistent mit dem hier Gezeigten ist). Es gibt nur wenige Seiten, die so lange durchgehende Ketten von Selbstreferenzen aufweisen.
Dennoch ist zu sehen, dass der beim letzten Mal erkannte Zusammenhang bzgl. der Anzahl der Selbstreferenzen offensichtlich fuer mehr als nur einen Linklevelschritt gilt. Und abgesehen von LL1 zu LL2 (die roten Punkte im ersten Diagramm); scheint dieser bei doppellogarithmischer Darstellung linear zu sein (was auch bereits beim letzten Mal zu sehen war).

Desweiteren sieht es so aus, als ob die Anstiege dieser Kurven (auch wenn es diskrete Punkte sind nennt man das so … denke ich) immer ungefaehr gleich sind … mhmm … wenn ich hier Pi mal Daumen schaue, dann scheint es so zu sein, dass ich von einem Linklevel zum naechsten so ganz grob ungefaehr 50 mal weniger Selbstreferenzen habe … interessant … das muss ich mal genauer auswerten.

Damit die lineare Regression schick aussieht, entfernte ich hierfuer an den Enden Punkte, behielt aber alle anderen Ausreiszer drin. Diesmal geh ich einen anderen Weg und mache zunaechst eine lineare Regression um dann alle Punkte zu entfernen, die mehr als einen festgelegten maximalen Wert von der Regressionsgeraden entfernt liegen (in Richtung der Ordinate). Den Prozess wiederhole ich so lange, bis keine Punkte mehr entfernt werden muessen.

Das Ergebnisse bzgl. des Anstiegs und absoluten Glieds der Regressionsgeraden ist hier zu sehen (auszer fuer den Schritt von LL1 zu LL2) und …

… øhm … ich sag jetzt mal mehrdeutig.

Ich habe da zwar Regressionsgeraden rein gelegt, aber wichtige Punkte fallen mit dieser Geraden ueberhaupt nicht zusammen. Wichtige Punkte sind die bis ungefaehr LL6 / LL7, wo die Ausgangsdaten noch gut genug sind. Deswegen wuerde ich sagen, dass eine lineare Regression der Parameter der linearen Regressionen ueber die Datensaetze der obigen Diagramme die falsche Herangehensweise ist.
Nun kønnte ich da natuerlich eine Funktion durchpacken, welche diese Daten am Besten anpasst. Die Wahl einer Funktion sollte einen Zusammenhang mit einem plausiblen Mechanismus haben. Lineare, Potenz- und Exponentialfunktionen werden dafuer gern genommen. Dies weil sich so viel im Universum danach verhaelt und es meist durchaus plausibel ist erstmal anzunehmen, dass ein neues System sich auch danach verhaelt. Aber bei den Fehlerbalken kønnte ich irgendwas nehmen und das kønnte stimmen oder nicht.

Deswegen mache ich im Weiteren das, was man in solchen Faellen, wo man nicht weiter weisz, oft macht: ich versuche das (zukuenftige) Modell so einfach wie møglich zu halten. Das bedeutet dass ich einfach sage, dass sich alle obigen Kurven mittels linearer Gleichungen mit gleich bleibenden Regressionsparametern (gut genug) beschreiben lassen.
Den Anstieg setze ich dabei (nicht ganz so willkuerlich) fest auf 0.9. Dieser Wert ist im Wesentlichen nur aus den ersten sieben Punkten gewonnen (wo die Datenlage noch gut ist). Es ist ein Kompromiss der versucht einzubeziehen, dass der Anstieg zunaechst grøszer oder nahe eins ist, aber ja doch auch spaetere Daten erklaeren muss.
Fuer den Wert des absoluten Glieds habe ich den Mittelwert aller Punkte genommen (ca. -0.1469). Das fuehlt sich genauso richtig an wie irgend einen anderen Wert, beschreibt aber den Anfang wieder besser als andere Werte.

Somit weisz ich, wie sich das System von einem zum naechsten Linklevel entwickelt. Der Rest sollte nur vom Ausgangszustand abhaengig sein. Damit sollte ich beim naechsten Mal zur eigentlichen Simulation kommen kønnen und kann dann hoffentlich die erfolgreiche Berechnung der Verteilung der Selbstreferenzen pro Linklevel zeigen, wenn man nur die Verteilung dieser Grøsze im Anfangszustand kennt :)

Die letzte Spalte in der bekannten Tabelle ist das kumulierte Risiko. Gleich zu Anfang ein Achtung: Das ist in Prozent und NICHT per 100.000 (Einwohner).

Intuitiv ist das einfach zu verstehen: diese Zahl ist die Wahrscheinlichkeit innerhalb einer gewaehlten Zeitspanne an (einem gegebenen) Krebs zu erkranken. In Wahrheit ist’s aber nicht ganz so einfach und ich muss etwas ausholen.
Zunaechst ist wichtig, was ich zur Crude Rate sagte:

[…] die Crude Rate ist die _jaehrliche_ Chance an (einem gegebenen Krebs) zu erkranken, wenn man sich in einer gegebenen Altersgruppe befindet.

Eine Altersgruppe geht ueber fuenf Jahre und somit kommt man fuer jede Altergruppe zur kumulativen Rate (Achtung: Rate ist NICHT Risiko!) indem man die Crude Rate einfach mit fuenf multipliziert. Geht man ueber mehrere Altersgruppen, addiert man die kumulativen Raten einfach auf.
Das ist auch noch intuitiv und fuer junge Menschen sind die Werte fuer die kumulative Rate und das kumulative Risiko im Wesentlichen gleich. Fuer mittelalte Menschen (so ab 50) werden Diskrepanzen bemerkbar, aber man kann bis ungefaehr zum durchschnittlichen Lebensalter gehen und sagen, dass man diese beiden Werten noch gleich interpretieren kann, weil die Abweichung nicht all zu grosz wird. Danach sollte man das nicht mehr tun.

Der Grund, dass es zu grøszer werdenden Abweichungen kommt, liegt zum Einen wieder darin, dass man eigentlich die „person-years at risks“ nehmen muss. Darauf gehe ich auch diesmal wieder nicht weiter ein.
Zum Zweiten geht man bei der Rate immer davon aus, dass man eine Population von 100.000 Leuten hat. Oder anders: konkurrierende Todesursachen werden nicht in Betracht gezogen und somit gilt das nur fuer Leute die es ueberhaupt bis in die Altersgruppe schaffen. In der Realitaet ist die kumulative Rate eine UEBERabschaetzung, denn von den 100.000 Leuten sind ja schon ein paar verstorben. Somit ist die tatsaechliche Anzahl von Krebsfaellen etwas kleiner, einfach weil es nicht mehr so viele Leute gibt, die Krebs bekommen kønnen.

Bei der Berechnung des wahreren kumulativen Risikos wird (durchaus plausibel) angenommen, dass die Anzahl der betrachteten Menschen exponentiell abnimmt. Das alles kann man in den informativen ersten Abschnitten des Artikels „What is the lifetime risk of developing cancer?: the effect of adjusting for multiple primaries“ von Sasieni, P. D. et al. im British Journal of Cancer 150 (3), 2011, pp. 460–465 nachlesen. Dort findet man dann auch noch Methoden welche die Abschaetzung des Risikos weiter verbessern. Diese Verbesserungen beinhalten bspw. die Benutzung sogenannter „Life Tables“ (die bereits an anderer Stelle erwaehnt und benutzt wurden) um besser abzuschaetzen, wie viele Menschen einer gegebenen Kohorte, wenn sie eine gegebene Altersgruppe erreichen, (mehr oder weniger) tatsaechlich noch am Leben sind. Auszerdem kann man auch noch in Betracht ziehen, dass Leute mehrfach Krebs bekommen kønnen. All dies reduziert das wahre(re) kumulative Risiko, aber dafuer braucht man noch viel mehr Daten als ich (oder die Tabelle) zur Verfuegung habe.

Worauf ich hinaus will: das tatsaechliche kumulative Risiko ist (insb. fuer alte Altersgruppen) kleiner, weil die Leute an anderen Sachen als Krebs sterben. Im Artikel von Schouten, L. J. et al. mit dem Titel „Cancer incidence: life table risk versus cumulative risk.“ im Journal of Epidemiology and Community Health, 48 (6), 1994, pp. 596–600 gibt es ein paar sehr schøne und leicht zu verstehende Graphen bezueglich dieses Sachverhalts.

Fuer meine Zwecke ist das aber im Wesentlichen irrelevant. Zum Ersten habe ich die Zahlen mal rueckwaerts gerechnet und in der Tabelle sind alle kumulativen Risiken nur einfach korrigiert; also nur unter der Annahme, dass die Menschenzahl exponentiell abnimmt. Dies sowohl fuer das kumultive Risiko ab Geburt, als auch innerhalb der einzelnen Altersgruppen.
Zum Zweiten will ich ja ueberleben, also eben NICHT zu dem Teil gehøren, der zur „exponentiell abnehmenden Menschenzahl“ fuehrt. Unter dieser Voraussetzung ist sogar die (høhere) kumulative Rate (also einfach nur fuenf mal die Crude Rate) richtig.
Das Zweite ist dann (wieder) der bereits erwaehnte Unterschied zwischen Zahlen die richtig sind fuer ganzheitliche Betrachtungen und Zahlen die richtig sind fuer individuelle Betrachtungen … statistische Aussagen und Zahlen in den richtigen Zusammenhang zu setzen und richtig zu interpretieren kann manchmal ganz schøn knifflig sein.

Was ich die letzten Male schrieb ist eine Beschreibung eines Phaenomens (die Selbstreferenzen), wenn man das Gesamtsystem in verschiedenen Schritten der Entwicklung betrachtet. Dabei wird vøllig auszer Acht gelassen, _wie_ das System dahin gekommen ist. Wenn man Letzteres wuesste, dann muesste man nur einen Zustand (also bspw. LL1) messen und kønnte dann simulieren, wie sich das System zu den naechsten Schritten hin entwickelt.

Fuer ein Analogon aus der Physik nehme man an, dass ich eine Box mit einem heiszen Gas habe. Die individuellen Verteilungen der Selbstreferenzen pro Linklevel kønnten dann der Geschwindigkeitsverteilung der Gasteilchen zu unterschiedlichen Zeitpunkten waehrend des Abkuehlens entsprechen. Natuerlich nicht in Echt, denn das waere eine Maxwell-Boltzmann Verteilung; aber es geht mir ja nur darum, dass die Teilchen unterschiedliche Geschwindigkeiten haben, welche einer bekannten Verteilung folgen. Bisher habe ich die „Geschwindigkeitsverteilungen“ nur gemessen und ausgewertet. Es wuerde unheimlich viel Arbeit sparen, wenn man aber die „Geschwindigkeitsverteilung“ nur zu einem Zeitpunkt misst und dann berechnet wie diese zu einem spaeteren Zeitpunkt aussieht?

Diese Idee einer Simulation von gewissen Aspekten des Linknetzwerkes aus einem Ausgangszustand schwirrt schon eine ganze Weile in meinem Kopf herum. Bisher habe ich aber keinen Zugang dazu gefunden.
Bei den Selbstreferenzen ging mir nun aber das folgende Licht auf: wenn eine Seite viele Selbstreferenzen auf einem Linklevel hat, so ist das eine „populaere“ Seite und diese sollte auf dem naechsten Linklevel auch viele Selbstreferenzen haben. Klingt erstmal logisch, nicht wahr.
Diese Idee erweiterte ich auf alle Seiten (also auch die mit wenigen Selbstreferenzen) und dachte mir, dass es einen allgemeinen Zusammenhang zwischen den Selbstreferenzen von einem Linklevel zum naechsten geben kønnte. Und wenn man diesen Zusammenhang kennt, dann braeuchte man nur einen „Ausgangszustand messen“ und kønnte daraus alles berechnen.
Oder anders im Bilde des obigen Analogons (und hier kommt das „atomistische“ herein): wenn ich die Geschwindigkeit eines Teilchens kenne und weisz wie sich diese entwickelt, dann kann ich bei Kenntniss der Geschwindigkeit aller Teilchen im Ausgangszustand besagte Simulation durchfuehren und muesste nix weiter messen.

Um das durchfuehren zu kønnen, muss ich aber zunaechst ein ganzes Stueckchen Vorarbeit leisten. Der erste Punkt auf der Agenda ist herauszufinden, ob es eine Abhaengigkeit der Selbstreferenzen auf einem Linklevel vom vorhergehenden Linklevel gibt. Wenn man sich die Daten diesbezueglich anschaut, dann sieht das (am Beispiel des Schrittes von LL3 zu LL4) so aus:

Aha! Na das sieht doch tatsaechlich so aus, als ob es hier (wie oben vermutet) eine Tendenz gibt. Ist nur doof, das es in dem schwarzen Blob eine Variation ueber zum Teil vier Grøszenordnungen gibt … aber Moment mal … einen schwarze Blob gab’s doch schon mal … und Mittelwertbildung offenbarte eine ganz wunderbaren Information, welche sich in dem Blob versteckte. Na dann:

AHA! Der Eindruck, dass es da einen Zusammenhang gibt taeuschte nicht und zum jetzigen Zeitpunkt ist es auch nicht mehr ueberraschend, dass dieser linear ist (bei doppellogarithmischer Darstellung).

Wie schon damals liegen die Mittelwerte ziemlich eindeutig auf einer Linie fuer (relativ) kleine Werte auf der Abszisse (hier bis ca. 400 Selbstreferenzen). Dies liegt natuerlich darin, weil ich aus vielen Datenpunkten (die bspw. alle 23 Selbstreferenzen haben), jeweils nur einen Mittelwert „mache“.
Fuer høhere Werte und hingegen streut das alles zum Teil betraechtlich. Der Grund liegt darin, dass ich da dann nur wenige Datenpunkte habe; bei ganz hohen Abzsissenwerten oft nur einen Einzigen (wenn im Diagramm die roten „Mittelwertquadrate“ genau ueber einem schwarzen „Rohdatenkreis“ liegen). Das wiederum kann den Mittelwert ganz massiv beeintraechtigen und zu den zu beobachtenden starken Schwankungen fuehren. Wichtig ist aber, dass die Punkte dennoch (im Mittel) weiterhin dem linearen Zusammenhang zu folgen scheinen.

Das soll reichen genug sein fuer heute. Beim naechsten Mal all dies fuer alle Linklevel (fuer die es sich lohnt das mal auszuwerten)