Archive for Mai, 2022

Vor einiger Zeit wurde ich lieb darauf hingewiesen, dass im Osten Deutschlands aufgewachsene (in Norwegen lebende) Deutsche, wenn sie gefragt werden, wo sie herkommen „aus Ostdeutschland“ sagen.
Wenn ich ehrlich bin, habe ich etwas Entsprechendes tatsechlich noch nie wirklich jemanden sagen høren, wenn die Person aus Nord- oder Sueddeutschland kommt. Da wird die Himmelsrichtung im Allgemeinen weggelassen.

Wieauchimmer, das soll nur der Einstieg sein, denn ich stolperte ueber eine interessante Studie von Becker, S. O., Mergele, L. und Woessmann, L. mit dem Titel „The Separation and Reunification of Germany: Rethinking a Natural Experiment Interpretation of the Enduring Effects of Communism.“ im Journal of Economic Perspectives, 34 (2), p. 143–71, 2020. Wobei ich eher diese Version hier empfehle, denn die enthaelt (am Ende) mehr informative und leicht zu interpretierende Bilder.

Diese Studie ist durchaus lesenswert, aber es reicht auch, wenn man sich die Bilder anschaut. Man sieht dort deutlich, dass die gesellschaftliche, politische und økonomische „Landschaft“ im Osten Deutschlands bereits vor dem 2. Weltkrieg anders war.

Bspw. war der Anteil der Arbeiterklasse an der Bevølkerung VIEL høher als im Rest Deutschlands. Wir reden hier von Werten zwischen 50 bis 75 Prozent im gesamten Ostdeutschen Bereich, waehrend es in Westdeutschland (abgesehen vom Ruhrgebiet) nur 10 bis 30 Prozent sind! Damit war natuerlich auch der Anteil der Linkswaehler deutlich grøszer. Interessant, nicht wahr! Aber das wussten wir ja schon vorher, dass die beruehmteste „Arbeiter“partei in der Geschichte Deutschlands mitnichten fuer die Arbeiter stand.
Und diese groszen Unterschiede gelten auch fuer den Anteil der Protestanten, auszerehelichen Kindern oder Teilhabe der Frauen am Arbeitsleben.

Worauf ich hinaus will: die Ostdeutschen waren (in neuerer Zeit) schon immer anders; und wenn das naechste Mal wer sagt, dass das Spaetwirkungen des seit ueber 3 Jahrzehnten ueberwunden DDR-Regimes sind, dann kann ich ’n Vogel und diese Studie zeigen. Ist doch immer schøn, wenn man echte Fakten in der Hand haelt, nicht wahr.

… dass moderater Alkoholkonsum gut fuer einen ist.

Ich habe in den vorherigen Beitraegen in dieser Reihe viel aus der (Literatur)Anaylse von Hans Olav Fekjær in Addiction 108 (12), pp. 2051–2057, 2013 zitiert, weil alle dort dargestellten Sachverhalte so schøn den Selbstkorrekturmechanismus der Wissenschaft darstellen. Die gesamte „Geschichte“ geht im Allgemeinen ungefaeher so.

Eine Beobachtung (in diesem Falle besagte „Volksweisheit“) wird gemacht und sehr, sehr oft in vielen unabhaengigen Faellen (scheinbar) bestaetigt.
Diese Studien sind mal mehr, mal weniger gut und die weniger Guten fallen erstmal nicht auf. Bzw. wird den Schwaechen frueherer Studien damit begegnet, indem in neueren Studien immer mehr Størfaktoren in Betrachtung gezogen und „herausgerechnet“ werden.
Ueber viele Jahre scheint sich scheinbar ein bestimmtes „Bild“ einzustellen … aber dann schaut sich eine neue Generation von Forschern dieses „Bild“ mal mit grøszerem Abstand an und sieht die Ungereimtheiten.
Hierbei kann man im Allgemeinen nicht einmal die frueheren Forscher beschuldigen etwas falsch gemacht zu haben. Besagte Ungereimtheiten fallen naemlich nur auf, wenn man alles zusammen, und nicht einzeln (oder begrenzt auf bestimmte Arbeitsgebiete) betrachtet. Das konnten fruehere Forscher aber nicht machen, aus dem einfachen Grund, weil „alles“ ja noch gar nicht da und das „Bild“ erst am Entstehen war.

Fekjær raeumt nun durchaus ein, dass …

[t]here is solid evidence that light or moderate drinkers have a reduced risk of several diseases which are influenced by life-style factors.

Kommt aber nach Blick auf das „Gesamtbild“ auch zum Schluss …

[w]hether or not the lower risk is due to alcohol is a more complicated issue.
Taken together, the existing evidence does not seem to meet the criteria for inferring causality […].

Ganz konkret (als Zusammenfassung dessen was ich in vorherigen Artikeln ansprach):

[f]or almost all the diseases, we do not know of any plausible biological mechanism explaining a causal preventive role for alcohol. In theory there might be a common, as-yet undiscovered mechanism, but the diverse nature of the diseases makes it unlikely. Another criterion for causality which is almost completely lacking is the biological gradient, or dose–response relationship.

und zum Ende kann sich Fekjær ein abschlieszendes Kommentar bzgl. Beobachtungsstudien nicht verkneifen (Hervorhebung von mir):

Some recent studies attempt to overcome the problem by including more confounders than previously […]. Like others before them, the authors seem to be confident that all relevant confounders have been taken into account.

*lacht*

Dies soll es abschlieszend dazu sein.

Der andere Weg der Selbstkorrektur in der Wissenschaft ist die Anwendung neuer, besserer Methoden. Eine derartige neue Methode wurde bzgl. dieses spezifischen Themas, und weiter beschraenkt auf Herz- und Kreislauferkrankungen, von Holmes, M. V. et al. angewandt und im (ebenso detailliert besprochenen) dazugehørigen Artikel in BMJ, 2014; 349:g4164 vorgestellt.
Dieser Weg ist auch voll spannend und oft eindeutiger bzgl. der Schlussfolgerungen. Aber da beide Methoden in diesem konkreten Fall zum selben Ergebniss fuehren, gehe ich darauf nicht nochmal gesondert ein.

Tja, und das war’s dann mit dieser Miniserie. Ich hoffe, dass ihr, meine lieben Leserinnen und Leser, aehnlich viel Freude daran hattet wie ich beim Lesen und (zumindest teilweise) Verstehen der Artikel.

Hier stellte ich die Entdeckung vor, dass die Beziehung zwischen der Anzahl der durchschnittlichen Links pro Seite und der Anzahl der Zitierungen einem maechtigen Gesetz folgt. Zur Erinnerung nochmal das Resultat:

Es sieht aus, als ob es sehr viele Abweichungen bei ueber 1000 Zitierungen gibt, was Zweifel an der obigen Aussage aufkommen laeszt. Aber in dem zitierten Artikel erklaere ich, dass dies nur scheinbar so ist und die Abweichungen nur durch sehr wenige Seiten zustande kommen.

Aber darum soll es heute gar nicht gehen. Vielmehr interessiere ich mich ausnahmsweise mal fuer individuelle Seiten. Ich meine die sechs, mit A bis F markierten Datenpunkte. Das sind vielzitierte Seiten, also „Groszvieh“, die nur sehr wenige Links haben. Beim ersten kurzen Anschauen, dachte ich, dass es sich dabei bestimmt um sowas wie Voivodeship oder CinemaScore handelt. Beide wurden erstmals hier erwaehnt, ebenso im Zusammenhang mit einer Anomalie. Aber schauen wir mal genauer hin.

Hier ist eine Uebersicht der Daten fuer diese sechs Datenpunkte:

DatenpunktAnzahl
Zitierungen
Anzahl
Links
Seite
A36453Dieter Nohlen
B35694VG-lista
C38954List of Prokaryotic names with Standing in Nomenclature
D617824Dehestan (administrative division)
E625256Geographic Names Information System
F633258Bakhsh

Aha! Meine Vermutung war (grøsztenteils) richtig. Die Datenpunkte B, C und E sind (im weitesten Sinne) tatsaechlich sowas wie „Cinemascore“ — (mehr oder weniger) zusammenfassende, uebergeordnete Listen zu einem Thema.
Nehmen wir beispielsweise die norwegischen Charts: VG-lista. Da gibts halt nicht viel zu sagen und weiterfuehrende Links gehen nur zum allgemeinen “ record chart„, der Zeitung die das verøffentlicht — VG — und wo die Daten herkommen — Nielsen Soundscan International. Aber Moment mal! Das sind doch nur drei Links und in meinen Daten sollten das vier sein! Irgendwas stimmt hier nicht.

Hier muss man sich nun erinnern, dass die Wikipedia ein lebendes Dokument ist und dass ich mit der Version vom 20. Dezember 2020 arbeite. Man muss also auf „View History“ (der entsprechenden Seite) gehen und dort die richtige Version nehmen (in diesem Falle die vom 15. November 2020‎). Und schwuppdiwupp, ein zusaetzlicher Link nach Norway taucht auf.

Die Datenpunkte D und F sind tatsaechlich sowas wie „Voivodeship“ und die tauchten bereits bei den 50 meistzitierten Seiten auf und wurden dort kurz besprochen.

Heraus faellt nur Datenpunkt A: Dieter Nohlen. Dieser Politikwissenschaftler ist mir aber bereits auszerhalb von Wikipedia „ueber den Weg gelaufen“ und da wundert es mich gar nicht, dass er (oder seine Arbeiten) in fast viertausend anderen Zusammenhaengen zitiert wird.

So, das war’s dazu. Das Anschauen einzelner Seiten macht die Theorie immer ein bisschen greifbarer. Und auch wenn es sich (wie in diesem Fall) um „Ausreiszer“ handelt, so sagen auch diese etwas ueber die Struktur des Weltwissens aus :). Auszerdem lockert das die Besprechungen der manchmal doch etwas abstrakten Theorie ein bisschen auf.

Ich bin aber noch nicht ganz fertig mit diesen Ausnahmefaellen. Diese machten mich naemlich auf eine wichtige Sache aufmerksam. Aber dazu mehr beim naechsten Mal

Hiermit møchte ich die Diskussion bzgl. des Maximums der Gesamtverteilung der totalen Links per Linklevel abschlieszen. Dafuer zeige ich nochmal besagte Verteilung:

In den vorhergehenden Artikeln hatte ich dargelegt, warum das viel staerker zum Maximum hin ansteigt als man zunaechst vermuten wuerde. Dabei habe ich mich auf den Anstieg von LL1 zu LL2 konzentriert.
Man beachte, dass das im Diagramm etwas anders zu lesen ist. Dort ist die Anzahl der totalen Links pro Linklevel angezeigt. Die Links sind die „Ausgaenge“ (oder „Treppen“, wenn man im Bilde des Anstiegs bleiben will) zum naechsthøheren Level. Deswegen ist mit „Anstieg von LL1 zu LL2“ die Høhe des Balkens bei Linklevel 1 gemeint.

Wieauchimmer, der viel staerker als erwartete Anstieg kommt durch vielzitierte Seiten zustande. Nun ist es aber so, dass eine spezifische Startseite (deren Linknetzwerk individuell untersucht wird) auf LL1 mitnichten alle vielzitierten Seiten gesehen hat. Mglw. hat diese spezifische Startseite auf LL1 ueberhaupt keine vielzitierte Seite gesehen. Das bedeutet dann aber, dass in der Gesamtheit aller Wikipediaseiten auf LL2 wieder (oder vielmehr immer noch) vielzitierte Seiten auftreten kønnen. Das ist dann der Grund, warum auch der Anstieg von LL2 zu LL3 signifikant grøszer ist, als ein einfaches durchschnittliche-Anzahl-Links-pro-Seite-Bild vermuten laeszt.
Dito von LL3 zu LL4, aber der Effekt wird von Linklevel zu Linklevel geringer. Der Grund ist, dass ich einmal besuchte Seiten zwar in die Anzahl der totalen Links mit einbeziehe, diesen aber nicht wieder folge.

Zur Veranschaulichung denke man sich wieder die individuelle Seite und weiterhin nehmen wir der Einfachheit halber kurz an, dass es nur drei vielzitierte Seiten (mit jeweils 1000 Links) gibt. Diese individuelle Seite sieht nun auf LL0 eine dieser drei vielzitierte Seiten. Diese traegt dann auf LL1 1000 Links bei. Nun sieht diese individuelle Seite auf LL1 genau die selbe vielzitierte Seite nochmal. Dann zaehlt die zwar noch einmal zu den totalen Links auf LL1 aber da ich nicht nochmal auf diese Seite gehe, ist der Beitrag auf LL2 Null. Auf LL1 sieht die individuelle Seite nun aber die zweite und auf LL2 die dritte vielzitierte Seite. Jedes Mal beginnt das Spiel von vorn und auf LL3 ist besagtes Spiel dann vorbei.
Der Grund fuer Letzters ist natuerlich, dass selbst wenn ich alle drei vielzitierten Seiten sehe, so tragen diese NICHT mehr zur Anzahl der totalen Links auf LL4 bei, denn diesen drei vielzitierten Seiten folge ich ja nicht mehr.
Ich hacke auf diesem Aspekt so rum, weil das ein ganz wichtiges, wenn auch eher „technisches“ Detail ist. Das ist auch der Grund, warum ich die Anzahl neuer Links pro Linklevel „gemessen“ habe.

Wieauchimmer, im realen Netzwerk muss man natuerlich eher mit der Wahrscheinlichkeit, eine vielzitierte Seiten (von tausenden) pro Linklevel zu sehen, argumentieren.
Auf LL0 hat eine individuelle Seite eine Chance von ca. 20 % eine Seite mit mehr 3433 Zitierungen zu sehen. Dies obwohl die Anzahl der Links der meisten Seiten eher klein ist (15 Links war der Median). Auf LL1 ist die Chance eine vielzitierte Seite zu sehen grøszer als 20 %. Einfach weil ich auf LL1 die Links aller beim Aufstieg von LL0 zu LL1 geøffneten Seiten zusammenzaehle. Aber weil ja nun schon so einige von den meistzitierten Seiten angeschaut wurden (insb. die am allermeisten zitierten Seiten), tragen diese (wie oben bereits erwaehnt) nicht mehr zu den Links beim naechsten Level bei. Dieser Wegfall des Beitrags vielzitierter Seiten (weil ich die schonmal gesehen habe) ist der Grund, dass der Anstieg etwas geringer ausfaellt, trotzdem es auf LL1 eine høhere Wahrscheinlichkeit gibt eine vielzitierte Seite zu sehen.
Dito bis zum Linklevel 3.

Auf Linklevel 4 habe ich dann im Wesentlichen alle vielzitierten Seiten gesehen und die Anzahl der totalen Links zu LL5 ist gleich der durchschnittlichen Anzahl Links pro Seite. Danach nimmt die Anzahl der totalen Links pro Linklevel ab, einfach weil ich immer mehr Seiten schon gesehen habe.

Ich gebe zu, dass das mglw. ein bisschen langweilig ist oder zumindest ist das staendige Huepfen zwischen dem Bild der individuellen Seite und der Gesamtheit aller Seiten vllt. etwas schwer nachzuvollziehen. Aber das sagt eben so viel aus ueber die Vernetzung des Weltwissens. Deswegen ist es immer so wichtig auch fuer Details oder scheinbar offensichtliche Sachen eine Erklaerung zu haben, denn manchmal ist das gar nicht so offensichtlich. In kurz kann man das auch als „nach 3 Links komme ich von Trondheim zu Kevin Bacon“ ausdruecken. Man kann dann noch „und der Grund sind vielzitierte Seiten“ anfuegen. Aber der eigentliche (mglw. langweilige) Mechanismus ist das was oben steht. Zum Glueck finde ich sowas cool und voll interessant herauszufinden :) .

Damit habe ich das Maximum dieser Gesamtverteilung genug diskutiert. Aber ich bin mitnichten fertig mit der Verteilung der totalen Links.
Ein wichtiger Grund warum ich das so detailliert besprochen habe mit vielen Wiederholungen ist, dass uns die generelle Form dieser Verteilung auch bei anderen Messgrøszen begegnen wird. Dort sind dann im Wesentlichen die gleichen Mechanismen am Wirken und ich deswegen wollte ich das gleich zu Anfang geklaert haben.

Ich bin aber noch nicht ganz fertig mit den totalen Links pro Linklevel. Ich habe noch ein Interesse an ein paar individuellen Verteilungen dieser Grøsze, die als eine Art Anomalie gelten kønnen … naja, es faellt wohl eher unter „statistische Fluktuationen im Verhalten individueller Seiten“ aber interessant ist’s trotzdem und es sagt wieder was ueber die Vernetzung des Weltwissens aus :) .
Interessant ist auch der lange Schwanz der Verteilung und insbesondere, dass dieser so flach verlaeuft bei Linkleveln ueber ca. 50. Das ist ein weiteres kleines Detail, welches bei genauerer Betrachtung etwas merkwuerdig scheint. Auch dies muss ich an anderer Stelle diskutieren, u.a weil ich da dann die naechste Verteilung — Anzahl _neuer_ Links pro Linklevel — einfuehren muss.

In den letzten drei Artikeln habe ich etabliert, dass øfter zitierte Artikel ueberproportional haeufig zur Anzahl der totalen Links auf dem ersten Linklevel beitragen. Ich hatte aber noch nicht ganz konkret gezeigt, _wie_ grosz deren Einfluss ist. Dies hole ich mit dieser dreidimensionalen Visualisierung nach:

Das geht ja ab wie ’ne Rakete! Aber was sieht man hier eigentlich und wieso dreidimensional?

Mit dieser Abbildung møchte ich gerne zeigen, dass nur eine ganz kleine Anzahl an Wikipediaseiten besagten groszen Einfluss auf die Anzahl der totalen Links von LL1 zu LL2 haben. Dieser Einfluss der wenigen Seiten haengt aber mit der Anzahl der Zitierungen (dieser wenigen Seiten) zusammen. In den letzten Beitraegen habe ich immer nur Letzteres direkt betrachtet und als Masz fuer die Abzsisse genommen. Wie viele Seiten dies dann konkret beinhaltet war meist nicht wirklich relevant und ich habe das unter den Tisch fallen lassen. Beim letzten Mal schrieb ich dazu nur, dass alle Seiten die so-und-so-oft zitiert wurden, als ein „Ensemble“ zusammengefasst wurden. Nun møchte ich aber diese beiden Informationen verknuepfen und die Anzahl der Seiten ganz konkret als Masz fuer die Abzsisse benutzen. Und hier kommt die (zunaeckst etwas versteckte) dritte Dimension ins Spiel.

Die dritte Dimension ist die Nummer die ein Punkt erhaelt, wenn man von links, und bei Null, anfaengt zu zaehlen. Konkret bedeutet dies das Folgende.
Der erste Punkt ist das Ensemble aller null mal zitierten Seiten. Davon existieren 320,089 und das entspricht dem Wert auf der Abzsisse. Die Anzahl aller Links dieses Ensembles betraegt 872,568 und das ist der zugehørige Wert, den dieser Punkt auf der Ordinate hat. Das sieht man nur nicht, denn die geht bis 30 Milliarden.
Die Koordinaten des zweiten Punktes werden bestimmt durch die Summe aller Seiten die null Mal und aller Seiten die ein Mal zitiert werden. Von Letzteren habe ich 793,588 und der Wert auf der Abzsisse ist entsprechend 1,113,677. Ein Mal zitierte Seiten haben insgesamt 12,140,589 Links auf LL1. Dies wird wieder aufsummiert mit dem vorhergehenden Wert und entsprechend betraegt der Wert auf der Ordinate 13,013,157 fuer den zweiten Punkt.
So geht das weiter fuer jeden Punkt. Die Koordinaten werden berechnet aus der Summe der Koordinaten des vorhergehenden Punktes und den Werten fuer das entsprechende Ensemble. Aber das steht ja auch an den Achsen dran — kumulative Anzahl Seiten/Links.

Soweit zur Erklaerung, was man hier eigentlich sieht. Nun die Diskussion dessen was man hier sieht.

Zur Erinnerung: wir haben insgesamt 5,798,312 Seiten mit 27,434,866,722 Links auf LL1.
In dem Diagramm sieht man nun, dass die ersten ca. 5 Millionen Seiten (also mehr als 86 % aller Seiten) nur etwas mehr als ca. 922 Millionen Links auf LL1 beitragen (oder etwas weniger als 3.4 % aller Links).
Weiterhin sieht man, dass 50 % aller Links auf LL1 durch nur 3433 Seiten zustande kommen! … !!! … !!! !!! !!! Also nur 0.059 % aller Seiten sind fuer 50 % aller Links auf LL1 verantwortlich!

Letzteres sind Seiten mit mehr als 3143 Zitierungen, also durchaus „Groszvieh“.
Und wieviel „Mist“ von diesem „Groszvieh“ kommt, macht dieses Abbildung deutlich. Aber anders als oben behauptet sieht man das eigentlich gar nicht mehr, weil der Unterschied von 3433 Seiten auf der Abzsisse fuer die geringe Winkelaufløsung unserer Augen nur noch wie ein senkrechter Strich nach oben aussieht.

Dazu genug fuer heute. Beim naechsten Mal komme ich dann wieder zurueck auf die eigentliche Verteilung der totalen Links pro Linklevel.

Im Zuge der Ueberlegungen zu dieser Serie ist mir meine Tante Anneliese (eigentlich die Schwester meiner Oma) eingefallen. Denn Tante Anneliese musste immer auf Kruecken laufen und wenn mich meine Erinnerung nicht taeuscht, so war die Ursache dafuer die unter Anderem als Kinderlaehmung bekannte Krankheit. Diese war bis in die 60’er Jahre gefuerchtet, und entgegen des Namens sind auch Erwachsene vor dem Erreger nicht sicher.

Hier ist also eine Sache der ich noch persønlich begegnet bin; wenn auch am Rande und nicht in massiven Umfang. Gleichzeitig ist diese Krankheit aber von der Allgemeinheit im Wesentlichen vergessen wurde. Letzteres liegt natuerlich am massiven Erfolg der Impfstoffe und der nicht zu vergessenden, dazugehørenden, jahrzehntelang anhaltenden Impfkampagnen.

„Vergessen“ ist jetzt etwas harsch ausgedrueckt. Gerade im Zuge der Covidepidemie wurden die Erfolge des Impfens oft anhand des sehr starken Rueckgangs dieser Krankheit illustriert. Aber seien wir mal ehrlich. Das ist so, wie wenn von der Pest erzaehlt wird. Egal ob das 70 Jahre her ist oder 700. Der Schleier der Zeit macht tiefgreifendes Verstehen durch Erleben in beiden Faellen unmøglich.

Wie vormals, ist es auch in diesem Fall groszartig, dass wir, als Gesellschaft, uns dieses furchtbaren Schreckens nicht mehr wahrhaft bewusst sind. Wie ehedem, ist dies ein Ausdruck dafuer, wie weit die Menschheit es gebracht hat … dennoch (oder eigentlich gerade deswegen) sollten wir die Krankheit der sogenannten Kinderlaehmung und deren Folgen in Erinnerung halten.

Der schwarze Fleck vom vorletzten Mal suggeriert, dass die Anzahl der Links unabhaengig ist von der Anzahl der Zitierungen fuer Seiten mit weniger als 1000 Zitierungen.
Bei dieser Aussage schaute ich aber nur auf die individuellen Seiten (die vielen vielen vielen Punkte, die zusammen besagten schwarzen Fleck ergeben) und habe nicht die Anzahl der Seiten mit der gegebenen Anzahl an Zitierungen in Betracht gezogen. Dies war aber genau das, was ich beim letzten Mal bei der individuellen „Signalstaerke“ machte.
Wenn man nun die individuelle Signalstaerke durch die Anzahl der Seiten und die Anzahl der Zitierungen, bei der gegebenen Anzahl an Zitierungen teilt, dann erhaelt man die durchschnittliche Anzahl an Links in Abhaengigkeit von der Anzahl der Zitierungen. Das muss man so machen, wenn man die Anzahl der totalen Links auf LL1 benutzt und ich erwaehne das hier, weil ich die ganzen vorherigen Artikel LL1 diskutiert habe. Auf LL0 muesste man natuerlich nur die Anzahl aller Links bei einer gegebenen Menge an Zitierungen, durch die Gesamtzahl der Seiten die so oft zitiert wurden dividieren. Egal wie man’s macht, DAS ist mal ein krasses Ergebniss:

Die Abhaengigkeit folgt einem maechtigen Gesetz mit dem Exponent 1/2 (zwei Grøszenordnungen auf der Ordinate, vier Grøszenordnungen auf der Abzsisse) und einem Vorfaktor von ungefaehr 7.5 .
Das erstaunliche hieran ist, dass dies im Wesenlichen fuer den gesamten (!) Bereich auf der Abzsisse gilt, also egal ob die Anzahl der Zitierungen klein oder grosz ist.
Ich schreibe „im Wesentlichen“, denn natuerlich gibt es Abweichungen. So kønnte man in absoluten Zahlen durchaus auch sagen, dass die Anzahl der Links pro Seite fuer kleine Zitierungen halbwegs konstant ist. Die Abweichungen vom maechtigen Gestz betragen dann ca. einen Faktor zwei, fallen also bei realen „Anwendungen“ nicht sooo sehr ins Gewicht.

Ab ca. 1000 Zitierungen scheint es dann gewaltige Abweichungen zu geben. Aber das taeuscht hier wieder durch die bereits beim letzten Mal erwaehnte „logarithmische Komprimierung“ und die Ueberlappung hunderter (tausender) von Punkten.
Es gibt 4,696 „Messwerte“ mit ueber 1000 Zitierungen. Diese kommen durch insgesamt 15,282 Seiten zustande. Allein hieran sieht man, dass etwaige Abweichungen in diesem Bereich nicht relevant sind fuer die (immer noch) fast 6 Millionen Wikipediaseiten, die anscheinend dem Gesetz „gehorchen“. Aber wir sind ja nun konkret an den Seiten mit mehr als 1000 Zitierungen interessiert.
Zur Veranschaulichung der Taeuschung møchte ich die folgenden Werte anfuehren. Zunaechst setze ich (willkuerlich) fest, dass eine Abweichung von drei als nicht mehr OK gilt. Das bedeutet, dass ich es als Abweichung zaehle, wenn der tatsaechliche Durchschnittswert dreimal grøszer oder weniger als 1/3 des vom maechtigen Gesetz vorausgesagten Wertes ist.
Dies ist der Fall fuer 976 „Messwerte“ und entspricht ca. 21 % aller „Messungen“ mit ueber 1000 Zitierungen. Andererseits kommen diese 976 „Messwerte“ nur durch 1,303 Seiten zustande. Letzteres entspricht dann nur noch ca. 8 Prozent aller Seiten mit ueber 1000 Zitierungen. Das faellt dann also wieder unter den beruehmten Zehn-Prozent-Fehler.
Wenn ich viel strikter bin und Abweichungen ab einem Faktor 2 zaehle so erhøht sich der erste Wert auf ca. 38 % und der letzte Wert auf ca. 21 %. Das ist mehr als eine „normale Fehlerbreite“ erwarten laeszt. Die Aussage, dass die Mehrheit der Seiten dem maechtigen Gesetz unterliegt wird dadurch allerdings nicht beeinflusst.
Ach so, wenn man alle Punkte mit in diese Ueberlegungen einbezieht, also auch die mit weniger als (oder gleich) 1000 Zitierungen so fallen (bei Faktor 3) immer noch ca. 17 % der Punkte unter die Rubrik „Abweichung“, aber diese kommen dann nur noch durch ca. 2 % aller Seiten zustande.

Ich sagte ja, dass dieses Resultat voll cool ist! Beim vorletzten Mal schrieb ich:

[…] in diesen [vielzitierten] Artikeln [ist] vermutlich jedes kleine bisschen verlinkt […]. Je populaerer ein Artikel ist, um so mehr beinhaltet dieser vermutlich, was dann wiederum zu mehr Links fuehrt.
Dennoch, dies war eine spannendes Resultat, eben weil mich das so ueberrascht hat.

Diese Aussage entstand aus einem Bauchgefuehl und fuehlte sich logisch und richtig an, auch wenn ich es nur fuer Artikel mit mehr als 1000 Artikeln einschraenkte. Das obige Ergebniss zeigt aber ganz deutlich, dass dies nicht fuer die gewaltige Mehrheit ALLER Artikel gilt. Vielmehr existiert eine ganz konkrete, quantifizierbare Gesetzmaeszigkeit dahinter. Das haette ich nicht erwartet und das ist, was ich so krass cool fand.

Und das ist dann die Freude des Forschers. Man guckt sich kleine Details an (wie bspw. ein Balken in einer Verteilung  der ein bisschen zu lang erscheint) und aus deren Erforschung ergibt sich eine allgemeine Gesetzmaeszigkeit fuer (mehr oder weniger) die gesamte Wikipedia! Geil wa!
Dies war definitiv einen eigenen Beitrag wert.

Aber Achtung! Das maechtige Gesetz gilt nicht zwangslaeufig fuer alle indivduellen Seiten. Der schwarze Block beim vorletzten Mal zeigte, dass die tatsaechliche Anzahl an Links einer Seite deutlich davon abweichen kann. Bei diesen Betrachtungen (und auch bei denen beim letzten Mal) werden individuelle Seiten unter dem Merkmal „Anzahl Zitierungen“ zusammengefasst. Und diese Ensembles verhalten sich im Durchschnitt wie oben angegeben! Das ist wie in der statistischen Mechanik, da betrachten wir auch keine einzelnen Atoemchen, sondern die potentiellen Zustaende eines System als Ganzes.

Ach so, das ist dann natuerlich der zweite Teil der Erklaerung, warum die rote „Gesamtsignalkurve“ im letzten Beitrag, trotz kleiner individueller Beitrage so stark ansteigt. Das sind zwar relativ wenige individuelle Seiten, aber die haben maechtig viel mehr Links.

Ich habe in den letzten zwei und diesem Artikel dargelegt, dass vielzitierte Seiten ueberproportonal zur Anzahl der Links von LL1 zu LL2 2 beitragen. Beim naechsten Mal schliesze ich die Untersuchung dieses kleinen Details ab, mit einer Visualisierung, WIE gewaltig diese Ueberproportionalitaet wirklich ist.

… dass moderater Alkoholkonsum gut fuer einen ist.

Und noch mehr Zitate bzgl. Dingen die in ihrer Gesamtheit nicht sinnvoll sind, bzgl. dieser „Volksweisheit“, und ich zitiere auch heute wieder aus der (Literatur)Anaylse von Hans Olav Fekjær in Addiction 108 (12), pp. 2051–2057, 2013.

Ich hatte bereits kurz erwaehnt, dass Beobachtungsstudien ihre ganz eigenen Probleme haben. Fekjær drueckt das deutlich direkter und weniger diplomatisch aus (Hervorhebung(en) von mir):

The number of observational studies is not an indicator of the strength of the evidence for causal effect. Observational studies remain second-class evidence. This is also confirmed by the many studies giving unreasonable results.

Er gibt ein interessantes Beispiel bzgl. der „Beweiskraft“ von Observationsstudien:

One example is that television viewing is associated with higher cardiovascular and total mortality, independent of [!!!] physical activity, gender, age, education, smoking, alcohol, medication, diabetes history, family history of cardiovascular disease and cancer and body mass index […].

Wenn all das im obigen Zitat aufgefuehrte in Betracht gezogen wurde, dann stellt sich zu Recht die Frage:

[w]hy is TV viewing more harmful than, for instance, book reading?

Weil es nicht im Fernseh schauen selber liegen kann (denn dann waeren Fernseher und Monitore aller Art eine Gefahr fuer alle Menschen), muss es eine Eigenschaft der Gruppe der Vielfernsehschauer sein, die diese Ergebnisse plausibler erklaeren wuerden. In der Beobachtungsstudie kommt aber „Fernseh gucken“ raus. So weit ich weisz sind Beobachtungsstudien von sich aus verhaeltnismaeszig anfaellig fuer derartige … mhm … ich sag jetzt mal Fehler.

Davon unabhaengig ist auch die Klassifizierung von Menschen in Trinker und Nichttrinker problematisch. So tendieren Menschen dazu (deutlich) weniger zu trinken, so denn (generelle) Gesundheitsprobleme auftreten. Fekjær zitiert bspw. eine Studie die zu dem Schluss kommt, dass Ex-Trinker betraechtlich øfter vertreten sind unter den Todesfaellen durch Herz- und Kreislauferkrankungen. Entsprechend ist die …

[…] excess total or coronary mortality of non-drinkers […] found only in studies where ex-drinkers or occasional drinkers were included in the non-drinker group […].

Und nicht ueberraschend findet eine (andere) (Meta)Studie, dass…

[…] the apparent protective effect of alcohol disappeared when ex-drinkers and occasional drinkers were excluded from the non-drinker group […].

Das soll genug fuer heute und insgesamt dazu sein. Beim naechsten Mal dann eine (vielleicht) kurze und (vielleicht) knappe Zusammenfassung :)

Beim letzten Mal stellte ich die ersten Ergebnisse vor. Ein kleines Detail in der Verteilung der totalen Links pro Linklevel machte mich stutzig und fuehrte mich in einen Kaninchenbau voll interessanter Sachen. Es gibt viel zu viele Links die von Linklevel 1 zu Linklevel 2 fuehren — ich „messe“ eine „Signalstaerke“ von 27 Milliarden totalen Links von LL1 zu LL2.
Einfache Ueberlegungen fuehrten mich nicht weiter, aber halfen mir insofern, dass ich dadurch darauf aufmerksam wurde, dass mglw. vielzitierte Seiten einen ganz erheblichen Einfluss auf die Anzahl der totalen Links eines Linklevels haben. Ich schloss den Beitrag mit dieser Frage und direkten Handlungsanweisung ab:

[w]ie genau hilft uns dies nun aber mit der obigen Frage? [Wie stark der Einfluss vielzitierter Seiten auf das „Gesamtsignal“ ist.] Nun ja, das ist ganz einfach. Ich muss fuer jede Wikipediaseite das Produkt aus der Anzahl der Links und der Anzahl der Zitierungen bilden. Die Summer aller dieser Produkte sollte dann die ca. 27 Milliarden| totalen Links von LL1 zu LL2 ergeben.

Die Handlungsanweisung ist in der Gesamtheit natuerlich ganz klar und einfach. Die Entwicklung ueber die verschiedenen „Zitierungsniveaus“ fand ich aber ganz anschaulich (immer mit Blick darauf, dass uns diese Daten Dinge ueber das Linknetzwerk der Wikipedia erzaehlen) und møchte darauf heute kurz eingehen.
Mit Entwicklung meine ich das Folgende. Im ersten Schritt der Entwicklung schaue ich mir zunaechst die individuelle „Signalstaerke“ aller null Mal zitierten Seiten an. Individuell meint hier nicht jede Seite fuer sich, sondern alle null mal zitierten Seiten bilden ein „Individuum“ und die Links dieses „Individuums“ ergeben die „Signalstaerke“ im ersten Schritt. Im naechsten Schritt mache ich das gleiche fuer alle ein Mal zitierten Seiten; dann fuer alle zwei Mal zitierten Seiten usw. Das Ergebniss sind die schwarze Punkte in diesem Diagramm:

Die roten Quadrate sind die kumulative Anzahl aller Links von LL1 zu LL2 und die Kurve ist recht einfach zu verstehen als das „Gesamtsignal“ aller Beitrage bis zu dem gegebenen Punkt auf der Abzsisse. Aber der Verlauf der schwarzen Punkte ist interessant und bedarf einiger Worte

Vom letzten Mal wissen wir, dass bei Seiten die weniger als 1000 mal zitiert werden, die Anzahl der Links unabhaengig von der Anzahl der Zitierungen ist. Das bedeutet, dass eine Seite mit 10 Zitierungen um Durchschnitt gleich viele Links hat wie eine Seite mit nur einer Zitierung. Das ist nicht ganz richtig und darauf komme ich weiter unten nochmal zurueck, aber zur vereinfachten Rechnungn nehmen wir an, dass der Durchschnitt bei 10 Links pro Seite liegt.
Unter dieser Annahme ist es natuerlich einfach zu erklaeren, warum die schwarze Kurve zunaechst hoch geht. 1000 Seiten die einmal zitiert werden tragen zum Gesamtsignal 10-tausend Links bei. Die selbe Anzahl Seiten die 2 Mal zitiert werden tragen aber doppelt so viel zum Gesamtsignal bei usw. usf.
Von viel frueher wissen wir, dass die meisten Seiten ein Mal zitiert werden. Es gibt also weniger Seiten die zwei Mal, oder drei Mal usw. zitiert werden. Wenn man sich aber die Verteilung nochmal anschaut, dann sieht man, dass das nicht proportional weniger Seiten werden, deshalb der Anstieg der individuellen Signalstaerke. Waeren es proportional weniger Seiten in Abhaengigkeit von der Anzahl der Zitierungen, haette ich also bspw. nur halb so viele zwei Mal zitierte Seiten wie ein Mal zitierte Seiten, wuerde die Kurve der individuellen Signalstaerke flach verlaufen bei kleinen Zitierungen.

Bei ungefaehr 13 Zitierungen wird ein (lokales) Maximum erreicht und danach nimmt die individuelle Signalstaerke wieder ab. Das liegt daran, dass die Anzahl der Seiten mit mehr Zitierungen dann ueberproportional weniger werden. Mit der obigen vereinfachten Annahme denke man sich weiterhin, dass es nur 1 Seite gibt die 1000 Mal zitiert wird. Dann ist deren individuelle Signalstaerke genauso grosz (oder eher klein), wie die der 1000 Seiten die ein Mal zitiert werden.
Erst bei sehr vielen Zitierungen kehrt sich dieser Trend dann wieder um, nicht zuletzt dadurch, weil vielzitierte Seiten im Durchschnitt auch mehr Links enthalten.

Nun ist aber zu erklaeren, warum die rote Kurve zunaechst einen so geringen Ansteig hat und erst nach dem lokalen Maximum stark ansteigt? Letzteres trotz der geringen individuellen Signalstaerken.
Zum Einen liegt das an der Komprimierung durch die logarithmische Achse. Zwischen einer und 10 Zitierungen (inklusive) liegen 10 Datenpunkte; zwischen 100 und 1000 Zitierungen liegen 900 Datenpunkte. Auf der Abzsisse nehmen die aber den gleichen Raum ein. Wenn man 10 Datenpunkte zur kumulativen Anzahl an Links aufsummiert ergibt das natuerlich einen geringeren Beitrag als wenn man 900 Datenpunkte aufsummiert.

Aber das ist nur ein Teil der Erklaerung. Der andere Teil ist, dass die obige Annahme nicht richtig ist. Vielmehr ist die Anzahl der Links eben doch abhaengig von der Anzahl der Zitierungen auch bei kleinen Werten. Das ist bei der Darstellung vom letzten Mal nicht zu sehen und dieses Ergebniss ist sehr spannend, denn es sagt wieder viel ueber die Wikipedia aus. Aber weil der Artikel jetzt schon so lang ist, verschiebe ich die Diskussion auf’s naechste Mal.

… dass moderater Alkoholkonsum gut fuer einen ist.

Es folgen weitere Zitate bzgl. der Ungereimtheiten rund um diese „Volksweisheit“, aus der (Literatur)Anaylse von Hans Olav Fekjær in Addiction 108 (12), pp. 2051–2057, 2013.

Beim letzten mal erwaehnte ich, dass leicht und moderat trinkende Menschen, optimal in die Gesellschaft integriert sind und dass wahrscheinlich dies (und nicht der moderate Alkoholkonsum) die positive Auswirkungen auf die Gesundheit erklaert. Da ist es dann natuerlich naheliegend zu fragen, wie es den Menschen so geht, die nix trinken.
Historisch gesehen war das mal eine recht breite Bevølkerungsgruppe. Heutzutage sind’s ’n paar Prominente und „komische Vøgel“ … und viele „unsichtbare“ Menschen. Und um Letztere geht es heute, denn …

[t]oday’s abstainers are, […] not an average group of people who happen to have a temperance conviction, but are more often a somewhat deviant and marginalized group.

Leider schlaegt sich das im Durchschnitt auf die Lebensfuehrung nieder und …

[…] abstainers generally have less favourable life-styles than light or moderate drinkers.

So ist es bspw. so, dass …

[a]bstainers as a group have a less healthy diet and exercise less than moderate drinkers […].

Aber …

[t]hese key confounders are rarely mentioned in the observational studies.

Nun ist es aber so, dass man schlechte Ernaehrung und wenig Bewegung als „Størfaktoren“ mit in Betracht ziehen kann. Aber selbst denn gilt, dass  …

[e]ven when all known confounders are taken into account, psychosocial factors seem to have a considerable impact on morbidity and mortality, probably through mechanisms which are still unknown. One study concluded that abstainers have more of several psychosocial risk factors such as low education, passive life-style, being unmarried, disabled or depressed […].

Und das hat mich ueberrascht. Aber ausgehend von mir, haette mich das nicht ueberraschen sollen. Ich leide zwar z.Z. nicht unter einer Depression, bin nicht eingeschraenkt in meinen kørperlichen Funktionen und wuerde sagen, dass meine (formale) Bildung relativ „hoch“ ist, aber der Rest passt (leider) durchaus. Da war ich natuerlich blind meinem eigenen, ungesunden Lebensstil gegenueber (ich fuehl mich doch gut!). Auszerdem frage ich mich, ob das anders waere, wenn mich bspw. wer zum klettern (oder ins Trainingsstudio) mitgenommen haette, oder wenn ich einmal pro Monat (oder mglw. gar Woche) soziale Zusammenkuenfte haette, die mich inspirieren wuerden, besser zu essen. Die Studien sagen dazu: JA, denn gute, soziale Integration hat schon seine Vorteile. Im Zusammenhang mit dem Thema dieses Artikels bedeutet dies …

[…] abstainers have fewer and poorer social relationships […] [and] [d]ata across 308 849 individuals […] [shows] that individuals with adequate social relationships have a 50% greater likelihood of survival compared to those with poor or insufficient social relationships. The magnitude of this effect is comparable with quitting smoking and it exceeds many well-known risk factors for mortality (e.g. obesity, physical inactivity) […].

Kein Wunder, dass es in Beobachtungsstudien scheint, als ob es schlecht fuer die Gesundheit ist, wenn man gar keinen Alkohol trinkt. Das hat aber vermutlich nichts mit dem Alkohol zu tun.