Beim vorvorletzten Mal beschrieb ich, wie ich potentielle Kandidaten fuer „Ketten“ von Wikipediaseiten (vormals als „Artefakte“ bezeichnet) im Linkfrequenzsignal entdecken kann. Dann „setzte“ ich mich auf zwei Linklevel und beschrieb die letzten beiden Male welche Resultate eine solche Analyse zur Folge hat und wie die zu interpretieren sind.
Dabei machte ich auf vier generelle (!) „Phaenomene“ aufmerksam die alle zu einem „Kandidatensignal“ fuehren:
– Ketten aus Seiten die alle den selben „Familiennamen“ haben (bis auf eine unterschiedliche Zahl),
– „Patchworkfamilien“ in denen die Seiten eine Kette bilden aber alle unterschiedliche Namen haben,
– „Anhaenger“ zu den ersten Beiden und
– Seiten die aus welchem Grund auch immer ein „Kandidatensignal“ haben (bspw. „Anhaenger“ zu Seiten die NICHT zu einer Kette gehøren) aber nicht zu den ersten Beiden gehøren.
Nachdem diese viele Vorarbeit geleistet ist, kann ich ganz ohne Umschweife vorstellen, wie sich all das von Linklevel zu Linklevel veraendert:
Im linken Diagramm sieht man die „Entwicklung“ der ersten beiden Phaenomene. Das rechte Diagramm zeigt pro Linklevel die Anzahl aller potentiellen Kandidaten (schwarz), wieviele sich davon in regularen „Familien“ (rot) bzw. „Patchworkfamilien“ (blau) aufhalten und wie viele „Anhaenger“ (orange) es gibt. Das vierte Phaenomen ist nicht von Interesse, folgt aber aus den Zahlen der ersten drei.
Die gestrichelten Linien bei den Grafen zu den „Patworkfamilien“ dient nur der Fuehrung des Auges und kommt dadurch zustande, dass die entsprechenden Werte an der Stelle Null sind.
Zunachst ist zu sagen, dass bei kleinen Linkleveln die Kategorisierungen vermutlich immer schlechter werden, insb. fuer die „Patchworkfamilien“. Auf LL5 ergibt die Analyse 50-tausend „Patchworkfamilien“, aber ich nehme an, dass die alle nicht echt sind und es sich hierbei nur um die Ketten mit 2 Elementen handelt, welche ich ja bereits beim letzten Mal als „verdaechtig“ und vermutlich (oft) unechte Ketten einstufte. Es sind also mehr oder weniger regulaere Seiten die aus welchem Grund auch immer ein Kandidatensignal haben mit ’nem Anhaenger dazu
Indirekt bestaetigt wird diese Vermutung durch den gewaltigen (!) „Absturz“ dieses Grafen innerhalb der … mhm … ich sag jetzt mal naechsten 5 Linklevel. Das bedeutet nicht, dass das Problem auf LL10 nicht mehr auftritt, aber zumindest, dass dessen Einfluss deutlich schwaecher ausfaellt.
Ab LL47 gibt es dann nur noch eine Familie, welche natuerlich das wohlbekannte „São Paulo FC“-Artefakt ist in welchem sich dann auch die noch verbleibenden Kandidaten alle aufhalten. Letzteres drueckt sich darin aus, dass ab LL48 die rote und schwarze Kurve im rechten Diagramm deckungsgleich sind. Der Unterschied von einem Linklevel kommt daher, weil von der anderen Familie die sich bis LL47 haelt nur noch das Endelement vorhanden ist. Weil es aber ganz allein steht und auch nicht als Anhaenger dem „São Paulo FC“-Artefakt zugeordent werden kann, faellt es unter das vierte Phaenomen. Dies wiederfaehrt auch dem „São Paulo FC“-Artefakt auf LL67 wo es noch einen Kandidaten, aber keine Familien (oder Anhaenger) mehr gibt.
Wichtiger Einschub: was ich im letzten Absatz schrieb war die besser zu verstehende Version; die Realitaet sieht ein klein wenig komplizierter aus (aendert aber Obiges nur so geringfuegig, dass ich die vereinfachte Erklaerung ueber der richtigen vorzog). Es ist bekannt, dass die letzten Nachzuegler erst auf LL72 aussteigen. Das bedeutet, dass die sich auf LL72 im Jahr 1930 des „São Paulo FC“-Artefakts befinden und von dort nicht wegkommen. Das bedeutet, dass das Jahr 1930 auf LL71 die letzten drei Zitate erhaelt, bevor die drei Nachzuegler im naechsten Schritt ins Jahr 1930 springen. Die Kette hørt also NICHT bei LL67 sondern geht noch ein paar Schritte weiter.
ABER auf LL67 befindet sich das Maximum des Jahres 1930. Danach ist das durchschritten und die Seite wird nicht mehr als Kandidat erkannt.
Lange Rede kurzer Sinn: alles Gesagte muss um ein paar Linklevel verschoben werden, weil das Maximum der Linkfrequenz einer Kettenseite nicht das Ende bedeutet. Nachzuegler generieren fuer ein paar Schritte mehr noch ein Antwortsignal (welches aber nicht mehr als Signal zur Erkennung von Kettenseiten herangezogen werden kann) und halten eine Kette die paar Schritte noch „im Rennen“. Aber das ist nur ’ne Kleinigkeit die qualitativ nix aendert und quantitativ nur ein Offset ist den man leicht hinzufuegen kann und deswegen handle ich das nur als Einschub ab.
Wieauchimmer, das war der einfache Teil. Nun geht’s um das erklaerungsbeduerftige Detail, dass die Anzahl der „Patchworkfamilien“ nicht monoton abnimmt. Das haengt auch mit dem eben Beschriebenen zusammen und ich erklaere genau anhand des Beispiels von LL22 (mit einer „Patchworkfamilie“) zu LL23 (mit fuenf „Patchworkfamilie“).
Dafuer schauen wir zunaechst auf die regulaeren Familien von denen es auf LL22 15 gibt und zwei von denen haben nur 2 „Familienmitglieder“. Im naechsten Schritt fallen die also (wie oben beschrieben) „raus“. Von Interesse ist nur die Familie welche auf LL22 aus 2000–01 Hyderabad C.A. season und 2001–02 Hyderabad C.A. season besteht wobei die zeitlich frueheste Seite, also die 2001-02 season, das Endelement ist auf dem man „sitzt und schaut“ wenn man sich auf LL24 befindet.
Deren Linkfrequenzen sind zusammen mit den Linkfrequenzen dreier relevanter Anhaenger in diesem Diagramm zu sehen (cf. text):
Das Endelement der obigen regulaeren Kette hat sieben Anhaenger. Vier davon werden NUR vom Endelement zitiert und verhalten sich wie erwartet (haben ihr Maximum in der Linkfrequenz also auf LL24): Fathima Reddy, Parth Satwalkar, Renjith Menon und Vijay Kumar (cricketer).
Interessanter ist der fuenfte Anhaenger Mangalapally Srinivas welcher von BEIDEN obigen seasons zitiert wird. Deswegen faellt das Maximum der Linkfrequenz von dieser Seite auf LL23; massiv zitiert durch die 2001-02 season (auf der man „sitzt und schaut“ auf LL23) und ein paar Zitate durch das Endelement, in dem sich auf LL23 schon ein paar „vorauseilende“ Seiten befinden. Weil das Maximum aber nicht VOR LL23 liegt wird Mangalapally Srinivas immer noch als Kandidat erkannt und faellt aus der Analyse nicht raus.
Die verbleibenden beiden Anhaenger Mohammad Ghouse Baba und Shivaji Yadav werden auch von zeitlich spaeteren seasons (in der Kette also frueheren Seiten) zitiert, haben das Maximum deswegen auf LL22 und fallen aus der Analyse raus, weil sie auf LL23 dadurch NICHT mehr als Kandidaten gehandelt werden.
Die ersten 5 Anhaenger bilden zusammen mit der 2000–01 Hyderabad C.A. season fuenf „Patchworkfamilien“ auf LL23 und der entsprechende Zaehler geht nach oben.
Die Kombination aus Endelement und Anhaenger fuehrt also zu falschen (?) „Patchworkfamilien“ … aber das diskutierte ich ja bereits beim letzten Mal.
Wie oben erwaehnt, vermute ich, dass bei kleinen Linkleveln unheimlich viele solcher falschen „Patchworkfamilien“ vorkommen. Prinzipiell liesze sich das fixen, indem man sich die Historie anschaut und Seiten die auf dem vorhergehenden Linklevel noch Anhaenger waren nicht als Element fuer „2 Mitglieder Patchworkfamilien“ zulaeszt. Da habe ich aber keine Lust drauf und das wuerde vermutlich auch nicht sooo einen riesigen Unterschied machen. Letzteres weder nach LL10 (weil man Endelemente von regulaeren Familien braucht und davon nie uebermaeszig viele auf einmal enden) und auch nicht vor LL10 denn da ist so viel „Schmu“ dabei (siehe oben), dass das Beseitigen falscher „Patchworkfamilien“ auch nicht mehr viel aus macht.
Im Allgemeinen ist das Konzept der „Patchworkfamilien“ gut um Ketten zu finden und es funktioniert auch. Die technische Umsetzung kønnte geaendert werden oder ich kønnte alle „Patchworkfamilien“ mit nur 2 Mitgliedenr raus schmeiszen. Dadurch wuerden vermutlich aber auch etliche wahre Patchworkfamilien raus fliegen und das løst auch nicht das Problem mit ECHTEN „Patchworkfamilien“ plus Anhaeger. Wie man’s dreht und wendet, man wuerde einen Nachteil gegen einen anderen tauschen und ich denke, dass sich die Ergebnisse qualitativ vermutlich nicht sehr aendern wuerden.
Wegen all des eben Gesagten behalte ich „Patchworkfamilien“ bei, aendere nix und bin mir der Nachteile bei der Betrachtung der Grafen bewusst.
Das soll fuer heute genug sein. Beim naechsten Mal zeige ich, dass es auch „falsche echte Familien“ gibt und gehe kurz darauf ein, warum trotz all diese Einschraenkungen das alles voll fetzig ist :) .
Leave a Reply