Wie erwaehnt fehlt in diesem Projekt noch eine grosze und wichtige Sache: sind die Ergebnisse reproduzierbar?
Diese Frage konnte natuerlich nicht mit den selben Daten beantwortet werden und deshalb lud ich mir Ende November 2023 die Wikipedia nochmal runter. Der Prozess war wie beim ersten Mal, nur dass drei Jahre mehr Daten drin waren. Deswegen ist die entpackte Datei nun ca. 90 GB grosz (die drei Jahre juengeren Daten sind „nur“ 75 GB grosz).
Alles was ich damals tat um die relevanten Daten aus der riesigen Datei zu popeln und diese fuer die eigentliche Linknetzwerkanalyse vorzubereiten, machte ich nochmal. Die Programme dazu liesz ich im Wesentlichen unveraendert (die sind jetzt nur besser strukturiert und der Code ist besser kommentiert).
Vor drei Jahren konnte ich die urspruenglichen 75 GB letztlich auf eine nur 1.4 GB grosze (Text)Datei reduzieren. Die Zahl gab ich damals nicht an und mit der Wikipedia vom November 2023 erhøhte sich die Grøsze dieser Datei nur auf 1.6 GB
Damals verblieb ich mit 5,798,312 Wikipediaseiten und 165,913,569 Links. Die neuen Daten enthalten 6,269,403 Seiten und 198,870,985 Links.
Das kønnen wir mit der beim letzten Mal vorgestellten Information vergleichen. Am Ende der Untersuchungsperiode kamen bei der Wikipedia ca. 13-tausend neue Seiten pro Monat dazu. Drei Jahre entsprechen 36 Monaten und somit ca. 468-tausend neuen Seiten. An den Zahlen oben sieht man, das es in echt 471,091 neue Seiten waren … das ist fast schon erschreckend, wie genau die relativ grobe Abschaetzung das abbildet.
Damit fuehrte ich vom Konzept die selbe Linknetzwerkanalyse durch. Im entsprechenden Code veraenderte ich an den Analysestellen nichts. Aber zu den technische interessanten Details fuegte ich noch eine (gar nicht mal so) kleine coole Sache hinzu: die Anzahl der an der Berechnung teilnehmenden Kerne ist nun mittels der Angabe nur einer Zahl einstellbar und nicht mehr hartgecoded … cool wa. Auszerdem schrieb ich ein paar kleine Helferprogramme, welche eine (mehr oder weniger … ehrlich gesagt eher in die Richtung mehr als in die Richtung weniger) automatische Analyse erlauben. Und weil die Hardware sich in den letzten drei Jahren auch „verdoppelte“ (ich habe nun 8 anstatt nur vier Cores) waren diese Aenderungen extra cool, denn ohne weiteres Brimborium, konnte die Linknetzwerkanalyse auf noch mehr Cores gleichzeitig laufen und war noch schneller fertig.
Damit ist das was ich vor drei Jahren ueber mehrere Beitraege und Monate abhandelte auch schon fertig. Trotz der wenigen Zeilen hier war’s fuer mich ein ziemlicher Brocken Arbeit, denn ich musste habe den Code der Programme die all diese Aufgaben uebernehmen besser strukturiert, kommentiert und dokumentiert (und zum Teil auch mit ein paar kleinen Funktionalitaeten erweitert; s.o.). Prinzipiell haette ich das nicht machen brauchen, aber fuer mich zaehlt das zum Abschluss eines Projekts dazu … das muss _meinen_ aesthtetischen Beduerfnissen und allgemein _meinen_ Anspruechen genuegen.
Das ist dann auch der Grund, warum diese Teilaufgabe so schleppend voran geht, denn der Analysecode den ich ueber die drei Jahre schrieb ist katastrophal. Ich dachte doch urspruenglich, dass das nur ein paar wenige Wochen dauert. Und deswegen programmierte ich viele kleine Programme die kleine Aufgaben machen und kommentierte das oft nicht gut genug und ’ne Dokumentation hatte ich schon gar nicht. Zum Glueck habe ich die Angewohnheit schon beim coden Kommentare zu schreiben (weil ich (sicher zurecht) befuerchte, dass ich vergesse warum ich bestimmte Sachen so gecoded habe wie ich sie gecoded habe). Das kommt mir jetzt zu Gute, denn ansonsten waere ich komplett verloren in dem Codedurcheinander. Aber das geht viel besser und deswegen møchte ich das auch viel besser haben (s.o.) und beim wieder drueber gucken sehe ich auch, dass viele Programme in allgemeineren Programmen zusammengefasst werden kønnen.
Waehrend also der Code fuer die erste beiden Teile (relevante Daten sammeln und die Linknetzwerkanalyse) beinahe unveraendert blieb, schreibe ich (bin immer noch dabei) fuer die Analyse der Resultate der Linknetzwerkanalyse im Wesentlichen alles komplett neu. Klar, das was die Programme ausspucken ist das Selbe … MUSS das Selbe sein, denn ansonsten habe ich was falsch gemacht (was uebrigens auch nochmal Zeit kostet zu kontrollieren, denn ich muss die neuen Programme mit den Daten von Ende 2020 laufen lassen und dann mit den damaligen Ergebnissen vergleichen) … aber ich bin VIEL mehr zufrieden mit dem Code an sich.
Das soll reichen fuer heute. Beim naechsten Mal gibt’s dann wieder (mindestens) ein Diagramm.
Leave a Reply