Als ich die Daten fuer den Beitrag des letzten Mals anschaute, tauchten in einem Datensatz diese Tentakel auf:
Ich sah das … und wollte einfach nur „dran vorbei gehen“. Ich hatte da keine Lust mehr drauf und wollte alles im Zusammenhang mit Selbstreferenzen, totalen und neuen Links abschlieszen um endlich zur Analyse der naechsten (und letzten) Messgrøsze zu kommen.
Es ist ja auch nur in einem Datensatz (OKOK, ich geb’s zu, eigtl. in zwei Datensaetzen, aber bei dem anderen sind’s noch Babytentakel.) … da kann man schon mal 5 grade sein lassen und das merkwuerdige Verhalten in den schon øfter erwaehnten Fehler schieben.
Aber das mir hat natuerlich keine Ruhe gelassen … irgendwie funktioniert meine graue Masse so nicht … ich will wissen was vor sich geht … oder anders: ich wurde wieder mal Opfer von „Nerd Sniping“ … wobei ich mich selbst „gesniped“ habe … bzw. sogar doppelt „gesniped“, denn dieses ganze Kevin Bacon Groszprojekt ist auch sowas.
Im Grunde ist das gar nicht so schlecht, denn aus der Untersuchung von Anomalien folgt oft besseres Verstaendnis oder gar massiver Erkentnissgewinn.
Deswegen fing ich an mir Gedanken zu machen, wie ich den Tentakeln auf die Spur kommen kønnte. Ich war aber vor ein massives Problem gestellt, denn hierbei handelte es sich um Millionen von Links auf (mindestens) tausenden von Seiten. Aber beim allerersten Blob waren ja auch hunderte von Seiten involviert und ich schaffte den zu entraetseln.
Nach laengerem Gruebeln fing ich dann also an Code zu schreiben um die Tentakel zu extrahieren. Ich hatte erst wenige Zeilen eingetippt, als mir der Gedanke kam, dass ich ja mal schauen kønnte, ob das ein Artefakt ist. Um das zu verstehen muss ich zunaechst gestehen, dass ich im obigen Diagramm des Effekts wegen eine wichtige Information weggelassen habe: es handelt sich dabei um die _durchschnittliche_ Anzahl neuer Links. Denn wie bereits ein paar Male zuvor bildete ich (zunaechst) den Durchschnitt, um mit der Masse der Daten besser zurecht zu kommen. Und siehe da:
HURRAH! Es ist tatsaechlich ein Artefakt … Toll wa! Denn das erspart mir urst viel Arbeit.
Das ist uebrigens der Grund, warum ich beim letzten Mal NICHT die Durchschnitte sondern die Rohdaten zeigte. Aber das ist bestimmt nicht aufgefallen, denn ich habe da nicht drauf hingewiesen.
Man sieht (natuerlicherweise) oft Unterschiede zwischen Rohdaten und daraus gebildeten Durchschnitten. Aber fast ebenso oft sind solche Unterschiede nicht sooo grosz und aendern nichts oder wenig am Gesagten. Oder man kommt nicht weiter, wenn man das nicht macht und erst durch die Durchschnittsbildung folgt oben erwaehnter Erkenntnisgewinn. Dem war hier nicht so; die Tentakel sind nur ein ungewolltes Artefakt.
Dieses Beispiel zeigt aber wieder ganz toll, dass man sich bewusst sein sollte wo die Daten eigentlich herkommen und wie die vor der (oder fuer die) Analyse „behandelt“ wurden. Und insbesondere zeigt der hier diskutierte „Vorfall“ auch wieder, wie wichtig es ist dem Ursprung komischer Sachen auf die Spur zu kommen; nicht zuletzt auch um der(auch eigenen) Integritaet Genuege zu tun.
Und das ist das Tolle am Data-Scientist-Dasein, ich mach das und dann ist entweder voll der Erkennisgewinn da ODER ich løse ein Problem. Zwei sehr motivierende Faktoren.
Deswegen sage ich zum Abschluss wiedereinmal: Studienziel: Erreicht!
Leave a Reply