Beim letzten Mal wies ich auf einen Fehler hin, der mir bei der Bearbeitung der Rohdaten passiert ist. Da ich heraus fand wie dieser Fehler zustande kommt, konnte ich abschaetzen, wie grosz besagter Fehler im schlimmsten Fall sein kann.
Bevor ich Korrekturen durch menschengemachte Fehler (hauptsaechlich Grosz- und Kleinschreibung, aber auch ein paar andere Sachen) vornahm, hatte ich 189,887,300 Links. Am Ende des Prozesses der Vorbereitung der Rohdaten zur Analyse hatte ich nur noch 165,913,569 Links. Wenn man annimmt, dass ALLE Berichtigungen falsch sind, dann fuehrt dies zu einer Diskrepanz von 23,973,731 Links und das entspricht 14 % aller Links.
Ich denke aber, dass ein groszer Teil der Korrekturen richtig waren und dass der tatsaechliche Einfluss des Fehlers innerhalb des 10 %-Fehlers faellt.
Puh, nochmal Glueck gehabt, dass mein Bauchgefuehl meine ueber 20 Jahre Erfahrung mit der Analyse von Daten auch hier wieder so Pi-mal-Daumen richtig lag.
Auch wenn dies hier so ein bisschen unter „ferner liefen“ faellt, so ist das doch mitnichten eine unwichtige Sache. Fehler sind normal und immer vorhanden. Drei Punkte sind diesbezueglich aber sehr wichtig: dass man sich dem bewusst ist, dass man die Fehler angibt und dass man weisz woher die kommen. Diese drei Punkte zeigen, dass ein Forscher besagte Fehler „unter Kontrolle“ hat.
Leider werden Fehler in den meisten nicht-wissenschaftlichen Quellen nicht angegeben, oder wenn doch, dann nicht detailliert diskutieret. Wobei eine Fehlerdiskussion auch in den wissenschaftlichen Quellen meist nicht genau genug stattfindet. Ich gebe zu, dass das eher trocken ist und als Leser nimmt man halt an, dass das schon richtig gemacht wurde. Oft genug, wurde es aber nicht richtig gemacht.
Hier ist dann auch wieder ein (wichtiger) Unterschied zwischen Data Scientists und Data Analysts. Letztere geben zwar Fehler an, aber das ist dann meist nur das, was das Statistikprogramm ausspuckt. Dies hier ist aber ein systematischer Fehler, der nur durch die Arbeit mit den Rohdaten zu erkennen war. Und Letzteres machen Data Analysts nicht, weil die (mehr oder weniger) gute und bearbeitete Daten zugeschickt bekommen. Ich wuerde sogar so weit gehen und behaupten, dass Data Analysts sich der Wichtigkeit von Fehlerbetrachtungen nicht mal bewusst sind. Klar, die wissen darum, aber das bedeuten nicht, dass sie sich auch wirklich drum kuemmern (kønnen sie ja auch nicht, weil sie nicht mit den Rohdaten in Kontakt kommen).
Lange Rede kurzer Sinn: es ist OK Fehler zu machen und zu haben, so lange man das unter Kontrolle hat. D.h. dass die nicht das Signal dominieren und man weisz wo die herkommen. Und das ist in diesem Fall zum Glueck so.
Leave a Reply