Können wir bitte über „Was ist besser; SPSS oder R?“

Ich habe seit einiger Zeit einen Beitrag „Warum und wie ich von SPSS zu R gewechselt bin“ in Arbeit. Ich wollte hervorheben, wie R für transparente Datenabläufe nützlicher sein kann. Dann, vor ein paar Tagen, noch eine andere „Was ist besser SPSS oder R?“ eine Art Debatte kam auf Twitter auf. Es ähnelt den P-Value-Kriegen oder den anhaltenden Kämpfen zwischen Frequentist und Bayes, die es schaffen, mich gleichzeitig zu frustrieren und zu intrigieren. Es mag einen Nutzen in der Diskussion geben, aber oft stoßen nur Köpfe an und es fehlen andere wichtige Themen.

Dieser Beitrag ist ein einhändiger, von Coors betriebener Versuch, zusammen zu bringen, warum es (meistens) sinnlos ist, über die bessere Software zu debattieren, und warum es wichtigere Probleme zu lösen gibt.

Es gibt etwas, das ziemlich früh beim Erlernen einer Programmiersprache wie R passiert, besonders beim Übergang von der spitzen, klickenden, schleppenden SPSS. Kurz gesagt, du fängst an, einer dieser Arschlöcher zu werden, die ehrlich dachten, dass jeder nur R benutzen sollte, und fängt an, ihnen genau das zu sagen. Vielleicht passiert es nicht jedem, ich gehe davon aus, dass es da draußen nettere Leute als mich gibt. Zumindest gibt es das Gefühl, dass R irgendwie „besser“ ist als SPSS.

Dann passiert etwas. Vielleicht werden Sie von einem Kollegen an die Einschränkungen von R erinnert, die auf die Verwendung von SPSS allein zurückzuführen sind, oder Sie verbringen eine ganze Woche damit, die profanste Sprache zu sprechen, die an Computerrassismus grenzt, weil Ihr Scheißcode das nicht tut, was er tun sollte (meine genauen Worte vor nicht allzu langer Zeit). So oder so, Sie beginnen zu erkennen, dass es keine einheitliche Lösung für die Datenverarbeitung und -analyse gibt. Einige Tools sind für bestimmte Dinge besser, aber wenn es funktioniert, lassen Sie es für Menschen funktionieren (alternativ sollten Sie kein Dogmatiker sein, der für einen pauschalen Ansatz argumentiert).

Ich meine, es ist lustig, aber auch gemein und unnötig.

Unabhängig davon, ob Sie R, SPSS, Python, JASP (danke an JASP, dass Sie erstaunlich sind), MATLAB, Excel oder eine andere Programmiersprache oder Statistiksoftware verwenden, können Sie die Analysen, die Sie benötigen, angemessen durchführen, um statistische Schlussfolgerungen aus Ihren Daten zu ziehen. Wenn du super scharf bist und / oder dich selbst hasst, dann könntest du auch alles von Hand machen. Aber wir sollten uns alle einig sein, dass alles funktioniert, um Ihren T-Test durchzuführen.

Ob eine bestimmte Software „besser“ ist als eine andere, insbesondere wenn Sie sich für eine breitere Verwendung einsetzen, hängt davon ab, was mit besser gemeint ist. Wenn besser bessere Statistiken bedeutet, dann hast du kein Glück, denn das kann überall gemacht werden.

Es gibt so viele andere wichtige Überlegungen, die bei der Debatte zwischen Software übersehen werden, wie; ob die Software frei und Open-Source ist und ob das Tool Bayes-Statistiken bietet. Ich habe JASP ungefähr 30 Minuten lang verwendet und bevorzuge es bereits gegenüber SPSS, weil es; sofortiges Feedback, Bayes-Statistik, und es ist kostenlos. Ich würde auch gerne Python verwenden, weil ich dann eine einzige Sprache für meine Aufgaben, Datenverarbeitung, Analyse und Berichterstellung hätte. Aber die Zeit zu haben, die Sprache zu lernen, übersteigt im Moment meine Grenzen.

Es gibt keinen einheitlichen Ansatz für die Datenverarbeitung und -analyse und keine „beste Software“.

Transparente Datenverarbeitung

Hier ist die Frage, über die ich nachgedacht habe, auf die wir uns stattdessen konzentrieren könnten. Wie können wir unsere Datenverarbeitung und Analysen transparent und reproduzierbar gestalten? Dies ist für den Fortschritt der Wissenschaft weitaus wichtiger als das Verprügeln von Software.

Dies ist jedoch ein Grund, warum ich R bevorzuge; dokumentierte Datenverarbeitung und -analyse. Das Skript kann geteilt und bewertet werden. Sie können sogar ausgefallene Sachen machen und mit jedem Schritt Ihrer Datenverarbeitung und -analyse wie ein verdammter Assistent ein Markdown-PDF (im APA-Format) ausspucken lassen.

undokumentierte Analyse: DU SOLLST NICHT BESTEHEN!!!

„Sie können jedoch die SPSS-Syntax speichern und freigeben, wenn Sie möchten!“ und die nette Person auf meiner Schulter. OK, mit SPSS können Sie alles von den Rohdaten bis zur endgültigen Analyse ausführen und die Syntax speichern. Großartig, wenn ich sehen würde, dass dies tatsächlich passiert, wäre ich begeistert. Aber, weil dies nicht als Standard in under Statistiken gelehrt, wir am Ende mit Massen von undokumentierten Unsinn.

Was auch passiert (und ich würde wetten, dass Geld wahrscheinlicher ist), ist, dass etwas anderes verwendet wird (Excel), um die Daten mit mindestens einem gewissen Grad an Kopieren + Einfügen oder Ziehen von Werten aus einer Datei in eine andere zu manipulieren, um sie zu aggregieren. Aber vielleicht wird meine Wahrnehmung dadurch gefärbt, dass ich ungefähr 6 Stunden in meinem Master verbringe, zwei Zellen kopiere, einfüge, herunterziehe und Variablen in den EEG-Daten jedes einzelnen Teilnehmers in Excel aufzeichne, bevor ich sie in Matlab bekomme, um sie noch etwas zu verprügeln.

Zumindest wird es einige phase der Datenverarbeitung, die bestenfalls nicht dokumentiert ist und schlimmstenfalls ein Cluster-Fick ist, der selbst mit den besten Absichten niemals repliziert werden könnte.

Macht das R besser? Die Antwort ist, dass es nicht muss. Mir gefällt, dass ich mit R von den generierten Rohdaten über verarbeitete Daten bis hin zur Ausgabe der endgültigen statistischen Analysen in einem einzigen Skript gehen kann. Es ist sauber und fühlt sich effizienter an. Es bedeutet, dass jede Stufe überprüft werden kann. Dies kann jedoch auch erreicht werden, wenn Sie die Daten mit Excel geschlagen, in SPSS importiert, mit einem Vorschlaghammer getroffen und dann auf eine Analyse geklickt oder geklickt haben, vorausgesetzt, die Schritte sind dokumentiert. Es ist möglich, einen vollständig transparenten und replizierbaren Workflow zu haben, ohne eine Skriptsprache zu verwenden. Der größte Unterschied besteht darin, dass in R jede Phase des Prozesses standardmäßig automatisch dokumentiert und replizierbar ist.

Lohnt es sich also, zwischen Software zu wechseln? nicht unbedingt. In erster Linie denke ich, dass die bessere Option darin besteht, Zeit zu investieren, um Ihre Daten rechnerisch reproduzierbarer und transparenter zu machen. Dies kann überall erfolgen, von der Verwendung der SPSS-Syntax bis zum Schreiben eines sehr detaillierten Berichts darüber, aus welchem Teil eines Dokuments Sie kopiert und eingefügt haben. Solange Sie vernünftigerweise davon ausgehen können, dass angesichts Ihrer Rohdaten und Dokumentation jemand anderes Ihre Ergebnisse neu erstellen kann, sind wir golden.

Dies könnte Sie auch zu einer Programmiersprache wie R, Python oder Matlab führen, da es letztendlich weniger zeitaufwändig ist, diese Analyseschritte in ein einzelnes Skript zu integrieren. Letztendlich ist Transparenz ein besseres Ziel als Software-Bigotterie. Meine Nachricht zum Mitnehmen lautet: „Welche Software soll ich lernen?“, sollten wir uns gegenseitig fragen: „Wie kann ich meine Datenverarbeitung und -analyse transparent dokumentieren?“.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.