Ho avuto un post” perché e come sono passato da SPSS a R “nelle opere per un po’. Volevo evidenziare come R possa essere più utile per flussi di lavoro di dati trasparenti. Poi, qualche giorno fa, l’ennesimo ” cosa c’è di meglio SPSS o R?”tipo di dibattito è venuto su Twitter. È simile alle guerre p-value, o alle continue battaglie frequentiste contro bayesiane che riescono a frustrare e intrigare simultaneamente me. Ci potrebbe essere qualche utilità nella discussione, ma spesso è solo butting teste e mancano altre questioni importanti.
Questo post è un tentativo di schiacciare insieme perché discutere di quale sia il software migliore è (per lo più) inutile e perché ci sono questioni più importanti da affrontare.
C’è una cosa che succede abbastanza presto nell’apprendimento di un linguaggio di programmazione come R, specialmente quando la transizione dalla punta-clicky, girano lentamente-droppy-ness di SPSS. In breve, si inizia a diventare uno di quei stronzi che onestamente pensato che tutti dovrebbero usare solo R, e comincia a dire loro esattamente questo. Forse non capita a tutti, presumo che ci siano persone più belle di me là fuori. Per lo meno, c’è una fitta sensazione che R sia “migliore” in qualche modo di SPSS.
Poi, succede qualcosa. Forse ti viene ricordato da un collega i limiti di R a causa dell’uso da parte di altri di SPSS da solo, o trascorri un’intera settimana a pronunciare il linguaggio più profano al confine con il razzismo informatico perché il tuo codice di merda non farà quella cosa che dovrebbe fare (le mie parole esatte non molto tempo fa). In entrambi i casi, si inizia a rendersi conto che non esiste una soluzione unica per l’elaborazione e l’analisi dei dati. Alcuni strumenti sono migliori per certe cose, ma, se funziona, lascia che funzioni per le persone (in alternativa, non essere un dogmatico bawbag che discute per un approccio generale).
Se si utilizza R, SPSS, Python, JASP (gridare a JASP per essere sorprendente), MATLAB, Excel o qualsiasi altro linguaggio di programmazione o software di statistiche, è possibile eseguire adeguatamente le analisi necessarie per fare inferenze statistiche dai dati. Se sei super appassionato e / o ti odi allora potresti anche fare tutto a mano. Ma, dovremmo essere tutti d’accordo che per ottenere il vostro t-test fatto, tutto funziona.
Se un particolare software è “migliore” di un altro, specialmente se si sta sostenendo il suo uso più ampio, dipende da cosa si intende per migliore. Se meglio significa statistiche migliori, allora sei fuori di fortuna, perché questo può essere fatto ovunque.
Ci sono tante altre considerazioni importanti che mancano nel dibattito tra software, come; se il software è libero e open-source, e se lo strumento offre statistiche bayesiane. Ho usato JASP per circa 30 minuti e lo preferisco già a SPSS perché ha; feedback immediato, statistiche bayesiane, ed è gratuito. Mi piacerebbe anche usare Python, perché allora avrei una sola lingua per le mie attività, la gestione dei dati, l’analisi e il reporting. Ma, avere il tempo di imparare la lingua è oltre i miei limiti al momento.
Non esiste un approccio unico per la gestione e l’analisi dei dati e nessun “miglior software”.
Gestione trasparente dei dati
Ecco la domanda a cui ho pensato che potremmo concentrarci invece. Come possiamo rendere trasparente e riproducibile il trattamento e le analisi dei dati? Questo è molto più importante per il progresso della scienza che colpire i software.
Questo è, tuttavia, uno dei motivi per cui preferisco R; elaborazione e analisi dei dati documentati. Lo script può essere condiviso e valutato. Puoi anche fare cose fantasiose e sputare un PDF markdown (in formato APA) con ogni fase dell’elaborazione e dell’analisi dei dati come un fottuto mago.