Possiamo per favore andare oltre “Cosa c’è di meglio; SPSS o R?”

Ho avuto un post” perché e come sono passato da SPSS a R “nelle opere per un po’. Volevo evidenziare come R possa essere più utile per flussi di lavoro di dati trasparenti. Poi, qualche giorno fa, l’ennesimo ” cosa c’è di meglio SPSS o R?”tipo di dibattito è venuto su Twitter. È simile alle guerre p-value, o alle continue battaglie frequentiste contro bayesiane che riescono a frustrare e intrigare simultaneamente me. Ci potrebbe essere qualche utilità nella discussione, ma spesso è solo butting teste e mancano altre questioni importanti.

Questo post è un tentativo di schiacciare insieme perché discutere di quale sia il software migliore è (per lo più) inutile e perché ci sono questioni più importanti da affrontare.

cercare R meme per l’elaborazione di Statistiche Demoni per divertente-ness

C’è una cosa che succede abbastanza presto nell’apprendimento di un linguaggio di programmazione come R, specialmente quando la transizione dalla punta-clicky, girano lentamente-droppy-ness di SPSS. In breve, si inizia a diventare uno di quei stronzi che onestamente pensato che tutti dovrebbero usare solo R, e comincia a dire loro esattamente questo. Forse non capita a tutti, presumo che ci siano persone più belle di me là fuori. Per lo meno, c’è una fitta sensazione che R sia “migliore” in qualche modo di SPSS.

Poi, succede qualcosa. Forse ti viene ricordato da un collega i limiti di R a causa dell’uso da parte di altri di SPSS da solo, o trascorri un’intera settimana a pronunciare il linguaggio più profano al confine con il razzismo informatico perché il tuo codice di merda non farà quella cosa che dovrebbe fare (le mie parole esatte non molto tempo fa). In entrambi i casi, si inizia a rendersi conto che non esiste una soluzione unica per l’elaborazione e l’analisi dei dati. Alcuni strumenti sono migliori per certe cose, ma, se funziona, lascia che funzioni per le persone (in alternativa, non essere un dogmatico bawbag che discute per un approccio generale).

voglio dire, è divertente, ma anche media e inutili.

Se si utilizza R, SPSS, Python, JASP (gridare a JASP per essere sorprendente), MATLAB, Excel o qualsiasi altro linguaggio di programmazione o software di statistiche, è possibile eseguire adeguatamente le analisi necessarie per fare inferenze statistiche dai dati. Se sei super appassionato e / o ti odi allora potresti anche fare tutto a mano. Ma, dovremmo essere tutti d’accordo che per ottenere il vostro t-test fatto, tutto funziona.

Se un particolare software è “migliore” di un altro, specialmente se si sta sostenendo il suo uso più ampio, dipende da cosa si intende per migliore. Se meglio significa statistiche migliori, allora sei fuori di fortuna, perché questo può essere fatto ovunque.

Ci sono tante altre considerazioni importanti che mancano nel dibattito tra software, come; se il software è libero e open-source, e se lo strumento offre statistiche bayesiane. Ho usato JASP per circa 30 minuti e lo preferisco già a SPSS perché ha; feedback immediato, statistiche bayesiane, ed è gratuito. Mi piacerebbe anche usare Python, perché allora avrei una sola lingua per le mie attività, la gestione dei dati, l’analisi e il reporting. Ma, avere il tempo di imparare la lingua è oltre i miei limiti al momento.

Non esiste un approccio unico per la gestione e l’analisi dei dati e nessun “miglior software”.

Gestione trasparente dei dati

Ecco la domanda a cui ho pensato che potremmo concentrarci invece. Come possiamo rendere trasparente e riproducibile il trattamento e le analisi dei dati? Questo è molto più importante per il progresso della scienza che colpire i software.

Questo è, tuttavia, uno dei motivi per cui preferisco R; elaborazione e analisi dei dati documentati. Lo script può essere condiviso e valutato. Puoi anche fare cose fantasiose e sputare un PDF markdown (in formato APA) con ogni fase dell’elaborazione e dell’analisi dei dati come un fottuto mago.

analisi non documentata: NON DEVI PASSARE!!!

” Ma, è possibile salvare e condividere la sintassi SPSS Sam si gigantesco dong!”sostiene la bella persona sulla mia spalla. OK, usando SPSS puoi eseguire tutto, dai dati grezzi all’analisi finale e salvare la sintassi. Fantastico, se vedessi che sta succedendo davvero, sarei estasiato. Ma, poiché questo non viene insegnato come standard nelle statistiche undergrad, finiamo con masse di sciocchezze non documentate.

Quello che succede anche (e scommetto che il denaro è più probabile), è che viene usato qualcos’altro (excel) per manipolare i dati con almeno un certo grado di copia+incolla o trascinando i valori da un file in un altro per aggregarli. Ma forse la mia percezione è colorata spendendo circa 6 ore nei miei master copiando, incollando, tirando giù due celle e registrando le variabili nei dati EEG di ogni singolo partecipante, in excel, prima di inserirlo in Matlab per colpirlo ancora un po’.

almeno, ci sarà qualche fase della elaborazione dei dati, che al meglio non è documentato, e nel peggiore dei casi è un cluster di-cazzo che non potrebbe mai essere replicato anche con le migliori intenzioni.

Questo rende R migliore? La risposta è che non è necessario. Mi piace che con R posso passare dai dati grezzi che sono stati generati, ai dati elaborati, all’output delle analisi statistiche finali in un singolo script. È pulito e si sente più efficiente. Significa che ogni fase può essere controllata. Ma questo può anche essere ottenuto se hai battuto i dati con Excel, importato in SPSS, colpito con una mazza, e quindi clickedy cliccato su alcune analisi, a condizione che i passaggi siano documentati. È possibile avere un flusso di lavoro completamente trasparente e replicabile senza utilizzare un linguaggio di programmazione con script. La più grande differenza è che, in R, ogni fase del processo è automaticamente documentata e replicabile per impostazione predefinita.

Quindi, vale la pena passare da un software all’altro? non necessariamente. In primo luogo, penso che l’opzione migliore sia investire tempo nel rendere i tuoi dati riproducibili e trasparenti dal punto di vista computazionale. Questo può essere fatto ovunque, dall’utilizzo della sintassi SPSS alla scrittura di un resoconto super dettagliato di quale parte di un documento è stato copiato e incollato da. Finché puoi ragionevolmente supporre che dati i tuoi dati grezzi e la documentazione qualcun altro possa ricreare i tuoi risultati, allora siamo d’oro.

Questo potrebbe anche portarti verso un linguaggio di programmazione come R, python o Matlab perché alla fine sarà meno dispendioso in termini di tempo integrare questi passaggi di analisi in un singolo script. Alla fine, la trasparenza è un obiettivo migliore del bigottismo del software. Il mio messaggio da portare a casa è che piuttosto che chiedere ” quale software dovrei imparare?”, dovremmo chiederci a vicenda ” come posso documentare in modo trasparente la mia elaborazione e analisi dei dati?”.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.