putem să trecem dincolo de „ce este mai bine; SPSS sau R?”

am avut un post „de ce și cum am trecut de la SPSS la R” în lucrări pentru o vreme. Am vrut să subliniez modul în care R poate fi mai util pentru fluxurile de lucru transparente. Apoi, cu câteva zile în urmă, încă un alt „ce este mai bine SPSS sau R?”un fel de dezbatere a apărut pe twitter. Este similar cu p-valoare războaie, sau continuă frecventist vs bayesian bătălii care reușesc să frustreze simultan și intriga mine. S-ar putea să existe o anumită utilitate în discuție, dar de multe ori este vorba doar de capete și lipsesc alte probleme importante.

această postare este o încercare alimentată de Coors, care a alimentat împreună de ce dezbaterea care este software-ul mai bun este (în mare parte) inutilă și de ce există probleme mai importante de abordat.

uită-te în sus r meme pentru Fiends statistice pentru Funny-Ness

există ceva care se întâmplă destul de devreme în învățarea unui limbaj de programare ca r, mai ales atunci când trecerea de la pointy-clicky, Draggy-Droppy-Ness de SPSS. Pe scurt, începi să devii unul dintre acei nenorociți care credeau sincer că toată lumea ar trebui să folosească doar R și începe să le spună exact asta. Poate că nu se întâmplă tuturor, presupun că există oameni mai drăguți decât mine acolo. Cel puțin, există o senzație de senzație că R este „mai bun” într-un fel decât SPSS.

apoi, se întâmplă ceva. Poate că ți se amintește de un coleg de limitările R datorate utilizării altora de SPSS singur, sau petreci o săptămână întreagă rostind cel mai profan limbaj care se învecinează cu computerul-rasismul, deoarece codul tău de rahat nu va face acel lucru pe care ar trebui să-l facă (cuvintele mele exacte nu cu mult timp în urmă). În orice caz, începeți să vă dați seama că nu există o soluție unică pentru prelucrarea și analiza datelor. Unele instrumente sunt mai bune pentru anumite lucruri, dar, dacă funcționează, atunci lăsați-l să funcționeze pentru oameni (alternativ, nu fi un dogmatist bawbag argumentând pentru o abordare pătură).

vreau să spun, e amuzant, dar, de asemenea, înseamnă și inutil.

fie că utilizați R, SPSS, Python, JASP (striga la JASP pentru a fi uimitor), MATLAB, Excel, sau orice alt limbaj de programare sau software statistici, puteți efectua în mod adecvat analizele de care aveți nevoie pentru a face deducții statistice din datele. Dacă ești foarte dornic și / sau te urăști, atunci ai putea face totul și manual. Dar, ar trebui să fim cu toții de acord că pentru a obține testul t făcut, orice funcționează.

dacă un anumit software este „mai bun” decât altul, mai ales dacă susțineți utilizarea sa mai largă, depinde de ceea ce se înțelege prin mai bine. Dacă mai bine înseamnă statistici mai bune, atunci nu ai noroc, pentru că asta se poate face oriunde.

există atât de multe alte considerente importante care sunt ratate în dezbaterea între software, cum ar fi; dacă software-ul este gratuit și open-source și dacă instrumentul oferă statistici Bayesiene. Am folosit JASP pentru aproximativ 30 de minute și deja prefer să SPSS pentru că are; feedback instant, statistici Bayesian, și este gratuit. De asemenea, mi-ar plăcea să folosesc Python, pentru că atunci aș avea o singură limbă pentru sarcinile mele, gestionarea datelor, analiza și raportarea. Dar, având timp pentru a învăța limba este dincolo de limitele mele în acest moment.

nu există o abordare unică pentru gestionarea și analiza datelor și nici un „cel mai bun software”.

manipularea transparentă a datelor

iată întrebarea la care m-am gândit la care ne-am putea concentra în schimb. Cum putem face ca manipularea și analizele noastre de date să fie transparente și reproductibile? Acest lucru este mult mai important pentru progresul științei decât bashing software-uri.

acesta este, totuși, un motiv pentru care prefer R; prelucrarea și analiza datelor documentate. Scriptul poate fi partajat și evaluat. Puteți face chiar și lucruri de lux și au R scuipat un markdown PDF (în format APA) cu fiecare pas de prelucrare a datelor și de analiză ca un vrăjitor nenorocit.

analiza nedocumentată: nu veți trece!!!

„dar, puteți salva și partaja sintaxa SPSS Sam vă gigantic dong!”argumentează persoana drăguță de pe umărul meu. O. K, folosind SPSS puteți rula totul, de la datele brute la analiza finală și de a salva sintaxa. Grozav, dacă aș vedea că acest lucru se întâmplă de fapt, aș fi extaziat. Dar, pentru că acest lucru nu este predat ca standard în Statisticile studenților, ajungem la mase de prostii nedocumentate.

ce se întâmplă de asemenea (și aș paria bani este mai probabil), este că altceva este folosit (excel) pentru a manipula datele cu cel puțin un anumit grad de copiere+lipire sau glisarea valorilor dintr-un fișier în altul pentru a le agrega. Dar, poate că percepția mea este colorată petrecând aproximativ 6 ore în masterele mele copiind, lipind, trăgând în jos două celule și înregistrând variabile în datele EEG ale fiecărui participant, în excel, înainte de a le introduce în Matlab pentru a le bash mai mult.

cel puțin, va exista o etapă a procesării datelor care, în cel mai bun caz, nu este documentată și, în cel mai rău caz, este o dracu ‘ de cluster care nu ar putea fi reprodusă niciodată chiar și cu cele mai bune intenții.

face acest lucru R mai bine? Răspunsul este că nu trebuie. Îmi place că cu R pot trece de la datele brute care au fost generate, la datele prelucrate, la ieșirea din analizele statistice finale într-un singur script. Este curat și se simte mai eficient. Aceasta înseamnă că fiecare etapă poate fi verificată. Dar, acest lucru poate fi realizat și dacă ați bătut datele cu excel, importate în SPSS, le-ați lovit cu un baros și apoi ați făcut clic pe o analiză, cu condiția ca pașii să fie documentați. Este posibil să aveți un flux de lucru complet transparent și replicabil fără a utiliza un limbaj de programare scriptat. Cea mai mare diferență este că, în R, fiecare etapă a procesului este documentată automat și replicabilă în mod implicit.

deci, merită să comutați între software? nu neapărat. În primul rând, cred că cea mai bună opțiune este să investești timp în a face ca datele tale să fie reproductibile și transparente din punct de vedere computațional. Acest lucru se poate face oriunde, de la utilizarea sintaxei SPSS la scrierea unui cont super detaliat din care parte a unui document pe care l-ați copiat și lipit. Atâta timp cât puteți presupune în mod rezonabil că, având în vedere datele dvs. brute și documentația, altcineva vă poate recrea rezultatele, atunci suntem de aur.

Acest lucru vă poate conduce, de asemenea, către un limbaj de programare precum R, python sau Matlab, deoarece în cele din urmă va fi mai puțin consumatoare de timp pentru a integra acești pași de analiză într-un singur script. În cele din urmă, transparența este un obiectiv mai bun decât bigotismul software. Mesajul meu de acasă este că, mai degrabă decât să întreb „ce software ar trebui să învăț?”, ar trebui să ne îndemnăm reciproc să ne întrebăm „Cum pot documenta în mod transparent prelucrarea și analiza datelor mele?”.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Lasă un răspuns

Adresa ta de email nu va fi publicată.