am avut un post „de ce și cum am trecut de la SPSS la R” în lucrări pentru o vreme. Am vrut să subliniez modul în care R poate fi mai util pentru fluxurile de lucru transparente. Apoi, cu câteva zile în urmă, încă un alt „ce este mai bine SPSS sau R?”un fel de dezbatere a apărut pe twitter. Este similar cu p-valoare războaie, sau continuă frecventist vs bayesian bătălii care reușesc să frustreze simultan și intriga mine. S-ar putea să existe o anumită utilitate în discuție, dar de multe ori este vorba doar de capete și lipsesc alte probleme importante.
această postare este o încercare alimentată de Coors, care a alimentat împreună de ce dezbaterea care este software-ul mai bun este (în mare parte) inutilă și de ce există probleme mai importante de abordat.
există ceva care se întâmplă destul de devreme în învățarea unui limbaj de programare ca r, mai ales atunci când trecerea de la pointy-clicky, Draggy-Droppy-Ness de SPSS. Pe scurt, începi să devii unul dintre acei nenorociți care credeau sincer că toată lumea ar trebui să folosească doar R și începe să le spună exact asta. Poate că nu se întâmplă tuturor, presupun că există oameni mai drăguți decât mine acolo. Cel puțin, există o senzație de senzație că R este „mai bun” într-un fel decât SPSS.
apoi, se întâmplă ceva. Poate că ți se amintește de un coleg de limitările R datorate utilizării altora de SPSS singur, sau petreci o săptămână întreagă rostind cel mai profan limbaj care se învecinează cu computerul-rasismul, deoarece codul tău de rahat nu va face acel lucru pe care ar trebui să-l facă (cuvintele mele exacte nu cu mult timp în urmă). În orice caz, începeți să vă dați seama că nu există o soluție unică pentru prelucrarea și analiza datelor. Unele instrumente sunt mai bune pentru anumite lucruri, dar, dacă funcționează, atunci lăsați-l să funcționeze pentru oameni (alternativ, nu fi un dogmatist bawbag argumentând pentru o abordare pătură).
„dar, puteți salva și partaja sintaxa SPSS Sam vă gigantic dong!”argumentează persoana drăguță de pe umărul meu. O. K, folosind SPSS puteți rula totul, de la datele brute la analiza finală și de a salva sintaxa. Grozav, dacă aș vedea că acest lucru se întâmplă de fapt, aș fi extaziat. Dar, pentru că acest lucru nu este predat ca standard în Statisticile studenților, ajungem la mase de prostii nedocumentate.
ce se întâmplă de asemenea (și aș paria bani este mai probabil), este că altceva este folosit (excel) pentru a manipula datele cu cel puțin un anumit grad de copiere+lipire sau glisarea valorilor dintr-un fișier în altul pentru a le agrega. Dar, poate că percepția mea este colorată petrecând aproximativ 6 ore în masterele mele copiind, lipind, trăgând în jos două celule și înregistrând variabile în datele EEG ale fiecărui participant, în excel, înainte de a le introduce în Matlab pentru a le bash mai mult.
cel puțin, va exista o etapă a procesării datelor care, în cel mai bun caz, nu este documentată și, în cel mai rău caz, este o dracu ‘ de cluster care nu ar putea fi reprodusă niciodată chiar și cu cele mai bune intenții.
face acest lucru R mai bine? Răspunsul este că nu trebuie. Îmi place că cu R pot trece de la datele brute care au fost generate, la datele prelucrate, la ieșirea din analizele statistice finale într-un singur script. Este curat și se simte mai eficient. Aceasta înseamnă că fiecare etapă poate fi verificată. Dar, acest lucru poate fi realizat și dacă ați bătut datele cu excel, importate în SPSS, le-ați lovit cu un baros și apoi ați făcut clic pe o analiză, cu condiția ca pașii să fie documentați. Este posibil să aveți un flux de lucru complet transparent și replicabil fără a utiliza un limbaj de programare scriptat. Cea mai mare diferență este că, în R, fiecare etapă a procesului este documentată automat și replicabilă în mod implicit.
deci, merită să comutați între software? nu neapărat. În primul rând, cred că cea mai bună opțiune este să investești timp în a face ca datele tale să fie reproductibile și transparente din punct de vedere computațional. Acest lucru se poate face oriunde, de la utilizarea sintaxei SPSS la scrierea unui cont super detaliat din care parte a unui document pe care l-ați copiat și lipit. Atâta timp cât puteți presupune în mod rezonabil că, având în vedere datele dvs. brute și documentația, altcineva vă poate recrea rezultatele, atunci suntem de aur.
Acest lucru vă poate conduce, de asemenea, către un limbaj de programare precum R, python sau Matlab, deoarece în cele din urmă va fi mai puțin consumatoare de timp pentru a integra acești pași de analiză într-un singur script. În cele din urmă, transparența este un obiectiv mai bun decât bigotismul software. Mesajul meu de acasă este că, mai degrabă decât să întreb „ce software ar trebui să învăț?”, ar trebui să ne îndemnăm reciproc să ne întrebăm „Cum pot documenta în mod transparent prelucrarea și analiza datelor mele?”.
I do still prefer R to pointy-clicky though…