kan vi Venligst gå videre end bare ” hvad er bedre; SPSS eller R?”

jeg har haft et” Hvorfor og hvordan jeg skiftede fra SPSS til R ” – indlæg i værkerne i et stykke tid. Jeg ønskede at fremhæve, hvordan R kan være mere nyttigt for gennemsigtige datastrømme. Derefter, et par dage siden, endnu en “Hvad er bedre SPSS eller R?”en slags debat kom op på kvidre. Det ligner p-værdi krige, eller de fortsatte hyppige vs bayesiske kampe, der formår at samtidig frustrere og intrigere mig. Der kan være en vis nytte i diskussionen, men ofte er det bare butting hoveder og mangler andre vigtige spørgsmål.

dette indlæg er et ham-handed, Coors fueled forsøg på at mashing sammen, hvorfor debattere, hvad der er det bedre program, er (for det meste) meningsløst, og hvorfor der er vigtigere spørgsmål at løse.

slå op r memes for statistical fiends for funny-Ness

der er noget der sker ret tidligt i at lære et programmeringssprog som R, især når man skifter fra SPSS ‘ s spidse-clicky, draggy-Droppy-Ness. Kort sagt begynder du at blive et af de arseholes, der ærligt troede, at alle bare skulle bruge R, og begynder at fortælle dem præcis det. Måske sker det ikke for alle, jeg antager, at der er pænere mennesker end mig derude. I det mindste er der en følelse af, at R er “bedre” på en eller anden måde end SPSS.

så sker der noget. Måske bliver du mindet af en kollega om begrænsningerne af R på grund af andres brug af SPSS alene, eller du bruger en hel uge på at udtale det mest profane sprog, der grænser op til computerracisme, fordi din shitting kode ikke gør den ting, den skal gøre (mine nøjagtige ord ikke længe siden). På den ene eller anden måde, du begynder at indse, at der ikke er en løsning, der passer til alle, til databehandling og analyse. Nogle værktøjer er bedre til visse ting, men hvis det virker, så lad det fungere for folk (alternativt, vær ikke en dogmatiker, der argumenterer for en tæppe tilgang).

jeg mener, det er sjovt, men også betyder og unødvendigt.

uanset om du bruger R, SPSS, Python, JASP (råbe ud til JASP for at være fantastisk), MATLAB, udmærke sig, eller ethvert andet programmeringssprog eller statistik programmel, kan du tilstrækkeligt udføre de analyser, du har brug for for at gøre statistiske slutninger fra dine data. Hvis du er super ivrig og / eller hader dig selv, kan du også gøre det hele for hånd. Men, vi skal alle være enige om, at for at få din t-test udført, alt fungerer.

hvorvidt et bestemt program er “bedre” end et andet, især hvis du går ind for dets bredere anvendelse, afhænger af, hvad der menes med bedre. Hvis bedre betyder bedre statistik, så er du lort ud af held, fordi det kan gøres overalt.

der er så mange andre vigtige overvejelser, der går glip af i debatten mellem programmer, som; om programmet er gratis og open source, og om værktøjet tilbyder Bayesian statistik. Jeg har brugt JASP i cirka 30 minutter, og jeg foretrækker det allerede frem for SPSS, fordi det har; øjeblikkelig feedback, Bayesian statistik, og det er gratis. Jeg vil også gerne bruge Python, for da ville jeg have et enkelt sprog til mine opgaver, datahåndtering, analyse og rapportering. Men at have tid til at lære sproget er uden for mine grænser i øjeblikket.

der er ingen En-størrelse-passer-alle tilgang til datahåndtering og analyse og ingen “bedste program”.

gennemsigtig datahåndtering

Her er det spørgsmål, jeg har tænkt på, at vi kunne fokusere på i stedet. Hvordan kan vi gøre vores datahåndtering og analyser gennemsigtige og reproducerbare? Dette er langt vigtigere for videnskabens fremskridt end bashing programmel.

dette er dog en af grundene til, at jeg foretrækker R; dokumenteret databehandling og analyse. Manuskriptet kan deles og vurderes. Du kan endda lave smarte ting og få r til at spytte en markering PDF (i APA-format) med hvert trin i din databehandling og analyse som en skide guide.

udokumenteret analyse: du skal ikke bestå!!!

” men du kan gemme og dele SPSS syntaks Sam du gigantiske dong!”argumenterer den dejlige person på min skulder. OK, ved hjælp af SPSS kan du køre alt fra de rå data til den endelige analyse og gemme syntaksen. Godt, hvis jeg så, at dette faktisk skete, ville jeg være ekstatisk. Men, fordi dette ikke undervises som standard i undergrad statistik, vi ender med masser af udokumenteret nonsens.

hvad der også sker (og jeg vil vædde penge er mere sandsynligt), er at noget andet bruges til at manipulere dataene med mindst en vis grad af copy+paste eller trække værdier fra en fil til en anden for at aggregere dem. Men måske er min opfattelse farvet ved at bruge omkring 6 timer i mine mestre, der kopierer, indsætter, trækker ned to celler og registrerer variabler i hver enkelt deltagers EEG-data, inden de får det til Matlab for at bash det lidt mere.

i det mindste vil der være et stadium i databehandlingen, der i bedste fald ikke er dokumenteret, og i værste fald er en klynge-fuck, der aldrig kunne replikeres selv med de bedste hensigter.

gør dette R Bedre? Svaret er, at det ikke behøver at. Jeg kan godt lide, at jeg med R kan gå fra de rådata, der er genereret, til behandlede data, til output fra de endelige statistiske analyser i et enkelt script. Det er rent og føles mere effektivt. Det betyder, at hvert trin kan kontrolleres. Men dette kan også opnås, hvis du har bashed dataene, importeret til SPSS, ramt det med en slegge, og derefter klikkede clickedy på nogle analyser, forudsat at trinene er dokumenteret. Det er muligt at have en helt gennemsigtig og replikerbar arbejdsgang uden at bruge et scripted programmeringssprog. Den største forskel er, at I R er hvert trin i processen automatisk dokumenteret og replikerbar som standard.

så er det værd at skifte mellem programmer? ikke nødvendigvis. I første omgang tror jeg, at den bedre mulighed er at investere tid i at gøre dine data afleveret beregningsmæssigt reproducerbar og gennemsigtig. Dette kan gøres overalt, fra at bruge SPSS-syntaksen til at skrive en super detaljeret redegørelse for, hvilken del af et dokument, du kopierede og indsatte fra. Så længe du med rimelighed kan antage, at i betragtning af dine rådata og dokumentation kan en anden genskabe dine resultater, så er vi gyldne.

dette kan også føre dig mod et programmeringssprog som R, python eller Matlab, fordi det i sidste ende vil være mindre tidskrævende at integrere disse analysetrin i et enkelt script. I sidste ende, gennemsigtighed er et bedre mål end programmel bigotry. Min take home-besked er, at i stedet for at spørge ” hvilket program skal jeg lære?”, bør vi bede hinanden om at spørge ” Hvordan kan jeg gennemsigtigt dokumentere min databehandling og analyse?”.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Skriv et svar

Din e-mailadresse vil ikke blive publiceret.