jeg har hatt et «hvorfor og hvordan jeg overgikk FRA SPSS Til R» innlegg i verkene for en stund. Jeg ønsket å markere hvordan R kan være mer nyttig for gjennomsiktige data arbeidsstrømmer. Så, for noen dager siden, enda en «hva er bedre SPSS eller R?»slags debatt kom opp på twitter . Det ligner på p-value wars, eller de fortsatte frequentist vs bayesian-kampene som klarer å frustrere og intrigere meg samtidig. Det kan være noen nytte i diskusjonen, men ofte er det bare stanghoder og mangler andre viktige saker.
dette innlegget er en skinke-handed, Coors drevet forsøk på å mose sammen hvorfor diskutere hva som er bedre programvare er (for det meste) meningsløst og hvorfor det er viktigere saker å ta opp.
det er noe som skjer ganske tidlig i å lære et programmeringsspråk som r, spesielt når overgangen fra spisse-clicky, draggy-droppy-ness av spss. Kort sagt, du begynner å bli en av de arseholes som ærlig trodde at alle bare skulle bruke R, og begynner å fortelle dem akkurat det. Kanskje det ikke skjer med alle, jeg antar at det er bedre mennesker enn meg der ute. I det minste er Det en twinge av følelsen Av At R er» bedre » på en eller annen måte ENN SPSS.
så skjer det noe. Kanskje du blir påminnet Av en kollega av begrensningene Til R på grunn av at andre bruker SPSS alene, eller du tilbringer en hel uke med å uttale det mest profane språket som grenser til datamaskinrasisme fordi din shitting-kode ikke vil gjøre den tingen den burde gjøre (mine eksakte ord for ikke lenge siden). Uansett, du begynner å innse at det ikke er en one-size-fits-all løsning for databehandling og analyse. Noen verktøy er bedre for visse ting, men hvis det virker, så la det fungere for folk (alternativt, ikke vær en dogmatiker bawbag som argumenterer for en teppe tilnærming).
Enten DU bruker R, SPSS, Python, JASP (rop ut TIL JASP for å være fantastisk), MATLAB, Excel eller andre programmeringsspråk eller statistikkprogramvare, kan du tilstrekkelig utføre analysene du trenger for å gjøre statistiske konklusjoner fra dataene dine. Hvis du er super opptatt og / eller hater deg selv, kan du også gjøre alt for hånd. Men, vi bør alle være enige om at for å få t-test gjort, noe fungerer.
Om et bestemt stykke programvare er «bedre» enn en annen, spesielt hvis du taler for bredere bruk, avhenger av hva som menes med bedre. Hvis bedre betyr bedre statistikk, så er du uheldig, fordi det kan gjøres hvor som helst.
det er så mange andre viktige hensyn som er savnet i debatter mellom programvare, som; om programvaren er gratis og åpen kildekode, og om verktøyet tilbyr Bayesiansk statistikk. Jeg har brukt JASP i ca 30 minutter, og jeg foretrekker DET ALLEREDE TIL SPSS fordi det har; øyeblikkelig tilbakemelding, Bayesiansk statistikk, og det er gratis. Jeg vil også gjerne bruke Python, for da ville jeg ha et enkelt språk for mine oppgaver, datahåndtering, analyse og rapportering. Men å ha tid til å lære språket er utenfor mine grenser for øyeblikket.
det er ingen one-size-fits-all tilnærming til datahåndtering og analyse og ingen «beste programvare».
Transparent datahåndtering
her er spørsmålet jeg har tenkt på at vi kunne fokusere på i stedet. Hvordan kan vi gjøre vår datahåndtering og analyse gjennomsiktig og reproduserbar? Dette er langt viktigere for fremme av vitenskap enn bashing programvare.
dette er imidlertid en grunn til At Jeg foretrekker R; dokumentert databehandling og analyse. Manuset kan deles og vurderes. Du kan til og med gjøre fancy ting og Få R til å spytte UT en markdown PDF (I APA-format) med hvert trinn i databehandling og analyse som en jævla veiviser.
» men DU kan lagre OG dele spss syntaks Sam du gigantiske dong!»hevder den hyggelige personen pa skulderen min. OK, ved HJELP AV SPSS kan du kjøre alt fra rådataene til den endelige analysen og lagre syntaksen. Flott, hvis jeg så at dette faktisk skjedde, ville jeg være ekstatisk. Men fordi dette ikke læres som standard i undergradstatistikk, ender vi med masser av uokumentert tull.det som også skjer (og jeg vil satse penger er mer sannsynlig), er at noe annet brukes (excel) for å manipulere dataene med minst en viss grad av kopi+lim eller dra verdier fra en fil til en annen for å samle dem. Men kanskje min oppfatning er farget ved å bruke ca 6 timer i mine mestere som kopierer, limer, trekker ned to celler og registrerer variabler i hver enkelt deltakers EEG-data, i excel, før de får Det Inn I Matlab for å bash det litt mer.
i det minste vil det være et stadium av databehandlingen som i beste fall ikke er dokumentert, og i verste fall er en cluster-fuck som aldri kan replikeres selv med de beste intensjoner.
gjør Dette R bedre? Svaret er at det ikke må. Jeg liker Det Med R jeg kan gå fra de rå dataene som er generert, til behandlede data, til utgangen fra de endelige statistiske analysene i et enkelt skript. Det er rent og føles mer effektivt. Det betyr at hvert trinn kan kontrolleres. Men dette kan også oppnås hvis du har bashed dataene med excel, importert TIL SPSS, traff den med en slegge, og deretter clickedy klikket på noen analyse, forutsatt at trinnene er dokumentert. Det er mulig å ha en helt gjennomsiktig og replikerbar arbeidsflyt uten å bruke et skriptprogrammeringsspråk. Den største forskjellen er at i R blir hvert trinn av prosessen automatisk dokumentert og replikerbar som standard.
Så er det verdt å bytte mellom programvare? ikke nødvendigvis. I første omgang tror jeg at det beste alternativet er å investere tid i å gjøre dataene dine beregningsmessig reproduserbare og gjennomsiktige. Dette kan gjøres hvor som helst, fra Å bruke spss-syntaksen til å skrive en super detaljert redegjørelse for hvilken del av et dokument du kopierte og limte inn fra. Så lenge du med rimelighet kan anta at gitt dine rådata og dokumentasjon noen andre kan gjenskape resultatene dine, så er vi gyldne.Dette kan også lede deg mot et programmeringsspråk som R, python eller Matlab fordi det til slutt vil være mindre tidkrevende å integrere disse analysetrinnene i et enkelt skript. Til slutt er åpenhet et bedre mål enn programvare bigotry. Min ta hjem melding er at i stedet for å spørre » hvilken programvare bør jeg lære ?», bør vi spørre hverandre om å spørre » hvordan kan jeg transparent dokumentere databehandling og analyse?».
I do still prefer R to pointy-clicky though…