kunnen we verder gaan dan alleen ” wat is beter; SPSS of R?”

Ik heb een “waarom en hoe ik overgestapt van SPSS naar R” bericht in de werken voor een tijdje. Ik wilde benadrukken hoe R nuttiger kan zijn voor transparante data work-flows. Dan, een paar dagen geleden, nog een andere ” Wat is beter SPSS of R?”er kwam een soort debat op twitter. Het is vergelijkbaar met de p-waarde oorlogen, of de voortdurende frequentist vs bayesian gevechten die erin slagen om gelijktijdig te frustreren en intrigeren me. Er kan wat nut in de discussie, maar vaak is het gewoon Botting hoofden en het missen van andere belangrijke kwesties.

Dit bericht is een hamhandige, door Coors aangewakkerde poging om samen te komen waarom debatteren over wat de betere software is (meestal) zinloos is en waarom er belangrijkere zaken zijn om aan te pakken.

opzoeken R memen voor Statistische Duivels voor grappige-ness

Er is iets dat gebeurt vrij vroeg in het leren van een programmeertaal zoals R, vooral bij de overgang van de puntige-clicky, draggy-droppy -ness van SPSS. Kortom, je begint een van die klootzakken te worden die eerlijk gezegd dacht dat iedereen gewoon R zou moeten gebruiken, en begint ze precies dat te vertellen. Misschien overkomt het niet iedereen, Ik neem aan dat er aardiger mensen zijn dan ik. Op zijn minst, er is een vleugje gevoel dat R is “beter” een of andere manier dan SPSS.

dan gebeurt er iets. Misschien word je door een collega herinnerd aan de beperkingen van R omdat anderen SPSS alleen gebruiken, of besteed je een hele week aan het uiten van de meest profane taal grenzend aan computerracisme omdat je schijten code niet doet wat het zou moeten doen (mijn exacte woorden niet lang geleden). Hoe dan ook, je begint te beseffen dat er geen one-size-fits-all oplossing voor gegevensverwerking en-analyse. Sommige tools zijn beter voor bepaalde dingen, maar, als het werkt dan laat het werken voor mensen (als alternatief, niet een dogmatische bawbag pleiten voor een deken aanpak).

ik bedoel, het is grappig, maar ook gemeen en onnodig.

of u nu R, SPSS, Python, JASP (shout out to JASP for being amazing), MATLAB, Excel, of een andere programmeertaal of statistieken software gebruikt, u kunt adequaat de analyses uitvoeren die u nodig hebt om statistische gevolgtrekkingen uit uw gegevens te maken. Als je super enthousiast bent en / of jezelf haat dan kun je het ook allemaal met de hand doen. Maar, we moeten het er allemaal over eens zijn dat om je t-test gedaan te krijgen, alles werkt.

of een bepaald stuk software “beter” is dan een ander, vooral als je het bredere gebruik ervan bepleit, hangt af van wat er met beter wordt bedoeld. Als beter betere statistieken betekent, dan heb je pech, want dat kan overal.

Er zijn zo veel andere belangrijke overwegingen die worden gemist in het debat tussen software, zoals; of de software is vrij en open-source, en of de tool biedt Bayesiaanse statistieken. Ik heb JASP gebruikt voor ongeveer 30 minuten en ik al de voorkeur aan SPSS omdat het heeft; directe feedback, Bayesiaanse statistieken, en het is gratis. Ik zou ook graag Python gebruiken, omdat ik dan een enkele taal zou hebben voor mijn taken, gegevensverwerking, analyse en rapportage. Maar, de tijd hebben om de taal te leren is buiten mijn grenzen op dit moment.

Er is geen “one-size-fits-all” – benadering voor gegevensverwerking en-analyse en er is geen “beste software”.

Transparent Data handling

Hier is de vraag die ik heb nagedacht over die we kunnen concentreren op plaats. Hoe kunnen we onze gegevensverwerking en analyses transparant en reproduceerbaar maken? Dit is veel belangrijker voor de vooruitgang van de wetenschap dan bashing software.

Dit is echter een reden waarom ik de voorkeur geef aan R; gedocumenteerde gegevensverwerking en-analyse. Het script kan worden gedeeld en beoordeeld. Je kunt zelfs fancy dingen doen en R spugen een markdown PDF (in APA-formaat) met elke stap van uw gegevensverwerking en analyse als een Fucking wizard.

analyse zonder documentatie: U zult niet slagen!!!

” maar je kunt de SPSS syntaxis opslaan en delen Sam je gigantische dong!”beargumenteert de aardige persoon op mijn schouder. OK, met behulp van SPSS kunt u alles draaien van de ruwe gegevens tot de uiteindelijke analyse en sla de syntaxis. Geweldig, als ik zag dat dit echt gebeurde, zou ik extatisch zijn. Maar, omdat dit niet als standaard wordt onderwezen in undergrad statistieken, eindigen we met massa ‘ s ongedocumenteerde onzin.

wat er ook gebeurt (en ik wed dat geld waarschijnlijker is), is dat er iets anders wordt gebruikt (excel) om de gegevens te manipuleren met ten minste een bepaalde mate van copy+paste of het slepen van waarden van het ene bestand naar het andere om ze samen te voegen. Maar misschien is mijn perceptie gekleurd door ongeveer 6 uur in mijn meesters door te brengen, twee cellen te kopiëren, te plakken, naar beneden te trekken en variabelen op te nemen in de EEG-gegevens van elke individuele deelnemer, in excel, voordat je het in Matlab krijgt om het wat meer te bashen.

ten minste, er zal een bepaalde fase van de gegevensverwerking die in het beste geval niet is gedocumenteerd, en in het slechtste geval is een cluster-fuck die nooit zou kunnen worden gerepliceerd, zelfs met de beste bedoelingen.

maakt dit R beter? Het antwoord is dat het niet hoeft. Ik vind het leuk dat met R I kan gaan van de ruwe gegevens die zijn gegenereerd, om verwerkte gegevens, om de output van de definitieve statistische analyses in een enkel script. Het is schoon en voelt efficiënter. Het betekent dat elke fase kan worden gecontroleerd. Maar dit kan ook worden bereikt als u de gegevens met excel hebt ingeslagen, in SPSS hebt geïmporteerd, het met een voorhamer hebt geraakt en vervolgens op een analyse hebt geklikt, op voorwaarde dat de stappen zijn gedocumenteerd. Het is mogelijk om een volledig transparante en repliceerbare workflow te hebben zonder gebruik te maken van een programmeertaal met scripts. Het grootste verschil is dat, in R, elke fase van het proces automatisch wordt gedocumenteerd en standaard repliceerbaar.

dus, is het de moeite waard om te schakelen tussen software? niet noodzakelijk. In eerste instantie denk ik dat de betere optie is om tijd te investeren in het maken van uw gegevensoverdracht computationeel reproduceerbaar en transparant. Dit kan overal worden gedaan, van het gebruik van de SPSS-syntaxis tot het schrijven van een super gedetailleerd account van welk deel van een document dat u gekopieerd en geplakt uit. Zolang u redelijkerwijs kunt aannemen dat gezien uw ruwe gegevens en documentatie iemand anders uw resultaten kan reproduceren, dan zijn we golden.

Dit kan u ook leiden naar een programmeertaal zoals R, python of Matlab omdat het uiteindelijk minder tijdrovend zal zijn om deze analyse stappen te integreren in een enkel script. Uiteindelijk is transparantie een beter doel dan software-onverdraagzaamheid. Mijn take home bericht is dat in plaats van te vragen ” welke software moet ik leren?”, moeten we elkaar vragen ” Hoe kan ik mijn gegevensverwerking en-analyse transparant documenteren?”.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.