túlléphetünk-e azon, hogy “mi a jobb; SPSS vagy R?”

egy ideig volt egy” miért és hogyan váltottam át az SPSS-ről az R-re ” bejegyzésem a munkákban. Ki akartam emelni, hogy az r hogyan lehet hasznosabb az átlátható adatáramlásokhoz. Azután, néhány nappal ezelőtt, még egy ” Mi a jobb SPSS vagy R?”egyfajta vita jött létre a Twitteren. Hasonló a p-értékű háborúkhoz, vagy a folyamatos frequentist vs Bayes csatákhoz, amelyek egyszerre frusztrálnak és intrikálnak engem. Lehet, hogy van némi hasznosság a vitában, de gyakran csak a fejek csapása és más fontos kérdések hiánya.

Ez a bejegyzés egy ham-kezes, Coors-féle kísérlet arra, hogy összegyűjtsük, miért van (többnyire) értelmetlen a jobb szoftver vitája, és miért vannak fontosabb kérdések, amelyekkel foglalkozni kell.

émek statisztikai ördögök számára a viccesség érdekében

van valami, ami elég korán megtörténik egy olyan programozási nyelv tanulásában, mint az R, különösen akkor, ha áttérünk az SPSS hegyes-kattintós, draggy-Droppy-ségéről. Röviden, elkezdesz egy olyan seggfej lenni, aki őszintén azt gondolta, hogy mindenkinek csak R-t kell használnia, és elkezdi pontosan ezt mondani nekik. Talán nem mindenkivel történik meg, feltételezem, hogy vannak nálam kedvesebb emberek odakint. Legalábbis van egy érzés, hogy R valahogy” jobb”, mint az SPSS.

ezután történik valami. Lehet, hogy egy kolléga emlékezteti az R korlátaira, mivel mások egyedül használják az SPSS – t, vagy egy teljes hetet töltesz a számítógépes rasszizmussal határos legprofánabb nyelv kimondásával, mert a szarási kódod nem fogja megtenni azt a dolgot, amit meg kell tennie (pontos szavaim nem régen). Akárhogy is, akkor kezd rájönni, hogy nincs egy kaptafára megoldás adatfeldolgozás és elemzés. Egyes eszközök jobbak bizonyos dolgokhoz, de ha működik, akkor hagyja, hogy működjön az emberek számára (alternatív megoldásként ne legyen dogmatista bawbag, aki egy takaró megközelítés mellett érvel).

úgy értem, ez vicces, de azt is jelenti, és felesleges.

akár R, SPSS, Python, JASP (kiáltani JASP, hogy csodálatos), MATLAB, Excel, vagy bármely más programozási nyelv vagy statisztika szoftver, akkor megfelelően elvégezni az elemzéseket, hogy meg kell annak érdekében, hogy a statisztikai következtetéseket az adatokat. Ha nagyon lelkes vagy és / vagy utálod magad, akkor mindent kézzel is megtehetsz. De, mindannyian egyetértünk abban, hogy a t-teszt elvégzéséhez bármi működik.

az, hogy egy adott szoftver “jobb” – e, mint egy másik, különösen, ha annak szélesebb körű használatát támogatja, attól függ, hogy mit értünk jobb alatt. Ha a jobb jobb statisztikát jelent, akkor nincs szerencséd, mert ezt bárhol meg lehet tenni.

olyan sok más fontos szempont van, amelyek hiányoznak a szoftverek közötti vitában, mint például; hogy a szoftver ingyenes és nyílt forráskódú-e, és hogy az eszköz Bayes-statisztikákat kínál-e. Körülbelül 30 percig használtam a JASP-t, és már jobban szeretem az SPSS-t, mert van; azonnali visszajelzés, bayesi statisztika, és ingyenes. Szívesen használnám a Python-t is, mert akkor egyetlen nyelv lenne a feladataimhoz, az adatkezeléshez, az elemzéshez és a jelentéshez. De az idő, hogy megtanuljam a nyelvet, jelenleg meghaladja a korlátaimat.

nincs egy kaptafára-minden megközelítés az adatkezelés és elemzés, és nincs “legjobb szoftver”.

átlátható adatkezelés

itt van az a kérdés, amin gondolkodtam, amire inkább koncentrálhatnánk. Hogyan tehetjük átláthatóvá és reprodukálhatóvá adatkezelésünket és elemzéseinket? Ez sokkal fontosabb a tudomány fejlődése szempontjából, mint a szoftverek szétverése.

Ez azonban az egyik oka annak, hogy jobban szeretem az R-t; dokumentált adatfeldolgozás és elemzés. A szkript megosztható és értékelhető. Még divatos dolgokat is csinálhatsz, és R-vel egy markdown PDF-et (APA formátumban) köphetsz ki az adatfeldolgozás és-elemzés minden lépésével, mint egy kibaszott varázsló.

nem dokumentált elemzés: akkor nem adja át!!!

“de mentheti és megoszthatja az SPSS szintaxist Sam te gigantikus dong!”azt állítja, a kedves ember a vállamon. Rendben, az SPSS használatával mindent futtathat a nyers adatoktól a végső elemzésig, és elmentheti a szintaxist. Nagyszerű, ha látnám, hogy ez történik, el lennék ragadtatva. De, mert ezt nem tanítják szabványként az egyetemi statisztikákban, dokumentálatlan hülyeségek tömegével végződünk.

mi is történik (és fogadnék, hogy a pénz valószínűbb), az, hogy valami mást használnak (excel) az adatok manipulálására legalább bizonyos fokú copy+paste vagy értékek húzása az egyik fájlból a másikba, hogy összesítsék őket. De talán az érzékelésemet színesíti, hogy körülbelül 6 órát töltök a mestereimben két sejt másolásával, beillesztésével, lehúzásával és változók rögzítésével az egyes résztvevők EEG-adataiban, excel-ben, mielőtt a Matlab-ba kerülne, hogy még többet basholjon.

legalább lesz az adatfeldolgozásnak egy olyan szakasza, amelyet a legjobb esetben nem dokumentálnak, a legrosszabb esetben pedig egy olyan klaszter-fasz, amelyet soha nem lehet megismételni még a legjobb szándékkal sem.

ettől jobb lesz R? A válasz az, hogy nem kell. Szeretem, hogy az R segítségével a generált nyers adatoktól a feldolgozott adatokig, a végső statisztikai elemzések kimenetéig egyetlen szkriptben tudok menni. Tiszta és hatékonyabbnak érzi magát. Ez azt jelenti, hogy minden szakasz ellenőrizhető. De ez akkor is elérhető, ha az adatokat excel-rel beverte, importálta az SPSS-be, kalapáccsal ütötte meg, majd kattintott néhány elemzésre, feltéve, hogy a lépéseket dokumentálják. Lehetőség van egy teljesen átlátható és megismételhető munkafolyamat használatára szkriptelt programozási nyelv használata nélkül. A legnagyobb különbség az, hogy az R – ben a folyamat minden szakasza automatikusan dokumentálódik és alapértelmezés szerint replikálható.

tehát érdemes váltani a szoftverek között? nem feltétlenül. Először is úgy gondolom, hogy a jobb megoldás az, ha időt fordítunk arra, hogy az adatok átadása számítási szempontból reprodukálható és átlátható legyen. Ezt bárhol meg lehet tenni, az SPSS szintaxis használatától kezdve egy szuper részletes fiók megírásáig, amelyből a dokumentum melyik részét másolta be. Mindaddig, amíg ésszerűen feltételezheted, hogy a nyers adataid és dokumentációd alapján valaki más képes újra létrehozni az eredményeket, akkor aranyak vagyunk.

Ez egy olyan programozási nyelv felé is vezethet, mint az R, A python vagy a Matlab, mert végül kevésbé lesz időigényes ezeket az elemzési lépéseket egyetlen szkriptbe integrálni. Végül az átláthatóság jobb cél, mint a szoftveres bigottság. Az otthoni üzenetem az, hogy ahelyett, hogy megkérdezném: “milyen szoftvert kell megtanulnom?”, arra kell kérnünk egymást, hogy kérdezzék meg: “hogyan tudom átláthatóan dokumentálni az adatfeldolgozásomat és elemzésemet?”.

The Center for Open Science agrees, open code is awesome

I do still prefer R to pointy-clicky though…

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.