měl jsem“ proč a jak jsem přešel z SPSS na R “ příspěvek v pracích na chvíli. Chtěl jsem zdůraznit, jak R může být užitečnější pro transparentní datové pracovní toky. Pak, před několika dny, ještě další „co je lepší SPSS nebo R?“druh debaty přišel na Twitteru. Je to podobné p-hodnoty wars, nebo pokračující frequentist vs bayesovské bitvy, které dokáží současně frustrovat a mě zaujal. V diskusi může být nějaká užitečnost, ale často je to jen tupé hlavy a chybí další důležité problémy.
tento příspěvek je ham-handed, Coors fueled pokus o rmutování dohromady, proč diskutovat o tom, co je lepší software je (většinou) zbytečné a proč jsou důležitější problémy řešit.
Tady je něco, co se děje velmi brzy v učení programovací jazyk jako R, a to zejména při přechodu z špičatý-clicky, nudný-droppy -ness SPSS. Krátce, začnete se stát jedním z těch kreténů, kteří si upřímně mysleli, že každý by měl používat R, a začne jim to přesně říkat. Možná se to nestane každému, předpokládám, že tam jsou milejší lidé než já. Přinejmenším existuje pocit, že R je nějak „lepší“ než SPSS.
pak se něco stane. Možná, že jste připomněl kolega omezení Výzkumu vzhledem k ostatní použití SPSS sám, nebo budete muset strávit celý týden pronášet nejvíce rouhavý jazyk hraničící s počítači-rasismus, protože tvoje prdel kód zvyklý udělat to, co je třeba dělat (přesně moje slova, není to tak dávno). Ať tak či onak, začnete si uvědomovat, že neexistuje univerzální řešení pro zpracování a analýzu dat. Některé nástroje jsou lepší pro určité věci, ale pokud to funguje, nechte to fungovat pro lidi (alternativně, nebuďte dogmatický bawbag argumentující pro plošný přístup).
Ať už používáte R, SPSS, Python, JASP (křičet na JASP za to, že úžasné), MATLAB, Excel, nebo jakýkoliv jiný programovací jazyk nebo statistiky software, můžete odpovídajícím způsobem provádět analýzy, které potřebujete, aby tak, aby statistické závěry z dat. Pokud jste super horlivý a / nebo nenávidět sami sebe pak můžete také udělat vše ručně. Ale, měli bychom se všichni shodnout, že aby se váš t-test udělal, všechno funguje.
zda je určitý kus softwaru „lepší“ než jiný, zejména pokud obhajujete jeho širší použití, závisí na tom, co je míněno lépe. Pokud lepší znamená lepší statistiky, pak máte smůlu, protože to lze udělat kdekoli.
Existuje mnoho dalších důležité aspekty, které jsou minul v debatují mezi software, jako je; zda software je zdarma a open-source, a zda nástroj nabízí Bayesovské statistiky. Použil jsem JASP asi 30 minut a už to dávám přednost SPSS, protože má; okamžitá zpětná vazba, Bayesovské statistiky, a je to zdarma. Také bych rád používal Python, protože pak bych měl jediný jazyk pro své úkoly, zpracování dat, analýzu a reporting. Ale mít čas se naučit jazyk je v tuto chvíli za mými hranicemi.
neexistuje univerzální přístup ke zpracování a analýze dat a žádný „nejlepší software“.
transparentní zpracování dat
zde je otázka, o které jsem přemýšlel, na kterou bychom se místo toho mohli zaměřit. Jak můžeme zajistit, aby zpracování a analýzy dat byly transparentní a reprodukovatelné? To je mnohem důležitější pro rozvoj vědy než mlátit software.
to je však jeden z důvodů, proč preferuji R; zdokumentované zpracování a analýzu dat. Skript lze sdílet a hodnotit. Můžete dokonce dělat fantastické věci a mít R vyplivnout markdown PDF (ve formátu APA) s každým krokem zpracování a analýzy dat jako kurva průvodce.
“ ale můžete uložit a sdílet syntaxi SPSS Sam gigantický dong!“tvrdí milý člověk na mém rameni. OK, pomocí SPSS můžete spustit vše od nezpracovaných dat až po konečnou analýzu a uložit syntaxi. Skvělé, kdybych viděl, že se to skutečně děje, Byl bych u vytržení. Ale, protože se to ve statistikách undergrad neučí jako standard, skončíme s masami nezdokumentovaných nesmyslů.
Co se také stane, (a vsadím se, že peněz je více pravděpodobné, že), je to něco jiného (excel) manipulovat data s alespoň určité míry kopírovat+vložit nebo přetažením hodnoty z jednoho souboru do druhého je agregovat. Ale, možná, že moje vnímání je ovlivněno strávil asi 6 hodin v mém mistři kopírování, vkládání, vybourání dvou buněk, a záznam proměnných v jednotlivých účastníků EEG dat, v excelu, než se dostat do prostředí Matlab, bash to víc.
U velmi nejméně, tam budou nějaké fázi zpracování dat, že není zdokumentováno, a v nejhorším případě je shluk-kurva to by mohlo nikdy být replikována i s nejlepšími úmysly.
dělá to R lepší? Odpověď zní, že nemusí. Líbí se mi, že s R mohu přejít od surových dat, která byla vygenerována, ke zpracovaným datům, k výstupu z finálních statistických analýz v jediném skriptu. Je čistý a působí efektivněji. To znamená, že každá fáze může být zkontrolována. Toho však lze dosáhnout i v případě, že jste data pomocí Excelu, importovali do SPSS, udeřili do nich kladivem a poté klikli na nějakou analýzu, za předpokladu, že jsou kroky zdokumentovány. Je možné mít zcela transparentní a opakovatelné pracovní postupy bez použití skriptů programovacího jazyka. Největší rozdíl je v tom, že v R je každá fáze procesu automaticky dokumentována a ve výchozím nastavení replikovatelná.
takže stojí za to přepínat mezi softwarem? ne nutně. V první řadě si myslím, že lepší varianta je investovat čas, aby vaše data předání výpočetně reprodukovatelné a transparentní. To lze provést kdekoli, od použití syntaxe SPSS až po psaní velmi podrobného popisu části dokumentu, ze které jste zkopírovali a vložili. Pokud můžete rozumně předpokládat, že vzhledem k vašim surovým datům a dokumentaci může někdo jiný znovu vytvořit vaše výsledky, pak jsme zlatí.
To vás také může vést k programovacímu jazyku, jako je R, python nebo Matlab, protože nakonec bude méně časově náročné integrovat tyto kroky analýzy do jediného skriptu. Transparentnost je nakonec lepším cílem než softwarový fanatismus. Moje zpráva vzít domů je, že spíše než se ptát „jaký software bych se měl naučit?“, měli bychom se navzájem vyzvat, abychom se zeptali “ Jak mohu transparentně dokumentovat zpracování a analýzu dat?“.
I do still prefer R to pointy-clicky though…