miałem „dlaczego i jak przeszedłem z SPSS do R” post w pracach na jakiś czas. Chciałem podkreślić, w jaki sposób R może być bardziej użyteczny dla przejrzystych przepływów pracy danych. Potem, kilka dni temu, kolejny „co jest lepsze SPSS lub R?”rodzaj debaty pojawił się na Twitterze. Jest to podobne do wojen o wartość p, czy ciągłych bitew z bayesami, które udaje mi się jednocześnie frustrować i intrygować. Może być jakaś użyteczność w dyskusji, ale często jest to po prostu butting głowy i pominięcie innych ważnych kwestii.
ten post jest Cham-handed, Coors napędzane próba zacierania razem dlaczego dyskusja, co jest lepsze oprogramowanie jest (w większości) bez sensu i dlaczego są ważniejsze kwestie do rozwiązania.
jest coś, co dzieje się dość wcześnie w nauce języka programowania, takiego jak R, zwłaszcza gdy przechodzimy od pointy-Clicky, dragy-Droppy-Ness SPSS. Krótko mówiąc, stajesz się jednym z tych dupków, którzy szczerze myśleli, że każdy powinien po prostu używać R, i zaczynasz im to dokładnie mówić. Może nie każdemu się to zdarza, zakładam, że są tam milsi ludzie ode mnie. Co najmniej pojawia się uczucie, że R jest” lepszy ” w jakiś sposób niż SPSS.
wtedy coś się dzieje. Być może kolega przypomina ci o ograniczeniach R z powodu korzystania przez innych z samego SPSS, lub spędzasz cały tydzień wypowiadając najbardziej profanalny język graniczący z rasizmem komputerowym, ponieważ twój zasrany kod nie robi tego, co powinien robić (moje dokładne słowa nie tak dawno temu). Tak czy inaczej, zaczynasz zdawać sobie sprawę, że nie ma jednego uniwersalnego rozwiązania do przetwarzania i analizy danych. Niektóre narzędzia są lepsze do pewnych rzeczy, ale jeśli to działa, to niech działa dla ludzi (alternatywnie, nie bądź dogmatykiem, argumentując za podejściem całościowym).
niezależnie od tego, czy używasz R, SPSS, Python, JASP (krzycz do JASP za to, że jest niesamowity), MATLAB, Excel, czy jakiegokolwiek innego języka programowania lub oprogramowania do statystyk, możesz odpowiednio przeprowadzić analizy, których potrzebujesz, aby wyciągnąć wnioski statystyczne z danych. Jeśli jesteś bardzo chętny i / lub nienawidzisz siebie, możesz również zrobić to wszystko ręcznie. Ale wszyscy powinniśmy się zgodzić, że aby zrobić test t, Wszystko działa.
To, czy dany program jest „lepszy” od innego, zwłaszcza jeśli opowiadasz się za jego szerszym zastosowaniem, zależy od tego, co oznacza lepsze. Jeśli lepsze oznacza lepsze statystyki, to masz pecha, bo można to zrobić wszędzie.
jest tak wiele innych ważnych kwestii, które są pominięte w debacie między oprogramowaniem, jak; czy oprogramowanie jest wolne i open-source, i czy narzędzie oferuje statystyki bayesowskie. Używam JASP od około 30 minut i już wolę go od SPSS, ponieważ ma; natychmiastowa informacja zwrotna, bayesowskie statystyki i to za darmo. Chciałbym również użyć Pythona, ponieważ wtedy miałbym jeden język do moich zadań, obsługi danych, analizy i raportowania. Ale czas na naukę języka jest w tej chwili poza moimi granicami.
nie ma jednego uniwersalnego podejścia do przetwarzania i analizy danych i nie ma „najlepszego oprogramowania”.
przejrzysta obsługa danych
oto pytanie, nad którym myślałem, że zamiast tego możemy się skupić. Jak sprawić, by przetwarzanie danych i analizy były przejrzyste i powtarzalne? Jest to o wiele ważniejsze dla postępu nauki niż bashing oprogramowanie.
jest to jednak jeden z powodów, dla których wolę r; udokumentowane przetwarzanie i analiza danych. Skrypt można udostępniać i oceniać. Możesz nawet robić wymyślne rzeczy i kazać R wypluć znacznik PDF (w formacie APA) na każdym etapie przetwarzania i analizy danych jak pieprzony Kreator.
„ale możesz zapisywać i udostępniać składnię SPSS sam!”przekonuje miła osoba na moim ramieniu. Ok, używając SPSS możesz uruchomić wszystko, od surowych danych po końcową analizę i zapisać składnię. Świetnie, gdybym zobaczył, że to się dzieje, byłbym zachwycony. Ale, ponieważ nie jest to nauczane jako standard w statystykach undergrad, kończymy z masami nieudokumentowanych bzdur.
co się również dzieje (i założę się, że pieniądze są bardziej prawdopodobne), jest to, że używa się czegoś innego (excel) do manipulowania danymi z co najmniej pewnym stopniem kopiowania+wklejania lub przeciągania wartości z jednego pliku do drugiego, aby je agregować. Ale może moje postrzeganie jest zabarwione przez spędzanie około 6 godzin na kopiowaniu, wklejaniu, ściąganiu dwóch komórek i nagrywaniu zmiennych w danych EEG każdego uczestnika, w programie excel, przed umieszczeniem ich w Matlabie, aby jeszcze trochę je bashować.
przynajmniej będzie jakiś etap przetwarzania danych, który w najlepszym razie nie jest udokumentowany, a w najgorszym jest klaster-fuck, którego nigdy nie da się zreplikować nawet z najlepszymi intencjami.
czy to czyni R lepszym? Odpowiedź jest taka, że nie musi. Podoba mi się, że dzięki R mogę przejść od wygenerowanych surowych danych, do przetworzonych danych, do wyników końcowych analiz statystycznych w jednym skrypcie. Jest czysty i wydajniejszy. Oznacza to, że każdy etap można sprawdzić. Ale można to również osiągnąć, jeśli pobrałeś dane za pomocą Excela, zaimportowałeś do SPSS, uderzyłeś go młotem, a następnie kliknąłeś na jakąś analizę, pod warunkiem, że kroki są udokumentowane. Możliwe jest posiadanie całkowicie przejrzystego i powtarzalnego przepływu pracy bez użycia skryptowego języka programowania. Największą różnicą jest to, że w R każdy etap procesu jest domyślnie automatycznie dokumentowany i powtarzalny.
czy warto przełączać się między programami? niekoniecznie. W pierwszej kolejności uważam, że lepszym rozwiązaniem jest zainwestowanie czasu w sprawienie, aby dane były obliczeniowo powtarzalne i przejrzyste. Można to zrobić w dowolnym miejscu, od użycia składni SPSS po napisanie bardzo szczegółowego rachunku, z której części dokumentu skopiowałeś i wkleiłeś. Dopóki możesz rozsądnie założyć, że biorąc pod uwagę twoje surowe dane i dokumentację, ktoś inny może odtworzyć Twoje wyniki, jesteśmy złoci.
może to również prowadzić do języka programowania, takiego jak R, python lub Matlab, ponieważ ostatecznie zintegrowanie tych kroków analizy w jeden skrypt będzie mniej czasochłonne. W końcu przejrzystość jest lepszym celem niż fanatyzm oprogramowania. Moja wiadomość take home jest taka, że zamiast pytać ” jakiego oprogramowania powinienem się nauczyć?”, powinniśmy się wzajemnie pytać ” Jak mogę przejrzyście udokumentować przetwarzanie i analizę moich danych?”.
I do still prefer R to pointy-clicky though…