J’ai un post « pourquoi et comment j’ai fait la transition de SPSS à R » en préparation depuis un certain temps. Je voulais souligner comment R peut être plus utile pour des flux de travail de données transparents. Puis, il y a quelques jours, encore un autre « quoi de mieux SPSS ou R? »un genre de débat est apparu sur Twitter. C’est similaire aux guerres de la valeur p, ou aux batailles fréquentistes et bayésiennes continues qui parviennent à me frustrer et à m’intriguer. Il peut y avoir une certaine utilité dans la discussion, mais souvent, il ne s’agit que de couper les têtes et de manquer d’autres questions importantes.
Cet article est une tentative manquée et alimentée par Coors pour comprendre pourquoi débattre de ce qui est le meilleur logiciel est (pour la plupart) inutile et pourquoi il y a des questions plus importantes à résoudre.
Il y a quelque chose qui arrive assez tôt dans l’apprentissage d’un langage de programmation comme R, en particulier lors de la transition de la pointe-clicky, draggy-droppy-ness de SPSS. En bref, vous commencez à devenir l’un de ces trous du cul qui pensaient honnêtement que tout le monde devrait simplement utiliser R, et commence à leur dire exactement cela. Peut-être que ça n’arrive pas à tout le monde, je suppose qu’il y a des gens plus gentils que moi là-bas. À tout le moins, il y a un pincement de sentiment que R est « meilleur » en quelque sorte que SPSS.
Alors, quelque chose se passe. Peut-être qu’un collègue vous rappelle les limites de R dues à l’utilisation par d’autres de SPSS seuls, ou que vous passez une semaine complète à proférer le langage le plus profane à la limite du racisme informatique parce que votre code chiant ne fera pas ce qu’il devrait faire (mes mots exacts il n’y a pas longtemps). De toute façon, vous commencez à réaliser qu’il n’existe pas de solution unique pour le traitement et l’analyse des données. Certains outils sont meilleurs pour certaines choses, mais, si cela fonctionne, laissez-le fonctionner pour les gens (sinon, ne soyez pas un bawbag dogmatique plaidant pour une approche globale).
Que vous utilisiez R, SPSS, Python, JASP (criez à JASP d’être incroyable), MATLAB, Excel ou tout autre langage de programmation ou logiciel de statistiques, vous pouvez effectuer de manière adéquate les analyses dont vous avez besoin pour faire des inférences statistiques à partir de vos données. Si vous êtes super vif et / ou vous détestez, vous pouvez également tout faire à la main. Mais, nous devrions tous convenir que pour faire votre test t, tout fonctionne.
Le fait qu’un logiciel particulier soit « meilleur » qu’un autre, surtout si vous préconisez son utilisation plus large, dépend de ce que l’on entend par mieux. Si mieux signifie de meilleures statistiques, alors vous n’avez pas de chance, car cela peut être fait n’importe où.
Il y a tellement d’autres considérations importantes qui manquent dans le débat entre les logiciels, comme: si le logiciel est libre et open-source, et si l’outil offre des statistiques bayésiennes. J’ai utilisé JASP pendant environ 30 minutes et je le préfère déjà à SPSS car il a; rétroaction instantanée, statistiques bayésiennes, et c’est gratuit. J’aimerais aussi utiliser Python, car j’aurais alors un seul langage pour mes tâches, la gestion des données, l’analyse et les rapports. Mais, avoir le temps d’apprendre la langue dépasse mes limites pour le moment.
Il n’existe pas d’approche unique pour le traitement et l’analyse des données et pas de » meilleur logiciel « .
Gestion transparente des données
Voici la question à laquelle j’ai pensé et sur laquelle nous pourrions nous concentrer à la place. Comment rendre notre traitement et nos analyses de données transparents et reproductibles ? C’est beaucoup plus important pour l’avancement de la science que de dénigrer les logiciels.
C’est cependant une des raisons pour lesquelles je préfère R; traitement et analyse des données documentées. Le script peut être partagé et évalué. Vous pouvez même faire des trucs fantaisistes et faire cracher un PDF markdown (au format APA) à chaque étape de votre traitement et de votre analyse de données comme un putain d’assistant.
« Mais, vous pouvez enregistrer et partager la syntaxe SPSS Sam vous dong gigantesque! »argumente la gentille personne sur mon épaule. OK, en utilisant SPSS, vous pouvez tout exécuter, des données brutes à l’analyse finale et enregistrer la syntaxe. Génial, si je voyais que cela se passait réellement, je serais extatique. Mais, parce que cela n’est pas enseigné en standard dans les statistiques de premier cycle, nous nous retrouvons avec des masses d’absurdités non documentées.
Ce qui se passe également (et je parie que l’argent est plus probable), c’est que quelque chose d’autre est utilisé (excel) pour manipuler les données avec au moins un certain degré de copier-coller ou de glisser des valeurs d’un fichier dans un autre pour les agréger. Mais, peut-être que ma perception est colorée en passant environ 6 heures dans mes maîtres à copier, coller, extraire deux cellules et enregistrer des variables dans les données EEG de chaque participant, dans excel, avant de les intégrer à Matlab pour les analyser un peu plus.
À tout le moins, il y aura une étape du traitement des données qui, au mieux, n’est pas documentée, et au pire, est une baise de groupe qui ne pourrait jamais être reproduite, même avec les meilleures intentions.
Cela rend-il R meilleur? La réponse est que ce n’est pas nécessaire. J’aime qu’avec R, je puisse passer des données brutes générées aux données traitées, à la sortie des analyses statistiques finales dans un seul script. C’est propre et plus efficace. Cela signifie que chaque étape peut être vérifiée. Mais cela peut également être réalisé si vous avez frappé les données avec Excel, importé dans SPSS, frappé avec un marteau, puis clickedy a cliqué sur une analyse, à condition que les étapes soient documentées. Il est possible d’avoir un flux de travail complètement transparent et réplicable sans utiliser de langage de programmation scripté. La plus grande différence est que, dans R, chaque étape du processus est automatiquement documentée et réplicable par défaut.
Alors, vaut-il la peine de basculer entre les logiciels? pas nécessairement. En premier lieu, je pense que la meilleure option est d’investir du temps pour rendre vos données reproductibles et transparentes sur le plan informatique. Cela peut être fait n’importe où, de l’utilisation de la syntaxe SPSS à l’écriture d’un compte rendu super détaillé de la partie d’un document à partir de laquelle vous avez copié et collé. Tant que vous pouvez raisonnablement supposer que, compte tenu de vos données brutes et de votre documentation, quelqu’un d’autre peut recréer vos résultats, nous sommes en or.
Cela peut également vous conduire vers un langage de programmation comme R, python ou Matlab car il sera finalement moins long d’intégrer ces étapes d’analyse dans un seul script. En fin de compte, la transparence est un meilleur objectif que le sectarisme logiciel. Mon message à retenir est que plutôt que de demander « quel logiciel devrais-je apprendre? », nous devrions nous demander mutuellement « comment puis-je documenter de manière transparente mon traitement et mon analyse de données? ».
I do still prefer R to pointy-clicky though…