🧬Les mercredis de la science : Statistiques 101

L'image est une bannière sur fond bleu dégradé. Sur le côté gauche, elle affiche le texte « Les mercredis de la science » en blanc. Le côté droit présente un motif d'hexagones et de cercles interconnectés, ressemblant à une structure moléculaire ou à un réseau.

Statistics 101

From the Desk of Dr. Danielle Meadows
Vice President of Research Programs & Operations

Cette image représente Danielle Meadows, aux cheveux bruns mi-longs, portant un blazer sombre et un haut vert.

Il y a quelques mois, j’ai commencĂ© Ă  parler de l’Ă©valuation des Ă©tudes de recherche en examinant ce que signifie une Ă©tude bien conçue. Dans le cadre de cette discussion (que vous pouvez lire ici si vous l’avez manquĂ©e), j’ai mentionnĂ© les modèles d’analyse statistique et le niveau de signification comme facteurs entrant dans cette Ă©valuation. Ce mois-ci, je souhaite donc approfondir un peu plus ce sujet dans le cadre de l’Ă©tape « Analyse des donnĂ©es » du processus de recherche.

L'image est un organigramme présentant les quatre étapes du processus de recherche : « Conception de l'étude, examen par l'IRB/éthique », « Recrutement, collecte des données », « Analyse des données » et « Publication ». La troisième étape, « Analyse des données », est surlignée sur un fond sarcelle, ce qui indique qu'elle est importante.

Les statistiques sont considérées comme un moyen mathématique de décrire des données et de tester des hypothèses. Parmi les éléments fondamentaux des statistiques, on trouve les valeurs p, les régressions et les intervalles de confiance.

Le cœur du sujet

  • Les statistiques constituent un Ă©lĂ©ment essentiel de la phase « Analyse des donnĂ©es » du processus de recherche, car elles permettent de comprendre les donnĂ©es.
  • Parmi les Ă©lĂ©ments fondamentaux des statistiques, on peut citer les valeurs p pour Ă©valuer la signification des rĂ©sultats, l’analyse de rĂ©gression pour comprendre les relations entre les paramètres et les intervalles de confiance pour prĂ©dire les valeurs.
  • Lorsque vous examinez les rĂ©sultats d’une Ă©tude de recherche, recherchez les corrections pour tests multiples (par exemple, la correction de Bonferroni) permettant d’Ă©valuer plusieurs hypothèses ou sous-ensembles, ainsi que l’utilisation de tests statistiques appropriĂ©s (par exemple, les tests t pour comparer les moyennes de deux groupes par rapport Ă  l’ANOVA pour trois groupes ou plus).
  • Le Centre de recherche informatique sur les maladies complexes de l’OMF renforce la rigueur scientifique du portefeuille de recherche de l’OMF, en apportant une expertise cruciale en matière de statistiques pour la recherche biomĂ©dicale.

Statistiques

Trois personnes analysant des données sur un ordinateur portable, avec des graphiques statistiques et une silhouette de ville en arrière-plan, symbolisant les statistiques et l'analyse des données.
Qu’est-ce qu’une valeur p ?

Dans le monde de la recherche et des statistiques, le mot « significatif » a une acception particulière. En gĂ©nĂ©ral, un rĂ©sultat est considĂ©rĂ© comme significatif s’il y a peu de chances qu’il puisse s’expliquer par le hasard et qu’il est donc dĂ» Ă  ce qui est testĂ©. Le calcul d’une valeur p lors de l’analyse d’un ensemble de donnĂ©es permet de dĂ©terminer si les rĂ©sultats sont significatifs.

Pour qu’une valeur p ait un sens, une partie du processus de conception de l’Ă©tude doit inclure la dĂ©finition d’un niveau de signification. Il s’agit gĂ©nĂ©ralement d’une valeur autour de 0,05, et une valeur p infĂ©rieure au niveau de signification indique que les rĂ©sultats sont significatifs.

Qu’est-ce qu’une analyse de rĂ©gression ?

Une analyse de rĂ©gression est un moyen d’analyser la relation entre une variable dĂ©pendante et au moins une variable indĂ©pendante. En d’autres termes, une analyse de rĂ©gression tente de prĂ©dire un paramètre (la variable dĂ©pendante) sur la base d’un autre paramètre (la variable indĂ©pendante). 

En poussant l’analyse de rĂ©gression un peu plus loin, les statistiques peuvent Ă©galement dĂ©crire la force de la relation entre les variables Ă  l’aide d’un coefficient de corrĂ©lation. Les coefficients de corrĂ©lation vont de -1 Ă  1. Un coefficient de -1 signifie que les variables sont parfaitement corrĂ©lĂ©es nĂ©gativement : lorsque la variable indĂ©pendante augmente d’une unitĂ©, la variable dĂ©pendante diminue d’une unitĂ©. Une corrĂ©lation positive parfaite, lorsque le coefficient est Ă©gal Ă  1, signifie que les variables indĂ©pendante et dĂ©pendante Ă©voluent dans le mĂŞme sens, et un coefficient de 0 indique qu’il n’y a pas de relation entre les variables.

Qu’est-ce qu’un intervalle de confiance ?

Un intervalle de confiance est la plage de valeurs dans laquelle un paramètre est susceptible de se situer si vous rĂ©pĂ©tez le test. Par exemple, pour un intervalle de confiance de 95 %, vous seriez sĂ»r Ă  95 % qu’un nouveau test produirait une valeur comprise dans la plage spĂ©cifiĂ©e. Cet intervalle peut donc ĂŞtre un moyen de dĂ©crire les donnĂ©es, y compris leur variabilitĂ© ou leur dispersion.

Qu’est-ce que cela signifie pour l’Ă©valuation et la comprĂ©hension des rĂ©sultats de recherche ?

DiffĂ©rents types de tests statistiques sont nĂ©cessaires pour diffĂ©rents types de recherche, et il existe de nombreuses façons d’introduire un biais dans les statistiques, ce qui complique l’analyse appropriĂ©e. Pour comprendre si une Ă©tude de recherche a utilisĂ© les tests statistiques appropriĂ©s, une ligne directrice gĂ©nĂ©rale est la suivante : le nombre de groupes comparĂ©s a une grande incidence sur le choix du test appropriĂ©. Par exemple, un test t ne doit ĂŞtre utilisĂ© que pour comparer les moyennes de deux groupes, mais la comparaison de trois groupes ou plus nĂ©cessite un test diffĂ©rent, tel qu’une analyse de la variance (ANOVA). Il existe de nombreux types de tests statistiques et de nuances Ă  prendre en compte, mais cette règle peut au moins servir de point de dĂ©part.

Dans le monde de la recherche sur l’EM/SFC et la COVID longue, l’analyse des donnĂ©es est encore compliquĂ©e par le concept de tests multiples. Tester plusieurs hypothèses Ă  la fois ou examiner des sous-ensembles peut introduire un biais dans les statistiques. Par consĂ©quent, les Ă©tudes de recherche effectuant des tests multiples devraient soit utiliser un niveau de signification plus strict (infĂ©rieur Ă  la valeur typique de 0,05), soit intĂ©grer des corrections a posteriori pour leurs valeurs p (par exemple, la correction de Bonferroni).

Le Centre de recherche informatique sur les maladies complexes de l’OMF, dirigĂ© par le Dr Wenzhong Xiao, possède une vaste expertise en statistiques, en particulier dans le contexte de la recherche biomĂ©dicale. Le fait de disposer de cette expertise dans le cadre du modèle de recherche collaborative de l’OMF contribue Ă  la rigueur scientifique du portefeuille de recherche de l’OMF. Pour en savoir plus sur le centre informatique consultez notre site web.