Petit guide pratique sur la présentation des sondages

Les sondages, et particulièrement l’interprétation que l’on peut en faire, font fréquemment l’objet de débats, souvent houleux. Le guide pratique sur la présentation des sondages, que nous vous proposons ici, n’a pas la prétention d’apporter une réponse définitive aux questions, très complexes, que soulèvent ces débats.

Plutôt, nous souhaitions ici rappeler les principes fondamentaux qui devraient guider les journalistes et les médias lorsqu’ils rapportent les résultats d’un sondage.

Nous tenons à remercier Claire Durand, professeur de sociologie à l’Université de Montréal, ainsi que Frédéric Bastien, professeur de science politique à l’Université de Montréal, pour leurs judicieux commentaires et suggestions.

Éléments factuels essentiels

Lorsqu’un journaliste ou un média rapporte les résultats d’un sondage, un certain nombre d’éléments doit être présenté.

Notons tout de suite que la plupart sinon la totalité de ces éléments font partie des rapports de sondage préparés par les firmes, les médias pourraient tout simplement s’assurer que ces rapports soient disponibles sur leur site web.

1) Firme ayant réalisé le sondage

2) Commanditaire du sondage

3) Portrait de la population visée par le sondage

Définition : en statistique, la population visée est un ensemble précis de personnes sur lesquelles porte une étude. Le plus souvent, elle diffère de ce qu’on appelle, dans le langage courant, la « population », ne serait-ce parce que les sondages interrogent rarement des personnes âgées de moins de 18 ans.
Lorsqu’il s’agit d’un sondage électoral, la population sera le plus souvent constituée de tous les citoyens ayant l’âge de voter et habitant un territoire donné (le Canada, le Québec, l’Estrie, etc.)

4) Informations sur l’échantillon

Définition : l’échantillon est un sous-ensemble de la population visée.
L’échantillonnage est-il probabiliste ou non-probabiliste? On dit d’une méthode d’échantillonnage qu’elle est probabiliste lorsque tous les membres de la population ont une chance connue et non nulle d’être choisis. C’est ici que l’on remarque la différence la plus importante entre les sondages faits par téléphone et ceux faits par internet.
Même si les sondages téléphoniques comportent aussi des biais – entre autres ils ne comprennent pas habituellement les personnes qui ont uniquement un téléphone cellulaire – on considère que l’échantillonnage y est fait de façon aléatoire, soit à partir de listes de numéros de téléphone. Autrement dit, on suppose que tous, dans la population visée, ont une chance connue et non nulle d’être sélectionnés. Ces sondages sont donc considérés probabilistes.
Par contre, les listes pour les sondages par panel internet sont constituées à partir de sollicitation faite sur différents sites ou à partir d’enquêtes téléphoniques. Puisqu’il n’existe pas de liste qui recense toutes les adresses courriel de tous les citoyens d’un territoire, ces sondages sont considérés non probabilistes – tous n’ont pas une chance connue d’être sélectionnés. Il peut entre autres y avoir ce qu’on appelle un biais d’auto-sélection : seuls ceux qui se sont inscrits à une liste de distribution de sondages ont une « chance » d’être sélectionnés. À cela s’ajoute le biais provenant du fait qu’une partie substantielle de la population n’a pas accès à internet.
À noter qu’on peut calculer une marge d’erreur uniquement pour les sondages probabilistes. Dans la formulation « un échantillon probabiliste de cette taille aurait une marge d’erreur de », que certaines firmes de sondage emploient, est généralement exacte mais elle peut porter à confusion : l’emploi du conditionnel signale bien que la marge d’erreur ne s’applique pas réellement.

5) Marge d’erreur

Définition : la marge d’erreur est la précision du résultat obtenu étant donné le seuil de confiance que l’on est prêt à accepter. En sciences sociales, la norme est un seuil de 95 % (ou 19 fois sur 20).
En langage courant, cela signifie que si l’on faisait le sondage 20 fois, on obtiendrait des résultats qui se situeraient à l’intérieur de la marge d’erreur 19 fois, soit 95 % du temps.
Le plus souvent, c’est la marge d’erreur maximale qui est mentionnée. Ainsi, lorsqu’on affirme qu’un sondage a une marge d’erreur de plus ou moins 3 points de pourcentage, 19 fois sur 20, il s’agit en fait de la marge d’erreur pour une réponse qui aurait été choisie par 50 % des répondants. La marge d’erreur réelle diminue progressivement lorsque la proportion s’éloigne de 50 %. Autrement dit, plus une population sera homogène (près de 0 % ou de 100 %), plus l’estimation obtenue sera précise.

6) Dates de réalisation de l’enquête

7) Méthode d’enquête

Par téléphone, par internet, en personne, etc.

Interprétation : quelques questions sensibles

1) La marge d’erreur

Fréquemment, journalistes et médias ne tiennent pas compte adéquatement de la marge d’erreur lorsqu’ils interprètent les résultats d’un sondage.
Il ne suffit pas qu’il y ait une différence entre deux réponses (ou lorsqu’il s’agit d’un sondage électoral : entre deux partis politiques) pour pouvoir affirmer qu’une réponse a été préférée à une autre (ou qu’un parti est en avance sur un autre).
Très souvent, la différence n’est pas statistiquement significative!
Il n’y a pas de règle simple permettant de savoir rapidement si une différence observée entre deux proportions est significative – c’est uniquement par un calcul mathématique complexe que l’on peut y arriver.
Cela étant dit, si la différence entre deux proportions (ou deux partis) est supérieure à deux fois la marge d’erreur maximale (voir plus haut, point 5c), on est assuré que cette différence est significative. Cette règle est cependant très conservatrice : le plus souvent, la différence n’a pas besoin d’être aussi grande.
À l’inverse, si la différence entre deux proportions est inférieure à la marge d’erreur, on est assuré que cette différence n’est pas significative.
Pour savoir précisément si la différence entre deux proportions est significative, vous pouvez utiliser l’outil ci-dessous, qui s’inspire très largement d’un calculateur créé par Bryan Breguet, fondateur du site tooclosetocall.ca.

2) La formulation des questions

Il importe de refléter le plus fidèlement possible les nuances établies par les questions, en prêtant une attention particulière au choix de mots.
Ex : Un sondage peut demander quel parti a le plus de chance de former le gouvernement. Il ne faut pas confondre les réponses à une telle question comme un signe que les répondants entendent voter pour le parti qu’ils identifient comme étant le plus susceptible de l’emporter.

3) Les discrets

Il est important de rapporter la proportion de discrets (indécis, refus de répondre ou, lors d’un sondage électoral, ceux qui affirment qu’ils ne voteront pas ou qu’ils annuleront leur vote). Il s’agit d’une information essentielle à la compréhension des résultats d’un sondage.
Ex : Lors de sondages électoraux, il arrive qu’un très haut taux de personnes n’indique pas – pour diverses raisons – à quel parti ils donnent leur appui. C’est une donnée importante, en soi, qui devrait être rapportée, puisqu’elle indique la possibilité d’une certaine volatilité dans l’électorat.

4) Les décimales

Il est imprudent de présenter les résultats numériques d’un sondage en utilisant une décimale. Cela pourrait amener le public à croire que le sondage offre un niveau exagéré de précision.
Ex : Avancer que le PQ récolte 34,2 % d’appui dans la population.

5) Le contexte

Dans la mesure du possible, il est important de replacer un sondage dans son contexte temporel.
Par exemple, si un sondage a été effectué avant (ou pendant) un évènement important, qui pourrait être de nature à modifier les résultats, mais qu’il est diffusé après celui-ci, il faut le mentionner.
Ex : Un sondage sur les appuis aux partis politique est réalisé, sur trois jours. Le deuxième jour, un scandale éclate, mais la collecte de réponses se poursuit.

6) Les tendances

Il est souvent souhaitable de comparer les résultats d’un sondage avec ceux d’autres sondages similaires, précédemment réalisés.
Une telle pratique permet au public de mettre certains résultats en perspective.
Il importe cependant de tenir compte de la marge d’erreur. Voir l’outil de calcul, plus haut.
Ex : Certains sondages sont réalisés année après année. Il est souhaitable de comparer les données, d’une année à l’autre.

7) Les sous-groupes

Il peut parfois être pertinent de décomposer les résultats, en présentant les réponses de sous-groupes (région, âge, langue, etc.)
Par contre, on doit alors tenir compte du fait que ces sous-échantillons sont forcément plus petits, et donc que la marge d’erreur est parfois très importante. Conséquemment, on doit savoir que les résultats pour des sous-groupes peuvent varier sensiblement d’un sondage à l’autre sans qu’il y ait une véritable évolution dans la population.
Ex : Au Québec, les anglophones et allophones n’appuient généralement pas les mêmes partis que les francophones. Il peut être pertinent de décomposer les résultats des sondages pour refléter ces différences.