La fusion statistique, une réponse efficace à la problématique de données manquantes

19èmes Journées d'Etude en Statistique de la SFdS (JES)
Image

"Fusion de fichiers d'enquêtes"

Par Aurélie Vanheuverzwyn, directrice exécutive - Data et Méthodes - Médiamétrie 

Le secteur des enquêtes et des sondages d’opinion est confronté à une baisse de plus en plus importante des taux de réponse. Cette baisse s’explique notamment par la croissance des sollicitations et la multiplication des modes de contacts utilisés. De plus, les réflexions citoyennes qui ont précédé l’entrée en vigueur le 25 mai 2018 du Règlement Général européen sur la Protection des Données ont fait prendre conscience aux citoyens de la valeur des informations les concernant.


Dans ce contexte, le statisticien doit innover en permanence dans la collecte des données, proposer des questionnaires plus simples et plus courts et des modes de collecte adaptés et ce afin de limiter le fardeau de réponse (response burden en anglais).
Ainsi, plutôt que de recueillir l’ensemble des informations souhaitées auprès d’un unique échantillon, on sera parfois contraint ou on pourra choisir de collecter une partie des variables d’intérêt auprès d’un premier échantillon et l’autre partie auprès d’un second échantillon, disjoint du premier. L’enjeu sera alors de combiner ces sources d’information multiples de manière à obtenir une information complète.

C’est pour répondre à cette problématique qu’ont été introduites les méthodes de fusion statistique de données. Apparues au milieu des années 60, leur usage s’est grandement répandu dans les années 80-90 dans le domaine des études de marché et d’audience car elles offrent une réponse économique et pragmatique à un besoin croissant d’informations. économique car un recueil complet peut s’avérer complexe et donc coûteux et pragmatique car le résultat des fusions est un fichier complet simple d’utilisation et de traitement par des logiciels standard.


La fusion statistique, parfois appelée appariement statistique, (statistical matching ou data fusion en anglais) est une approche basée sur un modèle pour produire des informations croisées sur des variables collectées via plusieurs sources, généralement des enquêtes, issues de la même population, par opposition aux croisements informatiques de fichiers (exact matching ou record linkage en anglais) qui visent à identifier des unités identiques au sein de différents fichiers.

 

Et pour en savoir plus : découvrez le chapitre qu'Aurélie Vanheuverzwyn a consacré à la fusion de fichiers d'enquête, dans l'ouvrage Données manquantes publié par la SFdS aux éditions Technip en juin 2022.

 

Image
Données manquantes

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

Test de significativité des écarts entre deux proportions

Permet d'évaluer si la différence entre 2 proportions est significative au seuil de 95%

Proportion

Taille de l'échantillon

Échantillon 1

%

Échantillon 2

%

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.

En complément
×
Dictionnaire
Les mots
des médias
Nouvelle
édition
+500
définitions
A
B
C
D
E
F
G
H
I