La fusion statistique, une réponse efficace à la problématique de données manquantes

19èmes Journées d'Etude en Statistique de la SFdS (JES)
Image

"Fusion de fichiers d'enquêtes"

Par Aurélie Vanheuverzwyn, directrice exécutive - Data et Méthodes - Médiamétrie 

Le secteur des enquêtes et des sondages d’opinion est confronté à une baisse de plus en plus importante des taux de réponse. Cette baisse s’explique notamment par la croissance des sollicitations et la multiplication des modes de contacts utilisés. De plus, les réflexions citoyennes qui ont précédé l’entrée en vigueur le 25 mai 2018 du Règlement Général européen sur la Protection des Données ont fait prendre conscience aux citoyens de la valeur des informations les concernant.


Dans ce contexte, le statisticien doit innover en permanence dans la collecte des données, proposer des questionnaires plus simples et plus courts et des modes de collecte adaptés et ce afin de limiter le fardeau de réponse (response burden en anglais).
Ainsi, plutôt que de recueillir l’ensemble des informations souhaitées auprès d’un unique échantillon, on sera parfois contraint ou on pourra choisir de collecter une partie des variables d’intérêt auprès d’un premier échantillon et l’autre partie auprès d’un second échantillon, disjoint du premier. L’enjeu sera alors de combiner ces sources d’information multiples de manière à obtenir une information complète.

C’est pour répondre à cette problématique qu’ont été introduites les méthodes de fusion statistique de données. Apparues au milieu des années 60, leur usage s’est grandement répandu dans les années 80-90 dans le domaine des études de marché et d’audience car elles offrent une réponse économique et pragmatique à un besoin croissant d’informations. économique car un recueil complet peut s’avérer complexe et donc coûteux et pragmatique car le résultat des fusions est un fichier complet simple d’utilisation et de traitement par des logiciels standard.


La fusion statistique, parfois appelée appariement statistique, (statistical matching ou data fusion en anglais) est une approche basée sur un modèle pour produire des informations croisées sur des variables collectées via plusieurs sources, généralement des enquêtes, issues de la même population, par opposition aux croisements informatiques de fichiers (exact matching ou record linkage en anglais) qui visent à identifier des unités identiques au sein de différents fichiers.

 

Et pour en savoir plus : découvrez le chapitre qu'Aurélie Vanheuverzwyn a consacré à la fusion de fichiers d'enquête, dans l'ouvrage Données manquantes publié par la SFdS aux éditions Technip en juin 2022.

 

Image
Données manquantes

Confidence interval calculus

Sample size or target in the sample

n =

Proportion observed in the sample or on a target in the sample

p =

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

Test of significance of the differences between two proportions

Used to assess whether the difference between 2 proportions is significant at the 95% threshold

Proportion

Sample size

1st sample

%

2nd sample

%

Warning: only applies to a proportion. The Average Rate is an average of proportions and the Audience Share a ratio of proportions. This tool is provided for information purposes. It cannot be applied for professional purposes without further precautions.

More
×
Dictionnaire
Les mots
des médias
New
edition
+500
definitions
A
B
C
D
E
F
G
H
I