Calage sur composantes principales VS calage pénalisé appliqué à la mesure d’audience hybride Internet

Expertises

7ème Colloque Francophone sur les Sondages

Publié le 06.11.2012

"Calage sur composantes principales versus calage pénalisé appliqué à la mesure d’audience hybride Internet"

Par Aurélie Vanheuverzwyn, directrice exécutive - Data et Méthodes, et Lila Zydorczak, experte statisticienne

L’Internet en tant que média numérique offre deux principales possibilités de mesure. La première dite mesure site centric est fondée sur l’insertion de marqueurs ou tags et permet une analyse exhaustive du trafic et de la fréquentation d’un site. La seconde mesure est une mesure d’audience qui repose sur un panel et permet quant à elle de quantifier et de qualifier les visiteurs d’un site sur des critères sociodémographiques.

Ces deux outils apportent ainsi une perspective différente et complémentaire sur l’analyse des usages internet que la mesure hybride souhaite réconcilier au sein d’une mesure tirant parti du meilleur de chacune. La méthodologie envisagée se traduit en pratique par l’injection de résultats issus de la mesure site centric au sein de la mesure d’audience issue du panel. Ainsi, le redressement du panel ne se restreint plus aux seuls critères sociodémographiques classiques (sexe, âge, PCS, etc.) et une dimension quantitative est ajoutée par la mesure site centric qui délivre, à la manière d’un recensement, le nombre de visites pour un certain nombre de sites.

Cependant, la mesure site centric nous fournit une telle quantité d’information que la méthode d’estimation par calage classique (Deville and Särndal, 1992) peut s’avérer inefficace. Le calage pénalisé (Rao and Singh, 2009) et le calage sur composantes principales (Goga et al., 2011) proposent tous deux de relâcher les contraintes de calage mais de façon différente. Dans le premier cas, on utilise une contrainte quadratique sur les poids de calage. Pour la distance de chi-deux, cela revient à faire une régression de type ridge. La deuxième méthode consiste à réaliser un calage classique sur un nombre réduit de nouvelles variables, les composantes principales de la matrice de variables de calage. De cette façon, on réduit la dimension tout en gardant le maximum d'information.

L'objectif des travaux de cette présentation est d’appliquer et de comparer ces deux méthodes dans le cadre de la mesure hybride Internet afin de prendre en compte l’information auxiliaire plus riche et ainsi d’améliorer la précision des estimations.

Pour consulter l'intégralité de cette présentation, cliquez sur l'icône de téléchargement ci-dessous.

Pour consulter l'intégralité de ce document, cliquez sur l'icône de téléchargement ci-dessous.

Téléchargements

Télécharger

Calcul d’intervalle de confiance à 95%

Taille de l'échantillon ou d'une cible dans l'échantillon

n =

Proportion observée dans l'échantillon ou sur une cible dans l'échantillon

p =

Attention : ne s'applique qu'à une proportion. Le Taux Moyen est une moyenne de proportions et la Part d'audience un rapport de proportions.
Cet outil est donné à titre indicatif. Il ne saurait pouvoir s'appliquer sans autres précautions à des fins professionnelles.