Traitements de la non-réponse de lien dans l'échantillonnage indirect
(Affichage des formules mathématiques ou scientifiques (correctif pour MathML))

Xiaojian Xu et Pierre Lavallée 1

Résumé

Nous cherchons à corriger la surestimation causée par la non-réponse de lien dans l'échantillonnage indirect lorsque l'on utilise la méthode généralisée de partage des poids (MGPP). Nous avons élaboré quelques méthodes de correction pour tenir compte de la non-réponse de lien dans la MGPP applicables lorsque l'on dispose ou non de variables auxiliaires. Nous présentons une étude par simulation de certaines de ces méthodes de correction fondée sur des données d'enquête longitudinale. Les résultats des simulations révèlent que les corrections proposées de la MGPP réduisent bien le biais et la variance d'estimation. L'accroissement de la réduction du biais est significatif.

Mots-clés : Méthode de partage des poids ; non-réponse ; échantillonnage indirect ; enquête longitudinale.

1. Introduction

Par échantillonnage indirect, on entend la sélection d'échantillons dans une population qui n'est pas celle que l'on veut étudier, mais qui y est reliée. Un scénario d'échantillonnage de ce genre est souvent mis en œuvre lorsque l'on ne dispose pas de bases de sondage pour la population cible, mais que l'on en possède pour une autre population qui y est reliée. Nous appelons cette dernière la population d'échantillonnage. Par exemple, dans Lavallée (2007), nous considérons la situation où l'estimation a trait aux jeunes enfants dans les familles, mais où nous disposons seulement d'une liste de noms de parents comme base de sondage. Par conséquent, nous devons d'abord sélectionner un échantillon de parents avant de pouvoir sélectionner l'échantillon d'enfants. Dans cette situation type d'échantillonnage indirect, la population d'échantillonnage est celle des parents, tandis que la population cible est celle des enfants. Il convient de souligner que les enfants d'une famille particulière peuvent être sélectionnés par l'entremise de leur père ou de leur mère. La figure 1 donne une illustration simple de ce scénario d'échantillonnage indirect (figure 1.2, Lavallée 2007).

La littérature concernant les problèmes d'estimation associés à l'échantillonnage indirect est abondante et nous ne nommerons que quelques-uns de ces travaux ici. Ernst (1989) est le premier à discuter des méthodes appliquées pour produire des estimations transversales au moyen de données provenant d'une enquête-ménages longitudinale. Il présente la méthode de partage des poids dans le contexte d'une enquête longitudinale et montre aussi qu'elle fournit un estimateur sans biais du total pour toute caractéristique de la population d'intérêt. Kalton et Brick (1995) concluent qu'une telle méthode fournit aussi la variance minimale du total de population estimé sous certains scénarios d'échan­tillonnage simples pour une enquête-ménages longitudinale par panel. Lavallée (1995) étend la méthode de partage des poids à un contexte tout à fait général d'échantillonnage indirect qui comprend l'enquête longitu­dinale comme cas particulier, pour obtenir la méthode généralisée de partage des poids (MGPP). Il montre que ce scénario de pondération produit des estimations sans biais quel que soit le plan d'échantillonnage utilisé pour obtenir un échantillon de la population d'échantillonnage. Comme cela est le cas de tout scénario de pondération, la mise en œuvre de la MGPP requiert une correction pour divers problèmes de non-réponse. Lavallée (2001) fournit une MGPP corrigée tenant compte des problèmes de non-réponse dans l'échantillonnage indirect. Ce dernier comporte un autre type de non-réponse, dénommée non-réponse de lien (link nonresponse) et que Lavallée (2001) avait appelée « non-réponse de relation (relationship nonresponse) », dû au fait qu'il est impossible de déterminer, ou que l'on n'a pas réussi à déterminer, si une unité de la population d'échantillonnage est apparentée (liée) à une unité dans la population cible. Lavallée (2001) souligne qu'en cas de non-réponse de lien, la MGPP donne lieu à une surestimation, mais laisse ouverte la question de la correction qu'il convient d'apporter pour tenir compte de la non-réponse de lien. L'objectif de la présente étude est d'élaborer des méthodes pour traiter le biais d'estimation causé par cette non-réponse de lien.

La présentation de la suite de l'article est la suivante. À la section 2, nous décrivons la notation et le problème étudié. À la section 3, nous proposons quelques modifications de la MGPP en vue d'intégrer la non-réponse de lien. À la section 4, nous décrivons une étude par simulation portant sur un ensemble de données réelles et à la section 5, nous présentons certaines conclusions. Il convient de souligner que nous nous servons dans le présent article d'une étude par simulation pour illustrer les progrès réalisés grâce aux nouvelles méthodes, et que d'autres contributions théoriques à la résolution du problème peuvent être consultées dans Lavallée (2002), Deville et Lavallée (2006), et Lavallée (2007).

Figure 1 Échantillonnage indirect d'enfants

Figure 1 Échantillonnage indirect d'enfants

2. Notation et problème

Soit UA et UB la population d'échantillonnage et la population cible, respectivement. Donc, UA est la population reliée à UB pour laquelle existe une base de sondage connue. Soit sA,MA et mA, un échantillon tiré de UA, le nombre d'unités dans UA et le nombre d'unités dans sA, respectivement. Soit πjA la probabilité de sélection de la je  unité dans UA, avec πjA>0 et j=1MAπjA=mA. Nous utilisons également la notation suivante : MB,N,UiB et MiB, le nombre d'unités dans UB, le nombre de grappes dans UB, la ie grappe de UB avec i=1NUiB=UB, et le nombre d'unités dans la ie grappe UiB, respectivement.

Soit lj,ik, une variable indicatrice de l'existence d'un lien : lj,ik=1 indique qu'il existe un lien entre la je unité de UA et la ke unité de UiB, tandis que lj,ik=0 indique qu'il n'existe pas de lien. Soit aussi Lj,iB, le nombre total de liens existants entre l'unité j de UA et les unités de UiB, c'est-à-dire Lj,iB=k=1MiBlj,ik. Soit LiB, le nombre total de liens existants entre les unités de UA et les unités de UiB, c'est-à-dire LiB=j=1MALj,iB. Nous désignons par yik les caractéristiques de la ke unité de la ie grappe dans la population UB , et par YB le total de tous les yik. Nous avons alors YB=i=1Nk=1MiByik.

Désignons par ΩB les grappes dans UB où il existe au moins une unité ik telle que lj,ik=1 pour une je unité dans sA, et disons qu'elle peut être identifiée par les unités j dans sA, c'est-à-dire qu'une telle unité i satisfait LiB= j=1MAk=1MiBlj,ik>0. Le nombre de grappes dans ΩB est n. Après l'échantillonnage, nous avons réétiqueté les grappes comprises dans ΩB au moyen de l'indice i=1,2,,n. Nous désignons par wik le poids d'estimation appliqué à la ke unité de la ie grappe, par ΩiA l'ensemble d'unités comprises dans UA qui ont des liens avec certaines unités comprises dans UiB avec iΩB, et par ΩA l'ensemble d'unités comprises dans UA qui ont des liens avec certaines unités | comprise dans ΩB, c'est-à-dire ΩA= {j|iΩBLj,iB0}. Nous utilisons siA pour indiquer l'ensemble d'unités dans sA qui ont des liens avec certaines unités de UiB avec iΩB. Soit TA,TiA et miA, le nombre d'unités dans ΩA, le nombre d'unités dans ΩiA et le nombre d'unités dans siA, respectivement. Enfin, nous utilisons les trois indicateurs suivants : soit tj la variable indicatrice de sélection dans sA:tj=1 indique que la je unité de UA est dans sA et tj=0 indique le contraire. Soit tjL la variable indicatrice d'inclusion dans sA pour les unités de ΩA:tjL=1 indique que la je unité de ΩA est dans sA et tjL=0 indique le contraire ; soit, enfin, tj,iL la variable indicatrice d'inclusion dans siA pour les unités de ΩiA:tj,iL=1 indique que la je unité de ΩiA est dans siA et tj,iL=1 indique le contraire.

Notre objectif est d'estimer le total YB, qui est notre paramètre d'intérêt, pour la population cible UB qui est divisée en N grappes. Pour le faire, nous sélectionnons un échantillon sA dans UA avec la probabilité de sélection πjA. Puis, nous identifions ΩB en utilisant lj,ik0. Toutes les unités des grappes comprises dans ΩB font partie de l'étude dans laquelle nous mesurons yik et l'ensemble des lj,ik.

En appliquant la MGPP, nous attribuerons un poids d'estimation wik à chaque unité k des grappes étudiées i. Ces poids peuvent être choisis de manière appropriée pour que l'estimateur de YB:

Y^B=i=1nk=1MiBwikyik (1)

donne de bons résultats pour l'estimation de YB.

Nous souhaitons estimer la quantité YB en utilisant Y^B. En suivant Horvitz et Thompson (1952), posons que wik est égal à l'inverse de la probabilité de sélection, πik, de la ke  unité de UiB dans la population cible. Alors, Y^B donne un estimateur sans biais de YB. Cependant, le calcul de πik est difficile, voire même impossible, dans le cas qui nous occupe, à cause de la complexité du scénario d'échan­tillonnage indirect. Par conséquent, nous introduisons la MGPP pour résoudre ce problème. Pour la commodité du lecteur, nous donnons ici les grandes lignes de la MGPP en calculant les poids pour chaque grappe qui a été observée.

Étape 1 : Fournir les poids initiaux wik

wik=j=1MAlj,iktjπjA; (2)

Étape 2 : Calculer LiB

LiB=k=1MiBj=1MAlj,ik; (3)

Étape 3 : Obtenir le poids final wi

wi=k=1MiBwikLiB; (4)

Étape 4 : Poser que wik=wi pour tout k dans la ie  grappe.

Il découle du théorème de la section 3 de Lavallée (2001) que

Y^B=i=1nj=1MALj,iBtjπjALiBk=1MiByik (5)

offre un estimateur sans biais de YB à condition que tous les liens lj,ik puissent être identifiés correctement. Les poids d'estimation attribués dans (5) sont

wik={j=1MALj,iBtjπjALiB,pourtoutesles unitéskdanslagrappeiquandiestdansΩB;0,quandin'estpasdansΩB. (6)

Un exemple simple est illustré à la figure 2. Nous voulons estimer le total YB lié à la population cible UB. Supposons que nous sélectionnons les unités j=1 et 2 dans UA. En sélectionnant l'unité j=1, nous étudions les unités de la grappe i=1. De même, en sélectionnant l'unité j=2, nous étudions les unités des grappes i=1, et 2. Par conséquent, nous avons ΩB={1,2}. Pour chaque unité k des grappes i de ΩB, nous calculons les poids initiaux wik donnés par (2), le nombre total de liens qui existent entre les unités de UA et les unités de UiB,LiB, et les poids finaux wik. Alors, d'après (5), l'estimateur résultant de YB prend la forme qui suit (voir Lavallée 2007, pages 17 et 18 pour plus de précisions) :

Y^B=12[1π1A+1π2A]y11+12[1π1A+1π2A]y12+13π2Ay21+13π2Ay22+13π2Ay23. (7)

Soulignons que, dans le cas de l'estimateur pour lequel lj,ik est connu, la seule hypothèse pour l'absence de biais est que LiB>0 pour toutes les grappes i dans UB. Autrement dit, chaque grappe de la population cible doit posséder au moins un lien provenant de UA. Nous savons que si certains liens manquent, l'estimateur (5) sera biaisé. En cas de non-réponse de lien, comme il est mentionné dans Lavallée (2001), on ne peut déterminer LiB. Habituellement, l'utilisation du nombre total de liens observés pour remplacer cette quantité inconnue produit une surestimation de YB parce que certaines composantes des liens manquent réellement dans la sommation LiB. Ce problème est exactement celui que nous nous proposons d'examiner dans la présente étude et nous essayons de corriger les poids d'estimation wik en estimant LiB de façon à obtenir une meilleure estimation de YB.

Figure 2 Exemple de liens dans l'échantillonnage indirect

Figure 2 Exemple de liens dans l'échantillonnage indirect

3. Traitements du biais dans les estimations

Comme nous l'avons mentionné à la section 1, le biais observé dans les estimations lorsque l'on utilise la MGPP est causé par des problèmes de non-réponse de lien. Dans cette situation, il est impossible d'identifier et d'observer tous les éléments composant LiB. En pratique, bien qu'on puisse normalement déterminer les liens entre les unités de sA et celles de UB, il est souvent difficile, voire même impossible, d'identifier les parties des liens en dehors de sA. Nous disons que de telles unités ont des liens manquants avec UB. Soit ΔA=ΩA\sA l'ensemble d'unités pour lesquelles des liens pourraient manquer. Alors,

LiB=jsAk=1MiBlj,ik+jΔAk=1MiBlj,ik. (8)

Si nous exécutons la MGPP sans tenir compte de ces liens manquants, nous nous servons du total des lj,ik observés comme valeur de LiB* pour calculer Y^B en utilisant

LiB*=jsAk=1MiBlj,ik+jΔ0Ak=1MiBlj,ik, (9)

Δ0A est un sous-ensemble de ΔA qui contient uniquement les unités dont les liens sont observés. Le prix de cette approche est la surestimation de YB en utilisant (5), puisque

LiBLiB*.

Nous proposons quelques méthodes pour appliquer la MGPP en tenant compte de la non-réponse de lien dans l'estimation de LiB.

3.1 Estimation de LiB en l'absence de variables auxiliaires

3.1.1 Estimation de LiB par ajustement proportionnel pour chaque grappe (méthode 1)

Pour aborder le problème de la non-réponse de lien, nous nous concentrons sur l'estimation de LiB en utilisant l'information connue sur les liens à l'intérieur de sA. Pour calculer les poids donnés par (6) en utilisant la MGPP, il nous suffit d'estimer LiB pour les iΩB. Pour tout iΩB,

LiB=j=1TiALj,iB. (10)

Un estimateur général de ce total peut s'exprimer sous la forme

L^iB=j=1TiAwj,iLLj,iB, (11)

wj,iL est un poids aléatoire qui prend la valeur wj,iL=0 si j n'est pas dans l'échantillon siA. Pour chaque iΩB, nous utilisons l'information connue sur les liens entre siA et UiB pour estimer l'information sur les liens entre ΩiA et UiB. L'espérance de L^iB est

E(L^iB)=j=1TiAE(wj,iL)Lj,iB. (12)

En comparant (10) et (12), nous constatons que L^iB est sans biais pour LiB sous tout scénario de pondération avec E(wj,iL)=1 pour tout j.

Pour commencer, nous adoptons l'estimateur d'Horvitz-Thompson (Horvitz et Thompson 1952), également appelé estimateur π (Särndal, Swensson et Wretman 1991). Notons qu'en vertu de la définition de ΩiA,ΩiAsiA pour tout i. Nous imitons une procédure d'estimation du nombre de liens dans ΩiA en utilisant celui dans siA. La procédure consiste à sélectionner un « échantillon » siA dans la « population » ΩiA. Soit πj,iL la probabilité que j (qui est dans ΩiA  ) soit incluse dans siA. Posons alors que

wj,iL={1/πj,iL,jestdanssiA,0,jestdansΩiA\siA. (13)

Selon le corollaire 3.1 dans Cassel, Särndal et Wretman (1977), ce scénario de pondération donne un estimateur sans biais de LiB. Nous avons

L^iB=j=1TiALj,iBtjLπj,iL. (14)

Cela nous donne un estimateur asymptotiquement sans biais (la preuve suit) de YB:

Y˜B=i=1nj=1MALj,iBtjπjAj=1TiALj,iBtj,iLπj,iLk=1MiByik. (15)

Afin de démontrer l'absence de biais de cet estimateur, nous employons un développement en série de Taylor. Selon le corollaire 5.1.5 (Fuller 1996), nous obtenons

1L^iB=1LiB1(LiB)2(L^iBLiB)+O([L^iB]2)=1(LiB)2(2LiBL^iB)+Op(n1).

Il s'ensuit que

plim{n1/2[1L^iB1(LiB)2(2LiBL^iB)]}=0.

Par conséquent, en vertu du théorème 5.2.1 (Fuller 1996), la loi limite de n1/2[1/L^iB] est la loi limite de n1/2[1/(LiB)2(2LiBL^iB)]. Nous notons que Y˜B est une fonction de la variable aléatoire tj ainsi que de la variable aléatoire tj,iL; par conséquent, nous désignons l'espérance de Y˜B par rapport à tj par Etj() et celle par rapport à tj,iL par Etj,iL(). D'où nous obtenons asymptotiquement

E(Y˜B)i=1nEtj[Etj,iL(1(LiB)2(2LiBj=1TiALj,iBtj,iLπj,iL)j=1MALj,iBtjπjA)|ΩB]k=1MiByik=i=1nEtj(1LiBj=1MALj,iBtjπjA)k=1MiByik (16)

=Etj(i=1n(1LiBj=1MALj,iBtjπjA)k=1MiByik)=Etj(Y^B). (17)

Selon Lavallée (1995), Etj(Y^B)=YB. Par conséquent, Y˜B est un estimateur approximativement sans biais de YB.

Maintenant, nous devons calculer πj,iL. Il s'agit d'une fonction de πjA, mais pourtant elle dépend de la façon dont siA influe sur UiB, donc sur ΩiA. Ce genre d'effet est difficile à dépister et varie d'un cas à l'autre ; cependant, nous pouvons en donner une estimation générale. La première approche que nous proposons ici est d'estimer la probabilité de sélection, πj,iL, en utilisant la proportion d'unités de sA qui prennent dans ΩA, c'est-à-dire

π^j,iL(1)=miATiA. (18)

Donc,

L^iB(1)=j=1TiALj,iBtjLπ^j,iL(1)=TiAmiAj=1miALj,iB. (19)

et

Y^B(1)=i=1nj=1MALj,iBtjπjATiAmiAj=1miALj,iBk=1MiByik=i=1nwi(1)k=1MiByik, (20)

avec

wi(1)=miATiAj=1mALj,iBπjAj=1miALj,iB. (21)

Revenons à l'exemple de la figure 2, en supposant qu'il existe deux non-réponses de lien qui se produisent entre l'unité j=3 dans UA et les unités k=1,2 de la grappe i=2 dans UB. Si nous utilisons la MGPP sans correction donnée par (5), l'estimateur résultant de YB n'est plus (7). À la place, nous avons

Y^B=12(1π1A+1π2A)y11+12(1π1A+1π2A)y12+1π2Ay21+1π2Ay22+1π2Ay23, (22)

qui comporte un biais. Afin d'appliquer (20), nous commençons par calculer miA/TiA. Les poids résultant de l'application de la méthode (1) donnés par (21) pour cet exemple sont présentés au tableau 1. Donc, cette méthode modifiée donne l'estimateur :

Y^B=12(1π1A+1π2A)y11+12(1π1A+1π2A)y12+12π2Ay21+12π2Ay22+12π2Ay23, (23)

qui est moins biaisé que (22).

Tableau 1 Poids initiaux, nombre total de liens qui ont répondu et poids finaux selon (21)
i k wik LiB miA TiA miA/TiA wi(1)
1 1 1/π1A 1 2 2 1 1/2(1/π1A+1/π2A)
1 2 1/π2A 1 2 2 1 1/2(1/π1A+1/π2A)
2 1 0 0 (manquant) 1 2 1/2 1/2π2A
2 2 1/π2A 1 (un lien manque) 1 2 1/2 1/2π2A
2 3 0 0 1 2 1/2 1/2π2A

3.1.2  Estimation de LiB par ajustement proportionnel global (méthode 2)

Dans l'approche précédente, l'information concernant miA et TiA est nécessaire pour chaque grappe i. En supposant que nous ignorons la variation de ΩiA parmi toutes les grappes i, nous proposons simplement d'utiliser

LiB*=j=1TALj,iBtjLπjL (24)

en nous servant de l'information sur les liens dans sA pour estimer l'information sur les liens dans TA,tjL est la variable indicatrice de la présence dans sA en provenance de ΩA. Nous devons maintenant calculer πjL. De nouveau, il s'agit d'une fonction de πjA qui dépend pourtant de la complexité des effets de sA sur ΩB, donc sur ΩA. Le calcul est compliqué et varie d'un cas à l'autre sans avoir de forme générale, mais nous pouvons habituellement donner une estimation grossière de la valeur.

La deuxième approche que nous proposons ici consiste à estimer πjL en utilisant la proportion d'unités dans sA qui apparaît dans ΩA, c'est-à-dire πjL*=mA/TA. Cela nous informe que

L^iB(2)=TAmAj=1mALj,iB. (25)

Dans le cas de plans de sondage aléatoires simples avec ou sans stratification, L^jB(2) donne un estimateur sans biais de LiB. Pour les plans plus complexes, il fournit un es­timateur fondé sur un modèle sans biais sous l'hypothèse (A) de la façon suivante :

(A) Supposons que pour toute grappe i, la moyenne de tous les liens existants associés avec toutes les unités comprises dans l'échantillon sA est la même que celle des liens existants associés à toutes les unités comprises dans UA, c'est-à-dire

j=1mALj,iBmA=j=1MALj,iBTA. (26)

Donc, les poids d'estimation sont donnés par

wik(2)=wi(2)=mATAj=1MALj,iBtjπjAj=1MALj,iBtj,pourtouteslesunitéskdansla grappei. (27)

Il s'ensuit que YB peut être estimé par

Y^B(2)=mATAi=1nj=1mALj,iBπjAj=1mALj,iBk=1MiByik=i=1nwi(2)k=1MiByik, (28)

Revenons à l'exemple de la figure 2 avec deux non-réponses de lien qui surviennent entre l'unité j=3 dans UA et les unités k=1,2 de la grappe i=2 dans UB. Afin d'appliquer (28), nous calculons d'abord mA/TA. Pour notre exemple, nous avons mA=2 et TA=3. L'estimateur résultant de YB en utilisant la méthode d'ajustement (2) pour cet exemple est alors

Y^B=23[12(1π1A+1π2A)y11+12(1π1A+1π2A)y12+1π2Ay21+1π2Ay22+1π2Ay23]. (29)

Par conséquent, la correction faite dans (28) est différente de celle résultant de la méthode (1) dans cet exemple.

Nous savons que var(Y^B(1ou2))=var{E(Y^B(1ou2)|sA)}+ E{var(Y^B(1ou2)|sA)}. L'espérance et la variance inté­rieures (conditionnellement à sA  ) sont calculées sur tous les ensembles possibles de liens lj,ik « répondants » sachant l'échantillon sA , tandis que l'espérance et la variance extérieures sont calculées sur tous les échantillons sA possibles. En général, les corrections faites ci-dessus n'éliminent pas le deuxième terme qui dépend du caractère aléatoire de lj,ik.

3.2 Estimation de LiB en disposant de variables auxiliaires

3.2.1  Estimation de lj,ik en utilisant un modèle logistique

Les méthodes d'estimation de LiB proposées à la section 3.1 sont faciles à appliquer et ne nécessitent pas d'information supplémentaire. Toutefois, les hypothèses peuvent être violées, ce qui produit une estimation indésirable. Par exemple, Lj,iB peut dépendre de certaines caractéristiques de l'unité j et de la grappe i.

Nous supposons que la probabilité qu'il existe un lien entre une unité dans la population d'échantillonnage et une unité dans la population cible dépend de certaines variables auxiliaires en spécifiant un modèle de régression logistique. Nous pouvons estimer cette fonction de probabilité de façon que l'estimation de la quantité d'intérêt dans la population cible soit désirable. Soit Pj,ik=P(lj,ik=1) qui est affectée par un certain vecteur de variables xjA dans UA et xikB dans UB.

Nous pouvons ajuster le modèle logistique

log(Pj,ik1Pj,ik)=axjA+bxikB (30)

en utilisant les liens observés et leurs variables caracté­ristiques correspondantes. Les vecteurs de paramètres inconnus a et b peuvent être estimés. Nous proposons d'imputer les liens lj,ik par leur probabilité estimée :

P^j,ik=ea^xjA+b^xikB1+ea^xjA+b^xikB, (31)

(a^,b^) est un estimateur de (a,b); par exemple, nous utilisons l'estimateur du maximum de vraisemblance (pseudo-vraisemblance) pondéré. Nous obtenons alors

L^iB(3)=jsAΔ0ALj,i+jΩA\(sAΔ0A)L^j,i=jsAΔ0ALj,i+jΩA\(sAΔ0A)k=1MiBea^xjA+b^xikB1+ea^xjA+b^xikB. (32)

En remplaçant LiB par L^iB(3), , (5) nous donne un estimateur convergent de YB quand le modèle spécifié dans (30) est correct et que (a^,b^) est convergent. Notons qu'il existe d'autres options que le modèle logistique, telles que les modèles logit et log-log complémentaire. Pour plus de renseignements, consulter Draper et Smith (1998). Ces auteurs mentionnent aussi que le choix du modèle n'est pas toujours évident en pratique.

3.2.2  Estimation directe de LiB en utilisant un modèle log-linéaire

Nous considérons qu'il existe un vecteur de variables xiB qui affecte la valeur de LiB. Cela signifie que le nombre total de liens dans une grappe varie seulement en fonction des caractéristiques de la grappe proprement dite. En utilisant le modèle log-linéaire, nous pouvons proposer l'expression suivante :

log(LiB)=θTxiB. (33)

Si la qualité de l'ajustement est raisonnable, nous pouvons estimer LiB directement par

L^iB(4)=eθ^TxiB, (34)

θ^ est un estimateur de θ. Si θ^ est convergent, après remplacement de LiB par L^iB(4) , (5) nous donne un estimateur convergent de YB. Nous notons que L^iB(4) pourrait avoir une valeur non entière et donc devoir être arrondi à la valeur entière la plus proche.

4. Étude par simulation

Si, sous un plan de sondage longitudinal, on souhaite produire des estimations transversales à un point particulier dans le temps après le point de départ, la situation devient un exemple pratique de problème d'échantillonnage indirect. Puisque la population évolue au cours du temps, la population cible n'est pas la même que la population initiale à partir de laquelle a été tiré l'échantillon longitudinal. À la présente section, nous utiliserons l'Enquête sur la dyna­mique du travail et du revenu (EDTR) comme exemple pour démontrer la performance de l'un des estimateurs que nous avons présentés à la section 3.1.

Le plan d'échantillonnage de l'EDTR est décrit en détail dans Lavallée (1993). Certains termes que nous utilisons dans le présent article, tels que cohabitants, individus initialement présents et individus initialement absents, sont ceux utilisés dans Lavallée (1995). Les individus initiale­ment absents dans la population sont ceux qui ne faisaient pas partie de la population durant l'année où l'échantillon longitudinal a été sélection, mais qui sont considérés dans l'échantillon ultérieur ; font partie de ce groupe les nouveau-nés et les immigrants. Après l'année initiale de sélection, la population compte des individus longitudinaux, des individus initialement présents et des individus initialement absents. Si nous nous concentrons sur les ménages contenant au moins un individu longitudinal (c'est-à-dire les ménages longitudinaux), les individus initialement présents ou absents qui se joignent à ces ménages sont appelés cohabitants.

Dans cet exemple particulier, UA est la population à l'année initiale, disons yr0, de l'enquête longitudinale et UB est la population durant n'importe quelle année, disons l'année yrt, après l'année initiale. L'échantillon sA est formé de tous les individus longitudinaux. Lj,i est une variable binaire ; sa valeur est 1 si l'individu j vit dans le ie  ménage à l'année yrt et elle est 0 autrement. LiB est le nombre total de personnes longitudinales et de cohabitants initialement présents à l'année yr0 qui vivent dans le ie ménage à l'année yrt.

Pour un individu longitudinal, le lien sera de type un à un (biunivoque). Dans le cas des cohabitants, il est fort probable qu'il sera impossible d'identifier le lien quelques années après l'année initiale de l'enquête, à cause, par exemple, des nouvelles naissances et de l'immigration ; en outre, plus la proportion de cohabitants dans la population cible est élevée, plus cette probabilité devient forte. Par exemple, dans le panel 3 de l'EDTR, les cohabitants représentaient 7,8 % de 47 377 individus en l'an 2000, c'est-à-dire un an après l'année initiale. La proportion était passée à 13,87 % en l'an 2002 (trois ans plus tard) et à 15,22 % en 2003 (quatre ans plus tard). Nous voyons donc que l'on ne peut pas fermer les yeux sur les non-réponses de lien chez une proportion aussi importante de cohabitants. Comme nous disposons d'information observée, nous exécutons l'estimation de LiB par les deux types d'ajus­tements proportionnels que nous avons proposés aux sections 3.1.1 et 3.1.2. Afin d'évaluer les propriétés des estimations obtenues par ces approches, nous exécutons une étude par simulation en nous servant des données de l'EDTR. Nous nous intéressons aux estimations trans­versales pour quatre variables de revenu pour l'année 2003. Ces quatre variables sont le revenu total avant impôt, le revenu total après impôt, les gains (c'est-à-dire les traitements et salaires avant retenues et le revenu d'un travail autonome) et les salaires et traitements avant retenues (également appelés revenu d'emploi). Nous nous intéressons au total de population pour ces quatre variables. Nous avons estimé ces quatre grandeurs d'intérêt aux niveaux national et provincial.

Dans une enquête longitudinale, le nombre total de liens dans la grappe i n'est généralement pas supérieur au nombre total d'individus dans cette grappe ni inférieur au nombre d'individus longitudinaux dans cette grappe. Puisque TiB est inconnu, nous remplaçons TiB par MiB dans (5) pour notre étude par simulation.

Premièrement, nous supposons que les liens entre toutes les unités sélectionnées durant l'année initiale (1999) et toutes les unités présentes dans l'ensemble de la population en 2003 sont spécifiées correctement. Puis, nous calculons les totaux en utilisant la MGPP. Nous utilisons ces totaux comme estimations cibles, c'est-à-dire les valeurs « réelles. »

Deuxièmement, nous supprimons aléatoirement 50 % des liens associés aux individus initialement présents en convertissant aléatoirement certains cohabitants initialement présents en cohabitants initialement absents. Le nombre de liens enlevés de la sorte représente environ 6,3 % de la population totale à laquelle nous nous intéressons, dont la taille est de 30 224. Sans aucune correction, nous recalculons l'estimation en utilisant la MGPP. Nous utilisons cette estimation comme estimation de référence c'est-à-dire le « placebo ».

Troisièmement, nous estimons les mêmes quantités en utilisant la MGPP avec les méthodes d'ajustement proportionnelles, c'est-à-dire les méthodes (1) et (2) de la section 3.1, pour voir si les estimations sont suffisamment proches de la « valeur réelle » et déterminer l'importance de l'amélioration due à ces ajustements.

Cette étude par simulation en utilisant les données de l'EDTR démontre que la méthode proposée donne de très bons résultats en ce qui concerne la correction de la surestimation due à la non-réponse de lien.

Nous écrivons

wimoyen=j=1mALj,iB1πjAj=1mALj,iB (35)

Puis, en nous servant des méthodes (1) et (2) de la section 3.1, nous estimons YB par

Y^moyenB(1)=i=1nmiATiAwimoyenk=1MiByik, (36)

et

Y^moyenB(2)=mATAi=1nwimoyenk=1MiByik, (37)

respectivement.

Notons que wimoyen est le poids moyen des personnes longitudinales qui vivent dans le ie  ménage durant l'année yrt. Par conséquent, il est également raisonnable d'utiliser à sa place le poids médian :

wimoyen=lamédianede1πjA,j=1,2,,mA. (38)

pour accroître la robustesse des estimations. De même, nous estimons YB par

Y^moyenB(1)=i=1nmiATiAwimoyenk=1MiByik, (39)

et

Y^médianB(2)=mATAi=1nwimédiank=1MiByik. (40)

Les comparaisons de ces méthodes proposées avec et sans intégration du problème de non-réponse en utilisant le poids moyen ainsi que le poids médian dans chaque ménage sont présentées aux tableaux 2 à 5.

Les quatre tableaux suivants donnent l'évaluation de la performance de nos estimations fondées sur l'erreur relative définie comme étant :

|estimation - valeurréellevaleurréelle|×100%.

Tableau 2 Revenu total avant impôt (en dollars canadiens)
Province Estim. par MGPP sans liens manquants Estim. par MGPP avec liens manquants Estim. par MGPP corrigée avec moyenne Estim. par MGPP corrigée avec médiane
T.-N.-L. 9 261 958 108 9 788 749 735 9 317 420 236 9 304 530 248
Î.-P.-É. 2 720 448 008 2 858 506 466 2 735 943 043 2 734 922 451
N.-É. 18 277 017 251 19 573 546 299 18 140 076 618 18 067 144 557
N.-B. 15 297 155 323 16 281 178 934 15 291 696 585 15 236 482 035
Qc 1,57839E+11 1,69664E+11 1,56533E+11 1,56405E+11
Ont. 2,895E+11 3,07642E+11 2,85409E+11 2,85599E+11
Man 23 436 397 548 25 043 168 032 23 632 717 226 23 553 543 216
Sask. 20 185 285 649 21 595 804 296 20 163 683 598 20 095 359 071
Alb 69 063 402 292 74 576 351 600 68 716 661 193 68 582 541 733
C.-B. 81 749 374 346 86 593 614 506 81 387 640 982 81 248 680 715
Canada 6,8733E+11 7,33617E+11 6,8286E+11 6,82356E+11
Tableau 3 Revenu total avant impôt (en dollars canadiens)
Province Estim. par MGPP sans liens manquants Estim. par MGPP avec liens manquants Estim. par MGPP corrigée avec moyenne Estim. par MGPP corrigée avec médiane
T.-N.-L. 7 846 587 557 8 287 351 908 7 892 754 014 7 882 437 105
Î.-P.-É. 2 300 092 795 2 416 503 441 2 314 256 124 2 313 544 320
N.-É. 15 154 508 564 16 257 679 161 15 080 155 194 15 020 088 623
N.-B. 12 878 350 198 13 718 260 686 12 894 700 593 12 849 252 205
Qc 1,27632E+11 1,37514E+11 1,27118E+11 1,26999E+11
Ont. 2,3788E+11 2,53073E+11 2,35192E+11 2,3534E+11
Man 19 541 510 220 20 877 377 918 19 713 628 649 19 649 142 217
Sask. 16 894 929 025 18 073 635 883 16 890 410 993 16 834 787 407
Alb 57 466 974 767 62 055 315 246 57 183 814 491 57 073 904 623
C.-B. 68 710 569 670 72 770 595 462 68 431 531 373 68 309 055 749
Canada 5,66306E+11 6,05044E+11 5,63958E+11 5,63518E+11
Tableau 4 Gains (en dollars canadiens)
Province Estim. par MGPP sans liens manquants Estim. par MGPP avec liens manquants Estim. par MGPP corrigée avec moyenne Estim. par MGPP corrigée avec médiane
T.-N.-L. 6 433 112 169 6 837 522 157 6 541 306 193 6 530 174 122
Î.-P.-É. 1 898 192 704 2 019 341 995 1 964 066 449 1 962 669 664
N.-É. 12 772 667 160 13 809 197 160 12 999 111 234 12 939 785 579
N.-B. 11 250 688 811 12 030 378 710 11 411 530 716 11 370 222 533
Qc 1,18878E+11 1,28949E+11 1,19797E+11 1,19717E+11
Ont. 2,27577E+11 2.43404E+11 2,26812E+11 2,27092E+11
Man 17 560 695 670 18 995 682 322 18 066 353 153 18 001 882 362
Sask. 15 159 319 031 16 340 668 148 15 381 733 004 15 319 210 228
Alb 56 152 023 359 61 059 244 608 56 540 145 524 56 418 889 147
C.-B. 60 532 655 979 64 499 398 960 61 192 920 832 61 085 986 951
Canada 5,28214E+11 5,67945E+11 5,3199E+11 5,31722E+11
Tableau 5 Salaires et traitements avant retenues (en dollars canadiens)
Province Estim. par MGPP sans liens manquants Estim. par MGPP avec liens manquants Estim. par MGPP corrigée avec moyenne Estim. par MGPP corrigée avec médiane
T.-N.-L. 6 180 713 343 6 572 345 010 6 283 079 555 6 272 429 515
Î.-P.-É. 1 636 344 440 1 747 755 878 1 713 809 312 1 713 157 676
N.-É. 12 327 220 137 13 341 912 666 12 579 519 733 12 521 159 025
N.-B. 10 742 381 379 11 508 445 078 10 961 105 589 10 921 102 477
Qc 1,08636E+11 1,18092E+11 1,10024E+11 1,09898E+11
Ont. 2,07331E+11 2,22043E+11 2,07265E+11 2,07495E+11
Man 16 146 993 217 17 504 024 442 16 701 823 718 16 641 840 086
Sask. 13 982 423 360 15 129 217 320 14 311 467 435 14 255 519 224
Alb 52 594 490 290 57 359 188 114 53 195 227 508 53 077 388 907
C.-B. 56 206 787 033 59 886 429 369 56 875 663 895 56 764 297 512
Canada 4,85784E+11 5,23184E+11 4,91116E+11 4,90763E+11
Tableau 6 Comparaison des erreurs relatives dans l'estimation du revenu avant impôt (%)
Province MGPP avec liens manquants Méthode (1) avec moyenne Méthode (1) avec médiane Méthode (2) avec moyenne Méthode (2) avec médiane
T.-N.-L. 5,688 0,599 0,460 1,059 2,397
Î.-P.-É. 5,075 0,570 0,532 2,859 4,063
N.-É. 7,094 0,749 1,148 3,549 2,459
N.-B. 6,433 0,037 0,397 2,693 2,987
Qc 7,492 0,828 0,909 4,372 2,896
Ont. 6,267 1,413 1,348 4,691 1,771
Man 6,856 0,838 0,500 1,644 3,654
Sask. 6,988 0,107 0,446 2,480 2,598
Alb 7,982 0,502 0,696 3,185 2,407
C.-B. 5,926 0,442 0,612 3,995 3,343
Canada 6,734 0,650 0,724 3,868 2,662
Tableau 7 Comparaison des erreurs relatives dans l'estimation du revenu après impôt (%)
Province MGPP avec liens manquants Méthode (1) avec moyenne Méthode (1) avec médiane Méthode (2) avec moyenne Méthode (2) avec médiane
T.-N.-L. 5,617 0,588 0,457 1,101 2,409
Î.-P.-É. 5,061 0,616 0,585 2,832 4,121
N.-É. 7,279 0,491 0,887 3,338 2,765
N.-B. 6,522 0,127 0,226 2,539 3,150
Qc 7,742 0,403 0,496 3,991 3,375
Ont. 6,387 1,130 1,068 4,432 2,081
Man 6,836 0,881 0,551 1,645 3,733
Sask. 6,977 0,027 0,356 2,406 2,675
Alb 7,984 0,493 0,684 3,180 2,415
C.-B. 5,909 0,406 0,584 3,989 3,419
Canada 6,841 0,415 0,492 3,657 2,927

Les tableaux montrent que nos estimations au moyen de la méthode (1) ainsi que de la méthode (2) donnent de très bons résultats en ce qui concerne la réduction du biais. Dans l'ensemble, la méthode (1) est meilleure que la méthode (2), mais l'amélioration constatée est nettement moindre que celle observée en passant de l'absence de correction à la méthode (2). Puisque la méthode (2) produit des résultats de qualité et requiert beaucoup moins d'information que la méthode (1), nous recommandons de la choisir.

Maintenant, nous examinons la méthode (2) avec utilisation du poids moyen, qui donne l'estimation Y^moyenB(2), afin d'analyser les propriétés de sa variance pour l'estimation de YB. Nous utilisons la méthode bootstrap pour estimer la variance de Y^moyenB(2) aux niveaux national et provincial. La méthode utilisée pour la simulation est celle du bootstrap classique avec remise, où le bootstrapage est effectué à la première étape de l'échantillonnage. Les poids bootstrap utilisés sont ceux fournis avec les données de l'EDTR et comprennent toutes les corrections nécessaires. Voir Lévesque (2001) et LaRoche (2003) pour une explication détaillée de l'utilisation du bootstrap pour l'EDTR. Le gain en ce qui concerne la réduction de la variance n'est pas aussi important que dans le cas du biais ; toutefois, l'étude par simulation montre que la méthode proposée produit une plus petite variance que l'application de la MGPP sans correction pour les liens manquants. Les résultats sont présentés au tableau 10.

Les résultats des simulations présentés ici sont fondés sur un seul échantillon de l'EDTR et une seule suppression aléatoire des liens des individus initialement présents. Pour évaluer complètement les propriétés des estimateurs susmentionnés, nous aurions dû utiliser un processus Monte Carlo. Des simulations de ce type ont été effectuées par Hurand (2006) en se basant sur des données agricoles. Dans ces simulations, 1 000 échantillons ont été sélec­tionnés et, pour chaque échantillon sélectionné, le pire scénario a été utilisé, c'est-à-dire l'élimination de tous les liens provenant des unités non échantillonnées. Les résultats de ces simulations ont montré que l'ajustement propor­tionnel et l'ajustement proportionnel global sont les deux méthodes qui s'approchent, en moyenne, le plus du total réel et celles dont les biais sont négligeables.

Tableau 8 Comparaison des erreurs relatives dans les estimations des gains (%)
Province MGPP avec liens manquants Méthode (1) avec moyenne Méthode (1) avec médiane Méthode (2) avec moyenne Méthode (2) avec médiane
T.-N.-L. 6,286 1,682 1,509 0,041 3,585
Î.-P.-É. 6,382 3,470 3,397 0,0739 7,115
N.-É. 8,115 1,773 1,308 1,265 5,281
N.-B. 6,930 1,430 1,062 1,279 4,512
Qc 8,472 0,773 0,706 2,827 4,560
Ont. 6,955 0,336 0,213 3,760 2,920
Man 8,172 2,879 2,512 0,291 5,835
Sask. 7,793 1,467 1,055 0,979 4,324
Alb 8,739 0,691 0,475 2,140 3,777
C.-B. 6,553 1,091 0,914 2,643 5,081
Canada 7,522 0,715 0,664 2,628 4,131
Tableau 9 Comparaison des erreurs relatives dans les estimations des traitements et salaires avant retenues (%)
Province MGPP avec liens manquants Méthode (1) avec moyenne Méthode (1) avec médiane Méthode (2) avec moyenne Méthode (2) avec médiane
T.-N.-L. 6,336 1,656 1,484 0,1012 3,593
Î.-P.-É. 6,809 4,734 4,694 1,056 8,424
N.-É. 8,231 2,047 1,573 0,939 5,509
N.-B. 7,131 2,036 1,664 0,685 5,133
Qc 8,704 1,278 1,162 2,294 5,070
Ont. 7,096 0,0317 0,0791 3,473 3,265
Man 8,404 3,436 3,065 0,787 6,469
Sask. 8,202 2,353 1,953 0,107 5,213
Alb 9,059 1,142 0,918 1,713 4,247
C.-B. 6,547 1,190 0,992 2,565 5,234
Canada 7,699 1,098 1,025 2,251 4,541
Tableau 10 Comparaison des estimations de l'écart-type
Variables Revenu total avant impôt Revenu total après impôt Gains Salaires et traitements avant retenues
Niveau national MGPP sans liens manquants 9 677 258 789 7 343 792 762 8 850 202 075 8 468 718 449
Méthode (2) avec moyenne 9 471 103 083 7 238 715 323 8 593 015 854 8 232 428 642
Ontario MGPP sans liens manquants 7 888 106 377 6 101 001 739 7 245 688 373 7 149 203 530
Méthode (2) avec moyenne 7 601 169 501 5 939 509 894 6 952 217 872 6 831 300 511
Québec MGPP sans liens manquants 4 341 215 711 3 113 247 130 3 772 369 180 3 162 277 660
Méthode (2) avec moyenne 4 160 251 472 2 974 248 451 3 668 996 929 3 100 868 366

5. Conclusion

Nous avons élaboré quatre méthodes d'estimation pour traiter le problème de la non-réponse de lien dans l'échan­tillonnage indirect. Les résultats des simulations exposés dans l'article montrent que les méthodes de correction que nous avons présentées pour illustrer l'utilisation de la MGPP avec intégration de la non-réponse de lien donnent de bons résultats pour ce qui est de réduire le biais de l'estimation et produisent une amélioration globale de la variance. Le progrès en ce qui concerne la réduction du biais semble important. L'application de la méthode proposée à la section 3.2 à des ensembles de données réelles sera étudiée prochainement.

Les constatations importantes qui se dégagent de la présente étude sont les suivantes :

1. Les méthodes d'ajustement sont faciles à appliquer.

2. Dans une situation plus générale, telle que Lj,i>1 pour certaines unités j, (35) représente la moyenne pondérée par Lj,iB. Conséquemment, l'approche de la médiane donnée par (39) et (40) peut être modifiée en utilisant une version généralisée de la médiane, c'est-à-dire la médiane « pondérée ». Autrement dit, nous remplaçons (38) par

wimédian=lamédianede1πjA

j=1,2,,L1,iB;1,2,,L2,iB;;1,2,, LmA,iB.

3. Certaines réponses de lien valides en dehors de sA ne peuvent pas être utilisées pour estimer LiB par les méthodes proposées à la section 3.2.1. Toutefois, cette information valide pourrait être avantageuse dans les approches de prédiction de lj,ik en utilisant des variables auxiliaires, comme le montre la section 3.2.1.

Remerciements

Les auteurs remercient le rédacteur associé et deux examinateurs de leurs suggestions et commentaires constructifs au sujet des versions précédentes du présent article. Ces travaux de recherche ont été financés par le Conseil de recherches en sciences naturelles et en génie du Canada et par Mathématiques des technologies de l'information et des systèmes complexes.

Bibliographie

Cassel, C.-M., Särndal, C.-E. et Wretman, J. (1977). Foundations of Inference in Survey Sampling. New York : John Wiley & Sons, Inc.

Deville, J.-C., et Lavallée, P. (2006). Sondage indirect : Les fondements de la méthode généralisée du partage des poids. Techniques denquête, 32, 185-196.

Draper, N.R., et Smith, H. (1998). Applied Regression Analysis, 3ième Éd. New York : John Wiley & Sons, Inc.

Ernst, L. (1989). Weighting issues for longitudinal household and family estimates. Dans Panel Surveys, (Éds. D. Kasprzyk, G. Duncan, G. Kalton et M.P. Singh). New York : John Wiley & Sons, Inc., 135-159.

Horvitz, D.G., et Thompson, D.J. (1952). A generalization of sampling without replacement from a finite universe. Journal of the American Statistical Association, 47, 663-685.

Hurand, C. (2006). La méthode généralisée du partage des poids et le problème d'identification des liens. Rapport interne, Divison des méthodes d'enquêtes sociales, Statistique Canada, juillet 2006.

Kalton, G., et Brick, J.M. (1995). Méthodes de pondération pour les enquêtes par panel auprès des ménages. Techniques d'enquête, 21, 37-49.

LaRoche, S. (2003). Longitudinal and Cross-Sectional Weighting of the Survey of Labour and Income Dynamics. Income Research Paper Series, Catalogue no. 75F0002MIE - No. 007, Statistique Canada.

Lavallée, P. (1993). Sample representativity for the Survey of Labour and Income Dynamics. Statistics Canada, Research Paper of the Survey of Labour and Income Dynamics, Catalogue No. 93-19, décembre 1993.

Lavallée, P. (1995). Pondération transversale des enquêtes longitudinales menées auprès des individus et des ménages à l'aide de la méthode du partage des poids. Techniques d'enquêtes, 21, 27-35.

Lavallée, P. (2001). Correcting for non-response in indirect sampling. Proceedings of Statistics Canada's Symposium 2001.

Lavallée, P. (2002). Le sondage indirect, ou la méthode généralisée du partage des poids. Éditions de l'Université de Bruxelles et Éditions Ellipse.

Lavallée, P. (2007). Indirect Sampling. New York : Springer.

Lévesque, I. (2001). Enquête sur la dynamique du travail et du revenu - Estimation de la variance. Rapport interne de Statistique Canada, 2 juillet 2001.

Särndal, C.-E., Swensson, B. et Wretman, J. (1991). Model Assisted Survey Sampling. New York : Springer-Verlag.


1  Xiaojian Xu, Département de mathématique, Université Brock, St. Catharines (Ontario) Canada, L2S 3A1. Courriel : xxu@brocku.ca ; Pierre Lavallée, Division des méthodes d'enquêtes sociales, Statistique Canada, Ottawa (Ontario), K1A 0T6. Courriel : Pierre.lavallée@statcan.gc.ca.