Enveloppement dans les modèles de régression paramétriques et non-paramétriques

Christophe Bontemps

 Home

20 Décembre 1994

Introduction







``As a research tactic, encompassing provides a basis for model comparisons, as well as integrating a large and diverse literature covering nested and non-nested hypothesis tests''

David F. Hendry et Jean-François Richard (1986)









Une des plus importantes activités scientifiques a été, et est toujours, la comparaison de théories et de modèles. Il est en effet extrêmement rare qu'un phénomène soit expliqué complètement par une théorie unique faisant l'unanimité. L'histoire des sciences connaît de nombreux exemples de luttes entre partisans de théories contradictoires, le temps seul parvenant à désigner les vainqueurs. De nos jours, si une théorie est acceptée comme utile et potentiellement durable, il est important de la confronter avec la réalité d'expériences, ou de données, ce qui est le rôle de la statistique. Toutefois une des faiblesses de cette discipline est qu'elle ne s'est intéressée que récemment à la validation de théories. Les études statistiques en économie, par exemple, mènent souvent à des situations conflictuelles, les conclusions s'opposant les unes aux autres, sans donner de méthode effective pour décider quelle théorie adopter. L'idée qu'une théorie nouvelle doit apporter un progrès dans la connaissance d'un phénomène est évidemment mise en avant, ce progrès est souvent jugé par sa capacité à expliquer des éléments que les autres théories, plus anciennes, n'expliquent pas. Toutefois, il semble stratégiquement important de s'assurer de la capacité d'une nouvelle théorie à expliquer également ce que les autres théories expliquaient déjà.

L'idée qu'une théorie doit être capable d'incorporer les résultats obtenus par des théories concurrentes, bien qu'adoptée implicitement par de nombreux scientifiques, n'a été formalisée que récemment en statistique sous le terme de ``principe d'enveloppement''1, au travers des travaux de Florens, Hendry, Mizon et Richard, d'une part (voir Mizon [65], Mizon et Richard [66] et Hendry et Richard [54]), et de ceux de Gourieroux, Monfort et Trognon, d'autre part (voir Gourieroux et Monfort[38] et [39] ainsi que Gourieroux, Monfort et Trognon [42]) . L'extension de ces travaux au cadre bayésien, relié à la notion de spécificité (voir Florens, Hendry et Richard [31]), présente une vision unificatrice de cette notion, l'enveloppement bayésien présentant les mêmes caractéristiques que l'enveloppement classique. L'apport de Gourieroux, Monfort et Trognon [42] dans un contexte dynamique a permis l'introduction d'une procédure opérationnelle d'information indirecte [40]. L'ensemble de ces auteurs préconise également l'emploi de tests basés sur ce principe, et plus particulièrement Hendry [53].

L'étude de l'enveloppement est l'objet du premier chapitre, où nous discuterons des définitions exactes formalisant ce principe, toutefois une brève discussion informelle clarifie l'analyse.

Quel est le ``vrai '' modèle ?


Lorsque l'on parle de choix de modèles on est souvent amené à supposer qu'il existe un ``vrai '' modèle ayant engendré les données. Bien qu'inconnu et d'une complexité telle que sa connaissance exacte ne peut être envisagée, ce processus de génération des données fait l'objet d'hypothèses plus ou moins précises : il peut être spécifié paramétriquement ou non-paramétriquement, il peut appartenir à l'un des modèles ou être extérieur , il peut être dynamique ou pas, stationnaire ou non, etc... Conformément à Florens, Hendry et Richard [31], nous définirons séparément le ``processus de génération des données'' et les ``modèles''.

Le processus de génération des données est le mécanisme inconnu dont sont issues les observations, conceptuellement, c'est un élément P0 d'une classe de probabilités P={ Pq,q Î Q 0} sur l'espace mesurable (W , A). Q 0 est l'espace paramétrique indexant P, il peut éventuellement être fonctionnel et, tout comme P, ne sera pas explicitement spécifié. P peut être défini de manière très large, par exemple comme l'ensemble des lois de probabilités admettant leurs 2 premiers moments.

Par ``modèle M '' nous entendrons le couple constitué d'un modèle d'estimation d'un paramètre d'intérêt, d Î Q d, (Q d étant typiquement de dimension inférieure à celle de Q 0, pourra également être fonctionnel), et d'un estimateur. Il faudrait donc noter ( M,d ), au lieu de M, toutefois, après avoir levé toute ambiguïté , nous ignorerons cette notation.


On cherche à confronter un modèle ( M1,b ) avec un modèle rival ( M2,g ) , où b et g sont deux estimateurs convergents des paramètres b et g respectivement, appartenant aux espaces paramétiques, ou fonctionnels Q b et Q g ; ces deux espaces pouvant avoir des dimensions différentes.

Le modèle M1 enveloppe le modèle M2 s'il existe une ``fonction de lien'', G permettant de retrouver g à partir de b , c'est-à-dire, telle que l'on puisse retrouver les résultats de M2 par ceux de M1.


Dans ce contexte d'enveloppement, l'approche de Gourieroux et Monfort [39] présente l'originalité de supposer le processus de génération des données extérieur aux modèles en présence. Cette étude propose ainsi le problème de choix entre deux modèles, deux approximations du vrai modèle, de manière symétrique, aucun des deux modèles n'ayant de rôle privilégié. L'enveloppement est alors envisagé dans un sens ( M1 enveloppe M2) comme dans l'autre ( M2 enveloppe   M1), les deux sens n'étant pas forcément incompatibles.


Un autre point de vue est de considérer l'un des deux modèles comme un favori que l'on cherche à confronter avec un autre modèle, l'intérêt est alors la validation de ce modèle plutôt que du choix pur entre modèles concurrents2. Dans des situations pratiques, où les modèles sont inévitablement mal-spécifiés, il est souvent plus informatif d'analyser les forces et faiblesses respectives de chacun, que de chercher à sélectionner l'un des modèles. De même, le fait qu'un modèle   M1 n'enveloppe pas un concurrent   M2, indique que ce dernier incorpore des caractéristiques spécifiques qui n'ont pas été prises en compte par   M1. Au lieu de rejeter simplement un tel modèle, cette faiblesse peut être exploitée plus constructivement, en incorporant les caractéristiques pertinentes relevées par M2 et ainsi améliorer la connaissance du phénomène étudié, c'est-à-dire progresser. Nous suivrons Hendry et Richard [54] dans cette voie, où l'enveloppement relève plus de la comparaison de modèles que du choix de modèles.

Enveloppement exact ou approché ?

L'enveloppement (``exact''), tel que nous venons de le définir, n'est, en général, pas vérifié. Dans ce cas, il est toutefois possible de mesurer le défaut d'enveloppement de   M2 par   M1. Il nous faut pour cela introduire de manière plus précise la correspondance liant les résultats de   M1 avec ceux de   M2.

L'utilisation du critère d'information de Kulback-Leibler [57](KLIC), dans un contexte de maximum de vraisemblance, permet de définir une telle correspondance entre Q b et Q g. Dans la lignée de Sawa [77], la pseudo-vraie valeur est définie comme l'élément (s'il existe) minimisant le KLIC. Cette définition, qui figure également chez White [90] ou Gourieroux, Monfort et Trognon [42], semble avoir été introduite (implicitement) dans l'oeuvre de Cox [21] et [22] relative aux tests d'hypothèses non-emboîtées, ainsi que dans les travaux de Huber [55].

La différence entre l'estimateur g et la pseudo-vraie valeur, ou un estimateur de celle-ci, permet une mesure du défaut d'enveloppement exact, et définit l'enveloppement approché. Celui-ci sera réalisé lorsque cette différence, ou une fonction de cette différence, sera nulle, presque sûrement ou asymptotiquement.

De même, dans un contexte bayésien, l'enveloppement exact basé sur l'existence d'une correspondance entre les a posteriori des deux modélisateurs, ne sera que rarement vérifié. Un concept de spécificité sera défini afin de mesurer le défaut d'enveloppement qui s'exprimera comme une ``distance incompressible'' entre modèles. La pseudo-vraie valeur bayésienne sera elle aussi définie comme réalisant le minimum de la spécificité entre les modèles.

Dans la pratique (qu'elle soit classique ou bayésienne), l'enveloppement se jugera sur l'enveloppement approché. Ainsi les différents tests analysés dans le chapitre 2, seront basés sur la recherche de la nullité du défaut d'enveloppement exact, c'est à dire sur l'enveloppement approché. La littérature économétrique s'est d'ailleurs principalement concentrée sur cette définition plus opérationnelle.

Classique ou bayésien ?

Les modèles bayésiens se distinguent des modèles classiques en incorporant une densité à priori sur les paramètres, ce qui représente une extension des modèles classiques à un cadre où l'on dispose d'un ensemble d'information plus vaste. Le but de l'apprentissage bayésien est alors de passer de l'a priori sur le paramètre, à l'a posteriori (conditionnel à l'échantillon), par l'utilisation judicieuse de la règle de Bayes sur la loi jointe à l'échantillon et au paramètre. L'intérêt du modèle reposant sur cet a posteriori, il est alors naturel de baser la notion d'enveloppement, en tant que comparaison de modèles, sur l'étude des a posteriori de chacun des modèles.

Il est remarquable que la notion d'enveloppement s'étende aussi naturellement au cadre bayésien. En effet, la définition de l'enveloppement d'un modèle par un autre y est pratiquement la même, les estimateurs classiques proposés informellement ici seront remplacés par des densités a posteriori, la fonction de lien G devant être remplacée par une probabilité de transition.

En fait, dans un contexte probabiliste que nous ne détaillerons pas ici, le concept de probabilité de transition réunit les deux approches classique et bayésienne.

La principale difficulté de cette généralisation de l'enveloppement consiste en la recherche de la probabilité de transition donnant la pseudo-vraie valeur bayésienne (voir section 1.4). La complexité des calculs de celle-ci pose un réel problème d'estimation. Cette difficulté peut être contournée par l'utilisation de techniques de simulation, comme l'échantillonneur de Gibbs, (voir Bouoiyour [13]) , ou par des techniques d'approximation qui permettent un calcul opérationnel (voir Florens, Hendry et Richard [31]). Malheureusement, ces procédures ne sont encore définies que pour des cas particuliers (voir Florens, Larribeau et Mouchart [33]).

Asymptotique ou fini ?

La propriété d'enveloppement est essentiellement une propriété de ``petit échantillon'', typiquement cette notion trouve sa place naturelle dans un contexte bayésien c'est-à-dire appliqué à des échantillons finis. Cependant, l'approche asymptotique sera privilégiée dans ce travail. Tout d'abord, pour être opérationnelle, la propriété d'enveloppement doit pouvoir être testée. Ces tests qui ont été élaborés dans la littérature sur les problèmes de spécification sont majoritairement asymptotiques (voir Hausman [52] et White [91] entre autres). Il est donc nécessaire d'effectuer un minimum de théorie asymptotique afin de déterminer les lois des statistiques de test intervenant dans ce contexte. D'autre part, le calcul des pseudo-vraies valeurs est souvent simplifié asymptotiquement. Gouriéroux, Monfort et Trognon [42] proposent cependant des procédures de test basées sur des pseudo-vraies valeurs finies. Ces auteurs mettent en avant l'importance de ces pseudo-vraies valeurs finies dans des modèles conditionnels, et décrivent également les cas particuliers où celles-ci coïncident avec les pseudo-vraies valeurs asymptotiques. Dans l'optique du chapitre 4 où nous traiterons de modèles (et donc d'estimateurs) fonctionnels, l'approche asymptotique sera bien évidemment privilégiée.

Emboîtés ou non-emboîtés ?




Dans son article sur le problème général de la sélection de modèles, Pesaran [70] écrit : ``In many economic applications the models that we eventually encounter are often non-nested in the sense that they have separate parametric families and one model cannot be obtained from the others as a limiting process. Unfortunately, in such cases the application of the classical likelihood-ratio test procedure will not be correct and other suitable methods of testing have to be sought''. Des procédures ont ainsi été examinées par de nombreux auteurs, afin de réconcilier les modèles non-emboîtés avec les techniques existantes pour les modèles emboîtés. Cox ([21] et [22]), développe une procédure adaptée du test de rapport de vraisemblance. Cette méthode est basée sur l'examen, d'une part, des différences des log-vraisemblances empiriques, d'autre part la même différence est évaluée en supposant que   M1 est ``vrai'' (voir Pesaran [70]).

Une des idées à été d'utiliser un ``sur-modèle'' emboîtant artificiellement les modèles concurrents. Cependant l'issue de ces procédures n'est pas satisfaisante puisque les deux modèles peuvent être simultanément acceptés ou rejetés, un autre problème est la forte collinéarité pouvant exister entre les variables explicatives intervenant dans le sur-modèle. Atkinson [4], reprend également l'idée d'un sur-modèle dont la densité est proportionnelle à une moyenne géométrique des densités des modèles concurrents. Davidson et Mac Kinnon [24], proposent un sur-modèle additif et contournent l'obstacle de l'estimation séparée des paramètres des modèles et du paramètre liant les modèles (l ) en séquançant la procédure de test. On calcule d'abord les résidus issus de l'estimation de   M2 que l'on reporte ensuite dans le sur-modèle où l'on peut alors tester de la nullité (ou l'égalité à 1) de l , (voir section 2.1.3).

Hendry et Richard [54] notent que le principe d'enveloppement s'applique, que les modèles soient emboîtés ou non. Heuristiquement, un sur-modèle   Mc emboîtant les modèles M1 et M2, aura la même spécificité que   M2 vis-à-vis du modèle    M1 et ne saurait donc apporter aucune aide à la décision . Nous observerons sur un exemple, (exemple 3, section 1.3.1), la situation où M1 enveloppe M2 est équivalent à M1 enveloppe Mc . Dès lors, l'enveloppement parcimonieux, (voir section 1.3.1), permet d'envisager une procédure de réduction des modèles, l'objectif étant de construire des modèles ``plus simples'' qui présentent la même capacité à envelopper des modèles ``plus grands''.



Ce travail se veut une contribution aux recherches en cours sur la notion d'enveloppement dans les modèles de régression. Les comportements asymptotiques des statistiques mesurant le défaut d'enveloppement sont maintenant bien connus dans le cadre paramétrique,et seront rappelés dans le chapitre 2. Notre objectif est d'étendre ces résultats au cadre de la régression non-paramétrique.

Les techniques d'estimation fonctionnelle de la régression, proposées chapitre 3, nous permettent en effet, d'envisager une extension de ces travaux à des modèles autres que linéaires et/ou gaussiens. Dans cette optique la question centrale que nous aborderons dans ce travail sera :

``Existe t'il des procédures de test d'enveloppement entre modèles de régression libres de toute forme fonctionnelle ?''

Cette question en appelle d'autres auxquelles nous tenterons de répondre, dans le chapitre 4, notamment :

Comment se comporte l'estimateur non-paramétrique d'un modèle de régression M2 sous l'hypothèse que M1 est ``vrai'' ?

Quelle statistique de test globale peut-on envisager pour tester de l'enveloppement dans ce cadre ?

Quelle en est la perte en terme de vitesse de convergence par rapport au cas paramétrique ?


Nous nous efforcerons de répondre à ces questions par les procédures développées dans le quatrième chapitre.

Nous chercherons également à comparer par enveloppement procédures paramétriques et non-paramétriques. Nous étudierons 4 cas en combinant les spécifications paramétriques et fonctionnelles pour chacun des deux modèles en présence. Cette étude nous poussera à étudier de manière précise les choix arbitraires qui peuvent être faits dans la sélection des estimateurs de chacun des modèles. Ces choix, et particulièrement ceux des fenêtres, peuvent influer sur les critères nécessairement objectifs de comparaison de modèles, et seront mis en évidence. Les simulations conduites et proposées dans le chapitre 5 viendront étayer nos résultats.


Enfin et surtout, nous proposerons un critère global d'enveloppement dont la distribution asymptotique sera caractérisée. Ce critère convergera vers ce que nous appellerons ``une loi normale fuyante'', c'est-à-dire qu'un terme résiduel croissant s'ajoutera au terme donnant la normalité asymptotique dans notre critère. Cette caractéristique, propre au cadre non-paramétrique, nous indique que notre approche asymptotique comporte des faiblesses. Ces faiblesses pourraient être compensées dans le futur par l'utilisation de techniques de Bootstrap.




1
mot que nous choisissons pour la traduction de ''encompassing''
2
Cette vision directionnelle correspond à l'idée de confronter une théorie nouvelle à une théorie déjà éprouvée

Chapter 1   Le principe d'enveloppement







``One model is said to encompass another if the former can account for, or explain, the results of the latter.''

David F. Hendry et Jean-François Richard (1986)





1.1   Définition de l'enveloppement exact





Soit Y une variable aléatoire définie sur l'espace mesurable (W , A), et Yn=(yi)i=1,... ,n n réalisations indépendantes de cette variable.

On cherche à confronter un modèle M1 candidat à la modélisation du processus de génération de données ou tout du moins candidat à la représentation d'aspects pertinents de ce processus, avec un modèle rival M2. Les deux modèles, indexés par les paramètres b et g respectivement, reposent sur des espaces paramétriques, Q b et Q g, qui peuvent éventuellement être fonctionnels.

Soit b n et g n des estimateurs consistants de b et g dans leurs modèles respectifs, les estimateurs b n et g n dépendent de l'échantillon Yn.

M1 étant le candidat que l'on cherche à confronter à M2, on va chercher à analyser sa capacité à ``expliquer'' M2, ou plutôt, sa capacité à expliquer les résultats de M2 par ses propres résultats. Pour cela nous proposons la définition suivante, donnée initialement par Hendry et Richard [54] :

Définition 1.1   (Enveloppement exact) :

On dira que ``
M1 enveloppe exactement M2 '' ( M1 Ee M2) s'il existe G , ``fonction de lien'', G :Q b¾® Q g , telle que, pour tout échantillon Yn :

g (Yn)=G ( b (Yn) )      (M1   p.s.)     (1.1)




Ceci signifie bien que l'on peut obtenir, à partir de l'estimation des paramètres de M1, les mêmes résultats que ceux obtenus par M2 puisqu'on obtient g (Yn) à partir de b (Yn). M1 est donc préférable à M2 puisqu'il contient potentiellement les résultats de son concurrent.



Exemple 1  

Soient les modèles M1 et M2 paramétrés par b et g sur  + et représentés par les densités suivantes:

M1:Y~ N(b ,1)   et   M2:Y~ N (e
g
 
,1)

munis des estimateurs
b =
1
n
n
å
i=1
yi   et   e
g
 
=
1
n
n
å
i=1
yi

Sur cet exemple M2 est une reparamétrisation de M1, et donc M1 enveloppe exactement M2, en effet la fonction G (· )=log (· ) nous donne donc explicitement g =G (b ).


Il est à noter que l'on a ici une fonction G bijective sur  + et donc nous avons également b =eg ce qui signifie également que M2 enveloppe M1, les deux sens n'étant pas incompatibles.



Exemple 2  

Soit Y=(
y
( 1 )
 
y
( 2 )
 
) un vecteur aléatoire sur (Â 2, BÂ 2,l 2) et Yn=(y1,y2,... ,yn), n réalisations indépendantes de cette variable.

Considérons les modèles M1 et M2, définis par les densités normales suivantes :

M1:Y~ N2( æ
è
µ
n
ö
ø
,å )   et   M2:Y~ N2( æ
è
h
1
ö
ø
,å )

å =(
s 11 s 12
s 21 s 22
) , matrice de variance-covariance, est connue.

Le paramètre b =(
µ
n
) est estimé naturellement par b :

b = æ
è
µ
n
ö
ø
= æ
ç
ç
è
y
( 1 )
 
y
( 2 )
 
ö
÷
÷
ø

y1 et y2  sont les moyennes empiriques:
y
1=
1
n
n
å
i=1
y
( 1 )
 
i
   et  
y
2=
1
n
n
å
i=1
y
( 2 )
 
i

Un estimateur de g =(
h
1
) est g avec:

g = æ
è
h
1
ö
ø
= æ
ç
è
y
( 1 )
 
1
ö
÷
ø

Nous pouvons donc clairement calculer g à partir de b , puisque g =G (b ) où G est la fonction:
G :    
 2 ¾®  2
æ
è
u
v
ö
ø
¾®
æ
è
u
1
ö
ø

Sur cet exemple trivial, nous voyons comment un sous-modèle M2 est enveloppé exactement par un modèle dont il est la restriction, la fonction G étant la représentation de la restriction sur l'espace des paramètres. Nous verrons par la suite, section 1.3, que des sous-modèles peuvent envelopper les modèles dont ils sont issus, ce qui, au regard du principe de parcimonie, présente un intérêt beaucoup plus grand.


Remarque:


Nous avons, ici également, g =G (b ) , l'enveloppement est donc vérifié pour ce nouveau modèle avec ce nouvel estimateur mais nous avons changé de fonction de lien.

Sur cet exemple, nous remarquons donc que ( M1,b ) enveloppe le modèle ( M2,g ) ainsi que le modèle ( M2,g ).



1.1.1   Version dynamique

Soient M1 et M2 deux modèles paramétriques dynamiques sans exogènes candidats à la modélisation de la densité d'un vecteur aléatoire Yt. Les densités respectives de M1 et M2 sont  :

f(yt| Yt-1,b )   et    g(yt| Yt-1,g )

b et g appartiennent aux espaces paramétriques Q b et Q g, et où la matrice Yt-1, regroupe les observations ``passées'' : Yt-1=(yt-1,yt-2,··· ,y1).


On associe au modèle M1 l'estimateur b T de b basé sur l'échantillon de taille T, YT, de même g T est l'estimateur de g associé à M2.


Govaerts, Hendry et Richard [43], proposent la définition de l'enveloppement dynamique, dans le même esprit que la définition 1.1  :

Définition 1.2   : ``Le modèle dynamique M1 enveloppe exactement M2'', s'il existe une séquence de fonctions G T telle que :
g T=G T(b T)   ( M1   p.s.)

Ici encore, et pour tout T, la connaissance de b T associée à celle des fonctions de lien G T, permet la connaissance de l'estimateur de M2, g T. Le modèle M1 sera donc préféré, contenant, implicitement l'ensemble des résultats de son rival.

Cette définition ne diffère de la définition (statique) donnée en (1.1) que par l'aspect séquentiel que doit revêtir ici la fonction de lien G , remplacée ici par une succession de fonctions de liens.

1.1.2   Propriétés

Nous pouvons reformuler la définition 1.1 d'une manière plus visuelle en examinant les relations entre les espaces W , Q b et Q g:



Définition 1.1 (bis) :

Les espaces Q b et Q g sur lesquels reposent les estimateurs b n et g n issus de l'échantillon Yn sont ainsi liés par la fonction G définissant la pseudo-vraie valeur G (b ). Dès lors, le modèle 2 n'apporte rien que ne puissent expliquer les résultats du modèle 1.

Nous verrons section 1.4 que cette définition s'étend au cadre bayésien sans difficultés.



Nous obtenons quelques propriétés immédiates de cette définition :


igu1.pic

Figure 1.1: Enveloppement exact


Transitivité de l'enveloppement exact

La propriété d'enveloppement exact est une propriété transitive. Si un modèle ( M1,b ) enveloppe exactement un modèle ( M2,g ), et si ce dernier enveloppe à son tour un modèle ( M3,d ), alors M1 enveloppe M3.


En effet, s'il existe G liant les espaces Q b et Q g telle que g =G (b )
G :    
Q
 
b
¾®
Q
 
g
b ¾® G (b )=g

et s'il existe ¡ liant les espaces Q g et Q d telle que d =¡ (g )
¡ :    
Q
 
g
¾®
Q
 
d
g ¾® ¡ (g )=d

alors il existe L =¡ ° G liant les espaces Q b et Q d et telle que d =L (b )
L =¡ ° G :    
Q
 
b
¾®
Q
 
d
b ¾® L (b )=d

igu2.pic

Figure 1.2: Transitivité de l'enveloppement exact


Nous retrouvons la transitivité intuitive de cette notion. Plus visuellement nous avons le schéma (fermé) donné par la figure 1.2.

Il importe cependant d'être prudent : la définition de l'enveloppement fait intervenir des égalités presque sûres, pour des lois différentes.

En effet d'un côté on a :

g =G (b )   M1  presque surement.

et donc : { Yn  tels  que   g (Yn)¹G (b (Yn))} est de mesure nulle pour M1.


D'autre part :

d =¡ (g )   M
 
2  
 presque surement.

c'est-à-dire que l'ensemble : { Yn  tels  que   d (Yn)¹¡ (g (Yn))} est de mesure nulle pour M2.

L'égalité :  d =L (b )=¡ ° G (b )   M1  presque sûrement

ne sera vérifiée que si l'ensemble { Yn  tels  que   d (Yn)¹¡ (g (Yn))} est également de mesure nulle pour M1.

Dans un contexte paramétrique, sur des espaces réels par exemple, où les modèles sont définis par des lois de probabilités, il faut être prudent et imposer que M2 domine M1. Cette situation peut ne pas être réalisée pour des modèles de dimensions différentes ; typiquement si M2 est emboîté dans M1 et est de dimension inférieure, M2 ne dominera pas M1. Dans un cadre fonctionnel, il faudrait de même imposer aux négligeables de M2 de l'être pour M1 également.



Remarque :


Ces propriétés ne nous assurent pas de la pertinence du modèle enveloppant, en terme de modélisation du ``vrai'' processus de génération. De plus, le processus ayant engendré les données n'a pas la propriété d'envelopper toute tentative de modélisation basée sur Yn. La notion d'enveloppement approché permet de récupérer cette propriété intuitive, la propriété de transitivité n'est, elle, pas conservée.

1.2   Enveloppement approché





D'une manière générale, l'enveloppement exact défini en (1.1) n'est vérifié que rarement en échantillon fini, et ce même si M1 est le processus de génération des données.

Face à ce constat, deux approches peuvent être envisagées, la première est basée sur une mesure du défaut d'enveloppement. Pour cela la pseudo-vraie valeur sera définie et reliée à la notion de spécificité entre modèles, typiquement la définition de l'enveloppement approché ne différera de l'enveloppement exact ``que'' par la détermination préalable de la fonction G .

La deuxième approche consiste à définir l'enveloppement asymptotiquement, la pseudo-vraie valeur étant définie comme une réinterprétation des paramètres de M2 sous l'éclairage de M1. Ces deux approches, bien que différenciées ici ne sont que deux visions approchées d'une notion exacte.



1.2.1   Principe général




Nous allons définir une ``mesure'' du défaut d'enveloppement qui servira de base à l'enveloppement approché. Le principe consiste à choisir une fonction réelle Y (g ,b ) mesurant l'écart, ou la divergence, entre les modèles M1 et M2.

La fonction de lien G

G    :
Q
 
b
¾®
Q
 
g
  b (Yn) ¾® G (b (Yn))
qui détermine la pseudo-vraie valeur G (b (Yn)), est alors définie comme l'élément d'une classe de fonctions CF, qui rapproche au mieux les modèles M1 et M2 au sens de cette mesure.

G (b )=arg
 
min
F Î C
 
F
 Y (g ,F (b ))

Cette fonction G minimise la ``spécificité'' de M2 vis à vis de M1, c'est également celle qui donne le plus de possibilités à M1 d'expliquer les résultats de M21.

Il est essentiel de remarquer que selon les types de modèles examinés, selon les espaces ``paramétriques'', (qui peuvent être fonctionnels), selon les propriétés de CF et selon les procédures d'estimation, la fonction de lien G (et donc la pseudo-vraie valeur) connaîtra des caractéristiques et des propriétés différentes.


Le principe général proposé ici peut être résumé par le programme suivant :




Dans les modèles paramétriques de maximum de vraisemblance, le critère d'information de Kulback-Leibler [57] est généralement adopté comme ``distance'' entre modèles 2. Nous vérifierons que ce critère coïncide avec une mesure de la spécificité introduite par Florens, Hendry et Richard [31].

Le contraste de Kulback et Leibler (KLIC)




Soit (Â , BÂ,l ) l'espace réel mesuré et Y une variable aléatoire réelle . Afin de nous assurer de l'existence de ce critère et pour obtenir des propriétés de régularité usuelles, nous devons introduire quelques notations et hypothèses sur les modèles M1 et M2.




Une mesure directionnelle de la distance entre M1 et M2 est donnée par le KLIC (Kulback-Leibler Information Criterion):
I( M1, M2)=
E
 
b
é
ê
ê
ë
log æ
ç
ç
è
f(y,b )
g(y,g )
ö
÷
÷
ø
ù
ú
ú
û

Eb(· ) est l'espérance relative au modèle 1, i.e. à la densité f(y,b ).


Il est bon de remarquer que :

Preuve : Nous empruntons ce résultat à Gourieroux et Monfort [37].


L'inégalité de Jensen appliquée à la fonction convexe -log (x) nous donne :

E
 
b
é
ê
ê
ë
log æ
ç
ç
è
f(y,b )
g(y,g )
ö
÷
÷
ø
ù
ú
ú
û
=-
E
 
b
é
ê
ê
ë
log æ
ç
ç
è
g(y,g )
f(y,b )
ö
÷
÷
ø
ù
ú
ú
û
³ -log
E
 
b
æ
ç
ç
è
g(y,g )
f(y,b )
ö
÷
÷
ø

Or
-log
E
 
b
æ
ç
ç
è
g(y,g )
f(y,b )
ö
÷
÷
ø
=-log ó
õ
g(y,g )
f(y,b )
· f(y,bdy=0

De plus, la fonction -log (x) étant strictement convexe, l'égalité à zéro n'a lieu que si g(y,g )/f(y,b ) est égal à une constante, k. Comme Eb( g(y,g )/f(y,b )) =1, on en déduit que k=1.



Les modèles de maximum de vraisemblance constituent un bon exemple de mise en oeuvre du principe général que nous adoptons pour définir l'enveloppement approché, nous resterons dans ce cadre tout au long de cette section. Dans ce contexte, Florens et alii [31] proposent de définir la pseudo-vraie valeur comme minimisant la spécificité de ( M2,g ) vis-à-vis de ( M1,b ).


Une mesure de la spécificité de ( M2,g ) par rapport à ( M1,b ) est donnée pour une fonction G par :

D
 
G
(Yn)= ó
õ
 


W
log é
ê
ê
ë
g(y,g (Yn))
g(y,G (b (Yn)))
ù
ú
ú
û
f(y,b ) l (dy)

Cette mesure est évidemment dépendante de l'échantillon Yn3.

La pseudo-vraie valeur G (b ) est définie comme réalisant le minimum du critère DG(Yn) pour tout Yn.

G (b )=arg
 
min
d
ó
õ
 


W
log é
ê
ê
ë
g(y,g )
g(y,d )
ù
ú
ú
û
f(y,b ) l (dy)



Il est important de noter que, par cette définition de la pseudo-vraie valeur, nous cherchons volontairement à réduire au maximum la spécificité de M2 vis-à-vis de M1. En minimisant cette spécificité nous offrons ainsi la ``plus faible résistance possible'' à l'enveloppement de M2.




Il est aisé de voir que G (b ) réalise le minimum du critère d'information de Kulback-Leibler (KLIC).


Preuve :


Notons que, comme g est l'estimateur du maximum de vraisemblance, on a :
g(y,g )
g(y,d )
³ 1       " d Î Q
 
d


Ensuite, par un simple jeu d'écriture, on obtient :
G (b )
=arg
 
min
d
ó
õ
log
é
ê
ê
ë
g(y,g )
g(y,d )
ù
ú
ú
û
f(y,b ) dy
   
 
=arg
 
max
d
ó
õ
log
[ g(y,d ) ] f(y,b ) dy
   
 
=arg
 
min
d
ó
õ
log
é
ê
ê
ë
f(y,b )
g(y,d )
ù
ú
ú
û
f(y,b ) dy

Le dernier terme est bien le contraste de Kulback-Leibler.


Nous vérifions ainsi que, dans le cadre présent de maximum de vraisemblance, minimiser la spécificité d'un modèle vis-à-vis d'un autre, revient à minimiser la distance qui les sépare au sens de Kulback-Leibler. Des mesures de spécificité autres que celle proposée ici peuvent être introduites, elles conduisent évidemment à d'autres pseudo-vraies valeurs et à d'autres tests.

Dans un contexte bayésien, on aura le souci de définir une ``spécificité inconditionnelle '' en supprimant la dépendance vis-à-vis de l'échantillon par intégration en y suivant la loi supposée de y (voir section 1.4). La mesure précédente est cependant préférée, elle conduit en effet à une présentation naturelle des distances entre modèles.



1.2.2   Définition de la pseudo-vraie valeur




Gourieroux, Monfort et Trognon [42], sur les bases des travaux de Sawa [77], Huber [55] et Cox ([21] et [22]), proposent en 83, la définition de la pseudo-vraie valeur dans le contexte présent de maximum de vraisemblance par :

G (b )=arg
 
min
d
ó
õ
 


W
log é
ê
ê
ë
f(y,b )
g(y,d )
ù
ú
ú
û
f(y,b )l (dy)

C'est-à-dire que la pseudo-vraie valeur associée à une procédure de maximum de vraisemblance est définie comme la valeur minimisant le KLIC I( M1, M2) ce qui équivaut à minimiser la spécificité introduite ci-dessus.

Une autre expression équivalente est :
G (b )=arg
 
max
d
ó
õ
 


W
log [ g(y,d ) ] f(y,b )l (dy)     (1.2)

La fonction de lien G n'est donc pas définie analytiquement, mais résulte d'une procédure de minimisation. Sawa s'est le premier intéressé au calcul des pseudo-vraies valeurs, il montre (lemme 3.2), que la pseudo-vraie valeur G (b ) s'écrit également :

G (b )=E
 
b
(g )     (1.3)

Eb(· ) désigne l'espérance relative au modèle M1.

Si g est l'estimateur du maximum de vraisemblance du modèle paramétrique M2, on a :
G (b )= ó
õ
 


W
arg
 
max
d
 log [ g(y,d ) ] f(y,b )l (dy)     (1.4)

La distinction entre (1.2) et (1.4), réside alors dans l'ordre des opérateurs.

Conformément à Hendry, Mizon et Richard (Voir Mizon [65], Mizon et Richard [66], ou Hendry et Richard [54] ), l'espérance sous M1 de g définissant la pseudo-vraie valeur dans l'expression 1.3 est remplacée par :
G (b )=p
 
lim
M1
g

G (b ) se présente ici comme une réinterprétation de l'estimateur g par M1, elle est aisément estimable, dès lors que b l'est, par G (b ). Nous utiliserons cette expression de la pseudo-vraie valeur dans la suite de ce travail.

Gourieroux et alii [42], proposent également une définition de la pseudo-vraie valeur en échantillon fini dont G (b ) est la limite.



1.2.3   Pseudo-vraie valeur à distance finie

Considérons l'échantillon constitué de (yi,xi)i=1,··· ,n, n observations indépendantes du couple de vecteurs aléatoires (Y,X) de Â × Â p . On s'intéresse à la loi conditionnelle de Y| X.

Le même schéma directeur s'applique ici à partir des définitions des modèles et du critère (conditionnel) de Kullback-Leibler. Deux modèles sont proposés pour la modélisation de la densité conditionnelle de Y sachant X.

M1 : f(yi| xi,b ) ;
b Î Q
 
b
         
M2 : g(yi| xi,g ) ;
g Î Q
 
g

Les log-vraisemblances conditionnelles associées à ces modèles sont4:

L1(b )=
n
å
i=1
log  f(yi| xi,b )   et   L2(g )=
n
å
i=1
log  g(yi| xi,g )

Nous pouvons introduire le critère (conditionnel) de Kullback-Leibler qui est ici :

E
 
b
é
ê
ê
ë
log æ
ç
ç
è
f(yi| xi,b )
g(yi| xi,g )
ö
÷
÷
ø
  ù
ú
ú
û
=
 
ó
õ
 d
log   æ
ç
ç
è
f(yi| xi,b )
g(yi| xi,g )
ö
÷
÷
ø
f(yi| xi,b )dyi

Ce critère diffère de celui donné dans la section précédente par le fait qu'il est conditionnel aux observations xi.

Une mesure directionnelle de la distance entre M1 et M2 est :
n
å
i=1
E
 
b
é
ê
ê
ë
log  
f(yi| xi,b )
g(yi| xi,g )
ù
ú
ú
û

dont le minimum sur g est réalisé par G n(b ) qui est la ``pseudo-vraie valeur à distance finie'' de g .

Il est à noter que G n(b ) réalise, de manière équivalente, le maximum en g de :

n
å
i=1
E
 
b
[ log  g(yi| xi,g ) ]     (1.5)

Lorsqu'on augmente la taille de l'échantillon,(n® ¥ ), la pseudo-vraie valeur à distance finie G n(b ) tend vers G (b ) pseudo-vraie valeur (asymptotique) solution du problème de maximisation suivant :

 
max
g Î Q
 
g
 
lim
n® ¥
 
1
n
n
å
i=1
E
 
b
[ log  g(yi| xi,g ) ] =
 
max
g Î Q
 
g
ExE
 
b
[ log  g(yi| xi,g ) ]     (1.6)

Ex désigne l'espérance relative à la distribution des xi5.


Remarque


La pseudo-vraie valeur à distance finie G n(b ), maximum de l'expression (1.5), dépend donc des valeurs des variables (exogènes) xi, et devrait être notée G n(b ,X). Avant observation elle doit donc être considérée comme variable aléatoire. Par contre, la pseudo-vraie valeur asymptotique G (b ) issue de l'expression (1.6) n'est pas aléatoire, elle diffère donc par nature de G n(b ). Ces deux notions sont toutefois confondues dans le cadre de modèles d'échantillonnage (où il n'y a pas d'exogènes) ainsi que dans les cas de modèles iid, ou autres modèles à valeur des xi fixes ( f(yi,xi,b )=f(yi,b )) . On parlera dans ces cas de pseudo-vraie valeur, sans distinction.



La pseudo-vraie valeur étant définie , nous pouvons introduire la notion d'enveloppement ``approché'', cette définition, plus familière, est essentiellement basée sur l'estimation de la différence d'enveloppement g -G (b ). L'expression de cette différence est centrale dans cette définition, elle servira de base aux tests d'enveloppement développés chapitre 2. La procédure de calcul de la pseudo-vraie valeur étant une minimisation, la transitivité de l'enveloppement exact ne se retrouvera pas dans l'enveloppement approché.

Afin d'être clair dans nos définitions nous parlerons d'enveloppement pour désigner l'enveloppement ``approché'' défini ici, l'enveloppement ``exact'' étant la dénomination réservée à la relation (1.1) de la définition 1.1.

1.2.4   Définition de l'enveloppement approché




Comme il n'est pas possible de vérifier la relation (1.1), l'idée est de définir l'enveloppement approché en se basant sur la différence entre l'estimateur g de g dans M2 et un estimateur G (b ) de la pseudo-vraie valeur G (b ), celle-ci ayant été calculée par minimisation de la spécificité.

Définition 1.3   (Enveloppement approché) :

On dira que ``
M1 enveloppe M2 '' ( M1  E M2) si :
g (Yn)=G ( b (Yn) )      (M1   p.s.)     (1.7)
G ( b (Yn)) étant l'estimateur de la pseudo-vraie valeur de g sous M1.



La différence fondamentale avec l'expression (1.1) définissant l'enveloppement exact, réside dans la connaissance de la pseudo-vraie valeur. Ici, elle est connue comme résultant d'une procédure de minimisation et l'on examine la nullité de la différence g -G (b ), contrairement à la définition de l'enveloppement exact où l'on s'intéressait à l'existence de G permettant la nullité de cette différence.

La relation (1.7) est évidemment dépendante de l'échantillon, et peut donc être testée. C'est d'ailleurs sur la différence g -G (b ), ou sur une fonction de cette différence que seront fondés les tests d'enveloppement classiques (voir chapitre 2).

Il est à noter que l'enveloppement approché n'est pas transitif, autrement dit, si M1  E M2 et M2  E M3 alors M1 n'enveloppe pas forcément le modèle M3. Cette situation est due au fait que les pseudo-vraies valeurs sont définies comme minimum d'un critère de ``divergence'' entre modèles qui n'est pas transitif (voir Dhaene [27]).



L'exemple suivant permet de représenter l'enveloppement approché sous une forme aussi simple que possible. Il est extrait de Hendry et Richard [54] et fait intervenir deux modèles univariés normaux non emboîtés.

Exemple 3   M1 est un modèle proposant la densité de Y comme distribuée suivant une loi normale de variance unitaire, il est paramétré par la moyenne b et appartient donc à la famille de densités normales de variance 1.
M1 : Y~ N(b ,1)
Ce modèle va s'opposer au modèle M2 proposant une distribution normale centrée paramétrée par sa variance g 2.
M2 : Y~ N(0,g 2)
Si b ¹ 0 et g 2¹ 1 ces deux modèles sont non emboîtés, dans le sens où les familles paramétriques étudiées ici sont disjointes. Nous cherchons ici, à envelopper M2 par M1 en nous basant sur un échantillon Yn=(y1,y2,... ,yn), de n réalisations indépendantes de la variable aléatoire réelle Y .

Les estimateurs associés aux paramètres de ces modèles sont :

Ces estimateurs sont convergents dans leurs modèles respectifs. La pseudo-vraie valeur de g 2 est elle obtenue par l'étude du comportement asymptotique de g 2 sous M1. La décomposition suivante permet une analyse rapide du comportement asymptotique des différents termes.

g 2=  
1
n
n
å
i=1
yi2   =
1
n
æ
ç
ç
è
n
å
i=1
(yi-b )2+2b ·
n
å
i=1
(yi-b )+
n
å
i=1
b 2 ö
÷
÷
ø

Sous M1

Au total on obtient la pseudo-vraie valeur G (b )=plim M1( g 2) =1+b 2


M1 enveloppera donc M2 si et seulement si g 2=G (b )=1+b 2


Conformément à la définition de Hendry et Richard nous jugerons de l'enveloppement de M2 par M1, par la différence entre un estimateur de g 2 et un estimateur de la pseudo-vraie valeur G (b ), donnant la statistique :
f =g 2-G (b )=g 2-1-b 2     (1.8)

basée sur l'échantillon Yn.

En développant cette expression, la statistique s'écrit également sous la forme :
f =
1
n
n
å
i=1
(yi-b )2-1




Hendry et Richard nous proposent également d'examiner sur cet exemple la situation inverse où l'on cherche à tester l'enveloppement de M1 par   M2.

La pseudo-vraie valeur associée à b sous M2 est B(g ) :

B (g )=p
 
lim
  M2
b =0

M2 enveloppera donc   M1 ssi f = b est nul .



1.2.5   L'alternative de Gourieroux et Monfort




L'approche de Gourieroux et Monfort [39], [38] et [42], que nous qualifions d'alternative, présente la particularité de considérer explicitement le processus de génération des données comme extérieur aux modèles. Nous examinerons les possibilités d'enveloppement dans un sens ( M1 enveloppe M2) comme dans l'autre, sans préférence a priori pour l'un des deux modèles. Ainsi, les deux modèles sont examinés de manière symétrique, le principe de l'enveloppement servant de critère de choix objectif.

Considérons le contexte conditionnel défini pour l'étude des pseudo-vraies valeurs, section 1.2.3.

Deux modèles sont proposés pour la modélisation de la densité conditionnelle de y sachant x.

M1 : f(yi| xi,b ) ;
b Î Q
 
b
         
M2 : g(yi| xi,g ) ;
g Î Q
 
g

et supposons le processus de génération des données P0, extérieur aux modèles M1 et M2. Il est caractérisé par la (``vraie'') densité conditionnelle h :

P0 : h(yi| xi,q 0) ; q 0Î Q 0

Puisque P0 est extérieur aux modèles, nous pouvons déterminer quel modèle M1 ou M2 est le plus proche de ce processus, au sens du contraste de Kullback et Leibler. Dans ce paysage, nous pouvons définir différentes pseudo-vraies valeurs selon le modèle de référence.


Si l'on prend pour modèle de référence le modèle P0, alors :

Ces valeurs sont définies comme solutions des programmes :

  b 0 =
Arg
 
min
b
ExE0log é
ê
ê
ë
h(yi| xi,q 0)
f(yi| xi,b )
ù
ú
ú
û
         
    =
Arg
 
max
b
ExE0 [ log  f(yi| xi,b ) ]
et        
  g 0 =
Arg
 
max
g
ExE0 [ log  g(yi| xi,g ) ]
       

Ex désigne l'espérance relative à la distribution des xi et E0 celle relative au ``vrai'' processus P0.

Malheureusement, en règle générale, le modèle P0 est inconnu et l'on ne peut donc pas choisir le modèle ``le plus proche'' au sens de ce critère.

On peut toutefois considérer l'un ou l'autre des modèles concurrents comme étant le ``vrai'' modèle. Si M1 est le modèle de référence, on définit la pseudo-vraie valeur G (b ) comme l'élément de Q g minimisant la distance entre le modèle M1 au modèle M2. G (b ) est déterminée par le même type de maximisation :

G (b )=Arg
 
max
g
 ExE
 
b
log  g(yi| xi,g )

La fonction déterminant G (b ) dans Q g, est la ``fonction de lien'' GQ b ®  Q g, définie section 1.2.2.


Nous trouvons une expression symétrique en considérant M2 comme référence, la fonction de lien B:Q g¾® Q b , déterminant la pseudo-vraie valeur B(g ) dans Q b

B (g )=Arg
 
max
b
 ExE
 
g
log  f(yi| xi,b )

Il est important de noter que les fonctions de lien G et B qui ne font intervenir que les modèles et leurs spécifications, sont indépendantes du vrai processus. N'ayant aucune hypothèse sur l'appartenance de ce processus à l'un des modèles, ``tout n'est donc que pseudo''.

Exemple 4   Supposons les modèles conditionnels M1 et M2 linéaires gaussiens de variance unité :
  M1 :    f(y| x,b ) =
1
2p
exp æ
ç
ç
ç
ç
ç
è
æ
ç
ç
è
y-  x
 
 
1
g ö
÷
÷
ø
2



 
2
ö
÷
÷
÷
÷
÷
ø
et          
  M2 : g(y| x,g ) =
1
2p
exp æ
ç
ç
ç
ç
ç
è
æ
ç
ç
è
y-  x
 
 
2
g ö
÷
÷
ø
2



 
2
ö
÷
÷
÷
÷
÷
ø
Les fonctions de lien G et B vérifient :
G (b ) =
Arg
 
max
g
ExE
 
b
[ log  g(y| x,g ) ]
     
  =
Arg
 
max
g
ExE
 
b
- æ
ç
ç
è
yx
 
 
2
g ö
÷
÷
ø
2



 
     
  =
Arg
 
max
g
Ex æ
ç
ç
è
x
 
 
1
b  -  x
 
 
2
g ö
÷
÷
ø
2



 
     
  =
æ
ç
ç
è
Ex é
ê
ê
ë
x2x
 
 
2
ù
ú
ú
û
ö
÷
÷
ø
-1



 
Ex é
ê
ê
ë
x2x
 
 
1
ù
ú
ú
û
b
De même :
B(g ) =
Arg
 
max
g
ExE
 
b
[ log  g(y| x,g ) ]
     
  =
æ
ç
ç
è
Ex é
ê
ê
ë
x1x
 
 
1
ù
ú
ú
û
ö
÷
÷
ø
-1



 
Ex é
ê
ê
ë
x1x
 
 
2
ù
ú
ú
û
g

Les expressions définissant
G et B sur cet exemple dépendent uniquement des spécifications des modèles M1 et M2 (et notamment de la loi des x qui, toutefois, est souvent inconnue), et sont estimables en remplaçant les paramètres b et g par leurs estimateurs b et g dans les expressions ci-dessus.

Dans ce contexte conditionnel, Gourieroux et Monfort [42] nous donnent leur définition de l'enveloppement, également proposée par Hendry et Richard [54], sous le terme ``d'enveloppement global'' (``population encompassing'').


Définition 1.4   : M1 enveloppe M2 sous P0 ssi :
g 0=G (b 0)     (1.9)

Cette définition de l'enveloppement fait ici intervenir explicitement le processus de génération des données P0, puisque les modèles sont représentés ici par l'intermédiaire de g 0 et b 0, il est bien évident que la relation (1.9) ne lie pas les modèles M1 et M2 dans l'absolu, c'est une relation liant les modèles pour ``un certain'' processus de génération des données P0 qui ne sera pas forcément vraie pour d'autres.


Propriété :


Il est intéressant de noter que si P0Î M1, alors M1 enveloppe tout autre modèle M2.



Preuve :


Si P0Î M1, alors " M2 :

g 0 =
Arg
 
max
g
 ExE0 [ log  g(yi| xi,g ) ]
     
  =
Arg
 
max
g
 ExE
 
M1
[ log  g(yi| xi,g ) ]
     
  =   G (b 0)



Donc M1 enveloppe le modèle M2.


Les pseudo-vraies valeurs disponibles ici, et notamment G (b ) et B(g ), vont nous permettre de définir les ``ensembles images'' et ``ensembles réfléchis'' :


L'ensemble image de M1 dans M2 est6 :
Im( M1)= M
 
 
2
= ì
í
î
g(yi| xi,G (b )), b Î Q
 
b
ü
ý
þ

De même, l'image de M2 dans M1 est :
Im( M2)= M
 
 
1
= ì
í
î
f(yi| xi, B (g )), g Î Q
 
g
ü
ý
þ

Les ensembles réfléchis Rb g et Rg b sont eux définis comme l'ensemble des points invariants par la double action des fonctions de liens, dans un sens et dans l'autre, soit plus formellement :

R
 
b g
= ì
í
î
f(yi| xi,bt.qb = B (G (b )), b Î Q
 
b
ü
ý
þ
Ì M1

et

R
 
g b
= ì
í
î
g(yi| xi,gt.qg =G ( B (g ), g Î Q
 
g
ü
ý
þ
Ì M2



Tout comme les fonctions de lien, ces ensembles sont définis dès que les modèles le sont, ils ne dépendent que de la forme des fonctions de lien et sont donc indépendants du processus de génération des données.


Exemple :


Si l'on se replace dans le cadre de l'exemple 4, on a :


M2 =Im( M1) est le sous ensemble de M2 dont les paramètres g appartiennent à l'image de la matrice ( Ex[ x2x2 ] ) -1Ex[ x2x1 ] .



Les ensembles présentés ci-dessus offrent, et c'est leur principal intérêt, d'importantes perspectives en vue de réduire les modèles en présence, en effet :

Si M1 enveloppe M2 alors le modèle image M2 est à la même distance de P0 que M2. Autrement dit, M1 présente la même spécificité vis à vis de P0 que M2, de plus M2 Ì M2, il n'est donc pas nécessaire d'examiner le modèle M2 dans son intégralité. On peut ainsi réduire les modèles par examen des ensembles images.


Dans le cas d'enveloppement mutuel ( M1 enveloppe M2 et réciproquement), on peut remplacer les modèles initiaux par les ensembles images, puis par les images de ces ensembles images, etc... A la limite de ce processus on obtient les ensembles réfléchis Rb g et Rg b qui sont à la même distance de P0 que les modèles initiaux dont ils sont issus (voir Gourieroux et Monfort [39]), et qui au regard du principe de parcimonie, présentent un intérêt plus grand.


Un point important de cette étude repose sur les fonctions de lien, il faut noter que ces fonctions sont souvent inconnues, dans le cas de modèles avec variables exogènes, la distribution de ces variables est inconnue et les fonctions de lien, faisant intervenir cette distribution ne peuvent donc être déterminés explicitement. Un moyen de contourner cet obstacle est d'utiliser les fonctions de lien en échantillon fini définissant les pseudo-vraies valeurs finies de la section (1.2.3). Gourieroux et Monfort [40] proposent également une procédure de simulation de ces pseudo-vraies valeurs finies par tirages aléatoires d'éléments observés du processus (yi,xi).



1.3   Enveloppement parcimonieux et partiel




``The parcimony principle in empirical modelling is like Occam's razor : If a submodel has all the desirable properties of a larger model, we only need to consider the submodel.''

Geert Dhaene (1993)


1.3.1   Enveloppement parcimonieux

Définition 1.5   : M1 ``enveloppe parcimonieusement'' M2 si et seulement si :




La totalité de l'information apportée par M2 se retrouve donc dans M1, ce qui peut constituer une importante avancée dans l'optique de réduire les modèles, et notamment dans une optique de prévision où la simplicité du modèle est souvent mise en avant.

Cette propriété présente de nombreux autres intérêts, en particulier comme le notent Hendry et Richard, les calculs des statistiques de test d'enveloppement sont simplifiés quand M1 est emboîté dans M2 (le calcul des pseudo-vraies valeurs y est en effet plus simple).

Nous verrons également chapitre 2 que les liens entre les tests d'enveloppement parcimonieux et les tests basés sur des conditions de moments (M-tests) s'avèrent être nombreux et étroits, comme le remarquent Lu et Mizon [61].


D'autre part, et plus fondamentalement, ce cadre permet l'étude du ``modèle emboîtant minimal'', c'est-à-dire du plus petit modèle Mc tel que M1 et M2 soient emboîtés dans Mc. Intuitivement, il semble que ce modèle Mc ait la même spécificité que M2 vis-à-vis de M1. Lu et Mizon étudient les conditions pour lesquelles M1 enveloppe M2 si et seulement si M1 enveloppe Mc, situation évidemment reliée à ce contexte d'enveloppement parcimonieux. L'exemple 3, présenté section 1.2.4, permet de visualiser aisément une telle situation.



Exemple 3 : (suite)


Les modèles en présence sont des modèles d'échantillonnages normaux, M1 appartient à la famille de densités normales de variance 1, M2 proposant une distribution normale centrée paramétrisée par sa variance.

M1 :Y~ N(b ,1)   et   M2 :Y~ N(0,g 2)

Le ``modèle minimal emboîtant'' M1 et M2 est défini ici par Mc:

Mc : Y~ N(m,v2)

Les paramètres associés à ce modèle, d =(m,v2), sont estimés de manière convergente par d =(m,v2) :

m=b =
1
n
n
å
i=1
yi=
y
 
v2=
1
n
n
å
i=1
(yi-
y
)2

L'objectif étant de déterminer une condition pour que M1 enveloppe Mc, nous nous intéressons à la pseudo-vraie valeur de d sous M1, D (b )=(M(b ),V2(b )) dont les expressions sont :
M(b ) =b
   
V2(b ) =1

En effet le comportement asymptotique de nos estimateurs sous M1 nous donne :

M1 enveloppe parcimonieusement Mc ssi d =D (b ) ce qui équivaut à:

ì
í
î
b = b
     
v2 = 1

La première égalité est bien évidemment toujours vérifiée, la deuxième correspond à l'expression 1.8 définissant l'enveloppement de M2 par M1.

Un calcul rapide nous permet d'exprimer cette différence sous la forme :

v2-1=
1
n
n
å
i=1
(Yi-b )2-1= g 2-1-b 2

Sur cet exemple, M1 enveloppe parcimonieusement McÛ M1 enveloppe M2, les deux modèles Mc et M2 ont ainsi la même spécificité vis-à-vis de M1.

Nous reprendrons ultérieurement cet exemple dans l'optique de tester cette relation d'enveloppement en étudiant la distribution de v2.



1.3.2   Enveloppement partiel

Lu et Mizon[61] proposent en 93 des définitions plus générales en considérant la différence d'enveloppement, ou contraste, au travers d'une fonction pouvant être déterministe ou non. Nous donnons ici ces définitions d'enveloppement partiel, ou directionnel.

Définition 1.6   (Enveloppement via une fonction) :
M
 
1  
enveloppe  M2 via  C   ssi    C(g )-C(G (b ))=0     (1.10)
où C est une fonction connue, non aléatoire du paramètre g de M2.

Ces auteurs proposent également une définition où l'on interprète la différence d'enveloppement par le biais d'une fonction tout-à-fait générale.



Définition 1.7   (Lu et Mizon) :
M1  enveloppe  M 2 via B   ssi    E
 
P0
é
ë
B(Yn,g )-E
 
M1
[ B(Yn,g ) ] ù
û
=0     (1.11)

Nous retrouvons dans cette expression les ingrédients de l'enveloppement approché :



La différence est toutefois analysée ici sous P0.


Cette définition trouve sa source dans l'article de Mizon et Richard [66], l'introduction de la fonction B généralise la procédure d'estimation en quelque sorte, et permet d'élargir le champ d'action de l'enveloppement. Un grand nombre de statistiques de test peuvent ainsi être engendrées par différents choix de la fonction B.


Un exemple classique est la fonction B définie par :
B(Yn,g )=L1(g )-L2(b )

L1(g ) et L2(b ) désignent les log-vraisemblances des modèles M1 et M2 respectivement.


L'hypothèse de test de l'enveloppement de M2 par M1 via B est alors la même que l'hypothèse du test de rapport de vraisemblance généralisé de Cox ([21] et [22]), que l'on trouve clairement explicité dans Pesaran [70]. Cette expression est également à la source de la notion d'enveloppement.


D'autres exemples de fonctions B peuvent être construits et sont étudiés par Mizon [65],Mizon et Richard [66] et Lu et Mizon [61] .


Il est à noter que cette dernière définition est la plus générale des définitions présentées ici et n'est pas reliée aux autres , alors que l'on constate que :

M1  enveloppe exactement M2 M
 
enveloppe M2  via C

La réciproque de ce résultat n'est évidemment pas vraie puisqu'il est facile d'imaginer un modèle enveloppant partiellement un autre par construction d'une fonction C particulière, sans que la propriété d'enveloppement exact ne soit vérifiée.


Ces définitions sont des définitions d'enveloppement approché pour lesquelles la différence d'enveloppement est analysée au travers d'un filtre, la fonction B ou C, qui peut être directionnel, réducteur, ou généralisateur.


L'enveloppement partiel, proprement dit, est un cas particulier de ces définitions, correspondant à une définition de B (ou C) réduisant la dimension de g (une projection par exemple), seule ``une partie'' des paramètres de M2 est alors considérée comme pertinente pour l'analyse.


Nous verrons chapitre 2 que cette notion peut être génératrice de tests unifiant la littérature sur les tests de spécification, Lu et Mizon ajoutent même que tous les tests de spécification peuvent virtuellement être retrouvés par des choix appropriés des fonctions C et B .



1.4   Enveloppement bayésien

``In summary, encompassing is formalized as a concept of sufficiency among models whereas specificity mesures the lack of encompassing''

Jean-Pierre Florens, David F. Hendry et Jean-François Richard (1994)


1.4.1   Principe général

L'optique bayésienne propose d'associer aux modèles d'échantillonnage, des densités a priori sur les paramètres, permettant l'écriture d'une densité jointe à l'échantillon y et aux paramètres, dans chacun des modèles8. L'utilisation de la règle de Bayes pour décomposer cette densité jointe de deux façons différentes nous permet d'obtenir des densités a posteriori conditionnelles à l'échantillon y.

La loi jointe, p (y,b ), formée, sur S× Q b, du produit de la densité d'échantillonnage par la densité a priori sur le paramètre, peut se décomposer également en la densité a posteriori que multiplie la densité prédictive (1.12).

Nous rappelons ici cette décomposition pour le modèle M1 :
p (y,b ) = f(y| b )· µ (b )
     
  = µ (b | y)· f(y)
    (1.12)

Nous donnons dans la table ci-dessous les notations pour les deux modèles.

TeX fieldTOTeX field
Notations bayésiennes
 
 
  Modèle 1 Modèle 2
 
Loi jointe p (y,b ) p (y,g )
Densité d'échantillonnage f(y| b ) g(y| g )
A priori µ (b ) n (g )
A posteriori µ (b | y) n (g | y)
Prédictive f(y) g(y)

L'objet de l'inférence bayésienne consiste à passer de l'a priori sur le paramètre à une densité a posteriori sur ce paramètre, conditionnellement aux observations. L'enveloppement bayésien se concentrera donc, tout naturellement, sur les densités a posteriori, les densités a priori n'étant de toutes façons pas comparables puisque basées sur des ensembles d'information différents.

1.4.2   Notion d'enveloppement bayésien




D'une manière similaire à la notion d'enveloppement classique, il y aura enveloppement bayésien de M2 par M1 si la densité a posteriori du modèle 1 explique celle du modèle 2 ou s'il existe une relation permettant de retrouver la densité a posteriori de M2 en utilisant celle de M1. Hendry et Richard [54] proposent une comparaison de l'a posteriori bayésien de M2 avec une interprétation de cet a posteriori par le modélisateur 1.


Définition 1.8   (Enveloppement bayésien) :

On dira que ``
le modèle bayésien M1 enveloppe M2'', s'il existe une densité conditionnelle G (g | b ) indépendante de y, telle que :
n (g | y)= ó
õ
 


Q
 
b
G (g | b )µ (b | y) b     (1.13)
``presque sûrement '' en y.9



L'expression (1.13) exprime le fait que les résultats de M2 , c'est-à-dire n (g | y), sont retrouvés à l'aide de ceux de M1, µ (b | y).


Le lien entre l'enveloppement classique et l'enveloppement bayésien réside dans la fonction G qui permettait de lier les espaces paramétriques et qui est remplacée ici par la densité de transition G (g | b ) ou pseudo-vraie valeur bayésienne, liant les espaces de probabilité associés à chacun des modèles.

Une autre similitude avec l'enveloppement classique est que la relation (1.13) est rarement vérifiée, il faudra donc, ici encore, définir un critère de mesure du défaut d'enveloppement ou de mesure de la spécificité de M2 vis-à-vis de M1. Ce critère servira de base pour la détermination de la densité de transition G (g | b ).


Auparavant, nous suivrons Florens, Hendry et Richard [31], sur la voie de la dualité existant entre l'enveloppement bayésien et l'exhaustivité entre statistiques au sens de Le Cam.

1.4.3   Enveloppement bayésien et exhaustivité




Rappelons tout d'abord la notion d'exhaustivité entre statistiques. Intuitivement, une statistique y est exhaustive pour une statistique z si y apporte la même information que z. Dans un contexte bayésien, l'information sur la loi de y sachant b est la même que celle sur z sachant b . Ou plus précisément :

Une statistique y est exhaustive pour une statistique z, conditionnellement au paramètre b , s'il existe une densité conditionnelle L indépendante de b , telle que :

g(z| b )= ó
õ
 


S
f(y| b )L (z| y) y     (1.14)




Selon Hendry et Richard, l'expression (1.13), qui relie deux paramètres (b ,g ) et une statistique y, peut être exprimée de manière duale en introduisant deux statistiques (y,z) et un paramètre b . En effet, la substitution de (b ,g ,y) par (y,z,b ) mène immédiatement à l'expression (1.14)

L'enveloppement bayésien introduit ici, est ainsi réinterprété comme un concept ``d'exhaustivité entre modèles'' dual au concept ``d'exhaustivité entre statistiques'' défini par Le Cam [60].

Cette dualité ouvre des perspectives intéressantes en transposant les résultats connus dans le cadre de l'exhaustivité entre modèles, au cadre de l'enveloppement bayésien. La notion de ``déficience (deficiency) entre statistiques'', comme mesure du manque d'exhaustivité, se retrouve notamment, dans la notion de la ``spécificité entre modèles'' comme mesure du défaut d'enveloppement bayésien.


La notion de spécificité résultant de cette étude duale permet l'introduction d'un critère pour la sélection de la densité de transition G (g | b ).



1.4.4   Enveloppement bayésien et spécificité




Rappelons tout d'abord la définition d'une probabilité de transition dont est issue la densité G (g | b ).


Définition 1.9   Soient (A, A) et (C, C) deux espaces mesurables, une ``probabilité de transition'' est une fonction L  :
L :    
A× C ¾®
[ 0,1 ]
(a,Y) ¾® L (a,Y)
telle que :



Comme dans le cas classique, raisonnons à densité de transition fixée G (g | b ) afin de déterminer ensuite quel critère convient d'être utilisé pour la sélection de G .

Remarquons que la dualité construite ci-dessus, s'exprime par le passage d'un triplet (b ,g ,y) à un autre triplet, ``dual,'' (y,z,b ). Nous pouvons construire sur le triplet (b ,g ,y) une loi jointe p * définie sur Q b× Q g× S , en utilisant cette densité de transition G (g | b )10.

p *(b ,g ,y) =
[ f(y| b )· µ (b ) ] G (g | b )
     
  =
[ f(y)· µ (b | y) ] G (g | b )

La densité jointe p sur Q b × Q g est ainsi une marginalisation de p *.

Nous pouvons appliquer le même raisonnement sur p * que sur p et appliquer la règle de Bayes de nouveau, afin de trouver l'a posteriori de g (conditionnel à y) par :
n *(g | y)= ó
õ
 


Q
 
b
µ (b | y)G (g | b )db     (1.15)

Nous trouvons ici l'interprétation personnelle par le propriétaire de M1 de la densité a posteriori sur g , à partir de son propre a posteriori sur b . Dès lors nous sommes en présence de deux densités a posteriori sur g sur la base desquelles peut s'effectuer la sélection de G .

Dans le même esprit que Le Cam , Hendry et Richard définissent la spécificité de M2 vis-à-vis de M1 par une mesure de la différence entre les deux densités a posteriori sur g , n *(g | y) et n (g | y).


Suivant les mesures choisies pour quantifier cette différence ou divergence (voir Hendry et Richard [54]), on obtiendra la spécificité, la p-spécificité, ou la j -spécificité, comme minimum de la divergence espérée entre n *(g | y) et n (g | y). Cette spécificité représente en fait la quantité incompressible séparant M1 de M2. Cette notion de divergence espérée minimale correspond à celle utilisée par Le Cam dans le contexte dual, pour mesurer le défaut d'exhaustivité entre statistiques.


1.4.5   Enveloppement bayésien approché





Nous dressons ici un portrait semblable à celui rencontré dans le cadre de l'enveloppement classique. L'enveloppement défini par la relation (1.13) n'est que rarement vérifié, une procédure de mesure du défaut d'enveloppement est alors construite sur la spécificité de M2 vis-à-vis de M1. La pseudo-vraie valeur minimisant le contraste de Kullback-Leibler dans le cadre classique est ici remplacée par la ``transition optimale'' minimisant cette spécificité. La ``transition optimale'' G , ou pseudo-vraie valeur bayesienne est définie comme réalisant ce minimum sur une classe de densités de transition, malheureusement son calcul est souvent difficile, voire intraitable (voir Florens,Hendry et Richard [31]) Des méthodes de simulation sont toutefois capables de déterminer numériquement cette transition optimale, (voir Florens, Larribeau et Mouchart [33]), comme l'échantillonneur de Gibbs (voir Bouoiyour [13]). Une autre voie consiste à approcher la pseudo-vraie valeur, et à considérer l'enveloppement approché basé sur cette pseudo-vraie valeur.

Dans leur récent article sur l'enveloppement bayesien, Florens, Hendry et Richard, proposent trois solutions approchées du problème de minimisation déterminant la pseudo-vraie valeur :

Si g converge vers g (b ) sous la loi jointe de M1 alors :

L ® é
ë
E1 æ
è
b b
 
 
ö
ø
ù
û
-1

 
E1 æ
è
b g
 
 
(b ) ö
ø

1.5   Conclusion

``An essential characteristic of empirical modelling (and in fact in the developpement of theory models) is that it is not a ``once-for all'' event, but a process in which new information from theory and/or data leads to modification of existing models. It seems reasonable to require, therefore, that this process be progressive rather than degenerate and use of encompassing principle helps to ensure this.''

Grayham E. Mizon (1984)



La notion d'enveloppement, que nous venons de détailler, se fonde sur l'existence d'une fonction de lien permettant l'interprétation des résultats d'un modèle M1 par ceux d'un autre modèle M2. Cette relation exacte, formelle, est transitive, et relie les modèles par l'intermédiaire des estimateurs qui leur sont associés. C'est par l'existence de cette fonction que les idées de progressivité dans la validation de nouveaux modèles et de comparaison stratégique de modèles, ont été formalisées.

L'existence, ou la non-existence, d'une fonction étant difficile à assurer, ce principe trouve naturellement son application dans la notion approchée de l'enveloppement. La pseudo-vraie valeur nous donne en effet une possibilité de lier les espaces paramétriques associés aux modèles. Il ne s'agit plus alors de ``trouver'' la fonction de lien mais de ``vérifier'' que la pseudo-vraie valeur est ``suffisamment proche'' de l'estimateur associé à M2. Contrairement à l'approche symétrique de Gourieroux et Montfort prenant explicitement en compte le ``vrai'' modèle, notre approche est directionnelle puisque nous construisons la différence d'enveloppement, ainsi que la pseudo-vraie valeur, sur la base d'un modèle de référence M1. C'est sur la différence entre estimateur et pseudo-vraie valeur que vont être fondés les tests d'enveloppement, que nous développons dans le chapitre suivant.




1
La ''spécificité'' du modèle M2 vis-à-vis du modèle M1 est, en fait, la valeur minimale de la fonction Y , c'est-à-dire :
Y (g ,G (b ))
Cette spécificité est évidemment conditionnelle à l'échantilon Yn . Les tests d'enveloppement développés par la suite seront ensuite basés sur l'étude de la nullité de cette spécificité conditionnelle à l'échantillon.
2
Ce critère porte souvent le nom de ``contraste'', exprimant ainsi l'idée qu'il s'agit d'un éclairage particulier (celui de M1), sur le rapport des vraisemblances. Le terme de ``divergence'' est également employé pour affirmer la notion d'écart entre modèles.
3
Une manière de s'affranchir de l'échantillon consiste à introduire une probabilité sur l'espace (W , A) dont le choix dépendra du cadre de travail (classique ou bayésien, paramétrique ou non-paramétrique, etc..)
4
Les conditions usuelles de régularité sont supposées et ne seront pas détaillées dans cet exposé synthétique. Elles figurent par exemple dans l'ouvrage de Gourieroux et Monfort [37], volume 2, ou dans l'étude des pseudo-vraies valeurs réalisée par Dhaene [27].
5
On supposera, en effet, que la distribution empirique des xi tend vers une distribution limite (et inconnue).
6
M1 peut être défini également comme { f(yi | xi,bt.qb Î Q b}
7
L'emboîtement peut être défini également, par inclusion des modèles, ou par inclusion des espaces paramétriques au sein d'une même famille de modèles, ou bien par la nullité du KLIC de M2 relativement à M1, ou par tout autre définition. Nous ne discuterons pas en détail de cette définition dans ce chapitre.
8
Nous supposerons, dans toute cette partie, que les modèles bayésiens sont représentés par des densités, sans donner les conditions nécessaires à cette propriété.
9
Dans une optique bayésienne ''presque sûrement '' s'entend ici au sens de la loi prédictive de M1, de densité f(y).
10
Florens et alii [31] suggèrent qu'il est naturel pour le propriétaire du modèle 1 de supposer que le paramètre b est suffisant pour caractériser la densité de y, c'est-à-dire de supposer l'indépendance de y et g conditionnellement à b , soit en terme de densités :
f(y| b ,g )=f(y| b )

Pour compléter son information sur Q b× Q g× S , le propriétaire de M1 n'a besoin que d'une probabilité de transition de Q b sur Q g
11
En effet, dans le cas où les deux modèles présentent les mêmes densités a priori et d'échantillonnage, la densité de transition G (g | b ) se retrouve réduite à une Dirac.

Chapter 2   Tests d'enveloppement





``Most empirical testing is to ascertain the status of empirical models, not to test theories. However, here again encompassing helps resolve the problem.''

David F. Hendry (1993)



2.1   Que teste-t-on ?




Les tests présentés ici sont directement issus des grands principes d'inférence classiques : le principe du rapport de vraisemblance, le principe de Wald, et le principe du Score. Les tests sont asymptotiques par nature, et ont été introduits principalement par Mizon et Richard [66], Gourieroux et Monfort [39], et Florens, Hendry et Richard [31] dans un contexte bayésien. Il importe toutefois d'être précis sur l'hypothèse que l'on cherche à tester, ainsi que sur le modèle pris pour référence lors de ces tests. Dans leur étude, Hendry et Richard [54], distinguent d'ailleurs deux approches de l'enveloppement, selon le modèle de référence. Ces auteurs distinguent ainsi le ``sampling encompassing'' du ``population encompassing'', selon que la différence d'enveloppement est examinée sous l'optique du modèle M1, ou sous celle du processus de génération des données P0.


Gourieroux et Montfort [38], se placent sous la direction du ``vrai'' processus de génération des données P0 et étudient l'hypothèse nulle :
H0   :   g 0=G (b 0)

Sous H0, la limite de f 0=(g 0-G (b 0)) entre les estimateurs des pseudo-vraies valeurs g 0 et G (b 0) tend vers zéro, un test de Wald est alors défini (WET), ainsi qu'un Test du Score (SET), enfin un test d'enveloppement généralisé (GET), est également proposé.


Mizon et Richard [66], étudient l'enveloppement sous l'optique du modèle M1, l'hypothèse nulle, directement issue de l'enveloppement exact est alors :

H1   :   g =G (b )

L'enveloppement exact ne pouvant, par nature, être testé, c'est l'enveloppement approché qui sert donc de base à ces tests, on va donc tester la nullité de la spécificité de M2 vis-à-vis de M1 , la pseudo-vraie valeur ayant été préalablement déterminée. La statistique de test sera alors basée sur la différence entre un estimateur du paramètre du second modèle et un estimateur de la pseudo-vraie valeur. Pour cela on retrouve les deux grandes orientations classiques :

En règle générale la distribution de f n'est pas connue en échantillon fini, et il est alors nécessaire d'avoir recours à une étude asymptotique pour caractériser la distribution de f .


L'exemple 3 permet une approche simple des tests d'enveloppement, sur cet exemple la distribution de f sera aisément caractérisée.


Exemple 3 (suite et fin) :


Le modèle M1 :Y~ N(b ,1) enveloppe le modèle M2 :Y~ N(0,g 2), si la condition :

v2=
1
n
n
å
i=1
(Yi-b )2=1

est vérifiée.

L'originalité du modèle M2 par rapport à M1 consiste, en effet, à laisser la variance libre alors qu'elle est contrainte à 1 dans M1. Le test d'enveloppement portera donc, logiquement, sur l'égalité à 1 de la variance de Y, sous M1, c'est-à-dire sur la pertinence de cette originalité de M2 vis-à-vis de M1.


Sous M1 la distribution de v2 est connue puisqu'il s'agit d'une distribution de Khi-deux.

v2  
M1
~
 
   
1
n-1
  c (n-1)2



La situation inverse où l'on cherche à tester l'enveloppement de M1 par   M2 nous donne également une distribution de Khi-deux. Les rôles étant inversés, le modèle pris pour référence est maintenant M2, c'est donc sous M2 que l'on examine la pseudo-vraie valeur et la distribution de la statistique de test.

La pseudo-vraie valeur associée à b sous M2 est B(g ) =0:


M2 enveloppera donc   M1 ssi f = b - B(g )= b est nul sous M2.


La distribution de f =b =1/nåi=1nYi sous M2, est évidemment une distribution normale centrée.

f  
M2
~
 
  N(0,
g 2
n
)

Nous obtenons ainsi la statistique de test de Wald suivante :

h =
n· f 2
g 2
 
M2
 
 
c (1)2


2.1.1   Tests de Wald (Wald Encompassing Tests)




Afin de construire un test de l'enveloppement de M2 par   M1, Mizon et Richard [66], suivant les travaux de Cox [21] et [22], Huber [55] et White [91], nous donnent la distribution limite sous   M1 de n· f = n(g -G (b )).

Ici la pseudo-vraie valeur G (b ) est définie comme Eb( g ), où Eb désigne l'espérance sous   M1, si nécessaire, on remplacera cette espérance par la plim sous   M1 de l'estimateur g . Nous donnons ces résultats dans une version allégée, sans démonstration ni hypothèses précises, laissant le soin au lecteur de se reporter aux textes originaux pour plus de précision.

 

Théorème 2.1   Sous les ``conditions usuelles de régularité du maximum de vraisemblance''(voir White [91], conditions A1-A7), la distribution jointe des estimateurs du maximum de vraisemblance b et g , sous   M1 est :
n æ
è
b - b
g - G (b )
ö
ø
  M1
 
 
N æ
ç
ç
è
æ
è
0
0
ö
ø
, æ
ç
ç
è
V
 
b
(b )
V
 
b
(b )· D
 
 
D· V
 
b
(b )
V
 
b
(g )
ö
÷
÷
ø
ö
÷
÷
ø
Vb(b ) est la matrice de variance-covariance usuelle pour l'estimateur du maximum de vraisemblance d'un modèle correctement spécifié, tandis que Vb(g ) est celle de l'estimateur du maximum de vraisemblance d'un modèle mal-spécifié.

Soit, si Li(b ) désigne la vraisemblance associée au modèle Mi :

La distribution limite de f découle de cette expression et l'on a :

n·  f
  M1
   
 
  N æ
è
0,V
 
b
(f ) ö
ø
    (2.1)

avec Vb(f )=Vb(g )-DVb( b )D



Une statistique de test de Wald est maintenant construite sur la base de la distribution limite de n· f sous  M1.



Corollaire 2.2   : Sous les hypothèses du théorème précédent, un test de Wald de l'enveloppement de M2 par   M1 est donné par la statistique :
h 1=n· f V
 
b
(f )+f
Vb(f ) n'étant pas toujours inversible, Vb(f )+ désigne un inverse généralisé de Vb(f ), on note l son rang.


La statistique
h 1 a alors une distribution limite de c (l)2 sous M1.

2.1.2   Test du Score (Score Encompassing Test)




Le test du score est basé sur la dérivée de la vraisemblance du modèle M2, estimé pour la pseudo-vraie valeur G (b ), pour cela définissons le score par S  :
S(g )=
1
n
·
L2(g
g

La statistique du score est basée sur la nullité de S( G (b )) . Par définition, S(g )=0, en développant S au voisinage de g on a :
S(g )=0=S(G (b ))-nH· (G (b )-g )+op(1)

soit encore :
S(G (b ))=nH· f +op(1)     (2.2)

où la matrice H (supposée régulière) est définie par :

H=
 
lim
n® ¥
é
ê
ê
ê
ë
-
1
n
E
 
b
2L2(g
g g
 
 
ù
ú
ú
ú
û
 
g =G (b )

L'équation (2.2) suggère l'utilisation de la formule (2.1) pour définir la statistique de test du score, h 2, par  :

h 2=S(G (b ))
 
 
V
 
b
(S)+S(G ( b ))

Vb(S)+ désigne une inverse généralisée de Vb(S) :
V
 
b
(S)=H V
 
b
(f ) H

Nous renvoyons à Mizon et Richard [66], pour plus de détails concernant les hypothèses sous lesquelles ces tests sont établis, ainsi que celles assurant de l'équivalence asymptotique du test du Score et du test de Wald. Ces auteurs sont également à l'origine du développement de tests plus généraux basés sur l'utilisation de l'enveloppement étudié via une fonction B.



2.1.3   Tests classiques et enveloppement.




Lu et Mizon [61], mettent également en évidence les relations entre les tests d'enveloppement et les tests classiques par l'utilisation judicieuse de l'expression (1.11) définissant l'enveloppement via une fonction B (voir section 1.3.1). Afin de généraliser et d'étendre la notion d'enveloppement, Mizon et Richard [66] proposaient, en effet, de s'intéresser à g =B(Yn,g ) et nous donnent, dans le théorème suivant, la distribution asymptotique de la statistique f =g -E M1[ g ] .

Théorème 2.3   Sous les hypothèses du théorème 2.1, et sous les hypothèses de régularité de B et de K=plim M1( B(Yn,g )/ g ) énoncées par Mizon et Richard [66](voir annexe), on a :

nf =n  æ
è
g -E
 
M1
[ g ] ö
ø
  M1
   
 
N æ
è
0,V
 
b
(f ) ö
ø
    (2.3)
où : Vb(f )=KVb(f )K

Corollaire 2.4   : Le test de Wald associé à f est donné par :
h
 
 
1
=nf V
 
b
(f )+f     (2.4)
où : r et Vb(f )+ désignent le rang et une inverse généralisée de Vb(f ).


La statistique
h 1 a alors une distribution limite de c (r)2 sous M1.

Le test du Score peut également être retrouvé par la même procédure que section (2.1), et Mizon et Richard [66], montrent que ce test est asymptotiquement équivalent au test de Wald sous la condition que nf * soit asymptotiquement négligeable (op(1)), avec :
  f *
=B(Yn,G (b ))-E
 
M1
[ B ( Yn,G (b ) ) ] -f
 
b
( b -b )
et    
 
f
 
b
=
 
lim
n® ¥
1
n
E
 
b
æ
ç
ç
è
B(Yn,G (b ))·
L1
b
ö
÷
÷
ø

La classe de tests définis par (2.3) et (2.4) permet de retrouver un bon nombre de tests classiques en économétrie , l'exemple le plus célèbre est celui du test de Cox obtenu par un choix judicieux de la fonction B.


En effet, si l'on choisit  B(Yn,g )=1/n( L1(g )-L2(b )) où L1(g ) et L2(b ) désignent les log-vraisemblances des modèles M1 et M2 respectivement, on obtient h 1 comme étant la statistique du rapport de vraisemblance généralisé de Cox.


Un autre exemple est le critère d'information de Sawyer (83) cité par Mizon [65] qui est retrouvé en posant B(Yn,g )=1/nEg ( L1(g )-L2(b )) qui est un estimateur du critère d'information de Kulback et Leibler entre M1 et M2. Ce test présente l'avantage de n'être pas soumis à la condition d'orthogonalité du test de Cox. Mizon [65] propose de nombreux exemples de tests pouvant être retrouvés ainsi1.



2.2   Enveloppement et choix de régresseurs paramétriques




Le problème du choix des régresseurs constitue l'un des problèmes majeurs de l'économétrie depuis de longues années. De nombreuses procédures de sélection ont été proposées dans le cadre classique (voir Pesaran [70]), dans le cadre bayésien, (voir Zellner [93]) que les modèles soient spécifiés paramétriquement ou non-paramétriquement (voir la synthèse de Lavergne [58]).

2.2.1   Modèle de régression




Soit (X,Y) un vecteur aléatoire défini sur l'espace mesuré ( Â p× Â , BÂ p+1,l ) , nous supposerons que ce couple admet la densité2 j (x,y) par rapport à la mesure de Lebesgue l .

La régression de Y sur X s'écrit alors mathématiquement :

f(x)=E [ Y| X=x ] =
ó
õ
yj (x,y)l (dy)
ó
õ
j (x,y)l (dy)
=
ó
õ
yj (x,y)l (dy)
j (x)

en tout point où j (x) est non nulle.


On trouve souvent le modèle de régression sous la forme :

Y=f(X)+U     (2.5)
E[ U| X] =0, l -presque sûrement.


Il est important de lire cette expression dans le bon sens. Ici l'équation (2.5) se lit de ``la gauche vers la droite'' puisque la partie gauche détermine le résidu U intervenant dans la partie droite, U est donc défini par :

U=Y-f(x)     (2.6)

Remarque :


Hendry [53] nous rappelle que l'on trouve souvent formulés identiquement deux concepts totalement différents sous une équation du type :
yi=f(xi)+h i
Si l'on a affaire à une ``expérience contrôlée'', yi est le résultat de la ième expérience, xi est la variable d'entrée, f est la fonction liant les deux et h i est une perturbation qui varie entre les expériences. Cette équation se lit de ``la droite vers la gauche'' puisque pour le même input xi, on retrouvera (modulo la perturbation) le même output yi. C'est ainsi notamment que doit se concevoir l'idée d'un ``vrai'' modèle, tel que le processus de génération des données P0.


En économétrie par contre, les modèles sont des approximations de la réalité ; yi est engendré par un processus inconnu que l'on cherche à ``mimer'', on le décompose alors en une partie explicative f(xi) et une partie inexpliquée h i définie comme :
h i=yi-f(xi)
Des changements dans la modélisation entraînent donc des changements pour h , l'équation se lit ainsi de ``la gauche vers la droite''.

La régression linéaire est une approximation de la réalité pour laquelle on impose une spécification particulière de f et de h , ce modèle est ainsi un modèle approché du modèle de régression exact défini par (2.5).




La régression linéaire est donc présentée comme une spécification de la fonction f contrainte à être linéaire en X, la distribution des résidus peut aussi être spécifiée pour donner le ``modèle linéaire normal ''. Enfin, si les résidus sont de plus supposés indépendants et de même variance, on obtient le ``modèle linéaire standard''.


Il arrive souvent que l'on veuille sélectionner des modèles de régression en choisissant entre des ensembles de régresseurs définissant des modèles non emboîtés. Nous entendons par ``non emboîtés'' des modèles tels qu'aucun des deux modèles ne peut s'exprimer comme une particularisation ou une généralisation de l'autre.

Cette question de la sélection de régresseurs a donné lieu à de nombreux travaux en économétrie, voir entre autre Amemiya [2], Atkinson [4], Hausman [52] ou Pesaran [70]. Le problème du choix de régresseurs dans le cadre de la régression linéaire normale a notamment été longuement étudié. Nous pouvons introduire ce problème de choix de modèles tel qu'il se présente généralement en économétrie.



Soit Si=(Yi,Xi,Zi)i=1,...,n, n réalisations indépendantes du vecteur aléatoire S de Â × Â p× Â q. Essentiellement, X et Z représentent les variables exogènes associées aux modèles M1 et M2.

Le problème s'écrit généralement sous la forme :

M1: y=Xb +u   u~ N(0,s 2In)
       
M2: y=Zg +v   v~ N(0,t 2In)
    (2.7)

X et Z représentent les matrices de régresseurs de dimensions (n× p) et (n× q) respectivement, et où y est un vecteur d'observations de dimension ( n× 1) .

En fait, ce problème peut se présenter de différentes manières et Mizon [65] nous met en garde sur la modélisation qui en est faite. On peut, en effet, réinterpréter le système (2.7) comme la donnée de deux modèles conditionnels, l'un par rapport à la variable X , l'autre par rapport à Z.
M1: y| X ~ N(Xb ,s 2In)
     
M2: y| Z ~ N(Zg ,t 2In)
    (2.8)

Toutefois cette interprétation présente l'inconvénient de séparer complètement les modèles M1 et M2, ces deux modèles reposant sur des distributions conditionnelles complètement différentes. Cette formulation n'est donc pas satisfaisante, d'autant que le modèle M1 ``ne dit rien'' sur la variable Z, les deux modèles dans (2.8) pouvant également être simultanément acceptés si y,X et Z ont une distribution jointe normale multivariée, par exemple.

Une approche permettant d'introduire une distribution commune et donc des hypothèses susceptibles d'être testées est :
M1: y| X,Z ~ N(Xb ,s 2In)
     
M2: y| Z,X ~ N(Zg ,t 2In)
    (2.9)

La formulation (2.9) indique que nous avons deux modèles conditionnels aux mêmes variables (X,Z), et donc relatives à la même distribution, et précise que le modèle M1 exclut la variable Z de la modélisation, tandis que M2 exclut la variable X, ce qui nous donne généralement des modèles non-emboîtés. Nous nous efforcerons de garder cette formulation du problème tout au long de ce travail.

Dans l'étude non-paramétrique à venir le problème sera formulé de même par :

M1:
E [ y| X,Z ]
=E [ y| X ]
     
M2:
E [ y| X,Z ]
=E [ y| Z ]
    (2.10)

L'exclusion de Z du modèle de régression M1 se fera alors sans imposer de forme fonctionnelle pour la régression et sans spécifier la loi de probabilité des variables étudiées (voir section 4.2).

2.2.2   Tests paramétriques classiques




Test de Cox :

L'un des tests les plus connus pour tester du choix entre modèles de régression linéaires non-emboîtés est dû à Cox [21] et [22], que l'on trouve explicité par Pesaran [70]. La procédure de test repose sur la différence L12 entre les log-vraisemblances empiriques L1 et L2 des modèles M1 et M2. On examine alors la différence entre L12 et sa pseudo-vraie valeur dans l'optique de M1. Cox obtient ainsi la statistique :
Tf=
1
n
· L12-E1 é
ê
ê
ë
1
n
· L12 ù
ú
ú
û
E1 désigne l'espérance relative au modèle M1.


On montre alors que n· Tf a une distribution normale centrée sous M1. Une procédure de test peut alors être menée en estimant la variance de Tf. Un des reproches fait à ce test est que si l'on conduit un second test sous l'hypothèse que M2 est vrai, les deux tests peuvent mener à des contradictions, rejetant ou acceptant simultanément les deux hypothèses concurrentes. De plus ce test ne s'applique pas si le modèle M1 est emboîté dans M2 , ni si les espaces engendrés par des régresseurs X et Z sont orthogonaux (voir Pesaran).

Emboîtement artificiel :

De nombreux auteurs ont également proposé d'utiliser un modèle emboîtant les deux modèles concurrents, ainsi Atkinson [4] propose de combiner les deux modèles en un modèle général constitué d'une moyenne géométrique des densités intervenantes dans chacun des modèles. Une autre possibilité suggérée également par Atkinson consiste à réaliser une mixture des deux modèles. De cette idée provient le classique sur-modèle de régression Mc  :
Mc   :   y=Xb +Zg +U
On peut alors tester l'hypothèse b =0 (qui correspond à M2 ), puis g =0 (qui correspond à M1). Cependant, comme précédemment, les conclusions de ces tests peuvent être contradictoires. Une autre critique est qu'il n'existe pas un seul et unique sur-modèle Mc, d'autres problèmes dûs à la colinéarité entre X et Z peuvent également affecter ces tests.

Davidson et Mac Kinnon [23] proposent en 1981 un test basé sur le modèle emboîtant suivant :
Mc   :   y=(1-l )Xb +l Zg +U

L'idée est alors de tester la validité de l'un ou l'autre des modèles via l . Le problème est que le modèle Mc n'est pas directement estimable, les paramètres b ,g et l n'étant pas séparément identifiables. Une solution proposée est de remplacer Mc par un modèle Mc où les paramètres d'un modèle ( M2 par exemple) sont remplacés par un estimateur (g consistant pour M2) :

M
 
 
c
   :   y=(1-l )Xb +l Zg +U     (2.11)

On teste ensuite la validité de l'autre modèle ( M1) en testant l .


Sur notre exemple, on teste M1 contre M2 en testant l =0. Si la nullité de l est acceptée alors on validera le modèle M1. Un point important, relevé par Gourieroux et Monfort [38], est que la nouvelle variable Zg dépend de (Yi)i=1,..,n par l'intermédiaire de g et devrait être considérée comme endogène. Cet obstacle est ignoré par Davidson et Mac Kinnon qui étudient directement la t-statistique de l , calculée ``comme si'' Zg était une variable exogène traditionnelle .


Dans un cadre non linéaire, deux tests reposent également sur le même principe, le J-test qui utilise la t-statistique pour l =0 dans l'estimation Jointe de b et l dans (2.11), et le P-test, qui permet l'utilisation des moindres carrés linéaires dans la même situation (voir l'ouvrage de Davidson et Mac Kinnon [24]).

2.2.3   Tests d'enveloppement

Dans le cadre de modèles de régression linéaires standards, Sawa [77], nous donne l'expression des pseudo-vraies valeurs du modèle M2, pour cela nous noterons a =(b ,s 2) les paramètres de M1, d =(g ,t 2) ceux de M2, X et Z les matrices de régresseurs de dimensions ( n× p) et ( n× q) respectivement, et où y est un vecteur d'observations de dimension ( n× 1) . Pour la clarté de la présentation nous supposerons que M1 et M2 sont ``strictement non emboîtés'', c'est-à-dire que la matrice (X Z) est de rang (plein) p+q, la généralisation au cas où M1 et M2 sont imbriqués ne pose pas de problème majeur et est discuté dans Mizon et Richard [66].

L'estimateur du maximum de vraisemblance de a =(b ,s 2) est a =(b ,s 2) défini par :

b =
æ
è
X
 
 
X ö
ø
-1

 
X
 
 
y
     
s 2 =
1
n
· y
 
 
MXy
    (2.12)

de même pour M2, l'estimateur de d =(g ,t 2) est d =(g ,t 2) :
g =
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
y
     
t 2 =
1
n
· y
 
 
MZy
    (2.13)

Les matrices MX et MZ sont les matrices de projection sur les espaces orthogonaux aux espaces engendrés par X et Z respectivement. On définit également ici les matrices de projection orthogonales PX et PZ. Soit :
MX=I-X æ
è
X
 
 
X ö
ø
-1

 
X
 
 
et
PX=X æ
è
X
 
 
X ö
ø
-1

 
X
 
 
     
MZ=I-Z æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
 
PZ=Z æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
    (2.14)

Pseudo-vraies valeurs

Afin d'obtenir les pseudo-vraies valeurs de d sous M1, nous devons calculer les éléments G (a ) et T2(a ) minimisant le KLIC entre M1 et M2.

Sawa [77] nous donne D (a )=( G (a ),T2(a )) , la pseudo-vraie valeur de d =(g ,t 2) sous M1  :

G (a ) =
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
Xb
     
T2(a ) =
1
n
· æ
è
(n-q)s 2+b
 
 
X
 
 
MZXb ö
ø

Preuve :


Par définition la pseudo-vraie valeur est l'élément D (a ) :

D (a )=Arg
 
min
Q
 
d
E
 
a
é
ê
ê
ë
log æ
ç
ç
è
L1(a )
L2(d )
ö
÷
÷
ø
ù
ú
ú
û
    (2.15)

Ea est l'espérance prise sous M1.


Sawa propose de séparer ce calcul à partir de l'expression de la log-vraisemblance de M2 :
log L2(d )=-
n
2
log (2p )-
n
2
log (t 2)-
1
2t 2
\| y-Zg \|
2
 
 

Si l'on différencie cette dernière expression par rapport à g d'une part et t 2 d'autre part, on a :

log L2(d )
g
=
1
t 2
Z
 
 
( y-Zg )
     
log L2(d )
t 2
=
-
n
2t 2
+
1
2t 4
\| y-Zg \|
2
 
 

La solution du problème de minimisation (2.15) est alors obtenue comme D (a ) solution de  :
ì
ï
ï
ï
í
ï
ï
ï
î
E
 
a
é
ê
ê
ë
log L2(D )
g
ù
ú
ú
û
=0
   
E
 
a
é
ê
ê
ë
log L2(D )
t 2
ù
ú
ú
û
=0

Or :
E
 
a
é
ê
ê
ë
log L2(d )
g
ù
ú
ú
û
=
1
t 2
Z
 
 
( Xb -Zg )
   
E
 
a
é
ê
ê
ë
log L2(d )
t 2
ù
ú
ú
û
=
-
n
2t 2
+
1
2t 4
E
 
a
é
ê
ê
ë
\| y-Zg \|
2
 
 
ù
ú
ú
û
    (2.16)

On peut décomposer cette dernière équation de façon à faire apparaître la variance de M1 :
E
 
a
é
ê
ê
ë
log L2(d )
t 2
ù
ú
ú
û
=
-
n
2t 2
+
1
2t 4
E
 
a
é
ê
ê
ë
\| y-Zg \|
2
 
 
ù
ú
ú
û
     
  =
-
n
2t 2
+
1
2t 4
E
 
a
é
ê
ê
ë
\| y-Xb \|
2
 
 
+ \| Xb -Zg \|
2
 
 
ù
ú
ú
û
     
  =
-
n
2t 2
+
1
2t 4
é
ê
ê
ë
(n-q)s 2+ \| Xb -Zg \|
2
 
 
ù
ú
ú
û
    (2.17)

On obtient G (a ) et T2(a ) en déterminant les éléments g et t 2 réalisant l'égalité à zéro des expressions (2.16) et (2.17) respectivement.


Remarque :


Une interprétation géométrique de ce résultat est que Z· G (a ) est la projection de l'espérance (Xb ) de y sous M1 sur l'espace engendré par Z. En effet,
Z· G (a )=Z æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
· Xb =PZ· Xb

tandis que nT2(a ) est la somme des variances des yi à laquelle s'ajoute la norme euclidienne de la distance entre les espérance de y sous M1 (Xb ) et celle sous M2 (Zg ).



Il est aisé de montrer que :

Lemme 1   : Le comportement asymptotique des estimateurs du maximum de vraisemblance sous M1 est :



Ce lemme dû à Sawa [77], nous permet de vérifier que l'espérance de l'estimateur du maximum de vraisemblance sous une mauvaise spécification, donne la pseudo-vraie valeur. Celle-ci minimise la distance, au sens de Kullback-Leibler, entre le modèle de référence, M1, et le modèle par rapport auquel est calculé cet estimateur, M2.

Statistique de test




La statistique f = d -D (a ) définissant la différence d'enveloppement s'écrit alors comme le vecteur :
f = æ
ç
ç
è
g -G (a )
 
t 2-T2(a )
ö
÷
÷
ø
= æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
è
æ
è
Z
 
 
Z ö
ø
-1

 
Zy- æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
Xb
 
1
n
y
 
 
MZy-
1
n
æ
è
(n-q)s 2+b
 
 
X
 
 
MZXb ö
ø
ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Cette pseudo-vraie valeur est estimée par f  :

f = æ
ç
ç
è
g -G (a )
 
t 2-T2(a )
ö
÷
÷
ø
= æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
è
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
 y- æ
è
Z
 
 
Z ö
ø
-1Z
 
 
X b
 
1
n
· y
 
 
MZy-
1
n
æ
è
(n-q)s 2+b
 
 
X
 
 
MZXb ö
ø
ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

soit encore :

f = æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
è
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
(y-X b )
 
1
n
· y
 
 
[ MZ-(n-q)MX ] y-
1
n
é
ë
b
 
 
X
 
 
MZXb ù
û
ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

L'utilisation des formules (2.12) et (2.13) permet de simplifier l'écriture de cette différence, où l'on remarque que :

f = æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
è
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
MXy
 
1
n
y
 
 
æ
ç
ç
è
MZ- ( n-q )
 
 
 
MX-PXMZPX ö
÷
÷
ø
y
ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø
    (2.18)

La première coordonnée de f s'exprime donc comme étant une expression linéaire en y, la deuxième est une forme quadratique en y.


La variance asymptotique Va(f ) de la statistique n· f est  :
V
 
a
(f )= æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è
ns 2 æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
MXZ æ
è
Z
 
 
Z ö
ø
-1

 
 
-2s 2 æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
PXMZXb
     
-2s 2b
 
 
X
 
 
MZPXZ æ
è
Z
 
 
Z ö
ø
-1

 
 
4s 2
n
· b
 
 
X
 
 
MZMXMZXb
ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø
    (2.19)



On peut également l'écrire sous la forme :
V
 
a
(f )=ns 2· Q   æ
è
Z
 
 
Z ö
ø
-1Z
 
 
MXZ æ
è
Z
 
 
Z ö
ø
-1

 
Q
 
 

Q =( Iq        -2/nZ Xb ) .


Une preuve de ce résultat dû à Mizon et Richard est rappelée en annexe.


Ces premiers résultats nous permettent d'obtenir différents tests d'enveloppement suivant le paramètre d'intérêt.

Tests de Wald




Trois tests d'enveloppement de Wald sont proposés ici selon que l'on s'intéresse au paramètre ``complet'' d =(g ,t 2) ou selon que l'on envisage l'enveloppement sur la première (ou deuxième) coordonnée pour ne retenir qu'un test d'enveloppement sur g (ou t 2).





Il est intéressant de noter que ces statistiques sont en relation entre elles et avec des statistiques classiques.


Ce dernier point permet notamment de réconcilier les approches emboîtées et non-emboîtées, qui sont ainsi équivalentes dans cette approche.



Remarque :


Les statistiques h (g ) et h (t 2) peuvent être retrouvées par l'utilisation de la notion d'enveloppement via une fonction B définie section 2.1.3. Si l'on utilise les fonctions B1 et B2 définies ci - dessous :
  B1 : Â q× Â + ¾® Â q
     
æ
è
g
t 2
ö
ø
¾® g
et          
  B1 : Â q× Â + ¾® Â +
     
æ
è
g
t 2
ö
ø
¾® t 2
nous retrouvons les statistiques de tests h (g ) et h (t 2) à partir des formules générales 2.3 et 2.4 données dans la section 2.1.3.


2.3   Conclusion




Les tests d'enveloppement présentés dans ce chapitre reposent sur la définition de l'enveloppement approché et se fondent sur l'étude du défaut d'enveloppement, constitué de la différence entre un estimateur des paramètres du modèle M2 et un estimateur de la pseudo-vraie valeur sous M1. Cette différence est examinée de manière globale ou partielle selon que l'on intègre l'ensemble des paramètres des modèles, ou une partie seulement. Une classe de tests de Wald examinant le défaut d'enveloppement par l'intermédiaire d'une fonction déterministe ou non, est développée et permet une généralisation des tests existants. Cette approche regroupe sous une même présentation une vaste collection de tests d'hypothèses emboîtées et non-emboîtées, et permet de retrouver les tests classiques comme des cas particuliers.

Ces tests doivent cependant être considérés comme des test visant à comparer les forces et faiblesses des modèles en présence et non comme des procédures de validation ou de sélection. Notre approche est ainsi directionnelle considérant le modèle M1 comme modèle d'intérêt que l'on cherche à valider par ses capacité à incorporer les résultats de modèles secondaires qui ne sont que les instruments de cette validation.

Nous présenterons chapitre 4 différents tests permettant d'examiner la validation d'un modèle de régression par l'enveloppement d'un autre modèle de régression dans un contexte non-paramétrique. Il nous faut auparavant définir les estimateurs non-paramétriques qui interviendront dans la définition de ces modèles.



2.4   Annexe au chapitre 2




Autre possibilité d'énoncer le théorème 2.3 :


Les dérivées premières et secondes de B(Yn,g ) jouant un grand rôle dans cette distribution, nous devons auparavant introduire quelques notations simplifiant l'écriture (voir Mizon [65])  :

Théorème 2.5   Sous les hypothèses du théorème 2.1, et sous les hypothèses de régularité suivantes :





Calcul de la variance Va(f ) donné par la formule (2.19) :


La formule (2.18) nous donne une expression de f comme étant une expression linéaire en y pour la première composante, la deuxième étant une forme quadratique en y. Soit encore :

f = æ
ç
ç
è
g -G (a )
 
t 2-T2(a )
ö
÷
÷
ø
= æ
ç
ç
ç
ç
ç
è
Ay
 
1
n
· y
 
 
By
ö
÷
÷
÷
÷
÷
ø

A=( Z Z) -1Z MX et B=MZ-( n-q) MX-PXMZPX.


Sous M1, y~ N(Xb ,s 2In) et donc :
Var ( g -G (a ) ) =s 2AA
 
 
=s 2 æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
MXZ æ
è
Z
 
 
Z ö
ø
-1

 

On a également :
Cov ( g -G (a ),t 2-T2(a ) )
=
2s 2
n
ABXb

on remarque que BXb =MXMZXb , ce qui nous donne :
Cov ( g -G (a ),t 2-T2(a ) )
=
2s 2
n
æ
è
Z
 
 
Z ö
ø
-1

 
Z
 
 
MXMZXb
et,
Var ( t 2-T2(a ) ) =
2s 4
n2
Tr(B2)+
4s 2
n2
b
 
 
X
 
 
MZMXMZXb

De cette dernière expression, seul le deuxième terme apparaît dans l'expression (2.19), le premier terme étant négligeable devant ce terme ( la trace Tr(B2) est en effet un Op(1/n2) voir Mizon et Richard [66] ).




1
Parmi ceux-ci, on trouve le test pour déceler la présence de facteurs communs dans les processus autorégressifs (COMFAC) de Sargan (64), ainsi que le test directionnel de Epps et ali.(82)
2
Comme précédemment nous noterons les densités marginales et conditionnelles par la même fonction j , les arguments de cette fonction levant toute ambiguïté.
3
Le nombre de degrés de liberté est en fait le rang de Va(f ), qui correspond au nombre de variables propres au modèle M2, en supposant les modèles strictement non emboîtés, le nombre de degrés de liberté est donc q.
4
Le rang de Va(g ) est le même que le rang de Va(f ), c'est le rang de la matrice ( Z Z) -1Z MXZ( Z Z) -1.

Chapter 3   Estimation non-paramétrique de la régression

Ce chapitre se veut une introduction aux estimateurs non-paramétriques de la régression. Nous présenterons également les principales propriétés que nous utiliserons dans notre étude non-paramétrique de l'enveloppement. Après avoir présenté succinctement différents estimateurs fonctionnels de la régression nous détaillerons plus particulièrement les propriétés relatives à la méthode du noyau. Nous nous préoccuperons enfin du problème de sélection de la fenêtre. Ce chapitre ne présente toutefois aucun apport statistique nouveau.

3.1   Introduction





``On dit qu'un problème d'estimation est non-paramétrique lorsqu'il ne peut pas se ramener au problème de l'estimation d'un élément d'un espace vectoriel de dimension finie''

Gerard Collomb (1976)



D'après G. Collomb, l'estimation non-paramétrique se présente comme une ``non-définition'', rejetant l'estimation d'un paramètre sans que ne soit explicitement exposé l'objet à estimer.

Dans notre approche non-paramétrique l'objet d'intérêt est une fonction tout-à-fait générale, appartenant à un espace fonctionnel (ce qui n'exclut cependant pas tout paramètre de l'estimation).

Dans le cadre de ce travail, et afin de clarifier notre propos, nous entendrons par ``non-paramétrique'' l'estimation du modèle de régression :
Y=f(x)+u

dans laquelle, ni la forme de la fonction de régression, ni la distribution des résidus ne seront spécifiés.

Ceci est la double négation d'un modèle paramétrique où, par exemple, la forme linéaire est imposée et où la distribution des résidus est spécifiée.


Une classification précise entre estimation paramétrique, non-paramétrique, semi-paramétrique et semi-non-paramétrique nous a été présentée par M. Delecroix et est reproduite dans le travail de Pascal Lavergne [58]. Cette classification se base sur l'objet d'intérêt de l'estimation, et nous ne la détaillerons pas davantage, laissant le lecteur intéressé se reporter à ces références.


L'accent sera mis dans ce chapitre sur l'importance des choix arbitraires intervenant dans l'estimation non-paramétrique, et en premier lieu, sur le choix du paramètre déterminant le degré de ``douceur'' de l'estimateur non-paramétrique. En effet, ``non-paramétrique'' ne signifie pas absence de paramètre, bien au contraire et un paramètre de lissage interviendra de manière cruciale dans l'estimation. A travers les résultats asymptotiques et les exemples d'estimateurs classiques proposés, nous essayerons de relever l'aspect d'arbitrage que revêt ce paramètre entre ``douceur'' et ``variabilité'' des estimateurs. La sélection de ce paramètre dans le cadre de la méthode du noyau de convolution sera étudiée afin de mieux cerner l'impact de ce choix sur l'estimateur. Le critère de la validation croisée sera retenu pour la suite de notre travail et nous tenterons de motiver ce choix en relevant le caractère objectif de ce critère face à l'arbitraire des choix ad hoc.


Notre présentation des estimateurs de la régression classiques s'inspire du cours de M. Delecroix, et de la revue bibliographique de Collomb [19]. Nous retrouvons ainsi la modélisation par d -suites dues à Walter et Blum et portées à notre connaissance par B. Portier et P. Ango-Nzé [71], que l'on trouve également dans Rao ([72] pp.135-143).


Le problème de l'inexistence d'un estimateur sans biais de la régression sur un échantillon fini montré par Collomb ([17] pp.12-15) sera contourné par l'utilisation systématique d'une optique asymptotique. Le biais sera toutefois analysé et des procédures pour ``tuer'' ce biais seront exposées. Il s'agira principalement de contraintes sur le paramètre de lissage.


Afin d'assurer l'existence de f(x)=E[ Y| X=x] , nous supposerons que E[ | Y| ] <¥ . La fonction f n'étant définie sur  p qu'à une équivalence près, nous supposerons également qu'il en existe une version continue f. Par convention, on posera f(x)=0 si j (x)=0.

3.2   Définition des estimateurs




L'estimation non-paramétrique de la régression repose sur l'idée intuitive que l'estimateur f( · ) en un point x doit être ``proche'' de Yi si x est ``proche'' de Xi. La même propriété se répétant sur l'ensemble des observations, les estimateurs non-paramétriques de la régression s'écriront donc comme des moyennes pondérées des Yi, la pondération prenant en compte l'éloignement de Xi au point considéré. Par souci de clarté nous nous restreindrons momentanément au cas particulier univarié (p=1).

La forme générale d'un estimateur non-paramétrique de la régression, tel que nous venons de le présenter, sera donc :
f (x)=
n
å
i=1
Yi· Wm(Xi,x)
De manière à obtenir une pondération de somme totale unitaire, on posera :

Wm(Xi,x)=
wm(Xi,x)
n
å
i=1
wm(Xi,x)

Suivant le type de pondération utilisé, nous obtiendrons différents types d'estimateurs, chacun dépendant d'un paramètre dont le choix permet de déterminer la ``douceur'' de l'estimateur  :




D'autres estimateurs peuvent s'écrire sous cette forme avec une pondération non unitaire et sont proposés par Ullah et Vinod [85].

D'autres techniques d'estimation non-paramétrique existent néanmoins et ne sont pas issues de la même logique. Certains estimateurs sont ainsi définis non pas comme une somme pondérée, mais comme minimisant un critère sur un ensemble de fonctions.

Remarque :


3.3   Estimateur du noyau de convolution

Définition 3.1   (Noyau de Parzen-Rosenblatt) :


Un noyau
K est une application de  p dans  , bornée, intégrable pour la mesure de Lebesgue, d'intégrale unitaire. Un noyau de Parzen-Rosenblatt vérifie de plus  :
 
lim
\| x \| ® ¥
\| x \|
p
 
 
K(x)=0

|| · || désigne la norme de  p.

Un exemple de noyau de Parzen-Rosenblatt est la densité normale standard qui vérifie cette condition. Nous utiliserons ces noyaux dans la suite de ce travail.

On définit également des classes de noyaux correspondants à des propriétés de régularité particulières.

Définition 3.2   (Noyau d'ordre m ) :


Le noyau
K appartient à la classe Km( Â p) des noyaux d'ordre m si :

ó
õ
 


 p
p
Õ
i=1
x
ai
 
i
K(x1,x2,... ,xp)dx1··· dxp= ì
ï
ï
í
ï
ï
î
1   si   ai=0 , "  i =1,... ,p
 
0   si   0<
p
å
i=1
ai<m
 

et    
ó
õ
 


 p
| xi |
m
 
 
| K(x1,x2,... ,xp) | dx1··· dxp<¥    , " xÎ Â p



Cette propriété est standard en statistique non-paramétrique et est couramment utilisée comme hypothèse de régularité pour les noyaux dans les théorèmes de convergence asymptotique.

Il est à noter que pour m³ 3, les noyaux de Km( Â p) ne sont plus des densités, et pourront prendre des valeurs négatives sur certains intervalles.

Définition 3.3   (Estimateur du noyau de la régression) :


Soit
(Xi,Yi)i=1,··· ,n n observations d'un couple (X,Y) de variables aléatoires définies sur l'espace réel mesuré ( Â p× Â , BÂ p+1,l ) . L'estimateur du noyau de convolution de la régression f(x)=E[ Y| X=x] associé au noyau K et à la fenêtre hn, un nombre réel dépendant de n, est défini par :
fn(x)=
1
nhnp
n
å
i=1
YiK æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
1
nhnp
n
å
i=1
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
      " xÎ Â p     (3.2)

avec la convention fn(x)=0 si le dénominateur 1/nhnpåi=1n K( Xi-x/h) =0.

Cette formulation ayant été introduite simultanément par Nadaraya [67] et Watson [89] en 1964, cet estimateur est également appelé estimateur de Nadaraya -Watson.


Le dénominateur de l'expression (3.2) est un estimateur de la densité marginale j (x), tandis que le numérateur constitue un estimateur de F (x)= ò yj (x,y)dy. Nous pouvons donc écrire fn(x) sous la forme :
fn(x)=
F n(x)
j n(x)



Si, en particulier, K est une densité de probabilité alors l'estimateur j n(x) de j (x) est donné par la densité de la somme de deux variables aléatoires :

La convolution ainsi réalisée suit une distribution de densité :

j n(x)= ( Knn ) (x)=
1
nhnp
n
å
i=1
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø

d'où l'estimateur tire son nom ``d'estimateur du noyau de convolution''.


3.4   Propriétés

Le premier résultat de convergence est dû à Bochner [11], dont le lemme est à la base des principaux théorèmes de convergence. Nous tirons son énoncé de l'ouvrage de Bosq et Lecoutre [12] (p. 61).

Lemme 2   (de Bochner) :


i) Soit
K un noyau de Parzen-Rosenblatt et g une fonction de L1.

Alors, en tout point
x, où g est continue :

 
lim
hn® 0
( Kn*g ) (x)=g(x)

ii) Soit K un noyau quelconque et g une fonction de L1 uniformément continue, alors

 
lim
hn® 0
 
sup
x
| ( Kn*g ) (x)-g(x) | =0

L'interprétation de ce lemme est que lorsque la fenêtre h est ``petite'', la convolution d'une fonction de L1 avec Kn perturbe peu cette fonction.

3.4.1   Propriétés de convergence ponctuelle de l'estimateur fn :




Quelques hypothèses standard permettant l'application du lemme de Bochner sont présentées ici.

Hypothèse 3.1   :


Les observations
(Xi,Yi)i=1,··· ,n sont des observations indépendantes du couple de variables aléatoires (X,Y) de  p× Â .

Hypothèse 3.2   :


Le noyau
K(· ) est de Parzen-Rosenblatt

Hypothèse 3.3   :


La fenêtre
hn vérifie limn® ¥ hn=0  et  limn® ¥ nhnp=¥


Cette dernière hypothèse sur les fenêtres est la traduction d'un arbitrage entre variabilité et douceur de l'estimateur déjà évoqué.


En imaginant visuellement deux cas limites nous voyons que :

L'hypothèse 3.3 nous impose un juste milieu, nécessaire à la convergence de l'estimateur fn. Dans la suite de ce travail nous supposerons ces hypothèses vérifiées, et nous ne mentionnerons que les hypothèses supplémentaires.

Nous rappelons, tout d'abord un résultat concernant la convergence des estimateurs j n(x) et F n(x)

Théorème 3.1   (Convergence en moyenne quadratique de j n(x) ) :


Supposons
E[ Y2] <¥ et posons v(· )=Var[ Y| X=· ] ,

Si

Alors j n(x) converge en moyenne quadratique vers j (x).


Si de plus :

Alors F n(x) converge en moyenne quadratique vers F (x).



La démonstration de ce théorème découle de la définition de l'erreur quadratique de j n(x) et du lemme de Bochner (voir Bosq et Lecoutre [12]). Cette erreur a été étudiée notamment par Collomb [17], voir également Lavergne [58] pour l'étude des moments conditionnels E[ Ya| X] lorsque aÎ N.

Ce théorème permet de vérifier que l'estimateur fn(x) est un estimateur convergent de l'espérance conditionnelle E[ Y| X=x] , comme l'indique le corollaire suivant.

Corollaire 3.2   (convergence simple en probabilité) :


Sous les hypothèses du théorème précédent et :


Si
j (x)¹ 0, alors :
fn(x)
p
¾®
 
f(x).

3.4.2   Propriétés de convergence uniforme de fn




La formulation du théorème de convergence uniforme que nous reproduisons ici est tirée de l'ouvrage de Györfi, Härdle, Sarda et Vieu ([44] pp. 24-30), choisie pour la simplicité des hypothèses. Cette formulation nous donne explicitement la vitesse de convergence, qui nous sera utile dans le chapitre 4.

Théorème 3.3   (Convergence uniforme de fn) :


Soit
G un compact de  pet G un voisinage de ce compact (GÌ G),

Supposons
E[ Y2] <¥ et posons s 2(· )=Var[ Y| X=· ] , sous les hypothèses suivantes :

et si la fenêtre h est telle que Vn
Vn=hd+
log (n)
n· hp

vérifie Vn¾® n® ¥ 0, alors

 
sup
xÎ G
| fn(x)-f(x) | =Op ( Vn )

La preuve de ce résultat est donné par Györfi et alii dans le cadre de processus j -mélangeant et n'est pas reproduite ici, nous en proposons toutefois un squelette, qui nous permettra d'obtenir un résultat sur la convergence uniforme de j n(x).


Squelette de la démonstration :


L'estimateur de la régression s'écrit :
fn(x)=
F n(x)
j n(x)

nous pouvons décomposer fn(x)-f(x) sous la forme d'une somme de quatre termes  :
fn(x)-f(x)= ( A+B+f(x)C+f(x)D ) · ( j n(x) )
-1
 
 

Sous les hypothèses enoncées,la fonction f est bornée sur G et l'estimateur j n est presque-sûrement positif . On montre ensuite que :
 
sup
xÎ G
A=Op æ
ç
ç
è
log (n)
n· hp
ö
÷
÷
ø
    (3.3)
 
sup
xÎ G
B=Op ( hd )     (3.4)
 
sup
xÎ G
C=Op ( hd )     (3.5)
 
sup
xÎ G
D=Op æ
ç
ç
è
log (n)
n· hp
ö
÷
÷
ø
    (3.6)

Les démonstrations de 3.4 et 3.5 figurent dans Härdle et Luckhaus [48], le terme D peut être vu comme un cas particulier de A, dans lequel les Yi sont tous égaux à 1. La démonstration de 3.6 sera donc immédiate une fois 3.3 démontré.


Pour cela l'estimateur F n(x) est décomposé en F n+(x) et F n-(x) :
F n+(x)=
1
n· hp
n
å
i=1
YiK æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
1
 
{ | Yi | ³ Mn }

et
F n-(x)=F n(x)-F n+(x)

Mn=nx est une suite croissante.

Le résultat provient du fait que pour tout 0>0
¥
å
n=1
Pr æ
ç
ç
è
Mn· n· hp
 
sup
xÎ Â p
| F n+(x)-E [ F n+(x) ] | > 0 ö
÷
÷
ø
<¥

et d'un lemme démontrant que " >0 :
¥
å
n=1
Pr æ
ç
ç
è
Vn·
 
sup
xÎ G
| F n-(x)-E [ F n-(x) ] | > ö
÷
÷
ø
<¥

Ce qui permet de conclure par addition des termes.


Nous pouvons remarquer que l'addition des termes C et D nous donne :

Corollaire 3.4   Sous les hypothèses du théorème précédent :
 
sup
xÎ G
| j n(x)-j (x) | =Op ( Vn )

Nous utiliserons ces résultats pour l'étude non-paramétrique de nos statistiques d'enveloppement. Bosq et Lecoutre [12] nous donnent d'autres résultats de convergence de l'estimateur fn suivant le type de norme considérée pour mesurer l'écart de fn à f. Des résultats plus complets sur la convergence uniforme sont donnés également par Sarda et Vieu [76] (voir également Bierens [6]).

3.4.3   Distribution limite




Nous donnons ici le résultat principal concernant la distribution asymptotique de fn. Ce résultat a été obtenu par Schuster [78] pour le cas univarié et à Collomb [18] dans le cas mutidimensionnel.

Des hypothèses supplémentaires sont nécessaires à ce résultat et sont similaires à celles rencontrées usuellement. De plus celles-ci sont explicitement utilisées dans la démonstration, ce qui rend leur interprétation plus facile.

Théorème 3.5   (Normalité asymptotique de fn ) :


Sous les hypothèses suivantes :

On a,

De plus,

avec:

b(x)=1/2Tr( X / x / x [ f(x)j (x)] ) -1/2f(x)Tr( X / x / x [ j (x)] )



Ce dernier résultat pouvant également être interprété comme la convergence en distribution vers une loi dégénérée.

La démonstration de ce résultat par Bierens [7] est fort instructive et permet une décomposition intéressante entre termes ``asymptotiquement normaux'' et termes ``générant du biais''. Nous proposons ici un squelette de cette démonstration dont l'intégralité est rapportée en annexe.


Squelette de la démonstration :


La multiplication par j (x), supposé non nul, nous permet d'obtenir une expression plus simple  :

( fn(x)-f(x) ) · j (x)
=
1
nhnp
 
å
i
YiK æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
-f(x) æ
ç
ç
è
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ö
÷
÷
ø
   
 
=
1
nhnp
 
å
i
( Yi-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø

Nous pouvons alors décomposer cette quantité en trois termes dont les comportements asymptotiques seront différents :


( fn(x)-f(x)) · j (x)=1/nhnpåi( Yi-f(xi)) K( Xi-x/hn)

1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
-E é
ê
ê
ë
1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
 
E é
ê
ê
ë
1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
 
=q1(x)+q2(x)+q3(x)

Le premier terme nous donne la normalité asymptotique :

L'addition de ces trois termes, nous donne le résultat puisque sous ces hypothèses, on a également j (x)® j (x).


Ce résultat nous donne, de manière explicite, la vitesse de convergence hn permettant de ``tuer le biais''. Cette vitesse est telle que l=0, c'est-à-dire que hn doit vérifier :

   hn2· n· hnp
n® ¥
¾®
 
0

Soit encore :

Hypothèse 3.4   : La fenêtre hn vérifie n· hnp+4¾® n® ¥ 0

Cette hypothèse peut être affinée en fonction de la régularité supposée des fonctions f(x),j (x) et f(x)· j (x). Si ces fonctions sont d-fois continûment différentiables et de dérivées bornées, alors, en utilisant un noyau de classe d, le théorème sera vérifié.


L'hypothèse suivante :


Hypothèse 3.4 (bis) : La fenêtre hn vérifie n· hnp+2d¾® n® ¥ 0


remplacera l'hypothèse 3.4 pour tuer le biais généré par q3(x).


Remarque :


Bierens [7] propose également une autre technique pour ``tuer le biais'' généré par q3(x). Il s'agit de créer un estimateur fn basé sur la différence de deux estimateurs, l'un générant du biais lié à la fenêtre h1, l'autre estimant ce biais, par le choix approprié de la fenêtre h2. La différence des deux estimateurs donne alors l'estimateur  :
fn(x)=
f1(x)-l1· f2(x)
1-l1



Pour d'autres propriétés de convergence nous renvoyons à Bosq et Lecoutre [12], Collomb [18], Härdle [46] ainsi qu'à Robinson [74] ou Youndje [88], pour les propriétés de convergence de l'estimateur de la densité conditionnelle.

3.5   Fenêtres

``However there is a price to be paid for the great flexibility of nonparametric methods, which is that the smoothing parameter must be chosen''

J. S. Marron (1988)





Nous avons relevé dans la section précédente l'importance de la fenêtre intervenant dans l'estimation non-paramétrique, et nous nous proposons d'apporter des éléments de réponse, fournis par la littérature, à la question :

``Comment choisir la fenêtre ?''

En l'absence de technique de sélection, l'utilisateur de la statistique non-paramétrique sélectionne généralement la fenêtre au vu de la courbe, par essais successifs, cette technique visuelle ne pouvant d'ailleurs s'appliquer que pour des dimensions de régresseurs faibles (p<3). L'aspect arbitraire de ce choix étant peu souhaitable, (en particulier dans un cadre général de comparaison de modèles), il était nécessaire de déterminer des critères de sélection objectifs de ce paramètre.


Une manière de s'assurer ``objectivement'' du comportement de l'estimateur en fonction de la fenêtre, est d'examiner un critère d'erreur entre la fonction de régression et son estimée. Certains de ces critères seront globaux ou locaux, ils peuvent être basés sur la prévision ou sur l'écart au sens d'une norme fonctionnelle, qui variera suivant l'utilisation ou les propriétés souhaitées de l'estimateur.

L'un des critères le plus utilisé repose sur l'Erreur Quadratique Intégrée (EQI) définie par3 :
EQI(h)= ó
õ
 


 p
( fn(x)-f(x) )
2
 
 
j (x)v (x)l (dx)

v (· ) est une fonction de poids4.


On peut également trouver une version empirique de l'EQI , l'Erreur Quadratique Empirique (EQE), en remplaçant la mesure de Lebesgue par la loi empirique des Xi :
EQE(h)=
n
å
i=1
( fn(Xi)-f(Xi) )
2
 
 
v (Xi)

ou une version globale, l'Erreur Quadratique Intégrée Moyenne (EQIM) obtenue en prenant l'espérance de l'EQI :
EQIM(h)=E [ EQI(h) ] =E é
ê
ê
ê
ê
ë
ó
õ
 


 p
( fn(x)-f(x) )
2
 
 
j (x)v (x)l (dx) ù
ú
ú
ú
ú
û

Härdle et Marron [50] montrent que ces trois mesures quadratiques sont asymptotiquement équivalentes pour une grande variété d'estimateurs.


La fenêtre idéale, hopt doit alors réaliser le minimum de l'un de ces critères qui dépendent des fonctions inconnues f et j . On la définit par :
hopt=Arg
 
min
hÎ Hn
EQI(h)

Le rôle de la fenêtre h dans ces critères d'erreur peut être vu à travers une formulation de Vieu [87] donnant une évaluation asymptotique de l'EQI pour des fonctions f et j d-fois continûment différentiables et pour des noyaux d'ordre d  :

EQI(h)=B· h2d+
V
n· hp
+op æ
ç
ç
è
h2d+
1
n· hp
ö
÷
÷
ø
    (3.9)

Nous retrouvons ici l'aspect d'arbitrage entre Biais et Variance joué par la fenêtre, puisque les termes B et V correspondent respectivement à des termes de biais et de variance approchés (voir également Hall [45], Rice [73], ou Härdle et Marron[50]). A propos de cette expression Härdle [46] écrit d'ailleurs :

``(··· ) one gets a feeling of what the smoothing problem is about :

Balance the variance versus the biais''

Cette expression permet de dégager deux optiques menant à deux procédures de choix de la fenêtre.

La première solution mène aux techniques de ``Plug-in'', la seconde aux méthodes de ``validation croisée''.

3.5.1   Le ``plug-in''




La méthode du ``Plug-in'' repose sur la sélection de la fenêtre hd minimisant l'EQI(h) donné par (3.9). Cette fenêtre peut être approchée par hd obtenue en estimant les termes B et V qui dépendent des fonctions inconnues f , j (et de leurs dérivées) ainsi que du noyau K.

Cette technique est très satisfaisante théoriquement puisque l'expression de hd minimisant l'EQI(h) dans l'équation (3.9) est :
hd= æ
ç
ç
è
p· V
2d· B
ö
÷
÷
ø
1
2d+p



 
· n
-1
2d+p
 
et que EQI(hd) est alors de l'ordre
EQI(hd)=Op æ
ç
ç
ç
è
n
-  
2d
2d+p
 
ö
÷
÷
÷
ø
Cette vitesse de convergence est donnée par Stone [83] comme étant la vitesse de convergence optimale dans la classe des fonctions de régression d-fois continûment différentiables. De plus la vitesse de convergence de hd et donc de hd est explicitement n-1/2d+p, toutefois ces fenêtres ne vérifient pas l'hypothèse 3.4 (bis), puisque n · hd2d+p=( p· V/2d· B) ¬ ¾®0.

De plus cette technique nous confine à l'étude de fonctions de régression suffisamment régulières (d-fois continûment différentiables). Enfin, des difficultés importantes se posent en pratique : pour calculer hd il faut, en effet, estimer les constantes B et V et donc les dérivées des fonctions f et j ce qui s'avère techniquement délicat, hors d'un contexte de régresseurs uniformément répartis (voir Vieu [87]).

3.5.2   La ``Validation Croisée ''




L'idée de base consiste à trouver une fonction de score CV(h) ayant la même structure que l'EQI(h) et dont le calcul soit plus simple. On sélectionne alors la fenêtre hcv minimisant ce critère dont on attend le même comportement asymptotique que hopt.


Le critère CV(h) est obtenu à partir de l'Erreur Quadratique Empirique ( EQE(h)) dans laquelle l'estimateur fn(Xi) est remplacé par l'estimateur de ``leave-one-out'' fn-i(Xi) et f(Xi) est estimé naïvement par Yi (voir Härdle[46] pp.152-153).


On choisit alors hcv=ArgminhÎ HnCV(h) où :
CV(h)=
1
n
n
å
i=1
( Yi-fn-i(Xi) ) 2v (Xi)

et
fn-i(Xi)=
1
nhnp
 
å
j¹ i
YiK æ
ç
ç
è
Xj-Xi
hn
ö
÷
÷
ø
1
nhnp
 
å
j¹ i
K æ
ç
ç
è
Xj-Xi
hn
ö
÷
÷
ø

Härdle et Marron [50] démontrent que la fenêtre ainsi obtenue vérifie la propriété d'optimalité asymptotique suivante :
EQI(hcv)
EQI(hopt)
¾® 1   p.s.

sous les hypothèses

Hypothèse 3.5   (Optimalité asymptotique) :


L'inconvénient principal est que la fenêtre hcv, qui est ici un estimateur, présente une grande variabilité, c'est-à-dire que pour deux échantillons distincts issus de la même distribution, les fenêtres obtenues seront très différentes. Ce problème a été étudié par Härdle et Marron [50] où il est montré que hcv converge ``très lentement'' vers hopt. Une technique pour pallier à cet inconvénient consiste peut-être à utiliser le ``double smoothing'' proposé par Härdle, Hall et Marron [47] et évoqué plus haut.


Cette méthode présente cependant de nombreux avantages : outre le fait qu'elle ne demande pour être applicable, que des hypothèses faibles sur le degré de différentiabilité de f, c'est une méthode automatique entièrement guidée par les données. Ce point est particulièrement satisfaisant dans le contexte de comparaison de modèles. Nous utiliserons d'ailleurs cette méthode dans le chapitre suivant pour éviter tout choix arbitraire pouvant influer sur la qualité des estimateurs.

3.5.3   Autres méthodes




Il existe de nombreux raffinements de la validation croisée Vieu [86] propose de sélectionner la fenêtre localement en utilisant un critère de validation croisé local, tenant compte de la densité autour de chaque observation. Ce critère est malheureusement encore assez coûteux en temps de calcul pour être utilisé en pratique


Une autre variante consiste à détruire plusieurs points en utilisant un estimateur de ``leave-several-out'' dans la définition du critère CV.


L'introduction d'une fonction pénalisante X dans l'estimateur naïf de l'EQE permet également d'obtenir un critère de Score sur la base duquel est estimée la fenêtre. Härdle [46] (pp.155-167) nous donne une étude comparative sur un échantillon, de différentes fonctions pénalisantes.

D'autres méthodes sont exposées dans la revue sur ce sujet réalisée par Vieu [87], parmi lesquelles les méthodes de Bootstrap semblent également particulièrement prometteuses (voir également Härdle [46]).

3.6   Conclusion




Nous avons exposé dans ce chapitre quelques unes des méthodes d'estimation fonctionnelle de la régression. Ces méthodes permettent l'étude des modèles de régression en l'absence de forme fonctionnelle prédéfinie, et en l'absence de spécification de la loi des résidus. Cette liberté dans la spécification (ou plutôt dans l'absence de spécification) des modèles de régression n'est cependant pas exempte de règles. La sélection du paramètre de lissage, dans chacune de ces méthodes est soumis à des contraintes et les règles de sélection pratiques de ce paramètre sont encore à l'étude.

Une autre contrainte nous est donnée par l'inexistence d'un estimateur sans biais de la régression montré par Collomb [17], il en résulte une approche asymptotique nécessitant un nombre important d'observations. Ce point est aggravé par la perte d'une vitesse de convergence ``paramétrique'' (en n), montré par Stone [83] ; la convergence non-paramétrique étant plus lente, ces méthodes exigent un plus grand nombre de données.


Nous avons choisi de développer plus particulièrement la méthode du noyau pour de simples raisons : cette méthode est la plus développée à ce jour, et les propriétés des estimateurs sont maintenant bien connues. En outre elle bénéficie d'une abondante littérature sur des problèmes théoriques et appliqués. Enfin, une procédure d'estimation de la fenêtre est possible dans le cadre de cette méthode. Cette procédure est entièrement guidée par les données et présente donc un caractère ``objectif'' particulièrement appréciable dans le cadre de comparaison de modèles. Nous utiliserons cette méthode (et cette procédure) pour l'estimation des fonctions de régression dans le chapitre suivant.



3.7   Annexe au chapitre 3

Notations

Les ``petits-o'' et les ``grands-O'', que l'on trouve couramment dans la littérature sont rappelés de manière précise ici. Ces symboles ont été introduits par Landau pour simplifier les relations entre quantités (stochastiques ou non) de même Ordre de grandeur, ou d'un ordre de grandeur inférieur asymptotiquement. Nous nous servirons de ces notations dans les démonstrations à venir.


Définition 3.4   : Si f et g sont deux fonctions réelles de la variable entière n, alors la notation f(n)=o( g(n)) signifie que :
 
lim
n® ¥
æ
ç
ç
è
f(n)
g(n)
ö
÷
÷
ø
=0

Il est important de noter que g(n) peut avoir n'importe quel comportement lorsque n® ¥ , en particulier la notation f(n)=o( 1) signifie simplement que la suite f(n)® 0 lorsque n® ¥ .

Définition 3.5   : Si f et g sont deux fonctions réelles de la variable entière n, alors la notation f(n)=O( g(n)) signifie qu'il existe une constante K>0, indépendante de n, et un entier N tels que :
½
½
½
½
f(n)
g(n)
½
½
½
½
<K   ,   " n>N

Ceci signifie donc que f et g ont le ``même ordre de grandeur''6


De même, des relations liant les ordres de grandeur de quantités stochastiques sont exprimées par les célèbres ``petits-op''et ``grands-Op'' définis comme suit.

Définition 3.6   : Si an est une suite de variables aléatoires et g est une fonction réelle de la variable entière n, alors la notation an=op( g(n)) signifie que :
p
 
lim
n® ¥
æ
ç
ç
è
an
g(n)
ö
÷
÷
ø
=0

De manière similaire, la notation an=Op( g(n)) signifie que il existe une constante K>0, telle que " >0, $ un entier N tel que :
Pr æ
ç
ç
è
½
½
½
½
an
g(n)
½
½
½
½
>K ö
÷
÷
ø
<    ,   " n>N
 
 



Démonstration du théorème 3.5 :


Classiquement, nous écrivons la différence ( fn(x)-f(x)) sous la forme :

( fn(x)-f(x) )
=
1
nhnp
 
å
i
YiK æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
-f(x)
æ
ç
ç
è
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ö
÷
÷
ø
æ
ç
ç
è
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ö
÷
÷
ø
   
 
=
1
nhnp
 
å
i
( Yi-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
æ
ç
ç
è
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ö
÷
÷
ø

Nous pouvons simplifier l'écriture en multipliant les deux membres par l'estimateur j (x), nous obtenons ainsi la décomposition de ( fn(x)-f(x)) · j (x) :

=
1
nhnp
 
å
i
( Yi-f(xi) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
 
1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
-E é
ê
ê
ë
1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
 
E é
ê
ê
ë
1
nhnp
 
å
i
( f(xi)-f(x) ) K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
 
=q1(x)+q2(x)+q3(x)

Comme mentionné plus haut, les trois termes ont des comportements asymptotiques différents, que nous analyserons séparément en trois parties :


Premier terme :nhnp·  q1(x)¾® d N( 0,s 2(x)j (x)ò K2( z)  dz)


Nous pouvons écrire n· hnp· q1(x) sous une forme permettant d'appliquer le théorème central limite de Lyapunov, voir Serfling [79] :
n· hnp· q1(x)=
1
n
 
å
i
vn,i(x)

avec vn,i(x)=1/hnp· ui K( Xi-x/hn) , où ui=( Yi-f(xi)

On a alors

E [ vn,i(x)2 ]
=
1
 hnp
ó
õ
ui2K2
æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
j (xi,yidxidyi
   
 
=
1
 hnp
ó
õ
ui2K2
æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
j (yi| xi)j (xidxidyi
   
 
=
1
 hnp
ó
õ
s 2(xi)K2
æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
j (xidxi

Le changement de variable z=x-xi/hn nous donne,


E [ vn,i(x)2 ] = ó
õ
s 2(x-zhn)K2
( z ) j (x-zhndz

La fonction s 2(x)j (x) étant continue et uniformément bornée, le théorème de la convergence bornée (voir par exemple Metivier [63]) s'applique :

E [ vn,i(x)2 ] = ó
õ
s 2(x-zhn)K2
( z ) j (x-zhndz
h
 
n® 0
¾®
 
s 2(x)j (x) ó
õ
K2
( z )  dz

Ce terme détermine la variance asymptotique de n· hnp· q1(x).

par la même technique :

 
å
i
E é
ê
ê
ë
æ
ç
ç
è
| vn,i(x) |
n
ö
÷
÷
ø
2+d
 
ù
ú
ú
û
= æ
ç
ç
è
1
nhnp
ö
÷
÷
ø
d



 
ó
õ
s
2+d
 
(x-zhni)j (x-zhn | K ( z ) |
2+d
 
 
dz
   
 
=Op æ
ç
ç
è
1
nhnp
ö
÷
÷
ø
d



 
n® ¥
¾®
 
0   pour   d >0

Le théorème central limite de Lyapounov s'applique donc et,

1
n
 
å
i
vn,i(x)
d
¾®
 
N æ
è
0,s 2(x)j (x) ó
õ
K2
( z )  dz ö
ø

ce qui termine l'étude du premier terme .


Deuxième terme :E[ ( nhnp·  q2(x)) 2] ¾® n® ¥ 0

q2(x)=
1
nhnp
n
å
i=1
ì
í
î
( f(xi)-f(x) ) K æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
-E é
ê
ê
ë
( f(xi)-f(x) ) K æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
ü
ý
þ

De même que précédemment,

E é
ê
ê
ë
( nhnp·  q2(x) )
2
 
 
ù
ú
ú
û
= ó
õ
( f(x-zhn)-f(x) )
2
 
 
j (x-zhn)K2 ( z ) dz
   
 
1
 hnp
ì
í
î
ó
õ
( f(x-zhn)-f(x) ) j (x-zhnK ( z ) dz ü
ý
þ
2

 
   
 
n® ¥
¾®
 
0

par convergence bornée.


Troisième terme :nhnp·  q3(x)¾® l· b(x)


Nous utiliserons ici la formule de Taylor pour une fonction G(x) deux fois continûment différentiable, à savoir :

$ l nÎ [ 0,1]     tel que

G(x)-G(x-zhn)
=-hnz
 
 
 
x
[ G(x) ]
   
 
1
2
  hn2  z
 
 
é
ê
ê
ê
ë
2
x x
 
 
G(x-l nhn z) ù
ú
ú
ú
û
 z

On a :

 q3(x)
=
1
nhnp
n
å
i=1
E é
ê
ê
ë
( f(xi)-f(x) ) K æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
ù
ú
ú
û
   
 
=
1
hnp
ó
õ
( f(xi)-f(x) ) K æ
ç
ç
è
xi-x
hn
ö
÷
÷
ø
j (xi)dxi

En opérant le même changement de variable que précédemment,

 q3 (x)= ó
õ
( f(x-zhn)-f(x) ) K ( z ) j (x-zhn)dz

nous pouvons ajouter et retrancher ( f(x)j (x)) aux deux membres

 q3(x)
= ó
õ
( f(x-zhn)j (x-zhn)-f(x)j (x) ) K ( z ) dz
   
 
- ó
õ
( j (x-zhn)-j (x) ) f(x)K ( z ) dz

En appliquant la formule de Taylor aux fonctions deux fois différentiables f(x)j (x) et j (x):
 
 q3(x)
=-hn ó
õ
z
 
 
x
[ f(x)j (x) ] K ( z ) dz
   
 
1
2
hn2 ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
f(x-l n· zhn)j (x-l nhn· z) ù
ú
ú
ú
û
  z K ( z ) dz
   
 
hnf(x) ó
õ
z
 
 
x
[ j (x) ] K ( z ) dz
   
 
1
2
hn2f(x) ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
j (x-l nhn· z) ù
ú
ú
ú
û
  z K ( z ) dz
soit encore,

 q3(x)
=- hn
x
[ f(x)j (x) ] ó
õ
z
 
 
K ( z ) dz
   
 
+
1
2
hn2 ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
f(x-l n· zhn)j (x-l nhn· z) ù
ú
ú
ú
û
  z K ( z ) dz
   
 
hnf(x)
x
[ j (x) ] ó
õ
z
 
 
K ( z ) dz
   
 
-
1
2
hn2f(x) ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
j (x-l nhn· z) ù
ú
ú
ú
û
  z K ( z ) dz

Le noyau K est d'ordre 2, donc ò z K( z) dz=0 et l'on pose :

ó
õ
z
 
 
zK(z)dz=X
et donc,

 q3(x)
=
1
2
  hn2   ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
f(x-l n· zhn)j (x-l nhn· z) ù
ú
ú
ú
û
 z K ( z ) dz
   
 
-
1
2
  hn2    f(x) ó
õ
z
 
 
é
ê
ê
ê
ë
2
x x
 
 
j (x-l nhn· z) ù
ú
ú
ú
û
  z K ( z ) dz

Les dérivées des fonctions f(x)j (x) et j (x) sont bornées ce qui permet d'appliquer une nouvelle fois le théorème de la convergence bornée :
hn-2 ·  q3(x) ¾®
1
2
ó
õ
z
 
 
  z K ( z ) dz· é
ê
ê
ê
ë
2
x x
 
 
f(x)j (x) ù
ú
ú
ú
û
     
   
-
1
2
  f(x) ó
õ
z
 
 
  z K ( z ) dz· é
ê
ê
ê
ë
2
x x
 
 
j (x) ù
ú
ú
ú
û
     
   
=
1
2
Tr   ì
ï
í
ï
î
X · é
ê
ê
ê
ë
2
x x
 
 
  f(x)j (x) ù
ú
ú
ú
û
ü
ï
ý
ï
þ
-
1
2
Tr ì
ï
í
ï
î
X · f(x) é
ê
ê
ê
ë
2
x x
 
 
j (x) ù
ú
ú
ú
û
ü
ï
ý
ï
þ
     
    =b(x)

c'est-à-dire que nhnp·  q3(x)¾® l· b(x).


L'addition des trois termes nous donne le résultat.




1
C'est à cette technique que le paramètre de lissage doit le terme usuel de fenêtre.
2
L'estimateur à noyau de la régression est ainsi solution de (3.1) lorsque :
y ( Wi,a n,x,f ) = ( Yi-f(x) )
2
 
 
3
Il existe bien d'autres critères et nous ne citons ici que les plus ``populaires'', voir Härdle [46] , Härdle et Marron [50] ou Marron [64].
4
Cette fonction de poids est généralement introduite dans ces définitions pour compenser les problèmes d'estimation lorsque la densité des régresseurs devient faible (``Effets de bord''). Les conditions sur cette fonction sont donc liées à la densité inconnue j (x), nécessitant une information supplémentaire sur cette densité.
5
Une fonction g est Hölder continue s'il existe des constantes positives M et x , telles que  :
| g(x)-g(t) | £ M· \| x-t \|
x
 
 
6
Cette définition n'exclut pas la possible nullité de ce rapport, l'expression ``de même ordre que'' peut être trompeuse.

Chapter 4   Procédures paramétriques et non-paramétriques

4.1   Introduction




La notion d'enveloppement introduite par Mizon et Richard [66], et développée dans la première partie, est ici élargie à l'étude de modèles de régression ``libres'' de toute forme prédéfinie. Cette étude nous amènera à considérer des modèles de régression munis d'estimateurs non-paramétriques, définis dans le chapitre précédent, ainsi que des modèles paramétriques standards.

Nous proposerons différents tests concernant l'enveloppement d'un modèle de régression M2 basé sur la variable Z, par un modèle M1 ayant pour variable conditionnante X, nous plaçant alors principalement dans un cadre de régresseurs non-emboîtés.

Il est important de distinguer les modèles linéaires qui répondent à une modélisation particulière, des modèles libres de toute forme fonctionnelle sur lesquels on opère une approximation linéaire. En effet, l'opérateur de projection dans un espace L2 nous donne une approximation linéaire d'un modèle de régression, indépendamment de la linéarité du modèle lui-même.

Nous utiliserons section (4.2) différents opérateurs de projection afin de retrouver les résultats de Mizon et Richard [66] dans un contexte plus général.


Le point clé de notre analyse repose sur l'indépendance des choix de régresseurs vis-à-vis du choix de la forme des modèles de régressions. Autrement formulé ce problème pose la question suivante :


``L'exclusion de la variable Z dans le modèle M1 est elle robuste au choix de la forme fonctionnelle des modèles de régression ? ''

Nous proposerons différents tests concernant l'enveloppement d'un modèle M2 par un modèle M1 en étudiant les spécifications paramétriques et non-paramétriques pour chacun des modèles. Quatre situations se présentent et seront notées conformément à la table 4.1.

  Modèle M2
Modèle   Paramétrique Non-paramétrique
M1 Paramétrique PP PN
  Non-paramétrique NP NN

Table 4.1: Les 4 cas


Pour chacune de ces situations, nous proposerons section 4.3 une statistique de test d'enveloppement permettant de répondre à cette question.

4.2   Notations et modèles




Nous définissons tout d'abord les observations comme étant n réalisations indépendantes du vecteur aléatoire S=(Y,X,Z) et notées (Si)i=1,... ,nYiÎ Â , XiÎ Â p et ZiÎ Â q. Essentiellement les variables X et Z représentent les variables exogènes associées aux modèles M1 et M2 respectivement.


Formellement, nous supposerons que Si=(Yi,Xi,Zi)i=1,... ,n constitue un processus centré, iid, de carré intégrable défini sur l'espace probabilisé ( W , A, P0) . Il est caractérisé par la densité inconnue j (Si) par rapport à la mesure de Lebesgue sur  p+q+1. La probabilité P0 est évidemment inconnue et nous limiterons notre attention à l'étude de paramètres ou de fonctions définies à partir de P0.

Les composantes de (Xi,Zi) sont supposées linéairement indépendantes. Cette dernière hypothèse peut être relâchée, et les vecteurs Xi et Zi pourront éventuellement être imbriqués, dans ce cas la densité j sera considérée par rapport à la mesure de Lebesgue sur un sous-espace de  p+q+1, nous ne détaillerons toutefois pas ce cas.

Nous utiliserons les notations f,g et r pour représenter les espérances conditionnelles suivantes, dont les définitions sont conformes à celles données section (2.2.1) :
    f(x)
=E [ Y| X=x ]
       
    g(z)
=E [ Y| Z=z ]
et      
    r(x,z)
=E [ Y| X=x,Z=z ]

Il est important de reconnaître que les approximations linéaires peuvent être utilisées sans que les fonctions de régression ne soient elles-mêmes linéaires. Nous noterons L(· | · ) les projections définies comme suit :

Définition 4.1   (Projections dans L2)

La projection de Yi sur le sous espace engendré par les Xi est1 :
L(Yi| Xi)=b
 
 
Xi   avec   b = æ
ç
ç
è
E é
ê
ê
ë
XiX
 
 
i
ù
ú
ú
û
ö
÷
÷
ø
-1



 
E [ XiYi ]

Le vecteur de paramètre b est alors une fonction à valeur dans  p de la densité inconnue j ( · ) , et donc de P0.


On définit de même la projection sur les
Zi par :
L(Yi| Zi)=g
 
 
Zi   avec   g = æ
ç
ç
è
E é
ê
ê
ë
ZiZ
 
 
i
ù
ú
ú
û
ö
÷
÷
ø
-1



 
E [ ZiYi ]

et la projection sur l'espace engendré par (Xi,Zi),
L(Yi| Xi,Zi)=a
 
 
Wi   avec   a = æ
ç
ç
è
E é
ê
ê
ë
WiW
 
 
i
ù
ú
ú
û
ö
÷
÷
ø
-1



 
E [ WiYi ]

Wi est une base de l'espace engendré par (Xi,Zi). Nous supposerons par la suite que Wi =(Xi,Zi), Xi et Zi étant strictement non-emboîtés.

4.2.1   Hypothèses




Le processus Si=(Yi,Xi,Zi)i=1,... ,n étant de carré intégrable, les fonctions f,g et r sont elles-mêmes de carré intégrable sur l'espace probabilisé ( W , A, P0) .


Les conditions de régularité suivantes sont supposées pour ces fonctions :

Hypothèse 4.1   (Version continue des fonctions de régression).


Il existe une version continue des fonctions
f,g et r ainsi que des densités, densités marginales et conditionnelles (représentées par la même fonction j ).

Cette hypothèse sera maintenue tout au long de ce travail.


Nous chercherons à valider le modèle M1, qui sera le modèle ``enveloppant'', en utilisant le modèle ``à envelopper'' M2. Le modèle M1 est basé sur l'exclusion de la variable Z, et pourra présenter deux aspects différents suivant l'hypothèse d'exclusion de cette variable.

Hypothèse 4.2   :

L'exclusion de la variable
Z du modèle M1 peut être considérée par deux hypothèses distinctes  :
H1   :   E [ Y| X,Z ] =E [ Y| X ]  ,
ce qui correspond à une hypothèse d'indépendance de l'espérance conditionnelle, ou par l'hypothèse  :
H2   :   L [ Y| X,Z ] =L [ Y| X ]  ,
qui est une condition d'orthogonalité conditionnelle (ou d'indépendance linéaire).


Comme nous l'avons déjà mentionné
H2 ne signifie pas que la fonction de régression est linéaire. La linéarité de cette fonction correspond à une troisième hypothèse :
H3   :   E [ Y| X,Z ] =L [ Y| X,Z ]
Nous utiliserons également, mais plus rarement, une dernière hypothèse concernant le carré de Y :
H4   :   E [ Y2| X,Z ] =E [ Y2| X ]

Remarques :


Quelques propriétés simples découlent de la combinaison des hypothèses précédentes :

De manière évidente, si S est normalement distribué alors H3 est vérifié et l'hypothèse H2 est équivalente à H1.



4.2.2   Modèles




Dans une optique non-paramétrique, le modèle M1 ``libre'' sera caractérisé par les hypothèses H1 ou ( H1, H4) , tandis que la linéarité (paramétrique) sera caractérisée par ( H2, H4) ou ( H2, H3, H4) , ces deux dernières combinaisons correspondant respectivement à la linéarité faible ou forte2.

Le modèle rival M2 sera construit avec la variable Z comme unique régresseur, nous considérerons également une version linéaire et une version ``libre'' de ce modèle.


Un troisième modèle M est également d'intérêt, c'est le modèle emboîtant M1 et M2 construit sur les régresseurs Wi.


Dans l'optique de M1, ou de son propriétaire, ces modèles ne présentent qu'un intérêt limité, puisque M2 est vu comme un modèle mal-spécifié et M comme un sur-modèle. Ces deux modèles seront les instruments de la construction de tests d'enveloppement bâtis en vue de valider le modèle M1.


Afin de rester cohérent avec notre notion de modèle définie dans la section 1.7, ces modèles sont associés à des estimateurs. Les régressions linéaires seront estimées classiquement par l'estimateur des moindres carrés, les modèles ``libres'' seront estimés non-paramétriquement par la méthode du noyau de convolution. Nous obtiendrons donc des estimateurs paramétriques et des estimateurs fonctionnels pour chacun de ces modèles.


Considérons tout d'abord la version linéaire de M1.


Un estimateur naturel de b défini en (4.1) est :
b = æ
ç
ç
è
n
å
i=1
XiX
 
 
i
ö
÷
÷
ø
-1



 
·
n
å
i=1
XiYi

Les estimateurs correspondants pour g dans M2 et pour a dans le modèle emboîtant M sont :
g = æ
ç
ç
è
n
å
i=1
ZiZ
 
 
i
ö
÷
÷
ø
-1



 
·
n
å
i=1
ZiYi

et,

a = æ
ç
ç
è
n
å
i=1
WiW
 
 
i
ö
÷
÷
ø
-1



 
·
n
å
i=1
WiYi


Les estimateurs non-paramétriques des fonctions de régression f,g et r sont les estimateurs du noyau de convolution conformes à la définition de la section (3.3), à savoir :
fn(x)=
1
nhnp
 
å
i
YiK æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø
1
nhnp
 
å
i
K æ
ç
ç
è
Xi-x
hn
ö
÷
÷
ø

de même,
gn(z)=
1
nknq
 
å
i
YiK æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø
1
nknq
 
å
i
K æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø

et
rn(x,z)=
1
nhnp· knq
 
å
i
YiK æ
ç
ç
è
Xi-x
hn
,
Zi-z
kn
ö
÷
÷
ø
1
nhnp· knq
 
å
i
K æ
ç
ç
è
Xi-x
hn
,
Zi-z
kn
ö
÷
÷
ø

Remarque :


Nous supposerons que les conditions sur les vitesses de convergence des fenêtres données par l'hypothèse 3.3 seront vérifiées pour chacune de ces deux fenêtres, ce que nous poserons sous la forme de l'hypothèse suivante :

Hypothèse 4.3   (Conditions minimales sur les fenêtres) :


Les fenêtres
hn et kn vérifient les conditions de convergence
 
lim
n® ¥
 hn=0   et  
 
lim
n® ¥
 n· hnp=¥
et
 
lim
n® ¥
 kn=0   et  
 
lim
n® ¥
 n· knq=¥

Ces conditions permettent aux estimateurs fn, gn et rn d'être convergents dans leurs modèles respectifs (voir section 3.4).

Nous pouvons énoncer les premiers résultats de convergence de ces estimateurs.

Théorème 4.1   Sous H1 et sous l'hypothèse 4.3, on a :

  i)   fn(x)
n® ¥
¾®
 
f(x)   " x
             
  ii)   gn(z)
n® ¥
¾®
 
E [ f(x)| Z=z ]   
" z
             
  iii)   rn(x,z)
n® ¥
¾®
 
f(x)  
"   ( x,z )
et            
  iv)   g
n® ¥
¾®
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E [ Z· f ]

Preuve3 :

Ce résultat découle directement du corollaire 3.2, qui nous assure de la convergence en probabilité de l'estimateur du noyau de convolution. Sous l'hypothèse 4.3, on a

fn(x)
p
¾®
 
E [ Y| X=x ] =f(x)  
     
gn(z)
p
¾®
 
E [ Y| Z=z ] =g(z)  
     
rn(x,z)
p
¾®
 
E [ Y| X=xZ=z ] =r(x,z)  

Or sous l'hypothèse H1:
r(x,z)=E [ Y| X=xZ=z ] =E [ Y| X=x ] =f(x)

et

E [ Y| Z=z ]
=E [ E [ Y| X=x,Z=z ] | Z=z ]
   
 
=E [ E [ Y| X=x ] | Z=z ]
   
 
=E [ f(x)| Z=z ]

De plus l'estimateur g vérifie :

g
n® ¥
¾®
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E [ ZY ]
   
 
= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E [ Z· E [ Y| X ] ]
   
 
= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E [ Z· f ]

Ce qui montre le dernier point.


Un résultat semblable est obtenu si l'on considère l'hypothèse d'indépendance linéaire, pour l'exclusion de la variable Z du modèle M1.

Théorème 4.2   Sous les hypothèses ( H2, H3) , on a :
i)   b
n® ¥
¾®
 
b
         
ii)   g
n® ¥
¾®
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ë
Z· X
 
 
ù
û
· b   
         
iii)   a
n® ¥
¾®
 
(b
 
 
 ,   0)

Si de plus l'hypothèse 4.3 est vérifiée, alors :
iv)   gn(z)
n® ¥
¾®
 
b
 
 
· E [ X| Z=z ]    " z



Preuve :

L'estimateur b vérifie clairement :
b
n® ¥
¾®
 
æ
è
E é
ë
XX
 
 
ù
û
ö
ø
-1

 
E é
ë
X· Y
 
 
ù
û
   
  =b

Tandis que sous H2 et H3 l'estimateur g voit son comportement asymptotique modifié puisque :

g
n® ¥
¾®
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ë
Z· Y
 
 
ù
û
   
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ê
ê
ë
Z· L [ Y| X,Z ]
 
 
 
ù
ú
ú
û

Sous l'hypothèse H2, L[ Y| X,Z] =L[ Y| X] , d'ou :
g
n® ¥
¾®
 
æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ê
ê
ë
Z· L [ Y| X,Z ]
 
 
 
ù
ú
ú
û
   
 
= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ê
ê
ë
Z· L [ Y| X ]
 
 
 
ù
ú
ú
û
   
 
= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ë
Z· X
 
 
ù
û
· b

L'hypothèse 4.3 nous assure de la consistance de l'estimateur gn(z) nous avons donc :
gn(z)
n® ¥
¾®
 
E [ Y| Z=z ]
" z
     
 
=E [ E [ Y| X,Z ] | Z=z ]
" z

L'hypohèse de linéarité H3 nous donne :
E [ E [ Y| X,Z ] | Z=z ] =E [ L [ Y| X,Z ] | Z=z ]

d'ou, sous l'hypothèse H2 maintenue
gn(z)
n® ¥
¾®
 
E [ L [ Y| X,Z ] | Z=z ]
" z
     
 
=E [ L [ Y| X ] | Z=z ]
" z
     
 
=E é
ë
b
 
 
X| Z=z ù
û
" z

Ce qui montre le dernier point.

Les limites des estimateurs b et fn sous M1 ne dépendent pas de la distribution sous-jacente P0 des variables conditionnantes. Par contre les limites sous M1 des estimateurs du modèle M2 (qui est mal-spécifié pour M1) dépendent crucialement de cette distribution.

Cette dépendance disparaît lorsque le modèle rival emboîte le modèle M1, ce qui est le cas de M. En effet les points (iii) des théorèmes 4.1 et 4.2 donnent les pseudo vraies valeurs associées à rn et à a indépendamment de la distribution des variables conditionnantes X et Z.


Ces résultats nous permettent de définir les pseudo-vraies valeurs associées aux estimateurs g et gn.

4.2.3   Pseudo-vraies valeurs




Aux quatre situations possibles correspondent quatre pseudo-vraies valeurs. Conformément à la définition donnée section 1.7, les pseudo-vraies valeurs sont définies à partir des plim des estimateurs associés au modèle M2 données par les théorèmes 4.1 et 4.2. Ces pseudo- vraies valeurs lient les ``espaces paramétriques'' attachés aux modèles M1 et M2. Ce terme est ici pris au sens large puisque ces ``espaces paramétriques'' pourront être fonctionnels. Les espaces Q f et Q g représenterons les espaces de fonctions associés aux modèles M1 et M2 lorsque ceux ci sont estimés non-paramétriquement, tandis que Q b Ì Â p et Q gÌ Â q représenterons les espaces associés aux estimateurs b et g respectivement.

Définition 4.2   (Pseudo-vraies valeurs sous H1) :


La pseudo-vraie valeur
G associée à l'estimateur g sous H1 est :
G :   Q f ¾®
Q
 
g
           
      f ¾®
G (f)= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E [ Z· f(X) ]

De même on définit la pseudo-vraie valeur G associée à l'estimateur gn sous H1 par :
G :   Q f ¾® Q g
           
      f ¾®
G(f)(z)=E [ f(X)| Z=z ]



Il faut noter que lorsque l'estimateur paramétrique g est associé à M2, la pseudo-vraie valeur G (f) est elle même paramétrique, elle sera d'ailleurs estimée de manière classique par G (f). Dans le cadre non-paramétrique G(f)(z) est une fonction de la variable z qui sera estimée par la même méthode que g(z).

Deux autres pseudo-vraies valeurs sont également déduites du théorème 4.2, dans le cas où le modèle M1 est linéaire, conformément à l'hypothèse H2.

Définition 4.3   (Pseudo-vraies valeurs sous H2) :


La pseudo-vraie valeur
G L associée à l'estimateur g sous H2 est :
G L :  
Q
 
b
¾®
Q
 
g
           
      b ¾®
G L(b )= æ
è
E é
ë
ZZ
 
 
ù
û
ö
ø
-1

 
E é
ë
Z· X
 
 
ù
û
· b

De même on définit la pseudo-vraie valeur GL associée à l'estimateur gn sous ( H2 , H3) par :
GL :  
Q
 
b
¾® Q g
           
      b ¾®
GL(b )(z)=b
 
 
· E [ X| Z=z ]



La nature des pseudo-vraies valeurs est conditionnée par la nature du paramètre associé à M2. Les pseudo-vraies valeurs G et GL sont ainsi à valeur dans l'espace fonctionnel Q g, tandis que G L et GL sont à valeur dans Q gÌ Â q. Ces fonctions sont toutes linéaires en leurs arguments, que ceux-ci soient des vecteurs ou des fonctions. Elle peuvent s'interpréter également comme des projections entre espaces de vecteurs ou de fonctions.


Les pseudo-vraies valeurs introduites dans les définitions 4.2 et 4.3 sont théoriques puisque dépendantes du processus P0, elles doivent donc être estimées.


Les estimateurs paramétriques et non-paramétriques suivants seront utilisés pour l'estimation des pseudo-vraies valeurs.

Définition 4.4   (Estimation des pseudo-vraies valeurs) :

i)   G (f)=
æ
ç
ç
è
 
å
i
ZiZ
 
 
i
ö
÷
÷
ø
-1
 
å
i
Zi· f(X)
       
ii)   G(f)(z)=
 
å
i
f(Xi)· K æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø
 
å
i
K æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø
       
iii)   G L(b )=
æ
ç
ç
è
 
å
i
ZiZ
 
 
i
ö
÷
÷
ø
-1



 
 
å
i
æ
ç
ç
ç
è
ZiX
 
 
 
i
ö
÷
÷
÷
ø
b
       
iv)   GL(f)(z)=
 
å
i
X
 
 
 
i
 b · K æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø
 
å
i
K æ
ç
ç
è
Zi-z
kn
ö
÷
÷
ø

En appliquant les mêmes arguments que ceux utilisés dans les théorèmes 4.1 et 4.2, on montre que ces estimateurs G (f), G(f), G L et GL(f) sont des estimateurs convergents de G (f), G(f), G L et GL(f) respectivement.

Remarque :


Nous avons considéré l'estimation sans imposer aucune contrainte sur le processus P0. Il existe toutefois des situations pour lesquelles ce processus est contraint. Bien que ces situations dépassent le cadre de notre étude nous discutons brièvement de telles situations sur deux exemples.


Une première restriction abordée en introduction, concerne la présence de variables communes aux deux modèles. Soit par exemple Xi=(Xi*,x i) et Zi=(Zi*,x i). Dans ce cas les définitions 4.2 et 4.3 des pseudo-vraies valeurs restent valides, en particulier la pseudo-vraie valeur G de la définition 4.2 s'écrit :
G(f)(z)= ó
õ
f(X)j (X*| Z,xdX

et est estimée de manière consistante par G(f) conformément à la définition 4.4.


Un deuxième exemple est tiré de Govaert et alii [43], dans le cadre dynamique où deux modèles autorégressifs sont proposés :

    M1 :   Yi=f(Yi-1)+ui
et          
    M2 :   Yi=g(Yi-2)+vi

où : f(Yi-1)=E[ Yi| Y0,... ,Yi-1]

Un estimateur non-paramétrique de g est :
g(y)=
 
å
i
Yi· K æ
ç
ç
è
Yi-2 - y
kn
ö
÷
÷
ø
 
å
i
K æ
ç
ç
è
Yi-2 - y
kn
ö
÷
÷
ø

Si le processus est ergodique alors g converge vers la pseudo-vraie valeur :
G(f)= ó
õ
f
( Yi-1 ) j ( Yi-1| Yi-2 ) dYi-1=E [ Yi| Yi-2 ]

Le calcul d'une matrice de covariance asymptotique pour la statistique définie sur la base de la différence ( g(y)-G(f)(y)) (telles que les statistiques définies ci-dessous), doit tenir compte des restrictions que comporte le processus P0. Nous ne discuterons pas davantage ces cas qui compliquent l'étude, laissant le lecteur intéressé se reporter à Govaert et alii pour une discussion générale sur l'enveloppement dans un contexte dynamique.

4.3   Statistiques d'enveloppement




Nous proposons de définir les différentes statistiques d'enveloppement de M2 par M1, en considérant une spécification paramétrique ou non-paramétrique pour chacun des deux modèles.


Dans chacune des quatre situations décrites par la table 4.1, la procédure de test d'enveloppement que nous construirons sera la même : nous évaluerons asymptotiquement la différence entre un estimateur de M2 et un estimateur de la pseudo-vraie valeur.

Il s'agira en fait de la différence entre deux estimateurs de M2, l'un réalisant l'estimation ``conventionelle'' de M2 (paramétrique ou non-paramétrique), l'autre estimant M2 dans la croyance que M1 est le ``vrai'' modèle. Cette différence, une fois normalisée, converge dans tous les cas vers une loi normale centrée, de laquelle nous tirerons une statistique distribuée asymptotiquement suivant une combinaison linéaire de lois c 2.


Nous rappellerons tout d'abord les résultats paramétriques (PP) énoncés chapitre 2 et obtenus par Mizon et Richard [66], puis nous examinerons le cas complètement non-paramétrique (NN) enfin deux cas ``mixtes'' nous permettront de confronter modèles paramétriques et non-paramétriques (cas PN et NP). Les preuves complètes de chacun des résultats sont proposées en annexe, les principes de ces démonstrations seront toutefois exposés à la fin de chaque théorème.


Dans cette section nous supposerons l'homoscédasticité des résidus soit,

Hypothèse 4.4   (Homoscédasticité des résidus) :


Sous
M1, Var[ Y| X,Z] =s 2 , inconnue.

4.3.1   Enveloppement paramétrique (PP)




M1 et M2 sont deux modèles linéaires basés sur les Xi et Zi respectivement. La statistique d'enveloppement est basée sur la différence entre g et G L(b ) l'estimateur de la pseudo-vraie valeur en b , soit :
d
 
b ,g
=g -G L(b )

Nous avons le résultat suivant :

Théorème 4.3  : Sous H2 et H3, et sous l'hypothèse 4.4 :

i)   n·d_b,g