Enveloppement dans les modèles de régression paramétriques et
non-paramétriques
Christophe Bontemps
20 Décembre 1994
Introduction
``As a research tactic, encompassing provides a basis for model
comparisons, as well as integrating a large and diverse literature covering
nested and non-nested hypothesis tests''
David F. Hendry et Jean-François Richard (1986)
Une des plus importantes activités scientifiques a été, et est
toujours, la comparaison de théories et de modèles. Il est en effet
extrêmement rare qu'un phénomène soit expliqué complètement par
une théorie unique faisant l'unanimité. L'histoire des sciences
connaît de nombreux exemples de luttes entre partisans de théories
contradictoires, le temps seul parvenant à désigner les vainqueurs. De
nos jours, si une théorie est acceptée comme utile et potentiellement
durable, il est important de la confronter avec la réalité
d'expériences, ou de données, ce qui est le rôle de la statistique.
Toutefois une des faiblesses de cette discipline est qu'elle ne s'est
intéressée que récemment à la validation de théories. Les études
statistiques en économie, par exemple, mènent souvent à des situations
conflictuelles, les conclusions s'opposant les unes aux autres, sans donner
de méthode effective pour décider quelle théorie adopter. L'idée
qu'une théorie nouvelle doit apporter un progrès dans la
connaissance d'un phénomène est évidemment mise en avant, ce progrès
est souvent jugé par sa capacité à expliquer des éléments que les
autres théories, plus anciennes, n'expliquent pas. Toutefois, il semble
stratégiquement important de s'assurer de la capacité d'une nouvelle
théorie à expliquer également ce que les autres théories
expliquaient déjà.
L'idée qu'une théorie doit être capable d'incorporer les résultats
obtenus par des théories concurrentes, bien qu'adoptée implicitement par
de nombreux scientifiques, n'a été formalisée que récemment en
statistique sous le terme de ``principe d'enveloppement''1, au
travers des travaux de Florens, Hendry, Mizon et Richard, d'une part (voir
Mizon [65], Mizon et Richard [66] et Hendry et Richard [54]), et de ceux de Gourieroux, Monfort et Trognon, d'autre part (voir
Gourieroux et Monfort[38] et [39] ainsi que Gourieroux, Monfort
et Trognon [42]) . L'extension de ces travaux au cadre bayésien,
relié à la notion de spécificité (voir Florens, Hendry et Richard
[31]), présente une vision unificatrice de cette notion,
l'enveloppement bayésien présentant les mêmes caractéristiques que
l'enveloppement classique. L'apport de Gourieroux, Monfort et Trognon [42] dans un contexte dynamique a permis l'introduction d'une procédure
opérationnelle d'information indirecte [40]. L'ensemble de ces
auteurs préconise également l'emploi de tests basés sur ce principe,
et plus particulièrement Hendry [53].
L'étude de l'enveloppement est l'objet du premier chapitre, où nous
discuterons des définitions exactes formalisant ce principe, toutefois une
brève discussion informelle clarifie l'analyse.
Quel est le ``vrai '' modèle ?
Lorsque l'on parle de choix de modèles on est souvent amené
à supposer qu'il existe un ``vrai '' modèle ayant engendré les
données. Bien qu'inconnu et d'une complexité telle que sa connaissance
exacte ne peut être envisagée, ce processus de génération des
données fait l'objet d'hypothèses plus ou moins précises : il peut
être spécifié paramétriquement ou non-paramétriquement, il peut
appartenir à l'un des modèles ou être extérieur , il peut être
dynamique ou pas, stationnaire ou non, etc... Conformément à Florens,
Hendry et Richard [31], nous définirons séparément le ``processus de génération des données'' et les ``modèles''.
Le processus de génération des données est le mécanisme
inconnu dont sont issues les observations, conceptuellement, c'est un
élément P0 d'une classe de probabilités P={
Pq,q Î Q 0} sur l'espace mesurable (W , A). Q 0 est l'espace paramétrique indexant P, il
peut éventuellement être fonctionnel et, tout comme P, ne sera
pas explicitement spécifié. P peut être défini de manière
très large, par exemple comme l'ensemble des lois de probabilités
admettant leurs 2 premiers moments.
Par ``modèle M '' nous entendrons le couple
constitué d'un modèle d'estimation d'un paramètre d'intérêt, d Î Q d, (Q d étant typiquement de
dimension inférieure à celle de Q 0, pourra également être
fonctionnel), et d'un estimateur. Il faudrait donc noter ( M,d ), au lieu de M, toutefois, après avoir levé toute
ambiguïté , nous ignorerons cette notation.
On cherche à confronter un modèle ( M1,b ) avec un modèle rival ( M2,g ) , où b et g sont deux
estimateurs convergents des paramètres b et g
respectivement, appartenant aux espaces paramétiques, ou fonctionnels Q b et Q g ; ces deux espaces pouvant avoir des
dimensions différentes.
Le modèle M1 enveloppe le modèle M2 s'il existe une
``fonction de lien'', G permettant de retrouver g à partir de b , c'est-à-dire, telle que l'on
puisse retrouver les résultats de M2 par ceux de M1.
Dans ce contexte d'enveloppement, l'approche de Gourieroux et Monfort [39] présente l'originalité de supposer le processus de génération
des données extérieur aux modèles en présence. Cette étude propose
ainsi le problème de choix entre deux modèles, deux approximations du
vrai modèle, de manière symétrique, aucun des deux modèles n'ayant
de rôle privilégié. L'enveloppement est alors envisagé dans un sens ( M1 enveloppe M2) comme dans l'autre ( M2
enveloppe M1), les deux sens n'étant pas forcément
incompatibles.
Un autre point de vue est de considérer l'un des deux modèles comme un
favori que l'on cherche à confronter avec un autre modèle, l'intérêt
est alors la validation de ce modèle plutôt que du choix pur entre
modèles concurrents2. Dans des
situations pratiques, où les modèles sont inévitablement
mal-spécifiés, il est souvent plus informatif d'analyser les forces et
faiblesses respectives de chacun, que de chercher à sélectionner l'un
des modèles. De même, le fait qu'un modèle M1 n'enveloppe
pas un concurrent M2, indique que ce dernier incorpore des
caractéristiques spécifiques qui n'ont pas été prises en compte par M1. Au lieu de rejeter simplement un tel modèle, cette
faiblesse peut être exploitée plus constructivement, en incorporant les
caractéristiques pertinentes relevées par M2 et ainsi
améliorer la connaissance du phénomène étudié, c'est-à-dire
progresser. Nous suivrons Hendry et Richard [54] dans cette voie, où
l'enveloppement relève plus de la comparaison de modèles que du choix de modèles.
Enveloppement exact ou approché ?
L'enveloppement (``exact''), tel que nous venons de le définir,
n'est, en général, pas vérifié. Dans ce cas, il est toutefois
possible de mesurer le défaut d'enveloppement de M2 par M1. Il nous faut pour cela introduire de manière plus précise
la correspondance liant les résultats de M1 avec ceux de M2.
L'utilisation du critère d'information de Kulback-Leibler [57](KLIC),
dans un contexte de maximum de vraisemblance, permet de définir une telle
correspondance entre Q b et Q g. Dans la lignée
de Sawa [77], la pseudo-vraie valeur est définie comme
l'élément (s'il existe) minimisant le KLIC. Cette définition, qui
figure également chez White [90] ou Gourieroux, Monfort et
Trognon [42], semble avoir été introduite (implicitement) dans
l'oeuvre de Cox [21] et [22] relative aux tests d'hypothèses
non-emboîtées, ainsi que dans les travaux de Huber [55].
La différence entre l'estimateur g et la pseudo-vraie
valeur, ou un estimateur de celle-ci, permet une mesure du défaut
d'enveloppement exact, et définit l'enveloppement approché. Celui-ci
sera réalisé lorsque cette différence, ou une fonction de cette
différence, sera nulle, presque sûrement ou asymptotiquement.
De même, dans un contexte bayésien, l'enveloppement exact basé sur
l'existence d'une correspondance entre les a posteriori des deux
modélisateurs, ne sera que rarement vérifié. Un concept de
spécificité sera défini afin de mesurer le défaut d'enveloppement
qui s'exprimera comme une ``distance incompressible'' entre modèles.
La pseudo-vraie valeur bayésienne sera elle aussi définie comme
réalisant le minimum de la spécificité entre les modèles.
Dans la pratique (qu'elle soit classique ou bayésienne), l'enveloppement
se jugera sur l'enveloppement approché. Ainsi les différents tests
analysés dans le chapitre 2, seront basés sur la recherche de
la nullité du défaut d'enveloppement exact, c'est à dire sur
l'enveloppement approché. La littérature économétrique s'est
d'ailleurs principalement concentrée sur cette définition plus
opérationnelle.
Classique ou bayésien ?
Les modèles bayésiens se distinguent des modèles classiques en
incorporant une densité à priori sur les paramètres, ce qui
représente une extension des modèles classiques à un cadre où l'on
dispose d'un ensemble d'information plus vaste. Le but de l'apprentissage
bayésien est alors de passer de l'a priori sur le paramètre, à l'a posteriori (conditionnel à l'échantillon), par
l'utilisation judicieuse de la règle de Bayes sur la loi jointe à
l'échantillon et au paramètre. L'intérêt du modèle reposant sur
cet a posteriori, il est alors naturel de baser la notion
d'enveloppement, en tant que comparaison de modèles, sur l'étude des
a posteriori de chacun des modèles.
Il est remarquable que la notion d'enveloppement s'étende aussi
naturellement au cadre bayésien. En effet, la définition de
l'enveloppement d'un modèle par un autre y est pratiquement la même, les
estimateurs classiques proposés informellement ici seront remplacés par
des densités a posteriori, la fonction de lien G devant
être remplacée par une probabilité de transition.
En fait, dans un contexte probabiliste que nous ne détaillerons pas ici,
le concept de probabilité de transition réunit les deux approches
classique et bayésienne.
La principale difficulté de cette généralisation de l'enveloppement
consiste en la recherche de la probabilité de transition donnant la
pseudo-vraie valeur bayésienne (voir section 1.4). La complexité
des calculs de celle-ci pose un réel problème d'estimation. Cette
difficulté peut être contournée par l'utilisation de techniques de
simulation, comme l'échantillonneur de Gibbs, (voir Bouoiyour [13])
, ou par des techniques d'approximation qui permettent un calcul
opérationnel (voir Florens, Hendry et Richard [31]).
Malheureusement, ces procédures ne sont encore définies que pour des cas
particuliers (voir Florens, Larribeau et Mouchart [33]).
Asymptotique ou fini ?
La propriété d'enveloppement est essentiellement une propriété de
``petit échantillon'', typiquement cette notion trouve sa place naturelle
dans un contexte bayésien c'est-à-dire appliqué à des échantillons
finis. Cependant, l'approche asymptotique sera privilégiée dans ce
travail. Tout d'abord, pour être opérationnelle, la propriété
d'enveloppement doit pouvoir être testée. Ces tests qui ont été
élaborés dans la littérature sur les problèmes de spécification
sont majoritairement asymptotiques (voir Hausman [52] et White [91] entre autres). Il est donc nécessaire d'effectuer un minimum de
théorie asymptotique afin de déterminer les lois des statistiques de
test intervenant dans ce contexte. D'autre part, le calcul des pseudo-vraies
valeurs est souvent simplifié asymptotiquement. Gouriéroux, Monfort et
Trognon [42] proposent cependant des procédures de test basées sur
des pseudo-vraies valeurs finies. Ces auteurs mettent en avant l'importance
de ces pseudo-vraies valeurs finies dans des modèles conditionnels, et
décrivent également les cas particuliers où celles-ci coïncident
avec les pseudo-vraies valeurs asymptotiques. Dans l'optique du chapitre 4
où nous traiterons de modèles (et donc d'estimateurs) fonctionnels,
l'approche asymptotique sera bien évidemment privilégiée.
Emboîtés ou non-emboîtés ?
Dans son article sur le problème général de la sélection de
modèles, Pesaran [70] écrit : ``In many economic
applications the models that we eventually encounter are often non-nested in
the sense that they have separate parametric families and one model cannot
be obtained from the others as a limiting process. Unfortunately, in such
cases the application of the classical likelihood-ratio test procedure will
not be correct and other suitable methods of testing have to be sought''.
Des procédures ont ainsi été examinées par de nombreux auteurs, afin
de réconcilier les modèles non-emboîtés avec les techniques
existantes pour les modèles emboîtés. Cox ([21] et [22]), développe une procédure adaptée du test de rapport de
vraisemblance. Cette méthode est basée sur l'examen, d'une part, des
différences des log-vraisemblances empiriques, d'autre part la même
différence est évaluée en supposant que M1 est ``vrai''
(voir Pesaran [70]).
Une des idées à été d'utiliser un ``sur-modèle'' emboîtant
artificiellement les modèles concurrents. Cependant l'issue de ces
procédures n'est pas satisfaisante puisque les deux modèles peuvent
être simultanément acceptés ou rejetés, un autre problème est la
forte collinéarité pouvant exister entre les variables explicatives
intervenant dans le sur-modèle. Atkinson [4], reprend également
l'idée d'un sur-modèle dont la densité est proportionnelle à une
moyenne géométrique des densités des modèles concurrents. Davidson
et Mac Kinnon [24], proposent un sur-modèle additif et contournent
l'obstacle de l'estimation séparée des paramètres des modèles et du
paramètre liant les modèles (l ) en séquançant la
procédure de test. On calcule d'abord les résidus issus de l'estimation
de M2 que l'on reporte ensuite dans le sur-modèle où l'on
peut alors tester de la nullité (ou l'égalité à 1) de l ,
(voir section 2.1.3).
Hendry et Richard [54] notent que le principe d'enveloppement
s'applique, que les modèles soient emboîtés ou non. Heuristiquement,
un sur-modèle Mc emboîtant les modèles M1 et M2, aura la même spécificité que M2 vis-à-vis
du modèle M1 et ne saurait donc apporter aucune aide à la
décision . Nous observerons sur un exemple, (exemple 3, section
1.3.1), la situation où M1 enveloppe M2 est
équivalent à M1 enveloppe Mc . Dès lors,
l'enveloppement parcimonieux, (voir section 1.3.1), permet d'envisager
une procédure de réduction des modèles, l'objectif étant de
construire des modèles ``plus simples'' qui présentent la même
capacité à envelopper des modèles ``plus grands''.
Ce travail se veut une contribution aux recherches en cours sur la notion
d'enveloppement dans les modèles de régression. Les comportements
asymptotiques des statistiques mesurant le défaut d'enveloppement sont
maintenant bien connus dans le cadre paramétrique,et seront rappelés
dans le chapitre 2. Notre objectif est d'étendre ces résultats au cadre
de la régression non-paramétrique.
Les techniques d'estimation fonctionnelle de la régression, proposées
chapitre 3, nous permettent en effet, d'envisager une extension de ces
travaux à des modèles autres que linéaires et/ou gaussiens. Dans cette
optique la question centrale que nous aborderons dans ce travail sera :
``Existe t'il des procédures de test d'enveloppement entre modèles de
régression libres de toute forme fonctionnelle ?''
Cette question en appelle d'autres auxquelles nous tenterons de répondre,
dans le chapitre 4, notamment :
Comment se comporte l'estimateur non-paramétrique d'un modèle de
régression M2 sous l'hypothèse que M1 est ``vrai'' ?
Quelle statistique de test globale peut-on envisager pour tester de
l'enveloppement dans ce cadre ?
Quelle en est la perte en terme de vitesse de convergence par rapport au cas
paramétrique ?
Nous nous efforcerons de répondre à ces questions par les procédures
développées dans le quatrième chapitre.
Nous chercherons également à comparer par enveloppement procédures
paramétriques et non-paramétriques. Nous étudierons 4 cas en combinant
les spécifications paramétriques et fonctionnelles pour chacun des deux
modèles en présence. Cette étude nous poussera à étudier de
manière précise les choix arbitraires qui peuvent être faits dans la
sélection des estimateurs de chacun des modèles. Ces choix, et
particulièrement ceux des fenêtres, peuvent influer sur les critères
nécessairement objectifs de comparaison de modèles, et seront mis en
évidence. Les simulations conduites et proposées dans le chapitre 5
viendront étayer nos résultats.
Enfin et surtout, nous proposerons un critère global d'enveloppement dont
la distribution asymptotique sera caractérisée. Ce critère convergera
vers ce que nous appellerons ``une loi normale fuyante'',
c'est-à-dire qu'un terme résiduel croissant s'ajoutera au terme donnant
la normalité asymptotique dans notre critère. Cette caractéristique,
propre au cadre non-paramétrique, nous indique que notre approche
asymptotique comporte des faiblesses. Ces faiblesses pourraient être
compensées dans le futur par l'utilisation de techniques de Bootstrap.
- 1
- mot que nous choisissons pour la traduction de ''encompassing''
- 2
- Cette vision directionnelle correspond à l'idée de confronter une
théorie nouvelle à une théorie déjà éprouvée
Chapter 1 Le principe d'enveloppement
``One model is said to encompass another if the former can account for,
or explain, the results of the latter.''
David F. Hendry et Jean-François Richard (1986)
1.1 Définition de l'enveloppement exact
Soit Y une variable aléatoire définie sur l'espace mesurable (W , A), et Yn=(yi)i=1,... ,n n réalisations indépendantes
de cette variable.
On cherche à confronter un modèle M1 candidat à la
modélisation du processus de génération de données ou tout du moins
candidat à la représentation d'aspects pertinents de ce processus, avec
un modèle rival M2. Les deux modèles, indexés par les
paramètres b et g respectivement, reposent sur des espaces
paramétriques, Q b et Q g, qui peuvent
éventuellement être fonctionnels.
Soit b n et g n des estimateurs
consistants de b et g dans leurs modèles respectifs, les
estimateurs b n et g n dépendent de
l'échantillon Yn.
M1 étant le candidat que l'on cherche à confronter à M2, on va chercher à analyser sa capacité à ``expliquer'' M2, ou plutôt, sa capacité à expliquer les résultats de M2 par ses propres résultats. Pour cela nous proposons la
définition suivante, donnée initialement par Hendry et Richard [54]
:
Définition 1.1
(Enveloppement exact) :
On dira que `` M1 enveloppe exactement M2 '' ( M1 Ee M2) s'il existe G , ``fonction de lien'', G :Q b¾® Q g
, telle que, pour tout échantillon Yn :
g (Yn)=G |
( |
b (Yn) |
) |
(M1 p.s.)
(1.1) |
Ceci signifie bien que l'on peut obtenir, à partir de l'estimation des
paramètres de M1, les mêmes résultats que ceux obtenus par M2 puisqu'on obtient g (Yn) à partir de b (Yn). M1 est donc préférable à M2
puisqu'il contient potentiellement les résultats de son concurrent.
Soient les modèles M1 et M2 paramétrés par
b et g sur  + et représentés par les densités
suivantes:
M1:Y~ N(b ,1) et M2:Y~ N |
(e |
|
,1)
|
munis des estimateurs
Sur cet exemple M2 est une reparamétrisation de M1, et
donc M1 enveloppe exactement M2, en effet la
fonction G (· )=log (· ) nous donne donc explicitement g =G (b ).
Il est à noter que l'on a ici une fonction G bijective sur Â
+ et donc nous avons également b =eg
ce qui signifie également que M2 enveloppe M1, les deux sens n'étant pas incompatibles.
Exemple 2
Soit Y=(
) un vecteur aléatoire sur (Â 2, BÂ 2,l 2)
et Yn=(y1,y2,... ,yn), n réalisations indépendantes de cette
variable.
Considérons les modèles M1 et M2, définis par les
densités normales suivantes :
M1:Y~ N2( |
æ è |
|
|
|
ö ø |
,å ) et M2:Y~ N2( |
æ è |
|
|
|
ö ø |
,å )
|
où å =(
) , matrice de variance-covariance, est connue.
Le paramètre b =(
) est estimé naturellement par b :
où y1 et y2 sont les moyennes empiriques:
Un estimateur de g =(
) est g avec:
Nous pouvons donc clairement calculer g à partir de b , puisque g =G (b )
où G est la fonction:
Sur cet exemple trivial, nous voyons comment un sous-modèle M2
est enveloppé exactement par un modèle dont il est la restriction, la
fonction G étant la représentation de la restriction sur
l'espace des paramètres. Nous verrons par la suite, section 1.3,
que des sous-modèles peuvent envelopper les modèles dont ils sont issus,
ce qui, au regard du principe de parcimonie, présente un intérêt
beaucoup plus grand.
Remarque:
-
Dans l'exemple précédent on peut proposer sur M2 un
autre estimateur de g en prenant g ¹g . Il n'est pas évident que l'enveloppement soit
également réalisé avec ce nouvel estimateur de g , puisqu'en
changeant d'estimateur, nous changeons le modèle M2.
- Il se peut également que l'enveloppement soit réalisé mais par
une fonction de lien différente. Prenons par exemple g
estimateur du maximum de vraisemblance :
g = |
æ è |
|
|
|
ö ø |
avec h = |
|
1+p |
æ è |
|
|
2-1 |
ö ø |
où l'expression de p est p =s 12/s 22.
Nous pouvons encore calculer g à partir de b , mais à l'aide de la fonction G ¹G
où G est la fonction:
Nous avons, ici également, g =G (b ) , l'enveloppement est donc vérifié pour ce nouveau modèle
avec ce nouvel estimateur mais nous avons changé de fonction de lien.
Sur cet exemple, nous remarquons donc que ( M1,b )
enveloppe le modèle ( M2,g ) ainsi que le modèle
( M2,g ).
1.1.1 Version dynamique
Soient M1 et M2 deux modèles paramétriques
dynamiques sans exogènes candidats à la modélisation de la densité
d'un vecteur aléatoire Yt. Les densités respectives de M1
et M2 sont :
f(yt| Yt-1,b ) et g(yt| Yt-1,g )
où b et g appartiennent aux espaces paramétriques Q
b et Q g, et où la matrice Yt-1, regroupe les
observations ``passées'' : Yt-1=(yt-1,yt-2,··· ,y1).
On associe au modèle M1 l'estimateur b T de b basé sur l'échantillon de taille T, YT, de même g T est l'estimateur de g associé à M2.
Govaerts, Hendry et Richard [43], proposent la définition de
l'enveloppement dynamique, dans le même esprit que la définition 1.1 :
Définition 1.2
: ``Le modèle dynamique M1 enveloppe exactement M2'', s'il existe une séquence de fonctions G T telle
que :
g T=G T(b T) ( M1 p.s.)
Ici encore, et pour tout T, la connaissance de b T
associée à celle des fonctions de lien G T, permet la
connaissance de l'estimateur de M2, g T. Le
modèle M1 sera donc préféré, contenant, implicitement
l'ensemble des résultats de son rival.
Cette définition ne diffère de la définition (statique) donnée en (1.1) que par l'aspect séquentiel que doit revêtir ici la fonction
de lien G , remplacée ici par une succession de fonctions de liens.
1.1.2 Propriétés
Nous pouvons reformuler la définition 1.1 d'une manière plus
visuelle en examinant les relations entre les espaces W , Q b et Q g:
Définition 1.1 (bis) :
-
M1 enveloppe exactement M2 s'il
existe une fonction G telle que le schéma formel
représenté par la figure1.1 soit ``fermé ''.
Les espaces Q b et Q g sur lesquels reposent
les estimateurs b n et g n issus de
l'échantillon Yn sont ainsi liés par la fonction G
définissant la pseudo-vraie valeur G (b ). Dès
lors, le modèle 2 n'apporte rien que ne puissent expliquer les résultats
du modèle 1.
Nous verrons section 1.4 que cette définition s'étend au cadre
bayésien sans difficultés.
Nous obtenons quelques propriétés immédiates de cette définition :
-
La relation d'enveloppement exact définie par (1.1) est
transitive (voir ci-dessous)
- L'enveloppement exact, tel que nous le définissons ici, est une
relation entre modèles estimés et non entre les modèles théoriques
eux-mêmes.
- Cette relation ne dépend pas de la bonne ou de la mauvaise
spécification des modèles en présence, chacun d'eux étant
potentiellement mal-spécifié
- Si la fonction G est bijective alors l'enveloppement sera
réciproque ( M1 Ee M2 et M2 Ee M1), toutefois l'intérêt de comparer des
modèles dont les paramètres sont en bijection est très limité (voir
l'exemple 1).
igu1.pic
Figure 1.1: Enveloppement exact
Transitivité de l'enveloppement exact
La propriété d'enveloppement exact est une propriété transitive. Si
un modèle ( M1,b ) enveloppe exactement
un modèle ( M2,g ),
et si ce dernier enveloppe à son tour un modèle ( M3,d ), alors M1 enveloppe M3.
En effet, s'il existe G liant les espaces Q b et Q g telle que g =G (b )
et s'il existe ¡ liant les espaces Q g et Q
d telle que d =¡ (g )
alors il existe L =¡ ° G liant les espaces Q
b et Q d et telle que d =L (b )
igu2.pic
Figure 1.2: Transitivité de l'enveloppement exact
Nous retrouvons la transitivité intuitive de cette notion. Plus
visuellement nous avons le schéma (fermé) donné par la figure
1.2.
Il importe cependant d'être prudent : la définition de l'enveloppement
fait intervenir des égalités presque sûres, pour des lois
différentes.
En effet d'un côté on a :
g =G (b ) M1 presque surement.
et donc : { Yn tels que g (Yn)¹G (b (Yn))} est de mesure nulle pour M1.
D'autre part :
d =¡ (g ) M |
|
presque surement.
|
c'est-à-dire que l'ensemble : { Yn tels que
d (Yn)¹¡ (g (Yn))} est
de mesure nulle pour M2.
L'égalité : d =L (b )=¡ ° G (b ) M1 presque
sûrement
ne sera vérifiée que si l'ensemble {
Yn tels que d (Yn)¹¡ (g (Yn))} est également de mesure nulle pour M1.
Dans un contexte paramétrique, sur des espaces réels par exemple, où
les modèles sont définis par des lois de probabilités, il faut être
prudent et imposer que M2 domine M1. Cette situation
peut ne pas être réalisée pour des modèles de dimensions
différentes ; typiquement si M2 est emboîté dans M1 et est de dimension inférieure, M2 ne dominera pas M1. Dans un cadre fonctionnel, il faudrait de même imposer aux
négligeables de M2 de l'être pour M1 également.
Remarque :
Ces propriétés ne nous assurent pas de la pertinence du modèle
enveloppant, en terme de modélisation du ``vrai'' processus de
génération. De plus, le processus ayant engendré les données n'a pas
la propriété d'envelopper toute tentative de modélisation basée sur Yn. La notion d'enveloppement approché permet de récupérer cette
propriété intuitive, la propriété de transitivité n'est, elle, pas
conservée.
1.2 Enveloppement approché
D'une manière générale, l'enveloppement exact défini en (1.1)
n'est vérifié que rarement en échantillon fini, et ce même si M1 est le processus de génération des données.
Face à ce constat, deux approches peuvent être envisagées, la
première est basée sur une mesure du défaut d'enveloppement. Pour cela
la pseudo-vraie valeur sera définie et reliée à la notion de
spécificité entre modèles, typiquement la définition de
l'enveloppement approché ne différera de l'enveloppement exact ``que''
par la détermination préalable de la fonction G .
La deuxième approche consiste à définir l'enveloppement
asymptotiquement, la pseudo-vraie valeur étant définie comme une
réinterprétation des paramètres de M2 sous l'éclairage de M1. Ces deux approches, bien que différenciées ici ne sont que
deux visions approchées d'une notion exacte.
1.2.1 Principe général
Nous allons définir une ``mesure'' du défaut d'enveloppement qui servira
de base à l'enveloppement approché. Le principe consiste à choisir une
fonction réelle Y (g ,b ) mesurant
l'écart, ou la divergence, entre les modèles M1 et M2.
La fonction de lien G
G : |
|
¾® |
|
|
b (Yn) |
¾® |
G (b (Yn)) |
qui détermine la pseudo-vraie valeur G (b (Yn)), est
alors définie comme l'élément d'une classe de fonctions CF, qui
rapproche au mieux les modèles M1 et M2 au sens de
cette mesure.
Cette fonction G minimise la ``spécificité'' de M2 vis
à vis de M1, c'est également celle qui donne le plus de
possibilités à M1 d'expliquer les résultats de M21.
Il est essentiel de remarquer que selon les types de modèles examinés,
selon les espaces ``paramétriques'', (qui peuvent être
fonctionnels), selon les propriétés de CF et selon les
procédures d'estimation, la fonction de lien G (et donc la
pseudo-vraie valeur) connaîtra des caractéristiques et des
propriétés différentes.
Le principe général proposé ici peut être résumé par le
programme suivant :
-
Choix des estimateurs (c'est-à-dire choix des modèles soumis à
l'étude)
- Définition de la fonction Y introduisant la spécificité
- Détermination et estimation de la pseudo-vraie valeur
- Calcul de la différence d'enveloppement minimale
- Test de la nullité de la spécificité (voir chapitre 2)
Dans les modèles paramétriques de maximum de vraisemblance, le critère
d'information de Kulback-Leibler [57] est généralement adopté
comme ``distance'' entre modèles 2.
Nous vérifierons que ce critère coïncide avec une mesure de la
spécificité introduite par Florens, Hendry et Richard [31].
Le contraste de Kulback et Leibler (KLIC)
Soit (Â , BÂ,l ) l'espace réel mesuré et Y une
variable aléatoire réelle . Afin de nous assurer de l'existence de ce
critère et pour obtenir des propriétés de régularité usuelles,
nous devons introduire quelques notations et hypothèses sur les modèles M1 et M2.
-
i) Le modèle M1 suppose que la variable Y admet la
densité f(y,b ) par rapport à la mesure de Lebesgue l ,
où f est continue en b Î Q bÌ Â l
- ii) Le modèle M1 suppose que Y admet la densité g(y,g ) par rapport à l , avec g continue en g Î
Q gÌ Â m
- iii) le support de f(y,b ) est inclus dans celui de g(y,g ).
Une mesure directionnelle de la distance entre M1 et M2
est donnée par le KLIC (Kulback-Leibler Information Criterion):
I( M1, M2)= |
|
é ê ê ë |
log |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
où Eb(· ) est l'espérance relative au modèle 1, i.e.
à la densité f(y,b ).
Il est bon de remarquer que :
-
Ce critère n'est pas une distance, puisque l'inégalité
triangulaire n'est pas vérifiée et que I( M1, M2)¹ I( M2, M1) en général.
- Ce critère est positif
- I( M1, M2)=0Û f(y,b )= g(y,g
)
Preuve : Nous empruntons ce résultat à Gourieroux et
Monfort [37].
L'inégalité de Jensen appliquée à la fonction convexe -log (x) nous donne :
|
é ê ê ë |
log |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
=- |
|
é ê ê ë |
log |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
³ -log |
|
æ ç ç è |
|
|
ö ÷ ÷ ø |
Or
-log |
|
æ ç ç è |
|
|
ö ÷ ÷ ø |
=-log |
|
ó õ |
|
· f(y,b ) dy=0
|
De plus, la fonction -log (x) étant strictement convexe, l'égalité
à zéro n'a lieu que si g(y,g )/f(y,b ) est égal à une
constante, k. Comme Eb( g(y,g )/f(y,b )) =1, on en déduit que k=1.
Les modèles de maximum de vraisemblance constituent un bon exemple de mise
en oeuvre du principe général que nous adoptons pour définir
l'enveloppement approché, nous resterons dans ce cadre tout au long de
cette section. Dans ce contexte, Florens et alii [31] proposent de
définir la pseudo-vraie valeur comme minimisant la spécificité
de ( M2,g ) vis-à-vis de ( M1,b ).
Une mesure de la spécificité de ( M2,g )
par rapport à ( M1,b ) est donnée pour une
fonction G par :
D |
|
(Yn)= |
ó õ |
|
log |
é ê ê ë |
|
g(y,g (Yn)) |
|
g(y,G (b (Yn))) |
|
ù ú ú û |
f(y,b ) l (dy)
|
Cette mesure est évidemment dépendante de l'échantillon Yn3.
La pseudo-vraie valeur G (b ) est définie comme réalisant le
minimum du critère DG(Yn) pour tout Yn.
G (b )=arg |
|
|
|
ó õ |
|
log |
é ê ê ë |
|
|
ù ú ú û |
f(y,b ) l (dy)
|
Il est important de noter que, par cette définition de la pseudo-vraie
valeur, nous cherchons volontairement à réduire au maximum la
spécificité de M2 vis-à-vis de M1. En minimisant
cette spécificité nous offrons ainsi la ``plus faible résistance
possible'' à l'enveloppement de M2.
Il est aisé de voir que G (b ) réalise le minimum du
critère d'information de Kulback-Leibler (KLIC).
Preuve :
Notons que, comme g est l'estimateur du maximum de
vraisemblance, on a :
Ensuite, par un simple jeu d'écriture, on obtient :
G (b ) |
=arg |
|
|
ó õ log |
é ê ê ë |
|
|
ù ú ú û |
f(y,b ) dy |
|
|
|
|
=arg |
|
|
ó õ log |
[ |
g(y,d ) |
] |
f(y,b ) dy |
|
|
|
|
=arg |
|
|
|
ó õ log |
é ê ê ë |
|
|
ù ú ú û |
f(y,b ) dy |
|
Le dernier terme est bien le contraste de Kulback-Leibler.
Nous vérifions ainsi que, dans le cadre présent de maximum de
vraisemblance, minimiser la spécificité d'un modèle vis-à-vis d'un
autre, revient à minimiser la distance qui les sépare au sens de
Kulback-Leibler. Des mesures de spécificité autres que celle proposée
ici peuvent être introduites, elles conduisent évidemment à d'autres
pseudo-vraies valeurs et à d'autres tests.
Dans un contexte bayésien, on aura le souci de définir une ``spécificité inconditionnelle '' en supprimant la dépendance
vis-à-vis de l'échantillon par intégration en y suivant la loi
supposée de y (voir section 1.4). La mesure précédente est
cependant préférée, elle conduit en effet à une présentation
naturelle des distances entre modèles.
1.2.2 Définition de la pseudo-vraie valeur
Gourieroux, Monfort et Trognon [42], sur les bases des travaux de Sawa
[77], Huber [55] et Cox ([21] et [22]), proposent
en 83, la définition de la pseudo-vraie valeur dans le contexte présent
de maximum de vraisemblance par :
G (b )=arg |
|
|
ó õ |
|
log |
é ê ê ë |
|
|
ù ú ú û |
f(y,b )l (dy)
|
C'est-à-dire que la pseudo-vraie valeur associée à une procédure de
maximum de vraisemblance est définie comme la valeur minimisant le KLIC I( M1, M2) ce qui équivaut à minimiser la spécificité
introduite ci-dessus.
Une autre expression équivalente est :
G (b )=arg |
|
|
ó õ |
|
log |
[ |
g(y,d ) |
] |
f(y,b )l (dy)
(1.2) |
La fonction de lien G n'est donc pas définie analytiquement, mais
résulte d'une procédure de minimisation. Sawa s'est le premier
intéressé au calcul des pseudo-vraies valeurs, il montre (lemme 3.2),
que la pseudo-vraie valeur G (b ) s'écrit également :
où Eb(· ) désigne l'espérance relative au modèle M1.
Si g est l'estimateur du maximum de vraisemblance du
modèle paramétrique M2, on a :
|
G (b )= |
ó õ |
|
arg |
|
|
log |
[ |
g(y,d ) |
] |
f(y,b )l (dy)
(1.4) |
La distinction entre (1.2) et (1.4), réside alors dans
l'ordre des opérateurs.
Conformément à Hendry, Mizon et Richard (Voir Mizon [65], Mizon
et Richard [66], ou Hendry et Richard [54] ), l'espérance sous M1 de g définissant la pseudo-vraie valeur dans
l'expression 1.3 est remplacée par :
G (b ) se présente ici comme une réinterprétation de
l'estimateur g par M1, elle est aisément
estimable, dès lors que b l'est, par G (b ).
Nous utiliserons cette expression de la pseudo-vraie valeur dans la suite de
ce travail.
Gourieroux et alii [42], proposent également une définition de la
pseudo-vraie valeur en échantillon fini dont G (b ) est la
limite.
1.2.3 Pseudo-vraie valeur à distance finie
Considérons l'échantillon constitué de (yi,xi)i=1,··· ,n, n
observations indépendantes du couple de vecteurs aléatoires (Y,X) de Â × Â p . On s'intéresse à la loi conditionnelle de Y| X.
Le même schéma directeur s'applique ici à partir des définitions des
modèles et du critère (conditionnel) de Kullback-Leibler. Deux modèles
sont proposés pour la modélisation de la densité conditionnelle de Y
sachant X.
M1 |
: |
f(yi| xi,b ) |
; |
|
|
|
|
|
|
M2 |
: |
g(yi| xi,g ) |
; |
|
Les log-vraisemblances conditionnelles associées à ces modèles sont4:
L1(b )= |
|
log |
f(yi| xi,b ) et
L2(g )= |
|
log g(yi| xi,g )
|
Nous pouvons introduire le critère (conditionnel) de Kullback-Leibler qui
est ici :
E |
|
é ê ê ë |
log |
æ ç ç è |
|
f(yi| xi,b ) |
|
g(yi| xi,g
) |
|
ö ÷ ÷ ø |
|
ù ú ú û |
= |
|
log |
æ ç ç è |
|
f(yi|
xi,b ) |
|
g(yi| xi,g ) |
|
ö ÷ ÷ ø |
f(yi| xi,b )dyi
|
Ce critère diffère de celui donné dans la section précédente par
le fait qu'il est conditionnel aux observations xi.
Une mesure directionnelle de la distance entre M1 et M2
est :
|
E |
|
é ê ê ë |
log |
f(yi| xi,b ) |
|
g(yi| xi,g ) |
|
ù ú ú û |
dont le minimum sur g est réalisé par G n(b ) qui
est la ``pseudo-vraie valeur à distance finie'' de g .
Il est à noter que G n(b ) réalise, de manière
équivalente, le maximum en g de :
|
|
E |
|
[ |
log g(yi| xi,g
) |
] |
(1.5) |
Lorsqu'on augmente la taille de l'échantillon,(n® ¥ ), la
pseudo-vraie valeur à distance finie G n(b ) tend vers G
(b ) pseudo-vraie valeur (asymptotique) solution du problème de
maximisation suivant :
|
|
|
|
|
|
E |
|
[ |
log g(yi| xi,g
) |
] |
= |
|
ExE |
|
[ |
log
g(yi| xi,g ) |
] |
(1.6) |
Où Ex désigne l'espérance relative à la distribution des xi5.
Remarque
La pseudo-vraie valeur à distance finie G n(b ), maximum de
l'expression (1.5), dépend donc des valeurs des variables
(exogènes) xi, et devrait être notée G n(b ,X). Avant
observation elle doit donc être considérée comme variable aléatoire.
Par contre, la pseudo-vraie valeur asymptotique G (b ) issue de
l'expression (1.6) n'est pas aléatoire, elle diffère donc par
nature de G n(b ). Ces deux notions sont toutefois confondues
dans le cadre de modèles d'échantillonnage (où il n'y a pas
d'exogènes) ainsi que dans les cas de modèles iid, ou autres modèles
à valeur des xi fixes ( f(yi,xi,b )=f(yi,b )) .
On parlera dans ces cas de pseudo-vraie valeur, sans distinction.
La pseudo-vraie valeur étant définie , nous pouvons introduire la
notion d'enveloppement ``approché'', cette définition, plus
familière, est essentiellement basée sur l'estimation de la différence
d'enveloppement g -G (b ).
L'expression de cette différence est centrale dans cette définition,
elle servira de base aux tests d'enveloppement développés chapitre 2. La procédure de calcul de la pseudo-vraie valeur étant une
minimisation, la transitivité de l'enveloppement exact ne se retrouvera
pas dans l'enveloppement approché.
Afin d'être clair dans nos définitions nous parlerons d'enveloppement pour désigner l'enveloppement ``approché''
défini ici, l'enveloppement ``exact'' étant la dénomination
réservée à la relation (1.1) de la définition 1.1.
1.2.4 Définition de l'enveloppement approché
Comme il n'est pas possible de vérifier la relation (1.1), l'idée
est de définir l'enveloppement approché en se basant sur la différence
entre l'estimateur g de g dans M2 et un
estimateur G (b ) de la pseudo-vraie valeur G
(b ), celle-ci ayant été calculée par minimisation de la
spécificité.
Définition 1.3
(Enveloppement approché) :
On dira que `` M1 enveloppe M2 '' ( M1 E M2) si :
g (Yn)=G |
( |
b (Yn) |
) |
(M1 p.s.)
(1.7) |
G ( b (Yn)) étant l'estimateur de la
pseudo-vraie valeur de g sous M1.
La différence fondamentale avec l'expression (1.1) définissant
l'enveloppement exact, réside dans la connaissance de la pseudo-vraie
valeur. Ici, elle est connue comme résultant d'une procédure de
minimisation et l'on examine la nullité de la différence g -G (b ), contrairement à la définition de
l'enveloppement exact où l'on s'intéressait à l'existence de G
permettant la nullité de cette différence.
La relation (1.7) est évidemment dépendante de l'échantillon,
et peut donc être testée. C'est d'ailleurs sur la différence g -G (b ), ou sur une fonction de cette
différence que seront fondés les tests d'enveloppement classiques (voir
chapitre 2).
Il est à noter que l'enveloppement approché n'est pas transitif,
autrement dit, si M1 E M2 et M2 E M3 alors M1 n'enveloppe pas forcément le modèle M3.
Cette situation est due au fait que les pseudo-vraies valeurs sont
définies comme minimum d'un critère de ``divergence'' entre modèles
qui n'est pas transitif (voir Dhaene [27]).
L'exemple suivant permet de représenter l'enveloppement approché sous
une forme aussi simple que possible. Il est extrait de Hendry et Richard
[54] et fait intervenir deux modèles univariés normaux non emboîtés.
Exemple 3
M1 est un modèle proposant la densité de Y comme
distribuée suivant une loi normale de variance unitaire, il est
paramétré par la moyenne b et appartient donc à la famille de
densités normales de variance 1.
M1 : Y~ N(b ,1)
Ce modèle va s'opposer au modèle M2 proposant une
distribution normale centrée paramétrée par sa variance g 2.
M2 : Y~ N(0,g 2)
Si b ¹ 0 et g 2¹ 1 ces deux modèles sont non emboîtés, dans le sens où les familles paramétriques étudiées ici sont
disjointes. Nous cherchons ici, à envelopper M2 par M1
en nous basant sur un échantillon Yn=(y1,y2,... ,yn), de n
réalisations indépendantes de la variable aléatoire réelle Y .
Les estimateurs associés aux paramètres de ces modèles sont :
-
b =1/nåi=1nyi , pour M1.
- g 2=1/nåi=1nyi2, pour M2.
Ces estimateurs sont convergents dans leurs modèles respectifs. La
pseudo-vraie valeur de g 2 est elle obtenue par l'étude du
comportement asymptotique de g 2 sous M1. La
décomposition suivante permet une analyse rapide du comportement
asymptotique des différents termes.
g 2= |
|
|
yi2 = |
|
æ ç ç è |
|
|
(yi-b )2+2b · |
|
|
(yi-b )+ |
|
b 2 |
ö ÷ ÷ ø |
Sous M1
-
le premier terme tend vers 1 (variance de y sous M1)
- le second s'annule ( espérance d'une variable centrée )
- le dernier est exactement égal à b 2
Au total on obtient la pseudo-vraie valeur G (b )=plim M1( g 2) =1+b 2
M1 enveloppera donc M2 si et seulement si g 2=G (b )=1+b 2
Conformément à la définition de Hendry et Richard nous jugerons de
l'enveloppement de M2 par M1, par la différence entre
un estimateur de g 2 et un estimateur de la pseudo-vraie valeur G (b ), donnant la statistique :
f =
g 2-
G (
b )=
g 2-1-
b 2
(1.8)
basée sur l'échantillon Yn.
En développant cette expression, la statistique s'écrit également sous
la forme :
Hendry et Richard nous proposent également d'examiner sur cet exemple la
situation inverse où l'on cherche à tester l'enveloppement de M1 par M2.
La pseudo-vraie valeur associée à b sous M2
est B(g ) :
M2 enveloppera donc M1 ssi f = b est nul .
1.2.5 L'alternative de Gourieroux et Monfort
L'approche de Gourieroux et Monfort [39], [38] et [42], que
nous qualifions d'alternative, présente la particularité de considérer
explicitement le processus de génération des données comme extérieur
aux modèles. Nous examinerons les possibilités d'enveloppement dans un
sens ( M1 enveloppe M2) comme dans l'autre, sans
préférence a priori pour l'un des deux modèles. Ainsi, les deux
modèles sont examinés de manière symétrique, le principe de
l'enveloppement servant de critère de choix objectif.
Considérons le contexte conditionnel défini pour l'étude des
pseudo-vraies valeurs, section 1.2.3.
Deux modèles sont proposés pour la modélisation de la densité
conditionnelle de y sachant x.
M1 |
: |
f(yi| xi,b ) |
; |
|
|
|
|
|
|
M2 |
: |
g(yi| xi,g ) |
; |
|
et supposons le processus de génération des données P0,
extérieur aux modèles M1 et M2. Il est
caractérisé par la (``vraie'') densité conditionnelle h :
P0 |
: |
h(yi| xi,q 0) |
; |
q 0Î Q 0 |
Puisque P0 est extérieur aux modèles, nous pouvons
déterminer quel modèle M1 ou M2 est le plus proche
de ce processus, au sens du contraste de Kullback et Leibler. Dans ce
paysage, nous pouvons définir différentes pseudo-vraies valeurs selon le
modèle de référence.
Si l'on prend pour modèle de référence le modèle P0,
alors :
-
- la valeur minimisant la ``distance'' entre P0 et M1 est la pseudo-vraie valeur de b sous P0, b 0.
- - celle minimisant la ``distance'' entre P0 et M2
est g 0, la pseudo-vraie valeur de g sous P0,
Ces valeurs sont définies comme solutions des programmes :
|
b 0 |
= |
|
ExE0log |
é ê ê ë |
|
h(yi| xi,q 0) |
|
f(yi| xi,b ) |
|
ù ú ú û |
|
|
|
|
|
|
|
|
= |
|
ExE0 |
[ |
log f(yi| xi,b ) |
] |
|
et |
|
|
|
|
|
g 0 |
= |
|
ExE0 |
[ |
log g(yi| xi,g
) |
] |
|
|
|
|
|
où Ex désigne l'espérance relative à la distribution des xi et
E0 celle relative au ``vrai'' processus P0.
Malheureusement, en règle générale, le modèle P0 est
inconnu et l'on ne peut donc pas choisir le modèle ``le plus proche'' au sens de ce critère.
On peut toutefois considérer l'un ou l'autre des modèles concurrents
comme étant le ``vrai'' modèle. Si M1 est le modèle de
référence, on définit la pseudo-vraie valeur G (b ) comme
l'élément de Q g minimisant la distance entre le modèle M1 au modèle M2. G (b ) est déterminée
par le même type de maximisation :
G (b )=Arg |
|
ExE |
|
log g(yi| xi,g )
|
La fonction déterminant G (b ) dans Q g, est la ``fonction de lien'' G : Q b ®
Q g, définie section 1.2.2.
Nous trouvons une expression symétrique en considérant M2 comme référence, la fonction de lien B:Q g¾® Q b , déterminant la pseudo-vraie valeur B(g ) dans Q b
B |
(g )=Arg |
|
ExE |
|
log f(yi| xi,b )
|
Il est important de noter que les fonctions de lien G et B
qui ne font intervenir que les modèles et leurs spécifications, sont
indépendantes du vrai processus. N'ayant aucune hypothèse sur
l'appartenance de ce processus à l'un des modèles, ``tout n'est
donc que pseudo''.
Exemple 4
Supposons les modèles conditionnels M1 et M2
linéaires gaussiens de variance unité :
|
|
M1 |
: |
f(y| x,b ) |
= |
|
et |
|
|
|
|
|
|
M2 |
: |
g(y| x,g ) |
= |
|
|
Les fonctions de lien G et B vérifient :
|
G (b ) |
= |
Arg |
|
ExE |
|
[ |
log g(y|
x,g ) |
] |
|
|
|
|
|
= |
Arg |
|
ExE |
|
- |
æ ç ç è |
y- x |
|
g |
ö ÷ ÷ ø |
|
|
|
|
|
|
= |
Arg |
|
Ex |
æ ç ç è |
x |
|
b - x |
|
g
|
ö ÷ ÷ ø |
|
|
|
|
|
|
= |
æ ç ç è |
Ex |
é ê ê ë |
x2x |
|
ù ú ú û |
ö ÷ ÷ ø |
|
Ex |
é ê ê ë |
x2x |
|
ù ú ú û |
b |
|
|
De même :
|
B(g ) |
= |
Arg |
|
ExE |
|
[ |
log g(y|
x,g ) |
] |
|
|
|
|
|
= |
æ ç ç è |
Ex |
é ê ê ë |
x1x |
|
ù ú ú û |
ö ÷ ÷ ø |
|
Ex |
é ê ê ë |
x1x |
|
ù ú ú û |
g |
|
|
Les expressions définissant G et B sur cet
exemple dépendent uniquement des spécifications des modèles M1
et M2 (et notamment de la loi des x qui, toutefois, est souvent
inconnue), et sont estimables en remplaçant les paramètres b et g par leurs estimateurs b et g
dans les expressions ci-dessus.
Dans ce contexte conditionnel, Gourieroux et Monfort [42] nous donnent
leur définition de l'enveloppement, également proposée par Hendry et
Richard [54], sous le terme ``d'enveloppement global'' (``population encompassing'').
Définition 1.4
: M1 enveloppe M2 sous P0 ssi :
Cette définition de l'enveloppement fait ici intervenir explicitement le
processus de génération des données P0, puisque les
modèles sont représentés ici par l'intermédiaire de g 0 et b 0, il est bien évident que la relation (1.9) ne lie pas les
modèles M1 et M2 dans l'absolu, c'est une relation
liant les modèles pour ``un certain'' processus de
génération des données P0 qui ne sera pas forcément vraie
pour d'autres.
Propriété :
Il est intéressant de noter que si P0Î M1, alors M1 enveloppe tout autre modèle M2.
Preuve :
Si P0Î M1, alors " M2 :
g 0 |
= |
Arg |
|
ExE0 |
[ |
log g(yi| xi,g
) |
] |
|
|
|
|
|
= |
Arg |
|
ExE |
|
[ |
log g(yi| xi,g ) |
] |
|
|
|
|
|
= |
G (b 0) |
Donc M1 enveloppe le modèle M2.
Les pseudo-vraies valeurs disponibles ici, et notamment G (b ) et
B(g ), vont nous permettre de définir les ``ensembles
images'' et ``ensembles réfléchis'' :
L'ensemble image de M1 dans M2 est6 :
Im( M1)= M |
|
= |
ì í î |
g(yi| xi,G (b
)), b Î Q |
|
ü ý þ |
De même, l'image de M2 dans M1 est :
Im( M2)= M |
|
= |
ì í î |
f(yi| xi, B |
(g
)), g Î Q |
|
ü ý þ |
Les ensembles réfléchis Rb g et Rg b sont
eux définis comme l'ensemble des points invariants par la double action
des fonctions de liens, dans un sens et dans l'autre, soit plus
formellement :
R |
|
= |
ì í î |
f(yi| xi,b ) t.q. b = B |
(G (b )), b Î Q |
|
ü ý þ |
Ì M1
|
et
R |
|
= |
ì í î |
g(yi| xi,g ) t.q. g =G ( B |
(g ), g Î Q |
|
ü ý þ |
Ì M2
|
Tout comme les fonctions de lien, ces ensembles sont définis dès que les
modèles le sont, ils ne dépendent que de la forme des fonctions de lien
et sont donc indépendants du processus de génération des données.
Exemple :
Si l'on se replace dans le cadre de l'exemple 4, on a :
M2 =Im( M1) est le sous ensemble de M2
dont les paramètres g appartiennent à l'image de la matrice ( Ex[ x2x2 ] ) -1Ex[
x2x1 ] .
Les ensembles présentés ci-dessus offrent, et c'est leur principal
intérêt, d'importantes perspectives en vue de réduire les modèles en
présence, en effet :
Si M1 enveloppe M2 alors le modèle image M2 est à la même distance de P0 que M2. Autrement dit, M1 présente la même spécificité vis
à vis de P0 que M2, de plus M2
Ì M2, il n'est donc pas nécessaire d'examiner le modèle M2 dans son intégralité. On peut ainsi réduire les modèles
par examen des ensembles images.
Dans le cas d'enveloppement mutuel ( M1 enveloppe M2 et
réciproquement), on peut remplacer les modèles initiaux par les
ensembles images, puis par les images de ces ensembles images, etc... A la
limite de ce processus on obtient les ensembles réfléchis Rb
g et Rg b qui sont à la même distance de P0 que les modèles initiaux dont ils sont issus (voir Gourieroux et
Monfort [39]), et qui au regard du principe de parcimonie, présentent
un intérêt plus grand.
Un point important de cette étude repose sur les fonctions de lien, il
faut noter que ces fonctions sont souvent inconnues, dans le cas de
modèles avec variables exogènes, la distribution de ces variables est
inconnue et les fonctions de lien, faisant intervenir cette distribution ne
peuvent donc être déterminés explicitement. Un moyen de contourner cet
obstacle est d'utiliser les fonctions de lien en échantillon fini
définissant les pseudo-vraies valeurs finies de la section (1.2.3).
Gourieroux et Monfort [40] proposent également une procédure de
simulation de ces pseudo-vraies valeurs finies par tirages aléatoires
d'éléments observés du processus (yi,xi).
1.3 Enveloppement parcimonieux et partiel
``The parcimony principle in empirical modelling is like Occam's razor
: If a submodel has all the desirable properties of a larger model, we only
need to consider the submodel.''
Geert Dhaene (1993)
1.3.1 Enveloppement parcimonieux
Définition 1.5
: M1 ``enveloppe parcimonieusement'' M2
si et seulement si :
-
i) M1 enveloppe M2
- ii) M1 est emboîté dans M2, au sens où M1 est un cas particulier de M27
La totalité de l'information apportée par M2 se retrouve donc
dans M1, ce qui peut constituer une importante avancée dans
l'optique de réduire les modèles, et notamment dans une optique de
prévision où la simplicité du modèle est souvent mise en avant.
Cette propriété présente de nombreux autres intérêts, en
particulier comme le notent Hendry et Richard, les calculs des statistiques
de test d'enveloppement sont simplifiés quand M1 est emboîté dans M2 (le calcul des pseudo-vraies valeurs y est en effet
plus simple).
Nous verrons également chapitre 2 que les liens entre les tests
d'enveloppement parcimonieux et les tests basés sur des conditions de
moments (M-tests) s'avèrent être nombreux et étroits, comme le
remarquent Lu et Mizon [61].
D'autre part, et plus fondamentalement, ce cadre permet l'étude du ``modèle emboîtant minimal'', c'est-à-dire du plus petit modèle Mc tel que M1 et M2 soient emboîtés dans Mc. Intuitivement, il semble que ce modèle Mc ait la
même spécificité que M2 vis-à-vis de M1. Lu et
Mizon étudient les conditions pour lesquelles M1 enveloppe M2 si et seulement si M1 enveloppe Mc,
situation évidemment reliée à ce contexte d'enveloppement
parcimonieux. L'exemple 3, présenté section 1.2.4, permet
de visualiser aisément une telle situation.
Exemple 3 : (suite)
Les modèles en présence sont des modèles d'échantillonnages normaux,
M1 appartient à la famille de densités normales de variance 1,
M2 proposant une distribution normale centrée paramétrisée
par sa variance.
M1 :Y~ N(b ,1) et M2 :Y~ N(0,g 2)
Le ``modèle minimal emboîtant'' M1 et M2 est
défini ici par Mc:
Mc : Y~ N(m,v2)
Les paramètres associés à ce modèle, d =(m,v2), sont
estimés de manière convergente par d =(m,v2) :
L'objectif étant de déterminer une condition pour que M1
enveloppe Mc, nous nous intéressons à la pseudo-vraie valeur
de d sous M1, D (b )=(M(b ),V2(b ))
dont les expressions sont :
En effet le comportement asymptotique de nos estimateurs sous M1
nous donne :
-
m=1/nåi=1nyi ® b
sous M1
- v2=åi=1n(yi-y)2 ® 1 sous M1
M1 enveloppe parcimonieusement Mc ssi d =D (b ) ce qui équivaut à:
La première égalité est bien évidemment toujours vérifiée, la
deuxième correspond à l'expression 1.8 définissant
l'enveloppement de M2 par M1.
Un calcul rapide nous permet d'exprimer cette différence sous la forme :
v2-1= |
|
|
(Yi-b )2-1=
g 2-1-b 2
|
Sur cet exemple, M1 enveloppe parcimonieusement McÛ M1 enveloppe M2, les deux modèles Mc et M2 ont ainsi la même spécificité vis-à-vis
de M1.
Nous reprendrons ultérieurement cet exemple dans l'optique de tester cette
relation d'enveloppement en étudiant la distribution de v2.
1.3.2 Enveloppement partiel
Lu et Mizon[61] proposent en 93 des définitions plus générales en
considérant la différence d'enveloppement, ou contraste, au travers
d'une fonction pouvant être déterministe ou non. Nous donnons ici ces
définitions d'enveloppement partiel, ou directionnel.
Définition 1.6
(Enveloppement via une fonction) :
M |
|
enveloppe M2 via C ssi C(g
)-C(G (b ))=0
(1.10) |
où C est une fonction connue, non aléatoire du paramètre g de M2.
Ces auteurs proposent également une définition où l'on interprète la
différence d'enveloppement par le biais d'une fonction tout-à-fait
générale.
Définition 1.7
(Lu et Mizon) :
M1 enveloppe M |
2 via B ssi E |
|
é ë |
B(Yn,g |
)-E |
|
[ |
B(Yn,g ) |
] |
ù û |
=0
(1.11) |
-
où :
-
- E P0 désigne l'espérance relative au processus de
génération des données P0
- - B est une fonction des données Yn et de g .
Nous retrouvons dans cette expression les ingrédients de l'enveloppement
approché :
-
L'estimateur g est en fait généralisé par la
fonction B(Yn,g ) dans l'expression (1.11),
- tandis que E M1[ B(Yn,g )] ,
qui est la réinterprétation de B(Yn,g ) sous M1, remplace G (b )=Eb[ g ] , la
pseudo-vraie valeur de g .
La différence est toutefois analysée ici sous P0.
Cette définition trouve sa source dans l'article de Mizon et Richard [66], l'introduction de la fonction B généralise la procédure
d'estimation en quelque sorte, et permet d'élargir le champ d'action de
l'enveloppement. Un grand nombre de statistiques de test peuvent ainsi
être engendrées par différents choix de la fonction B.
Un exemple classique est la fonction B définie par :
B(Yn,g )=L1(g )-L2(b )
où L1(g ) et L2(b ) désignent les
log-vraisemblances des modèles M1 et M2 respectivement.
L'hypothèse de test de l'enveloppement de M2 par M1
via B est alors la même que l'hypothèse du test de rapport de
vraisemblance généralisé de Cox ([21] et [22]), que l'on
trouve clairement explicité dans Pesaran [70]. Cette expression est
également à la source de la notion d'enveloppement.
D'autres exemples de fonctions B peuvent être construits et sont
étudiés par Mizon [65],Mizon et Richard [66] et Lu et Mizon
[61] .
Il est à noter que cette dernière définition est la plus
générale des définitions présentées ici et n'est pas reliée aux
autres , alors que l'on constate que :
M1 enveloppe exactement M2 M |
|
enveloppe M2 via C
|
La réciproque de ce résultat n'est évidemment pas vraie puisqu'il est
facile d'imaginer un modèle enveloppant partiellement un autre par
construction d'une fonction C particulière, sans que la propriété
d'enveloppement exact ne soit vérifiée.
Ces définitions sont des définitions d'enveloppement approché pour
lesquelles la différence d'enveloppement est analysée au travers d'un
filtre, la fonction B ou C, qui peut être directionnel, réducteur,
ou généralisateur.
L'enveloppement partiel, proprement dit, est un cas particulier de ces
définitions, correspondant à une définition de B (ou C)
réduisant la dimension de g (une projection par
exemple), seule ``une partie'' des paramètres de M2 est alors
considérée comme pertinente pour l'analyse.
Nous verrons chapitre 2 que cette notion peut être
génératrice de tests unifiant la littérature sur les tests de
spécification, Lu et Mizon ajoutent même que tous les tests de
spécification peuvent virtuellement être retrouvés par des choix
appropriés des fonctions C et B .
1.4 Enveloppement bayésien
``In summary, encompassing is formalized as a concept of sufficiency
among models whereas specificity mesures the lack of encompassing''
Jean-Pierre Florens, David F. Hendry et Jean-François Richard
(1994)
1.4.1 Principe général
L'optique bayésienne propose d'associer aux modèles d'échantillonnage,
des densités a priori sur les paramètres, permettant l'écriture
d'une densité jointe à l'échantillon y et aux paramètres, dans
chacun des modèles8. L'utilisation de la règle de
Bayes pour décomposer cette densité jointe de deux façons
différentes nous permet d'obtenir des densités a posteriori
conditionnelles à l'échantillon y.
La loi jointe, p (y,b ), formée, sur S× Q b, du produit de la densité d'échantillonnage par la densité a
priori sur le paramètre, peut se décomposer également en la densité
a posteriori que multiplie la densité prédictive (1.12).
Nous rappelons ici cette décomposition pour le modèle M1 :
|
p (y,b ) |
= |
f(y| b )· µ (b ) |
|
|
|
|
= |
µ (b | y)· f(y) |
|
(1.12) |
Nous donnons dans la table ci-dessous les notations pour les deux modèles.
TeX fieldTOTeX field
Notations bayésiennes |
|
|
|
|
|
Modèle 1 |
Modèle 2 |
|
|
Loi jointe |
p (y,b ) |
p (y,g ) |
|
Densité d'échantillonnage |
f(y| b ) |
g(y| g ) |
A priori |
µ (b ) |
n (g ) |
|
A posteriori |
µ (b | y) |
n (g | y) |
Prédictive |
f(y) |
g(y) |
|
L'objet de l'inférence bayésienne consiste à passer de l'a priori
sur le paramètre à une densité a posteriori sur ce paramètre,
conditionnellement aux observations. L'enveloppement bayésien se
concentrera donc, tout naturellement, sur les densités a posteriori,
les densités a priori n'étant de toutes façons pas comparables
puisque basées sur des ensembles d'information différents.
1.4.2 Notion d'enveloppement bayésien
D'une manière similaire à la notion d'enveloppement classique, il y aura
enveloppement bayésien de M2 par M1 si la densité
a posteriori du modèle 1 explique celle du modèle 2 ou s'il existe
une relation permettant de retrouver la densité a posteriori de M2 en utilisant celle de M1. Hendry et Richard [54]
proposent une comparaison de l'a posteriori bayésien de M2
avec une interprétation de cet a posteriori par le modélisateur 1.
Définition 1.8
(Enveloppement bayésien) :
On dira que ``le modèle bayésien M1 enveloppe M2'', s'il existe une densité conditionnelle G (g |
b ) indépendante de y, telle que :
n (g | y)= |
ó õ |
|
G (g | b )µ
(b | y) ¶ b
(1.13) |
``presque sûrement '' en y.9
L'expression (1.13) exprime le fait que les résultats de M2 , c'est-à-dire n (g | y), sont retrouvés à l'aide de
ceux de M1, µ (b | y).
Le lien entre l'enveloppement classique et l'enveloppement bayésien
réside dans la fonction G qui permettait de lier les espaces
paramétriques et qui est remplacée ici par la densité de transition G (g | b ) ou pseudo-vraie valeur bayésienne, liant les
espaces de probabilité associés à chacun des modèles.
Une autre similitude avec l'enveloppement classique est que la relation (1.13) est rarement vérifiée, il faudra donc, ici encore, définir un
critère de mesure du défaut d'enveloppement ou de mesure de la
spécificité de M2 vis-à-vis de M1. Ce critère
servira de base pour la détermination de la densité de transition G (g | b ).
Auparavant, nous suivrons Florens, Hendry et Richard [31], sur la voie
de la dualité existant entre l'enveloppement bayésien et
l'exhaustivité entre statistiques au sens de Le Cam.
1.4.3 Enveloppement bayésien et exhaustivité
Rappelons tout d'abord la notion d'exhaustivité entre statistiques.
Intuitivement, une statistique y est exhaustive pour une statistique
z si y apporte la même information que z. Dans un contexte
bayésien, l'information sur la loi de y sachant b est la même
que celle sur z sachant b . Ou plus précisément :
Une statistique y est exhaustive pour une statistique z,
conditionnellement au paramètre b , s'il existe une densité
conditionnelle L indépendante de b , telle que :
|
g(z| b )= |
ó õ |
|
f(y| b )L (z| y)
¶ y
(1.14) |
-
où:
-
- g(z| b ) est la densité d'échantillonage de Z
- - L est une densité conditionnelle sur z étant donné
y, indépendante de b .
Selon Hendry et Richard, l'expression (1.13), qui relie deux
paramètres (b ,g ) et une statistique y, peut être
exprimée de manière duale en introduisant deux statistiques (y,z) et
un paramètre b . En effet, la substitution de (b ,g ,y)
par (y,z,b ) mène immédiatement à l'expression (1.14)
L'enveloppement bayésien introduit ici, est ainsi réinterprété comme
un concept ``d'exhaustivité entre modèles'' dual au concept ``d'exhaustivité entre statistiques'' défini par Le Cam [60].
Cette dualité ouvre des perspectives intéressantes en transposant les
résultats connus dans le cadre de l'exhaustivité entre modèles, au
cadre de l'enveloppement bayésien. La notion de ``déficience
(deficiency) entre statistiques'', comme mesure du manque d'exhaustivité,
se retrouve notamment, dans la notion de la ``spécificité entre
modèles'' comme mesure du défaut d'enveloppement bayésien.
La notion de spécificité résultant de cette étude duale permet
l'introduction d'un critère pour la sélection de la densité de
transition G (g | b ).
1.4.4 Enveloppement bayésien et spécificité
Rappelons tout d'abord la définition d'une probabilité de transition
dont est issue la densité G (g | b ).
Définition 1.9
Soient (A, A) et (C, C) deux espaces mesurables, une
``probabilité de transition'' est une fonction L :
telle que :
-
i) " aÎ A, L (a,· ) est une probabilité sur
(C, C)
- ii) " YÎ C, L (· ,Y) est une fonction A-mesurable.
Comme dans le cas classique, raisonnons à densité de transition fixée G (g | b ) afin de déterminer ensuite quel critère
convient d'être utilisé pour la sélection de G .
Remarquons que la dualité construite ci-dessus, s'exprime par le passage
d'un triplet (b ,g ,y) à un autre triplet, ``dual,'' (y,z,b ). Nous pouvons construire sur le triplet (b ,g ,y)
une loi jointe p * définie sur Q b× Q g× S , en utilisant cette densité de transition G
(g | b )10.
p *(b ,g ,y) |
= |
[ |
f(y| b )· µ (b
) |
] |
G (g | b ) |
|
|
|
|
|
= |
[ |
f(y)· µ (b | y) |
] |
G (g | b ) |
|
La densité jointe p sur Q b × Q g est
ainsi une marginalisation de p *.
Nous pouvons appliquer le même raisonnement sur p * que
sur p et appliquer la règle de Bayes de nouveau, afin de trouver l'a posteriori de g (conditionnel à y) par :
|
n *(g | y)= |
ó õ |
|
µ (b |
y)G (g | b )db
(1.15) |
Nous trouvons ici l'interprétation personnelle par le propriétaire de M1 de la densité a posteriori sur g , à partir de
son propre a posteriori sur b . Dès lors nous sommes en
présence de deux densités a posteriori sur g sur la base
desquelles peut s'effectuer la sélection de G .
Dans le même esprit que Le Cam , Hendry et Richard définissent la
spécificité de M2 vis-à-vis de M1 par une mesure
de la différence entre les deux densités a posteriori sur g , n *(g | y) et n (g | y).
Suivant les mesures choisies pour quantifier cette différence ou
divergence (voir Hendry et Richard [54]), on obtiendra la
spécificité, la p-spécificité, ou la j -spécificité,
comme minimum de la divergence espérée entre n *(g | y)
et n (g | y). Cette spécificité représente en fait la
quantité incompressible séparant M1 de M2. Cette
notion de divergence espérée minimale correspond à celle utilisée
par Le Cam dans le contexte dual, pour mesurer le défaut d'exhaustivité
entre statistiques.
1.4.5 Enveloppement bayésien approché
Nous dressons ici un portrait semblable à celui rencontré dans le cadre
de l'enveloppement classique. L'enveloppement défini par la relation (1.13) n'est que rarement vérifié, une procédure de mesure du
défaut d'enveloppement est alors construite sur la spécificité de M2 vis-à-vis de M1. La pseudo-vraie valeur minimisant
le contraste de Kullback-Leibler dans le cadre classique est ici remplacée
par la ``transition optimale'' minimisant cette spécificité. La ``transition optimale'' G , ou pseudo-vraie valeur bayesienne est
définie comme réalisant ce minimum sur une classe de densités de
transition, malheureusement son calcul est souvent difficile, voire
intraitable (voir Florens,Hendry et Richard [31]) Des méthodes de
simulation sont toutefois capables de déterminer numériquement cette
transition optimale, (voir Florens, Larribeau et Mouchart [33]), comme
l'échantillonneur de Gibbs (voir Bouoiyour [13]). Une autre voie
consiste à approcher la pseudo-vraie valeur, et à considérer
l'enveloppement approché basé sur cette pseudo-vraie valeur.
Dans leur récent article sur l'enveloppement bayesien, Florens, Hendry et
Richard, proposent trois solutions approchées du problème de
minimisation déterminant la pseudo-vraie valeur :
-
La première approximation consiste à reproduire la pseudo-vraie
valeur classique, définie comme la plim sous M1de
l'estimateur du modèle M2, au cadre bayésien. Pour cela on
considère la densité a posteriori de M2, n (g
| y), dans l'optique de M1. La pseudo-vraie valeur approchée
G (g | b ) est donc obtenue comme
marginalisation de l'a posteriori n (g | y) de M2
, par rapport à l'échantillon, en utilisant la densité
d'échantillonnage de M1, f(y| b ) :
G |
(g | b )= |
ó õ n (g | y)·
f(y| b )dy
|
En décomposant la densité d'échantillonnage f(y| b ), on
obtient :
G (g | b )= |
|
ó õ n
(g | y)· µ (b | y)f(y)dy
|
Cette densité de transition, bien que n'étant pas la transition
optimale, présente l'avantage d'être facilement calculable dans un grand
nombre d'applications11.
- La deuxième approximation consiste à définir la densité de
transition comme la fonction linéaire minimisant un critère de moindres
carrés :
Soient b et g des variables aléatoires de dimensions l et
m, notons b et g les espérances E1[ b | y] et E2[ g | y] ,
respectivement. La pseudo-vraie valeur de g relative à b
est la fonction linéaire G (g | b ) =L b où L est la matrice
minimisant :
E1 |
é ë |
|
æ è |
L |
|
b -g |
ö ø |
|
æ è |
L |
|
b -g |
ö ø |
ù û |
qui est solution du système :
E1 |
æ è |
b b |
|
ö ø |
L
=E1 |
æ è |
b g |
|
ö ø |
Si E1( b b ) est non
singulière alors L , (et donc G (g
| b )), est unique.
Cette approximation possède ainsi les charmes d'un calcul aisé et d'un
comportement asymptotique agréable puisque, sous des conditions techniques
non reproduites ici, on a :
Si g converge vers g (b )
sous la loi jointe de M1 alors :
L ® |
é ë |
E1 |
æ è |
b b |
|
ö ø |
ù û |
|
E1 |
æ è |
b g |
|
(b ) |
ö ø |
-
Une dernière technique consiste à partitionner les espaces
paramétriques Q b et Q g en un nombre fini de
sous espaces (Q i)i=1,.m et (Q j)j=1,.,m
respectivement.
Une pseudo-vraie valeur discrète est alors proposée comme la matrice D =(d i,j) dont chaque élément est défini comme
permettant la minimisation de la spécificité totale décomposée sur
les sous espaces. Par exemple, si le critère de spécificité utilisé
est le KLIC, on obtient la pseudo-vraie valeur discrète D comme
solution de :
|
E1 |
ì í î |
|
d i,jµ (Q i|
S)log |
é ê ê ë |
|
|
ù ú ú û |
ü ý þ |
L'espérance E1 est ici relative à f(y) des techniques
d'évaluations sont également proposées par les auteurs qui précisent
que cette transition discrète peut être rendue arbitrairement proche de
la transition optimale en augmentant la taille de la partition.
L'enveloppement bayésien approché est alors basé sur la nullité de
la spécificité estimée, une fois la pseudo-vraie valeur
déterminée, les tests sont également basés sur ces expressions.
1.5 Conclusion
``An essential characteristic of empirical modelling (and in fact in
the developpement of theory models) is that it is not a ``once-for all''
event, but a process in which new information from theory and/or data leads
to modification of existing models. It seems reasonable to require,
therefore, that this process be progressive rather than degenerate and use
of encompassing principle helps to ensure this.''
Grayham E. Mizon (1984)
La notion d'enveloppement, que nous venons de détailler, se fonde sur
l'existence d'une fonction de lien permettant l'interprétation des
résultats d'un modèle M1 par ceux d'un autre modèle M2. Cette relation exacte, formelle, est transitive, et relie les modèles
par l'intermédiaire des estimateurs qui leur sont associés. C'est par
l'existence de cette fonction que les idées de progressivité dans la
validation de nouveaux modèles et de comparaison stratégique de
modèles, ont été formalisées.
L'existence, ou la non-existence, d'une fonction étant difficile à
assurer, ce principe trouve naturellement son application dans la notion
approchée de l'enveloppement. La pseudo-vraie valeur nous donne en effet
une possibilité de lier les espaces paramétriques associés aux
modèles. Il ne s'agit plus alors de ``trouver'' la fonction de lien
mais de ``vérifier'' que la pseudo-vraie valeur est ``suffisamment proche'' de l'estimateur associé à M2.
Contrairement à l'approche symétrique de Gourieroux et Montfort prenant
explicitement en compte le ``vrai'' modèle, notre approche est
directionnelle puisque nous construisons la différence d'enveloppement,
ainsi que la pseudo-vraie valeur, sur la base d'un modèle de référence
M1. C'est sur la différence entre estimateur et pseudo-vraie
valeur que vont être fondés les tests d'enveloppement, que nous
développons dans le chapitre suivant.
- 1
- La ''spécificité'' du modèle M2 vis-à-vis du modèle M1 est, en fait, la valeur minimale de la fonction Y ,
c'est-à-dire :
Y (g ,G (b ))
Cette spécificité est évidemment conditionnelle à l'échantilon Yn . Les tests d'enveloppement développés par la suite seront ensuite
basés sur l'étude de la nullité de cette spécificité
conditionnelle à l'échantillon.
- 2
- Ce critère porte souvent le nom de ``contraste'', exprimant ainsi
l'idée qu'il s'agit d'un éclairage particulier (celui de M1),
sur le rapport des vraisemblances. Le terme de ``divergence'' est
également employé pour affirmer la notion d'écart entre modèles.
- 3
- Une manière de s'affranchir de l'échantillon consiste à introduire une
probabilité sur l'espace (W , A) dont le choix dépendra
du cadre de travail (classique ou bayésien, paramétrique ou
non-paramétrique, etc..)
- 4
- Les conditions usuelles de régularité sont supposées et ne seront pas
détaillées dans cet exposé synthétique. Elles figurent par exemple
dans l'ouvrage de Gourieroux et Monfort [37], volume 2, ou dans
l'étude des pseudo-vraies valeurs réalisée par Dhaene [27].
- 5
- On supposera, en effet, que la distribution empirique des xi tend vers
une distribution limite (et inconnue).
- 6
- M1 peut être défini également comme { f(yi | xi,b
) t.q. b Î Q b}
- 7
- L'emboîtement peut être défini également, par inclusion des
modèles, ou par inclusion des espaces paramétriques au sein d'une même
famille de modèles, ou bien par la nullité du KLIC de M2
relativement à M1, ou par tout autre définition. Nous ne
discuterons pas en détail de cette définition dans ce chapitre.
- 8
- Nous supposerons, dans toute cette partie, que les modèles bayésiens
sont représentés par des densités, sans donner les conditions
nécessaires à cette propriété.
- 9
- Dans une optique bayésienne ''presque sûrement '' s'entend ici au
sens de la loi prédictive de M1, de densité f(y).
- 10
- Florens et alii [31] suggèrent qu'il est naturel pour le
propriétaire du modèle 1 de supposer que le paramètre b est
suffisant pour caractériser la densité de y, c'est-à-dire de
supposer l'indépendance de y et g conditionnellement à b , soit en terme de densités :
f(y| b ,g )=f(y| b )
Pour compléter son information sur Q b× Q g× S , le propriétaire de M1 n'a besoin que d'une
probabilité de transition de Q b sur Q g
- 11
- En effet, dans le cas où les deux modèles présentent les mêmes
densités a priori et d'échantillonnage, la densité de transition G (g | b ) se retrouve réduite à une Dirac.
Chapter 2 Tests d'enveloppement
``Most empirical testing is to ascertain the status of empirical
models, not to test theories. However, here again encompassing helps resolve
the problem.''
David F. Hendry (1993)
2.1 Que teste-t-on ?
Les tests présentés ici sont directement issus des grands principes
d'inférence classiques : le principe du rapport de vraisemblance, le
principe de Wald, et le principe du Score. Les tests sont asymptotiques par
nature, et ont été introduits principalement par Mizon et Richard [66], Gourieroux et Monfort [39], et Florens, Hendry et Richard [31] dans un contexte bayésien. Il importe toutefois d'être précis
sur l'hypothèse que l'on cherche à tester, ainsi que sur le modèle
pris pour référence lors de ces tests. Dans leur étude, Hendry et
Richard [54], distinguent d'ailleurs deux approches de l'enveloppement,
selon le modèle de référence. Ces auteurs distinguent ainsi le ``sampling encompassing'' du ``population encompassing'', selon que la
différence d'enveloppement est examinée sous l'optique du modèle M1, ou sous celle du processus de génération des données P0.
Gourieroux et Montfort [38], se placent sous la direction du ``vrai''
processus de génération des données P0 et étudient
l'hypothèse nulle :
H0 : g 0=G (b 0)
Sous H0, la limite de f 0=(g 0-G (b 0)) entre les estimateurs des pseudo-vraies valeurs g 0 et G (b 0) tend vers zéro, un test de Wald est
alors défini (WET), ainsi qu'un Test du Score (SET), enfin un test
d'enveloppement généralisé (GET), est également proposé.
Mizon et Richard [66], étudient l'enveloppement sous l'optique du
modèle M1, l'hypothèse nulle, directement issue de
l'enveloppement exact est alors :
H1 : g =G (b )
L'enveloppement exact ne pouvant, par nature, être testé, c'est
l'enveloppement approché qui sert donc de base à ces tests, on va donc
tester la nullité de la spécificité de M2 vis-à-vis de M1 , la pseudo-vraie valeur ayant été préalablement
déterminée. La statistique de test sera alors basée sur la
différence entre un estimateur du paramètre du second modèle et un
estimateur de la pseudo-vraie valeur. Pour cela on retrouve les deux grandes
orientations classiques :
-
Tester directement la nullité de f défini comme
la différence g -G (b ), ou d'une
fonction de f (tests de Wald)
- Tester la nullité du score, i.e. dériver le critère (test du
Score)
En règle générale la distribution de f n'est
pas connue en échantillon fini, et il est alors nécessaire d'avoir
recours à une étude asymptotique pour caractériser la distribution de f .
L'exemple 3 permet une approche simple des tests d'enveloppement,
sur cet exemple la distribution de f sera aisément
caractérisée.
Exemple 3 (suite et fin) :
Le modèle M1 :Y~ N(b ,1) enveloppe le modèle M2 :Y~ N(0,g 2), si la condition :
est vérifiée.
L'originalité du modèle M2 par rapport à M1
consiste, en effet, à laisser la variance libre alors qu'elle est
contrainte à 1 dans M1. Le test d'enveloppement portera donc,
logiquement, sur l'égalité à 1 de la variance de Y, sous M1, c'est-à-dire sur la pertinence de cette originalité de M2
vis-à-vis de M1.
Sous M1 la distribution de v2 est connue puisqu'il
s'agit d'une distribution de Khi-deux.
La situation inverse où l'on cherche à tester l'enveloppement de M1 par M2 nous donne également une distribution de Khi-deux.
Les rôles étant inversés, le modèle pris pour référence est
maintenant M2, c'est donc sous M2 que l'on examine la
pseudo-vraie valeur et la distribution de la statistique de test.
La pseudo-vraie valeur associée à b sous M2 est B(g ) =0:
M2 enveloppera donc M1 ssi f = b - B(g )= b est nul
sous M2.
La distribution de f =b =1/nåi=1nYi sous M2, est évidemment une
distribution normale centrée.
Nous obtenons ainsi la statistique de test de Wald suivante :
2.1.1 Tests de Wald (Wald Encompassing Tests)
Afin de construire un test de l'enveloppement de M2 par M1, Mizon et Richard [66], suivant les travaux de Cox [21] et
[22], Huber [55] et White [91], nous donnent la
distribution limite sous M1 de n· f =
n(g -G (b )).
Ici la pseudo-vraie valeur G (b ) est définie comme Eb(
g ), où Eb désigne l'espérance sous M1, si nécessaire, on remplacera cette espérance par la plim sous M1 de l'estimateur g . Nous donnons ces
résultats dans une version allégée, sans démonstration ni
hypothèses précises, laissant le soin au lecteur de se reporter aux
textes originaux pour plus de précision.
Théorème 2.1
Sous les ``conditions usuelles de régularité du maximum
de vraisemblance''(voir White [91], conditions A1-A7), la
distribution jointe des estimateurs du maximum de vraisemblance b et g , sous M1 est :
n |
æ è |
|
|
|
ö ø |
|
N |
æ ç ç è |
|
æ è |
|
|
|
ö ø |
, |
æ ç ç è |
|
|
|
ö ÷ ÷ ø |
ö ÷ ÷ ø |
où Vb(b ) est la matrice de variance-covariance
usuelle pour l'estimateur du maximum de vraisemblance d'un modèle
correctement spécifié, tandis que Vb(g ) est
celle de l'estimateur du maximum de vraisemblance d'un modèle
mal-spécifié.
Soit, si Li(b ) désigne la vraisemblance associée au
modèle Mi :
-
Vb(b )=( limn® ¥ -1/n E ¶ 2L1(b )/¶ b ¶ b ) -1
- Vb(g )=HJH
avec :
-
J=limn® ¥ Eb ( 1/n¶ L2(g )/¶ g ¶ L2(g )/¶ g )
- H=( limn® ¥ -1/nEb [
¶ 2L2(g )/¶ g ¶ g ] ) -1
- et D est la matrice constituée des dérivées ( ¶ G (b )/¶ b ) .
La distribution limite de f découle de cette expression et
l'on a :
n· f |
|
N |
æ è |
0,V |
|
(f ) |
ö ø |
(2.1) |
avec Vb(f )=Vb(g )-DVb(
b )D
Une statistique de test de Wald est maintenant construite sur la base de la
distribution limite de n· f sous M1.
Corollaire 2.2
: Sous les hypothèses du théorème précédent, un test de
Wald de l'enveloppement de M2 par M1 est donné par
la statistique :
Vb(f ) n'étant pas toujours inversible, Vb(f )+ désigne un inverse généralisé de Vb(f ), on note l son rang.
La statistique h 1 a alors une distribution limite de c
(l)2 sous M1.
2.1.2 Test du Score (Score Encompassing Test)
Le test du score est basé sur la dérivée de la vraisemblance du
modèle M2, estimé pour la pseudo-vraie valeur G (b ), pour cela définissons le score par S :
La statistique du score est basée sur la nullité de S( G (b )) . Par définition, S(g )=0, en
développant S au voisinage de g on a :
S(g )=0=S(G (b ))-nH· (G (b )-g )+op(1)
soit encore :
S(
G (
b ))=
nH· f +
op(1)
(2.2)
où la matrice H (supposée régulière) est définie par :
L'équation (2.2) suggère l'utilisation de la formule (2.1) pour définir la statistique de test du score, h 2, par :
h 2=S(G (b |
)) |
|
V |
|
(S)+S(G (
b ))
|
où Vb(S)+ désigne une inverse généralisée de Vb(S) :
Nous renvoyons à Mizon et Richard [66], pour plus de détails
concernant les hypothèses sous lesquelles ces tests sont établis, ainsi
que celles assurant de l'équivalence asymptotique du test du Score et du
test de Wald. Ces auteurs sont également à l'origine du développement
de tests plus généraux basés sur l'utilisation de l'enveloppement
étudié via une fonction B.
2.1.3 Tests classiques et enveloppement.
Lu et Mizon [61], mettent également en évidence les relations entre
les tests d'enveloppement et les tests classiques par l'utilisation
judicieuse de l'expression (1.11) définissant l'enveloppement via
une fonction B (voir section 1.3.1). Afin de généraliser et
d'étendre la notion d'enveloppement, Mizon et Richard [66]
proposaient, en effet, de s'intéresser à g =B(Yn,g ) et nous donnent, dans le théorème suivant, la
distribution asymptotique de la statistique f =g -E M1[ g ] .
Théorème 2.3
Sous les hypothèses du théorème 2.1, et sous les
hypothèses de régularité de B et de K=plim M1(
¶ B(Yn,g )/¶ g )
énoncées par Mizon et Richard [66](voir annexe), on a :
nf =n |
æ è |
g |
-E |
|
[ |
g |
] |
ö ø |
|
N |
æ è |
0,V |
|
(f ) |
ö ø |
(2.3) |
où : Vb(f )=KVb(f )K
Corollaire 2.4
: Le test de Wald associé à f est
donné par :
où : r et Vb(f )+ désignent le rang et une
inverse généralisée de Vb(f ).
La statistique h 1 a alors une distribution limite de c
(r)2 sous M1.
Le test du Score peut également être retrouvé par la même
procédure que section (2.1), et Mizon et Richard [66], montrent
que ce test est asymptotiquement équivalent au test de Wald sous la
condition que nf * soit asymptotiquement négligeable (op(1)), avec :
|
|
f * |
=B(Yn,G (b ))-E |
|
[ |
B |
( |
Yn,G (b ) |
) |
] |
-f |
|
( |
b -b
|
) |
|
et |
|
|
|
|
= |
|
|
|
E |
|
æ ç ç è |
B(Yn,G (b ))· |
|
ö ÷ ÷ ø |
|
|
La classe de tests définis par (2.3) et (2.4) permet de
retrouver un bon nombre de tests classiques en économétrie , l'exemple
le plus célèbre est celui du test de Cox obtenu par un choix judicieux
de la fonction B.
En effet, si l'on choisit B(Yn,g )=1/n( L1(g )-L2(b )) où L1(g ) et L2(b ) désignent les log-vraisemblances des
modèles M1 et M2 respectivement, on obtient h
1 comme étant la statistique du rapport de vraisemblance
généralisé de Cox.
Un autre exemple est le critère d'information de Sawyer (83) cité par
Mizon [65] qui est retrouvé en posant B(Yn,g )=1/nEg ( L1(g )-L2(b )) qui est un estimateur du critère d'information de
Kulback et Leibler entre M1 et M2. Ce test présente
l'avantage de n'être pas soumis à la condition d'orthogonalité du test
de Cox. Mizon [65] propose de nombreux exemples de tests pouvant
être retrouvés ainsi1.
2.2 Enveloppement et choix de régresseurs paramétriques
Le problème du choix des régresseurs constitue l'un des problèmes
majeurs de l'économétrie depuis de longues années. De nombreuses
procédures de sélection ont été proposées dans le cadre classique
(voir Pesaran [70]), dans le cadre bayésien, (voir Zellner [93]) que les modèles soient spécifiés paramétriquement ou
non-paramétriquement (voir la synthèse de Lavergne [58]).
2.2.1 Modèle de régression
Soit (X,Y) un vecteur aléatoire défini sur l'espace mesuré (
 p× Â , B p+1,l ) , nous supposerons
que ce couple admet la densité2 j (x,y) par rapport à la
mesure de Lebesgue l .
La régression de Y sur X s'écrit alors mathématiquement :
f(x)=E |
[ |
Y| X=x |
] |
= |
ó õ yj (x,y)l (dy) |
|
ó õ
j (x,y)l (dy) |
|
= |
|
en tout point où j (x) est non nulle.
On trouve souvent le modèle de régression sous la forme :
où E[ U| X] =0, l -presque sûrement.
Il est important de lire cette expression dans le bon sens. Ici l'équation
(2.5) se lit de ``la gauche vers la droite'' puisque la partie
gauche détermine le résidu U intervenant dans la partie droite, U
est donc défini par :
Remarque :
Hendry [53] nous rappelle que l'on trouve souvent formulés
identiquement deux concepts totalement différents sous une équation du
type :
yi=f(xi)+h i
Si l'on a affaire à une ``expérience contrôlée'', yi est le
résultat de la ième expérience, xi est la variable d'entrée, f
est la fonction liant les deux et h i est une perturbation qui varie
entre les expériences. Cette équation se lit de ``la droite vers la
gauche'' puisque pour le même input xi, on retrouvera (modulo la
perturbation) le même output yi. C'est ainsi notamment que doit se
concevoir l'idée d'un ``vrai'' modèle, tel que le processus de
génération des données P0.
En économétrie par contre, les modèles sont des approximations de la
réalité ; yi est engendré par un processus inconnu que l'on cherche
à ``mimer'', on le décompose alors en une partie explicative f(xi) et
une partie inexpliquée h i définie comme :
h i=yi-f(xi)
Des changements dans la modélisation entraînent donc des changements
pour h , l'équation se lit ainsi de ``la gauche vers la droite''.
La régression linéaire est une approximation de la réalité pour
laquelle on impose une spécification particulière de f et de h ,
ce modèle est ainsi un modèle approché du modèle de régression
exact défini par (2.5).
La régression linéaire est donc présentée comme une spécification
de la fonction f contrainte à être linéaire en X, la distribution
des résidus peut aussi être spécifiée pour donner le ``modèle
linéaire normal ''. Enfin, si les résidus sont de plus supposés
indépendants et de même variance, on obtient le ``modèle
linéaire standard''.
Il arrive souvent que l'on veuille sélectionner des modèles de
régression en choisissant entre des ensembles de régresseurs
définissant des modèles non emboîtés. Nous entendons par ``non
emboîtés'' des modèles tels qu'aucun des deux modèles ne peut
s'exprimer comme une particularisation ou une généralisation de l'autre.
Cette question de la sélection de régresseurs a donné lieu à de
nombreux travaux en économétrie, voir entre autre Amemiya [2],
Atkinson [4], Hausman [52] ou Pesaran [70]. Le
problème du choix de régresseurs dans le cadre de la régression
linéaire normale a notamment été longuement étudié. Nous pouvons
introduire ce problème de choix de modèles tel qu'il se présente
généralement en économétrie.
Soit Si=(Yi,Xi,Zi)i=1,...,n, n réalisations indépendantes du
vecteur aléatoire S de Â × Â p× Â q.
Essentiellement, X et Z représentent les variables exogènes
associées aux modèles M1 et M2.
Le problème s'écrit généralement sous la forme :
|
M1: |
y=Xb +u |
|
u~ N(0,s 2In) |
|
|
|
|
M2: |
y=Zg +v |
|
v~ N(0,t 2In) |
|
(2.7) |
où X et Z représentent les matrices de régresseurs de dimensions (n× p) et (n× q) respectivement, et où y est un vecteur
d'observations de dimension ( n× 1) .
En fait, ce problème peut se présenter de différentes manières et
Mizon [65] nous met en garde sur la modélisation qui en est faite.
On peut, en effet, réinterpréter le système (2.7) comme la
donnée de deux modèles conditionnels, l'un par rapport à la variable X , l'autre par rapport à Z.
|
M1: |
y| X |
~ N(Xb ,s 2In) |
|
|
|
M2: |
y| Z |
~ N(Zg ,t 2In) |
|
(2.8) |
Toutefois cette interprétation présente l'inconvénient de séparer
complètement les modèles M1 et M2, ces deux
modèles reposant sur des distributions conditionnelles complètement
différentes. Cette formulation n'est donc pas satisfaisante, d'autant que
le modèle M1 ``ne dit rien'' sur la variable Z, les deux
modèles dans (2.8) pouvant également être simultanément
acceptés si y,X et Z ont une distribution jointe normale
multivariée, par exemple.
Une approche permettant d'introduire une distribution commune et donc des
hypothèses susceptibles d'être testées est :
|
M1: |
y| X,Z |
~ N(Xb ,s 2In) |
|
|
|
M2: |
y| Z,X |
~ N(Zg ,t 2In) |
|
(2.9) |
La formulation (2.9) indique que nous avons deux modèles
conditionnels aux mêmes variables (X,Z), et donc relatives à la même
distribution, et précise que le modèle M1 exclut la variable Z de la modélisation, tandis que M2 exclut la variable X, ce
qui nous donne généralement des modèles non-emboîtés. Nous nous
efforcerons de garder cette formulation du problème tout au long de ce
travail.
Dans l'étude non-paramétrique à venir le problème sera formulé de
même par :
L'exclusion de Z du modèle de régression M1 se fera alors
sans imposer de forme fonctionnelle pour la régression et sans spécifier
la loi de probabilité des variables étudiées (voir section 4.2).
2.2.2 Tests paramétriques classiques
Test de Cox :
L'un des tests les plus connus pour tester du choix entre modèles de
régression linéaires non-emboîtés est dû à Cox [21] et
[22], que l'on trouve explicité par Pesaran [70]. La
procédure de test repose sur la différence L12 entre les
log-vraisemblances empiriques L1 et L2 des
modèles M1 et M2. On examine alors la différence
entre L12 et sa pseudo-vraie valeur dans l'optique de M1. Cox obtient ainsi la statistique :
Tf= |
|
· L12-E1 |
é ê ê ë |
|
|
· L12 |
ù ú ú û |
où E1 désigne l'espérance relative au modèle M1.
On montre alors que n· Tf a une distribution normale centrée
sous M1. Une procédure de test peut alors être menée en
estimant la variance de Tf. Un des reproches fait à ce test est que si
l'on conduit un second test sous l'hypothèse que M2 est vrai,
les deux tests peuvent mener à des contradictions, rejetant ou acceptant
simultanément les deux hypothèses concurrentes. De plus ce test ne
s'applique pas si le modèle M1 est emboîté dans M2 , ni si les espaces engendrés par des régresseurs X et Z sont
orthogonaux (voir Pesaran).
Emboîtement artificiel :
De nombreux auteurs ont également proposé d'utiliser un modèle
emboîtant les deux modèles concurrents, ainsi Atkinson [4]
propose de combiner les deux modèles en un modèle général
constitué d'une moyenne géométrique des densités intervenantes dans
chacun des modèles. Une autre possibilité suggérée également par
Atkinson consiste à réaliser une mixture des deux modèles. De cette
idée provient le classique sur-modèle de régression Mc :
Mc : y=Xb +Zg +U
On peut alors tester l'hypothèse b =0 (qui correspond à M2 ), puis g =0 (qui correspond à M1). Cependant, comme
précédemment, les conclusions de ces tests peuvent être
contradictoires. Une autre critique est qu'il n'existe pas un seul et unique
sur-modèle Mc, d'autres problèmes dûs à la colinéarité
entre X et Z peuvent également affecter ces tests.
Davidson et Mac Kinnon [23] proposent en 1981 un test basé sur le
modèle emboîtant suivant :
Mc : y=(1-l )Xb +l Zg +U
L'idée est alors de tester la validité de l'un ou l'autre des modèles
via l . Le problème est que le modèle Mc n'est pas
directement estimable, les paramètres b ,g et l
n'étant pas séparément identifiables. Une solution proposée est de
remplacer Mc par un modèle Mc où les
paramètres d'un modèle ( M2 par exemple) sont remplacés par
un estimateur (g consistant pour M2) :
M |
|
: y=(1-l )Xb +l Zg +U
(2.11) |
On teste ensuite la validité de l'autre modèle ( M1) en testant
l .
Sur notre exemple, on teste M1 contre M2 en testant l =0. Si la nullité de l est acceptée alors on validera
le modèle M1. Un point important, relevé par Gourieroux et
Monfort [38], est que la nouvelle variable Zg
dépend de (Yi)i=1,..,n par l'intermédiaire de g
et devrait être considérée comme endogène. Cet obstacle est ignoré
par Davidson et Mac Kinnon qui étudient directement la t-statistique de l , calculée ``comme si'' Zg était une
variable exogène traditionnelle .
Dans un cadre non linéaire, deux tests reposent également sur le même
principe, le J-test qui utilise la t-statistique pour l =0
dans l'estimation Jointe de b et l dans (2.11),
et le P-test, qui permet l'utilisation des moindres carrés linéaires
dans la même situation (voir l'ouvrage de Davidson et Mac Kinnon [24]).
2.2.3 Tests d'enveloppement
Dans le cadre de modèles de régression linéaires standards, Sawa [77], nous donne l'expression des pseudo-vraies valeurs du modèle M2, pour cela nous noterons a =(b ,s 2) les
paramètres de M1, d =(g ,t 2) ceux de M2, X et Z les matrices de régresseurs de dimensions (
n× p) et ( n× q) respectivement, et où y
est un vecteur d'observations de dimension ( n× 1) . Pour
la clarté de la présentation nous supposerons que M1 et M2 sont ``strictement non emboîtés'', c'est-à-dire que la
matrice (X Z) est de rang (plein) p+q, la généralisation au cas
où M1 et M2 sont imbriqués ne pose pas de problème
majeur et est discuté dans Mizon et Richard [66].
L'estimateur du maximum de vraisemblance de a =(b ,s
2) est a =(b ,s 2) défini par :
de même pour M2, l'estimateur de d =(g ,t
2) est d =(g ,t 2) :
Les matrices MX et MZ sont les matrices de projection sur les espaces
orthogonaux aux espaces engendrés par X et Z respectivement. On
définit également ici les matrices de projection orthogonales PX et PZ. Soit :
Pseudo-vraies valeurs
Afin d'obtenir les pseudo-vraies valeurs de d sous M1, nous devons calculer les éléments G (a ) et T2(a ) minimisant le KLIC entre M1 et M2.
Sawa [77] nous donne D (a )=( G (a
),T2(a )) , la pseudo-vraie valeur de d =(g ,t 2) sous M1 :
|
G (a ) |
= |
|
|
|
|
T2(a ) |
= |
|
· |
æ è |
(n-q)s 2+b |
|
X |
|
MZXb |
ö ø |
|
|
Preuve :
Par définition la pseudo-vraie valeur est l'élément D (a )
:
|
D (a )=Arg |
|
E |
|
é ê ê ë |
log |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
(2.15) |
où Ea est l'espérance prise sous M1.
Sawa propose de séparer ce calcul à partir de l'expression de la
log-vraisemblance de M2 :
log L2(d )=- |
|
log (2p )- |
|
log (t 2)- |
|
\| |
y-Zg |
\| |
|
Si l'on différencie cette dernière expression par rapport à g
d'une part et t 2 d'autre part, on a :
La solution du problème de minimisation (2.15) est alors obtenue
comme D (a ) solution de :
Or :
|
|
|
|
|
|
- |
|
+ |
|
E |
|
é ê ê ë |
|
\| |
y-Zg
|
\| |
|
ù ú ú û |
|
|
(2.16) |
On peut décomposer cette dernière équation de façon à faire
apparaître la variance de M1 :
|
|
= |
- |
|
+ |
|
E |
|
é ê ê ë |
|
\| |
y-Zg
|
\| |
|
ù ú ú û |
|
|
|
|
|
= |
- |
|
+ |
|
E |
|
é ê ê ë |
|
\| |
y-Xb
|
\| |
|
+ |
\| |
Xb -Zg |
\| |
|
ù ú ú û |
|
|
|
|
|
= |
- |
|
+ |
|
é ê ê ë |
(n-q)s 2+ |
\| |
Xb -Zg |
\| |
|
ù ú ú û |
|
|
(2.17) |
On obtient G (a ) et T2(a ) en déterminant les
éléments g et t 2 réalisant l'égalité à zéro des
expressions (2.16) et (2.17) respectivement.
Remarque :
Une interprétation géométrique de ce résultat est que Z· G
(a ) est la projection de l'espérance (Xb ) de y sous M1 sur l'espace engendré par Z. En effet,
Z· G (a )=Z |
æ è |
Z |
|
Z |
ö ø |
|
Z |
|
·
Xb =PZ· Xb
|
tandis que nT2(a ) est la somme des variances des yi
à laquelle s'ajoute la norme euclidienne de la distance entre les
espérance de y sous M1 (Xb ) et celle sous M2 (Zg ).
Il est aisé de montrer que :
Lemme 1
: Le comportement asymptotique des estimateurs du maximum de vraisemblance
sous M1 est :
-
i) Ea(g )=G (a )
- ii) Limn® ¥ Ea(t 2-T2(a ))=0
Ce lemme dû à Sawa [77], nous permet de vérifier que
l'espérance de l'estimateur du maximum de vraisemblance sous une mauvaise
spécification, donne la pseudo-vraie valeur. Celle-ci minimise la
distance, au sens de Kullback-Leibler, entre le modèle de référence, M1, et le modèle par rapport auquel est calculé cet estimateur,
M2.
Statistique de test
La statistique f = d -D (a ) définissant la
différence d'enveloppement s'écrit alors comme le vecteur :
f = |
æ ç ç è |
|
|
|
ö ÷ ÷ ø |
= |
æ ç ç ç ç ç ç ç ç ç è |
|
æ è |
Z |
|
Z |
ö ø |
|
Zy- |
æ è |
Z |
|
Z |
ö ø |
|
Z |
|
Xb |
|
|
|
y |
|
MZy- |
|
æ è |
(n-q)s 2+b |
|
X |
|
MZXb |
ö ø |
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø |
Cette pseudo-vraie valeur est estimée par f :
f = |
æ ç ç è |
|
|
|
ö ÷ ÷ ø |
= |
æ ç ç ç ç ç ç ç ç ç è |
|
æ è |
Z |
|
Z |
ö ø |
|
Z |
|
y- |
æ è |
Z |
|
Z |
ö ø |
-1Z |
|
X b |
|
|
|
· |
y |
|
MZy- |
|
æ è |
(n-q)s 2+b |
|
X |
|
MZXb |
ö ø |
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø |
soit encore :
f = |
æ ç ç ç ç ç ç ç ç ç è |
|
|
|
|
· |
y |
|
[ |
MZ-(n-q)MX |
] |
y- |
|
é ë |
b |
|
X |
|
MZXb |
ù û |
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø |
L'utilisation des formules (2.12) et (2.13) permet de
simplifier l'écriture de cette différence, où l'on remarque que :
-
Xb est la projection de y sur l'espace engendré
par X et donc Xb =PXy
- de fait, y-Xb =MXy, et on a :
f = |
æ ç ç ç ç ç ç ç ç ç è |
|
|
|
|
y |
|
æ ç ç è |
MZ- |
( |
n-q |
) |
|
MX-PXMZPX |
ö ÷ ÷ ø |
y |
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø |
(2.18) |
La première coordonnée de f s'exprime donc comme étant
une expression linéaire en y, la deuxième est une forme quadratique en
y.
La variance asymptotique Va(f ) de la statistique n· f est :
|
V |
|
(f )= |
æ ç ç ç ç ç ç ç ç ç ç è |
|
ns 2 |
æ è |
Z |
|
Z |
ö ø |
|
Z |
|
MXZ |
æ è |
Z |
|
Z |
ö ø |
|
|
|
|
|
|
|
|
|
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ø |
(2.19) |
On peut également l'écrire sous la forme :
V |
|
(f )=ns 2· Q |
æ è |
Z |
|
Z |
ö ø |
-1Z |
|
MXZ |
æ è |
Z |
|
Z |
ö ø |
|
Q |
|
où Q =( Iq -2/nZ Xb
) .
Une preuve de ce résultat dû à Mizon et Richard est rappelée en
annexe.
Ces premiers résultats nous permettent d'obtenir différents tests
d'enveloppement suivant le paramètre d'intérêt.
Tests de Wald
Trois tests d'enveloppement de Wald sont proposés ici selon que l'on
s'intéresse au paramètre ``complet'' d =(g ,t
2) ou selon que l'on envisage l'enveloppement sur la première
(ou deuxième) coordonnée pour ne retenir qu'un test d'enveloppement sur g (ou t 2).
-
Le test d'enveloppement complet est défini par :
où : Va (f ) est un estimateur de Va(f ) obtenu en estimant les paramètres de a ,
et Va (f )+ désigne un inverse
généralisé de cette matrice.
Cette statistique est asymptotiquement distribuée sous M1, suivant une loi c 2 à q degrés de liberté3.
- Deux statistiques ``marginales'' peuvent être extraites de
ces expressions, h (g ) est ainsi basé sur le
coefficient de régression g tandis que h (t 2) porte sur l'estimateur de la variance t 2. On
obtient ainsi :
h (g )= |
( |
g -G (b ) |
) |
|
V |
|
(g )+ |
( |
g -G (b ) |
) |
où : Va (g )=ns 2(
Z Z) -1Z MX Z( Z Z)
-1.
Ce qui nous donne :
h (g )= |
|
· |
y |
|
MXZ |
æ è |
Z |
|
MXZ |
ö ø |
|
Z |
|
MXy
|
Sous M1, cette statistique est, elle aussi,
asymptotiquement distribuée suivant une loi c 2 à q degrés de
liberté4.
- La troisième statistique d'intérêt, porte sur la différence
des variances estimées de M2
h (t 2)= |
( |
t 2-T2(a ) |
) |
|
V |
|
(t 2)+ |
( |
t 2-T2(a ) |
) |
où : Va (t 2)=4s 2/n·
b X MZMXMZXb .
Cette statistique est asymptotiquement distribuée sous M1,
suivant une loi c 2(1) .
Il est intéressant de noter que ces statistiques sont en relation entre
elles et avec des statistiques classiques.
-
- La F-statistique relative à l'hypothèse g *=0 dans
la régression emboîtante Mc :
Mc : y=Xb +Zg *+U
donne :
où : g * =( Z MXZ)
-1Z MX y et nt *2=y MXy-g * Z MXZg *
un rapide calcul nous permet d'exprimer cette statistique comme étant :
qFc= |
|
· h (d ) |
é ê ê ë |
1- |
|
h (d ) |
ù ú ú û |
|
les statistiques h (d ) et qFc sont par conséquent
asymptotiquement équivalentes sous M1.
- - Mizon et Richard [66] montrent que la statistique de test h (g ) est équivalente asymptotiquement à la
statistique ``complète'' h (d ).
En effet on a l'équivalence asymptotique sous M1 (
~ M1 ) :
n· |
( |
t 2-T2(a ) |
) |
|
-2b |
|
æ ç ç è |
|
|
ö ÷ ÷ ø |
n· |
( |
g -G
(b ) |
) |
En outre, la même équivalence entre statistique complète et
statistique sur g se retrouve lorsque l'on examine
l'enveloppement de Mc par M1.
- - Hendry et Richard [54] montrent également que la
statistique complète relative à l'enveloppement de Mc par M1 est équivalente asymptotiquement à la statistique complète
d'enveloppement de M2 par M1.
Ce dernier point permet notamment de réconcilier les approches
emboîtées et non-emboîtées, qui sont ainsi équivalentes dans
cette approche.
Remarque :
Les statistiques h (g ) et h (t 2)
peuvent être retrouvées par l'utilisation de la notion d'enveloppement
via une fonction B définie section 2.1.3. Si l'on utilise
les fonctions B1 et B2 définies ci - dessous :
|
|
B1 |
: |
 q× Â + |
¾® |
 q |
|
|
|
|
¾® |
g |
et |
|
|
|
|
|
|
B1 |
: |
 q× Â + |
¾® |
 + |
|
|
|
|
¾® |
t 2 |
|
nous retrouvons les statistiques de tests h (g ) et h (t 2) à partir des formules générales 2.3
et 2.4 données dans la section 2.1.3.
2.3 Conclusion
Les tests d'enveloppement présentés dans ce chapitre reposent sur la
définition de l'enveloppement approché et se fondent sur l'étude du
défaut d'enveloppement, constitué de la différence entre un estimateur
des paramètres du modèle M2 et un estimateur de la
pseudo-vraie valeur sous M1. Cette différence est examinée de
manière globale ou partielle selon que l'on intègre l'ensemble des
paramètres des modèles, ou une partie seulement. Une classe de tests de
Wald examinant le défaut d'enveloppement par l'intermédiaire d'une
fonction déterministe ou non, est développée et permet une
généralisation des tests existants. Cette approche regroupe sous une
même présentation une vaste collection de tests d'hypothèses emboîtées et non-emboîtées, et permet de retrouver les tests classiques
comme des cas particuliers.
Ces tests doivent cependant être considérés comme des test visant à
comparer les forces et faiblesses des modèles en présence et non comme
des procédures de validation ou de sélection. Notre approche est ainsi
directionnelle considérant le modèle M1 comme modèle
d'intérêt que l'on cherche à valider par ses capacité à incorporer
les résultats de modèles secondaires qui ne sont que les instruments de
cette validation.
Nous présenterons chapitre 4 différents tests permettant d'examiner la
validation d'un modèle de régression par l'enveloppement d'un autre
modèle de régression dans un contexte non-paramétrique. Il nous faut
auparavant définir les estimateurs non-paramétriques qui interviendront
dans la définition de ces modèles.
2.4 Annexe au chapitre 2
Autre possibilité d'énoncer le théorème 2.3 :
Les dérivées premières et secondes de B(Yn,g ) jouant un grand
rôle dans cette distribution, nous devons auparavant introduire quelques
notations simplifiant l'écriture (voir Mizon [65]) :
-
B(b ,g )=plim M1B1(Yn,g )
où B1(Yn,g )=( ¶ B(Yn,g )/¶ g
)
- f *=B(Yn,G (b ))-E M1[ B(
Yn,G (b )) ] -f b( b -b
)
- avec : f b=limn® ¥ 1/nEb( B(Yn,G (b ))· ¶ L1/¶ b )
Théorème 2.5
Sous les hypothèses du théorème 2.1, et sous les hypothèses de
régularité suivantes :
-
La fonction B( Yn,g ) est de classe C1 par
rapport à g sur un voisinage V de G (b )
- La matrice B est finie dans le voisinage V et de rang r
- Les matrices plim M1( ¶ B1(Yn,g )/¶ g i) g sont finies pour g Î V
On a,
nf =n |
æ è |
g |
-E |
|
g |
ö ø |
=nf *+ |
|
(b ,G
(b ))· nf +op(1)
|
Calcul de la variance Va(f )
donné par la formule (2.19) :
La formule (2.18) nous donne une expression de f
comme étant une expression linéaire en y pour la première
composante, la deuxième étant une forme quadratique en y. Soit encore :
f = |
æ ç ç è |
|
|
|
ö ÷ ÷ ø |
= |
æ ç ç ç ç ç è |
|
|
|
ö ÷ ÷ ÷ ÷ ÷ ø |
où A=( Z Z) -1Z MX et B=MZ-( n-q) MX-PXMZPX.
Sous M1, y~ N(Xb ,s 2In) et donc :
Var |
( |
g -G (a ) |
) |
=s
2AA |
|
=s 2 |
æ è |
Z |
|
Z |
ö ø |
|
Z |
|
MXZ |
æ è |
Z |
|
Z |
ö ø |
|
On a également :
|
Cov |
( |
g -G (a ),t 2-T2(a ) |
) |
|
= |
|
|
on remarque que BXb =MXMZXb , ce qui nous donne :
|
Cov |
( |
g -G (a ),t 2-T2(a ) |
) |
|
= |
|
|
et,
Var |
( |
t 2-T2(a ) |
) |
= |
|
Tr(B2)+ |
|
b |
|
X |
|
MZMXMZXb
|
De cette dernière expression, seul le deuxième terme apparaît dans
l'expression (2.19), le premier terme étant négligeable devant
ce terme ( la trace Tr(B2) est en effet un Op(1/n2) voir Mizon
et Richard [66] ).
- 1
- Parmi ceux-ci, on trouve le test pour déceler la présence de facteurs
communs dans les processus autorégressifs (COMFAC) de Sargan (64), ainsi
que le test directionnel de Epps et ali.(82)
- 2
- Comme précédemment nous noterons les densités marginales et
conditionnelles par la même fonction j , les arguments de cette
fonction levant toute ambiguïté.
- 3
- Le nombre de degrés de liberté est en fait le rang de Va(f ), qui correspond au nombre de variables propres au modèle
M2, en supposant les modèles strictement non emboîtés, le
nombre de degrés de liberté est donc q.
- 4
- Le rang de Va(g ) est le même que le rang de Va(f ), c'est le rang de la matrice ( Z
Z) -1Z MXZ( Z Z) -1.
Chapter 3 Estimation non-paramétrique de la régression
Ce chapitre se veut une introduction aux estimateurs non-paramétriques de
la régression. Nous présenterons également les principales
propriétés que nous utiliserons dans notre étude non-paramétrique de
l'enveloppement. Après avoir présenté succinctement différents
estimateurs fonctionnels de la régression nous détaillerons plus
particulièrement les propriétés relatives à la méthode du noyau.
Nous nous préoccuperons enfin du problème de sélection de la
fenêtre. Ce chapitre ne présente toutefois aucun apport statistique
nouveau.
3.1 Introduction
``On dit qu'un problème d'estimation est non-paramétrique lorsqu'il
ne peut pas se ramener au problème de l'estimation d'un élément d'un
espace vectoriel de dimension finie''
Gerard Collomb (1976)
D'après G. Collomb, l'estimation non-paramétrique se présente comme
une ``non-définition'', rejetant l'estimation d'un paramètre sans
que ne soit explicitement exposé l'objet à estimer.
Dans notre approche non-paramétrique l'objet d'intérêt est une
fonction tout-à-fait générale, appartenant à un espace fonctionnel
(ce qui n'exclut cependant pas tout paramètre de l'estimation).
Dans le cadre de ce travail, et afin de clarifier notre propos, nous
entendrons par ``non-paramétrique'' l'estimation du modèle de
régression :
Y=f(x)+u
dans laquelle, ni la forme de la fonction de régression, ni la
distribution des résidus ne seront spécifiés.
Ceci est la double négation d'un modèle paramétrique où, par
exemple, la forme linéaire est imposée et où la distribution des
résidus est spécifiée.
Une classification précise entre estimation paramétrique,
non-paramétrique, semi-paramétrique et semi-non-paramétrique nous a
été présentée par M. Delecroix et est reproduite dans le travail de
Pascal Lavergne [58]. Cette classification se base sur l'objet
d'intérêt de l'estimation, et nous ne la détaillerons pas davantage,
laissant le lecteur intéressé se reporter à ces références.
L'accent sera mis dans ce chapitre sur l'importance des choix arbitraires
intervenant dans l'estimation non-paramétrique, et en premier lieu, sur le
choix du paramètre déterminant le degré de ``douceur'' de
l'estimateur non-paramétrique. En effet, ``non-paramétrique'' ne
signifie pas absence de paramètre, bien au contraire et un paramètre de
lissage interviendra de manière cruciale dans l'estimation. A travers les
résultats asymptotiques et les exemples d'estimateurs classiques
proposés, nous essayerons de relever l'aspect d'arbitrage que revêt ce
paramètre entre ``douceur'' et ``variabilité'' des
estimateurs. La sélection de ce paramètre dans le cadre de la méthode
du noyau de convolution sera étudiée afin de mieux cerner l'impact de ce
choix sur l'estimateur. Le critère de la validation croisée sera retenu
pour la suite de notre travail et nous tenterons de motiver ce choix en
relevant le caractère objectif de ce critère face à l'arbitraire des choix ad hoc.
Notre présentation des estimateurs de la régression classiques s'inspire
du cours de M. Delecroix, et de la revue bibliographique de Collomb [19]. Nous retrouvons ainsi la modélisation par d -suites dues
à Walter et Blum et portées à notre connaissance par B. Portier et P.
Ango-Nzé [71], que l'on trouve également dans Rao ([72]
pp.135-143).
Le problème de l'inexistence d'un estimateur sans biais de la régression
sur un échantillon fini montré par Collomb ([17] pp.12-15) sera
contourné par l'utilisation systématique d'une optique asymptotique. Le
biais sera toutefois analysé et des procédures pour ``tuer'' ce biais
seront exposées. Il s'agira principalement de contraintes sur le
paramètre de lissage.
Afin d'assurer l'existence de f(x)=E[ Y| X=x] , nous
supposerons que E[ | Y| ] <¥ . La fonction f
n'étant définie sur  p qu'à une équivalence près, nous
supposerons également qu'il en existe une version continue f. Par
convention, on posera f(x)=0 si j (x)=0.
3.2 Définition des estimateurs
L'estimation non-paramétrique de la régression repose sur l'idée
intuitive que l'estimateur f( · ) en un point x
doit être ``proche'' de Yi si x est ``proche'' de Xi.
La même propriété se répétant sur l'ensemble des observations, les
estimateurs non-paramétriques de la régression s'écriront donc comme
des moyennes pondérées des Yi, la pondération prenant en compte
l'éloignement de Xi au point considéré. Par souci de clarté nous
nous restreindrons momentanément au cas particulier univarié (p=1).
La forme générale d'un estimateur non-paramétrique de la régression,
tel que nous venons de le présenter, sera donc :
De manière à obtenir une pondération de somme totale unitaire, on
posera :
Suivant le type de pondération utilisé, nous obtiendrons différents
types d'estimateurs, chacun dépendant d'un paramètre dont le choix
permet de déterminer la ``douceur'' de l'estimateur :
-
L'estimateur des k points les plus proches :
wk(Xi,x)=1 |
|
[ |
les k Xj les plus proches de x |
] |
|
|
(Xi)
|
le paramètre intervenant dans cette définition est le nombre k de
points considérés comme pertinents pour estimer f en x, les autres
points ne participant pas au calcul de f(x).
- L'estimateur de la fenêtre mobile (ou régressogramme) est obtenu
en posant :
Ici, le paramètre est la largeur 2h de la fenêtre1 dans laquelle sont retenues les observations sur lesquelles
porte la moyenne des Yi.
Ces deux estimateurs, s'ils permettent l'estimation de la régression en
tous points, ne sont pas continus et présentent des sauts dûs à la
fonction indicatrice intervenant dans leur définition.
- L'estimateur du noyau de convolution
où K est une fonction continue prenant en compte l'ensemble des points
de l'échantillon, dont la valeur diminue avec l'éloignement entre x et
Xi, et où h est un réel positif permettant de relativiser
l'éloignement de x à Xi. Cet estimateur sera étudié plus en
détail section 3.3.
- L'estimateur du noyau de convolution récursif
est une variante de cet estimateur introduit par Devroye et Wagner (Voir
Härdle [46]), pour lequel h est remplacé par la suite (
hi) i=1,... ,n , hi variant avec le point Xi
considéré.
- L'estimateur des fonctions orthogonales
La suite de fonctions ( ej(· )) jÎ Z constitue une
base orthogonale de l'espace Hilbertien L2(Â ) supposé contenir la
fonction de régression f. L'entier M représente le nombre
d'éléments de la base intervenant dans cet estimateur.
- L'estimateur à ondelettes orthogonales
wp(Xi,x)= |
|
2pF (2pXi-j)· F (2px-j)
|
où F (· ) Î L2(Â ) est issue d'une analyse
multirésolution, qui est une décomposition de l'espace L2(Â ) en
une suite croissante d'espaces vectoriels fermés Vj. On établit que
pour tout entier relatif j, la suite de fonctions ( 2j/2F
( 2j· -k) ) kÎ Z constitue une base
orthonormée de Vj. Le paramètre p (ou plutôt 2p) détermine
la ``finesse'' de cette décomposition., (voir Portier [71], ou
Gasquet et Witomsky [34]).
D'autres estimateurs peuvent s'écrire sous cette forme avec une
pondération non unitaire et sont proposés par Ullah et Vinod [85].
-
L'estimateur de Mack et Müller [62]
où j (Xi)=1/nhåj=1n K( Xi-Xj/h) est l'estimateur du noyau de la densité j au point Xi
.
Cet estimateur est l'estimateur du noyau pour lequel le dénominateur est j (Xi) au lieu de j (x). L'avantage de
cet estimateur réside dans le calcul de l'estimateur de la dérivée de f(x) puisque seul le numérateur est alors à calculer.
- L'estimateur de Gasser et Müller [35]
Wh(Xi,x)= |
|
|
ó õ |
|
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
du
|
où Ai=( Si-1,Si+1) , et Si=(Xi+Xi+1)/2 est le
milieu des points Xi et Xi+1. Cet estimateur est développé dans
le cadre des régresseurs fixes.
D'autres techniques d'estimation non-paramétrique existent néanmoins et
ne sont pas issues de la même logique. Certains estimateurs sont ainsi
définis non pas comme une somme pondérée, mais comme minimisant un
critère sur un ensemble de fonctions.
-
On peut ainsi citer les ``fonctions splines cubiques''
déterminées comme les fonctions deux fois différentiables minimisant :
S |
|
= |
|
( |
Yi-f(Xi) |
) |
|
+l |
ó õ |
æ è |
f |
|
(x) |
ö ø |
|
dx
|
sur un intervalle compact. La solution unique de cette minimisation est fl. On montre que fl est un
polynôme cubique entre deux observations successives, voir Eubank [30].
Le paramètre l sert en fait d'arbitrage entre la
``fidélité aux données'', ( åi( Yi-f(Xi))
2) et la ``douceur de la courbe'',( ò (
f (x)) 2dx) .
Silverman [SILVER], remarque toutefois que l'on peut encore approximer fl par une somme pondérée de Yi avec la
pondération suivante :
W |
|
(x,Xi)= |
|
|
· K |
æ ç ç ç è |
|
|
ö ÷ ÷ ÷ ø |
-
où hl(x) est une fenêtre locale dépendant de l
et de la densité j des Xi
K est une fonction telle que lim| u| ® ¥
K(u)¾® 0
- Une autre classe d'estimateurs définis dans la même logique de
minimisation est celle des M-estimateurs à noyau solutions d'un
problème d'optimisation du type :
fn |
(x)=Arg |
|
|
|
· K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
· y |
( |
Wi,a n,x,f |
) |
(3.1) |
où S et y sont des fonctions connues définissant la variable
conditionnante S(Wi,a i) et la fonction d'objectif paramétrique
respectivement. Les ( Wi) i=1,... ,n sont les
observations et a i tend vers une limite a ¥ lorsque n
tend vers l'infini. Cette formulation générale permet également de
retrouver certains des estimateurs que nous venons de citer dans une optique
de type ``condition de moment''2. (voir Gourieroux, Montfort et Tenreiro[41], ou Härdle[46]).
Remarque :
-
Quelle que soit la méthode d'estimation proposée, le problème
de ``douceur de l'estimateur'' évoqué ci-dessus, se posera par
l'intermédiaire du paramètre de lissage. Son choix permettra d'arbitrer
entre ``variabilité'' et ``lissage'' ou, d'une manière plus
formelle, entre ``variance'' et ``biais'' comme nous le verrons
section 3.5.
- Pour chacune des méthodes envisagées ci-dessus, ce paramètre
est, en réalité, dépendant de la taille de l'échantillon, voire de
l'échantillon lui-même si l'on souhaite le sélectionner
convenablement. Les estimateurs proposés ci-dessus seront donc retrouvés
dans la littérature munis d'une suite de paramètres, h(n),M(n),etc... . Les propriétés de convergence de ces estimateurs
seront conditionnées par des hypothèses sur la vitesse de convergence
(ou de divergence) de ces suites.
3.3 Estimateur du noyau de convolution
Définition 3.1
(Noyau de Parzen-Rosenblatt) :
Un noyau K est une application de  p dans  , bornée,
intégrable pour la mesure de Lebesgue, d'intégrale unitaire. Un noyau de
Parzen-Rosenblatt vérifie de plus :
où || · || désigne la norme de  p.
Un exemple de noyau de Parzen-Rosenblatt est la densité normale standard
qui vérifie cette condition. Nous utiliserons ces noyaux dans la suite de
ce travail.
On définit également des classes de noyaux correspondants à des
propriétés de régularité particulières.
Définition 3.2
(Noyau d'ordre m ) :
Le noyau K appartient à la classe Km( Â p) des noyaux
d'ordre m si :
|
ó õ |
|
|
x |
|
K(x1,x2,... ,xp)dx1···
dxp= |
ì ï ï í ï ï î |
1 si ai=0 , " i =1,... ,p |
|
|
|
|
|
et |
|
|
ó õ |
|
| |
xi |
| |
|
| |
K(x1,x2,...
,xp) |
| |
dx1··· dxp<¥ , " xÎ Â p |
|
|
Cette propriété est standard en statistique non-paramétrique et est
couramment utilisée comme hypothèse de régularité pour les noyaux
dans les théorèmes de convergence asymptotique.
Il est à noter que pour m³ 3, les noyaux de Km( Â p)
ne sont plus des densités, et pourront prendre des valeurs négatives sur
certains intervalles.
Définition 3.3
(Estimateur du noyau de la régression) :
Soit (Xi,Yi)i=1,··· ,n n observations d'un couple (X,Y) de
variables aléatoires définies sur l'espace réel mesuré ( Â
p× Â , BÂ p+1,l ) . L'estimateur du noyau
de convolution de la régression f(x)=E[ Y| X=x] associé
au noyau K et à la fenêtre hn, un nombre réel dépendant de n,
est défini par :
avec la convention fn(x)=0 si le dénominateur 1/nhnpåi=1n K( Xi-x/h) =0.
Cette formulation ayant été introduite simultanément par Nadaraya [67] et Watson [89] en 1964, cet estimateur est également appelé
estimateur de Nadaraya -Watson.
Le dénominateur de l'expression (3.2) est un estimateur de la
densité marginale j (x), tandis que le numérateur constitue un
estimateur de F (x)= ò yj (x,y)dy. Nous pouvons donc
écrire fn(x) sous la forme :
Si, en particulier, K est une densité de probabilité alors
l'estimateur j n(x) de j (x) est donné par la
densité de la somme de deux variables aléatoires :
-
- l'une suivant la densité empirique des Xi, µ n=1/nåid Xi
- - l'autre suivant la distribution de densité Kn( ·
) = 1/hnp K( · /hn)
La convolution ainsi réalisée suit une distribution de densité :
j n(x)= |
( |
Kn*µ n |
) |
(x)= |
|
|
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
d'où l'estimateur tire son nom ``d'estimateur du noyau de convolution''.
3.4 Propriétés
Le premier résultat de convergence est dû à Bochner [11], dont
le lemme est à la base des principaux théorèmes de convergence. Nous
tirons son énoncé de l'ouvrage de Bosq et Lecoutre [12] (p. 61).
Lemme 2
(de Bochner) :
i) Soit K un noyau de Parzen-Rosenblatt et g une fonction de L1.
Alors, en tout point x, où g est continue :
ii) Soit K un noyau quelconque et g une fonction de L1
uniformément continue, alors
L'interprétation de ce lemme est que lorsque la fenêtre h est
``petite'', la convolution d'une fonction de L1 avec Kn perturbe
peu cette fonction.
3.4.1 Propriétés de convergence ponctuelle de l'estimateur fn :
Quelques hypothèses standard permettant l'application du lemme de Bochner
sont présentées ici.
Hypothèse 3.1
:
Les observations (Xi,Yi)i=1,··· ,n sont des observations
indépendantes du couple de variables aléatoires (X,Y) de  p×
 .
Hypothèse 3.2
:
Le noyau K(· ) est de Parzen-Rosenblatt
Hypothèse 3.3
:
La fenêtre hn vérifie limn® ¥ hn=0 et limn® ¥ nhnp=¥
Cette dernière hypothèse sur les fenêtres est la traduction d'un
arbitrage entre variabilité et douceur de l'estimateur déjà évoqué.
En imaginant visuellement deux cas limites nous voyons que :
-
- si hn ® ¥ alors K( Xi-x/hn) ® k=K(0) ," x et fn(x)®
k· 1/nåiYi=k· Y
L'estimateur dégénère en une fonction d'une douceur extrême puisque
constante, mais sans estimer réellement f(x).
- - si hn® 0 sans restriction, K( Xi-x/hn) ® {
.
L'estimateur devient alors extrêmement sensible à l'éloignement de x
à Xi et tend vers une fonction discontinue passant par tous les points (Xi,Yi).
L'hypothèse 3.3 nous impose un juste milieu, nécessaire à la
convergence de l'estimateur fn. Dans la suite de ce travail
nous supposerons ces hypothèses vérifiées, et nous ne mentionnerons
que les hypothèses supplémentaires.
Nous rappelons, tout d'abord un résultat concernant la convergence des
estimateurs j n(x) et F n(x)
Théorème 3.1
(Convergence en moyenne quadratique de j n(x)
) :
Supposons E[ Y2] <¥ et posons v(· )=Var[ Y|
X=· ] ,
Si
-
j ( · ) est continue au point x
Alors j n(x) converge en moyenne quadratique vers j (x).
Si de plus :
-
f( · ) et v( · ) sont continues
au point x
Alors F n(x) converge en moyenne quadratique vers F (x).
La démonstration de ce théorème découle de la définition de
l'erreur quadratique de j n(x) et du lemme de Bochner
(voir Bosq et Lecoutre [12]). Cette erreur a été étudiée
notamment par Collomb [17], voir également Lavergne [58] pour
l'étude des moments conditionnels E[ Ya| X] lorsque aÎ N.
Ce théorème permet de vérifier que l'estimateur fn(x)
est un estimateur convergent de l'espérance conditionnelle E[ Y|
X=x] , comme l'indique le corollaire suivant.
Corollaire 3.2
(convergence simple en probabilité) :
Sous les hypothèses du théorème précédent et :
Si j (x)¹ 0, alors :
3.4.2 Propriétés de convergence uniforme de fn
La formulation du théorème de convergence uniforme que nous reproduisons
ici est tirée de l'ouvrage de Györfi, Härdle, Sarda et Vieu ([44]
pp. 24-30), choisie pour la simplicité des hypothèses. Cette formulation
nous donne explicitement la vitesse de convergence, qui nous sera utile dans
le chapitre 4.
Théorème 3.3
(Convergence uniforme de fn) :
Soit G un compact de  pet G un voisinage de ce compact (GÌ G),
Supposons E[ Y2] <¥ et posons s 2(·
)=Var[ Y| X=· ] , sous les hypothèses suivantes :
-
La densité j (x)>0 , " xÎ G
- " xÎ G, s 2(x)<¥
- j (· ) et f( · ) sont d-fois
continûment différentiables, et ont des dérivées bornées,
- le noyau K est de Parzen-Rosenblatt d'ordre d
et si la fenêtre h est telle que Vn
vérifie Vn¾® n® ¥ 0, alors
|
|
| |
fn(x)-f(x) |
| |
=Op |
( |
Vn |
) |
La preuve de ce résultat est donné par Györfi et alii dans
le cadre de processus j -mélangeant et n'est pas reproduite ici,
nous en proposons toutefois un squelette, qui nous permettra d'obtenir un
résultat sur la convergence uniforme de j n(x).
Squelette de la démonstration :
L'estimateur de la régression s'écrit :
nous pouvons décomposer fn(x)-f(x) sous la forme d'une somme
de quatre termes :
fn(x)-f(x)= |
( |
A+B+f(x)C+f(x)D |
) |
· |
( |
j n(x) |
) |
|
-
où :
-
A=F n(x)-E[ F n(x)]
- B=E[ F n(x)] -F (x)
- C=j (x)-E[ j n(x)]
- D=E[ j n(x)] -j n(x)
Sous les hypothèses enoncées,la fonction f est bornée sur G et
l'estimateur j n est presque-sûrement positif . On
montre ensuite que :
Les démonstrations de 3.4 et 3.5 figurent dans Härdle et
Luckhaus [48], le terme D peut être vu comme un cas particulier
de A, dans lequel les Yi sont tous égaux à 1. La démonstration de
3.6 sera donc immédiate une fois 3.3 démontré.
Pour cela l'estimateur F n(x) est décomposé en F
n+(x) et F n-(x) :
et
F n-(x)=F n(x)-F n+(x)
où Mn=nx est une suite croissante.
Le résultat provient du fait que pour tout 0>0
|
|
Pr |
æ ç ç è |
Mn· n· |
hp |
|
| |
F n+(x)-E |
[ |
F n+(x) |
] |
| |
> 0 |
ö ÷ ÷ ø |
<¥
|
et d'un lemme démontrant que " >0 :
|
|
Pr |
æ ç ç è |
Vn· |
|
|
| |
F
n-(x)-E |
[ |
F n-(x) |
] |
| |
> |
ö ÷ ÷ ø |
<¥
|
Ce qui permet de conclure par addition des termes.
Nous pouvons remarquer que l'addition des termes C et D nous donne :
Corollaire 3.4
Sous les hypothèses du théorème précédent :
|
|
| |
j n(x)-j (x) |
| |
=Op |
( |
Vn |
) |
Nous utiliserons ces résultats pour l'étude non-paramétrique de nos
statistiques d'enveloppement. Bosq et Lecoutre [12] nous donnent
d'autres résultats de convergence de l'estimateur fn suivant
le type de norme considérée pour mesurer l'écart de fn
à f. Des résultats plus complets sur la convergence uniforme sont
donnés également par Sarda et Vieu [76] (voir également
Bierens [6]).
3.4.3 Distribution limite
Nous donnons ici le résultat principal concernant la distribution
asymptotique de fn. Ce résultat a été obtenu par Schuster
[78] pour le cas univarié et à Collomb [18] dans le cas
mutidimensionnel.
Des hypothèses supplémentaires sont nécessaires à ce résultat et
sont similaires à celles rencontrées usuellement. De plus celles-ci sont
explicitement utilisées dans la démonstration, ce qui rend leur
interprétation plus facile.
Théorème 3.5
(Normalité asymptotique de fn ) :
Sous les hypothèses suivantes :
-
- $ d tel que la fonction s 2+d
(x)· j (x) est uniformément bornée
- - Les fonctions f(x)2· j (x) et s 2(x)·
j (x) sont continues et uniformément bornées
- - Les fonctions j (x) et f(x)· j (x), ainsi que
leurs dérivées et dérivées secondes sont continues et uniformément
bornées.
- - Le noyau K est de Parzen Rosenblatt d'ordre 2
- - j (x)>0
On a,
-
Si hn2n· hnp¾® n®
¥ l avec 0£ l<¥
- Alors,
n· hnp |
( |
fn(x)-f(x) |
) |
|
IN |
æ ç ç ç ç è |
|
|
, |
|
ó õ |
|
K2(z) dz |
ö ÷ ÷ ÷ ÷ ø |
(3.7) |
De plus,
-
Si hn2n· hnp¾® n® ¥ ¥
- Alors,
p |
|
hn-2 |
( |
fn(x)-f(x) |
) |
= |
|
(3.8) |
avec:
b(x)=1/2Tr( X ¶/¶ x ¶/¶ x [ f(x)j (x)] ) -1/2f(x)Tr( X ¶/¶ x ¶/¶ x [ j (x)] )
Ce dernier résultat pouvant également être interprété comme la
convergence en distribution vers une loi dégénérée.
La démonstration de ce résultat par Bierens [7] est fort
instructive et permet une décomposition intéressante entre termes ``asymptotiquement normaux'' et termes ``générant du biais''. Nous
proposons ici un squelette de cette démonstration dont l'intégralité
est rapportée en annexe.
Squelette de la démonstration :
La multiplication par j (x), supposé non nul, nous
permet d'obtenir une expression plus simple :
|
|
= |
|
|
YiK |
æ ç ç è |
|
|
ö ÷ ÷ ø |
-f(x) |
æ ç ç è |
|
|
|
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ö ÷ ÷ ø |
|
|
|
|
= |
|
|
( |
Yi-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
|
Nous pouvons alors décomposer cette quantité en trois termes dont les
comportements asymptotiques seront différents :
( fn(x)-f(x)) · j (x)=1/nhnpåi( Yi-f(xi)) K( Xi-x/hn)
|
+ |
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
-E |
é ê ê ë |
|
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
|
|
+ E |
é ê ê ë |
|
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
|
|
=q1(x)+q2(x)+q3(x) |
|
Le premier terme nous donne la normalité asymptotique :
-
n· hnp· q1(x)¾® d N( 0 , s 2(x)/j (x)ò
K2(t) dt)
Le second disparaît asymptotiquement puisque :
- limn® ¥ E[ n· hnp·
q2(x)] 2=0
Le dernier nous donne le biais, qui s'exprime en fonction de l.
- n· hnp· q3(x)¾® n®
¥ l· b(x)
L'addition de ces trois termes, nous donne le résultat puisque sous ces
hypothèses, on a également j (x)® j (x).
Ce résultat nous donne, de manière explicite, la vitesse de convergence hn permettant de ``tuer le biais''. Cette vitesse est telle que l=0, c'est-à-dire que hn doit vérifier :
Soit encore :
Hypothèse 3.4
: La fenêtre hn vérifie n· hnp+4¾® n®
¥ 0
Cette hypothèse peut être affinée en fonction de la régularité
supposée des fonctions f(x),j (x) et f(x)· j (x). Si
ces fonctions sont d-fois continûment différentiables et de
dérivées bornées, alors, en utilisant un noyau de classe d, le
théorème sera vérifié.
L'hypothèse suivante :
Hypothèse 3.4 (bis) : La fenêtre hn
vérifie n· hnp+2d¾® n® ¥ 0
remplacera l'hypothèse 3.4 pour tuer le biais généré par q3(x).
Remarque :
Bierens [7] propose également une autre technique pour ``tuer le biais'' généré par q3(x). Il s'agit de créer
un estimateur fn basé sur la différence de deux
estimateurs, l'un générant du biais lié à la fenêtre h1,
l'autre estimant ce biais, par le choix approprié de la fenêtre h2.
La différence des deux estimateurs donne alors l'estimateur :
-
où f1(x) est un estimateur classique utilisant la
fenêtre h1 générant un biais l1· b(x)/j (x)
conformément à (3.7)
et f2(x) est un estimateur de ce biais b(x)/j (x)
utilisant la fenêtre h2 conforme à (3.8).
Le biais est ainsi ``tué dans l'oeuf'' ; l'utilisation de cet
estimateur permet donc de s'affranchir de l'hypothèse 3.4(bis).
Un estimateur similaire est proposé par Härdle, Hall et Marron [47], sous le nom de ``double smoothing''.
Pour d'autres propriétés de convergence nous renvoyons à Bosq et
Lecoutre [12], Collomb [18], Härdle [46] ainsi qu'à
Robinson [74] ou Youndje [88], pour les propriétés de
convergence de l'estimateur de la densité conditionnelle.
3.5 Fenêtres
``However there is a price to be paid for the great flexibility of
nonparametric methods, which is that the smoothing parameter must be chosen''
J. S. Marron (1988)
Nous avons relevé dans la section précédente l'importance de la
fenêtre intervenant dans l'estimation non-paramétrique, et nous nous
proposons d'apporter des éléments de réponse, fournis par la
littérature, à la question :
``Comment choisir la fenêtre ?''
En l'absence de technique de sélection, l'utilisateur de la statistique
non-paramétrique sélectionne généralement la fenêtre au vu de la
courbe, par essais successifs, cette technique visuelle ne pouvant
d'ailleurs s'appliquer que pour des dimensions de régresseurs faibles (p<3). L'aspect arbitraire de ce choix étant peu souhaitable, (en
particulier dans un cadre général de comparaison de modèles), il
était nécessaire de déterminer des critères de sélection objectifs de ce paramètre.
Une manière de s'assurer ``objectivement'' du comportement de
l'estimateur en fonction de la fenêtre, est d'examiner un critère
d'erreur entre la fonction de régression et son estimée. Certains de ces
critères seront globaux ou locaux, ils peuvent être basés sur la
prévision ou sur l'écart au sens d'une norme fonctionnelle, qui variera
suivant l'utilisation ou les propriétés souhaitées de l'estimateur.
L'un des critères le plus utilisé repose sur l'Erreur Quadratique
Intégrée (EQI) définie par3 :
EQI(h)= |
ó õ |
|
( |
fn(x)-f(x) |
) |
|
j (x)v
(x)l (dx)
|
où v (· ) est une fonction de poids4.
On peut également trouver une version empirique de l'EQI , l'Erreur
Quadratique Empirique (EQE), en remplaçant la mesure de Lebesgue par la
loi empirique des Xi :
EQE(h)= |
|
( |
fn(Xi)-f(Xi) |
) |
|
v (Xi)
|
ou une version globale, l'Erreur Quadratique Intégrée Moyenne (EQIM)
obtenue en prenant l'espérance de l'EQI :
EQIM(h)=E |
[ |
EQI(h) |
] |
=E |
é ê ê ê ê ë |
|
ó õ |
|
( |
fn(x)-f(x) |
) |
|
j (x)v (x)l (dx) |
ù ú ú ú ú û |
Härdle et Marron [50] montrent que ces trois mesures quadratiques
sont asymptotiquement équivalentes pour une grande variété
d'estimateurs.
La fenêtre idéale, hopt doit alors réaliser le minimum de l'un de
ces critères qui dépendent des fonctions inconnues f et j . On
la définit par :
Le rôle de la fenêtre h dans ces critères d'erreur peut être vu
à travers une formulation de Vieu [87] donnant une évaluation
asymptotique de l'EQI pour des fonctions f et j d-fois
continûment différentiables et pour des noyaux d'ordre d :
EQI(h)=B· h2d+ |
|
+op |
æ ç ç è |
h2d+ |
|
ö ÷ ÷ ø |
(3.9) |
-
où : B et V sont deux nombres réels finis.
Nous retrouvons ici l'aspect d'arbitrage entre Biais et Variance joué
par la fenêtre, puisque les termes B et V correspondent respectivement
à des termes de biais et de variance approchés (voir également Hall
[45], Rice [73], ou Härdle et Marron[50]). A propos de
cette expression Härdle [46] écrit d'ailleurs :
``(··· ) one gets a feeling of what the smoothing problem is
about :
Balance the variance versus the biais''
Cette expression permet de dégager deux optiques menant à deux
procédures de choix de la fenêtre.
-
Soit on estime la fenêtre minimisant l'EQI(h) en estimant B et V,
- Soit on estime l'EQI(h) et on sélectionne la fenêtre minimisant
ce nouveau critère.
La première solution mène aux techniques de ``Plug-in'', la
seconde aux méthodes de ``validation croisée''.
3.5.1 Le ``plug-in''
La méthode du ``Plug-in'' repose sur la sélection de la fenêtre hd
minimisant l'EQI(h) donné par (3.9). Cette fenêtre peut être
approchée par hd obtenue en estimant les termes B et V
qui dépendent des fonctions inconnues f , j (et de leurs
dérivées) ainsi que du noyau K.
Cette technique est très satisfaisante théoriquement puisque
l'expression de hd minimisant l'EQI(h) dans l'équation (3.9)
est :
et que EQI(hd) est alors de l'ordre
Cette vitesse de convergence est donnée par Stone [83] comme
étant la vitesse de convergence optimale dans la classe des fonctions de
régression d-fois continûment différentiables. De plus la vitesse de
convergence de hd et donc de hd est explicitement n-1/2d+p, toutefois ces fenêtres ne vérifient pas l'hypothèse 3.4 (bis), puisque n · hd2d+p=( p· V/2d· B) ¬ ¾®0.
De plus cette technique nous confine à l'étude de fonctions de
régression suffisamment régulières (d-fois continûment
différentiables). Enfin, des difficultés importantes se posent en
pratique : pour calculer hd il faut, en effet, estimer les
constantes B et V et donc les dérivées des fonctions f et j
ce qui s'avère techniquement délicat, hors d'un contexte de
régresseurs uniformément répartis (voir Vieu [87]).
3.5.2 La ``Validation Croisée ''
L'idée de base consiste à trouver une fonction de score CV(h) ayant la
même structure que l'EQI(h) et dont le calcul soit plus simple. On
sélectionne alors la fenêtre hcv minimisant ce critère
dont on attend le même comportement asymptotique que hopt.
Le critère CV(h) est obtenu à partir de l'Erreur Quadratique Empirique
( EQE(h)) dans laquelle l'estimateur fn(Xi) est
remplacé par l'estimateur de ``leave-one-out'' fn-i(Xi) et f(Xi) est estimé naïvement par Yi (voir Härdle[46] pp.152-153).
On choisit alors hcv=ArgminhÎ HnCV(h) où :
CV(h)= |
|
|
( |
Yi-fn-i(Xi) |
) |
2v (Xi)
|
et
Härdle et Marron [50] démontrent que la fenêtre ainsi obtenue
vérifie la propriété d'optimalité asymptotique suivante :
sous les hypothèses
Hypothèse 3.5
(Optimalité asymptotique) :
-
Hn=[ h,h] =[ an·
n-1/p,an-1]
où an=C· nd et C,d sont des constantes positives, d Î [ 0,1/p]
- Les fonctions f,j et K sont Hölder continues5
- Les moments conditionnels de Y| X sont bornés, c'est-à-dire :
" q>0, $ Aq>0 tel que E[ |
Y| q| X=x] <Aq , " x
- La fonction de poids v (· ) est à support compact S
- La densité marginale j (x) est bornée inférieurement
sur l'intérieur de ce support S
L'inconvénient principal est que la fenêtre hcv, qui est
ici un estimateur, présente une grande variabilité, c'est-à-dire que
pour deux échantillons distincts issus de la même distribution, les
fenêtres obtenues seront très différentes. Ce problème a été
étudié par Härdle et Marron [50] où il est montré que hcv converge ``très lentement'' vers hopt. Une
technique pour pallier à cet inconvénient consiste peut-être à
utiliser le ``double smoothing'' proposé par Härdle, Hall et Marron [47] et évoqué plus haut.
Cette méthode présente cependant de nombreux avantages : outre le fait
qu'elle ne demande pour être applicable, que des hypothèses faibles sur
le degré de différentiabilité de f, c'est une méthode automatique
entièrement guidée par les données. Ce point est particulièrement
satisfaisant dans le contexte de comparaison de modèles. Nous utiliserons
d'ailleurs cette méthode dans le chapitre suivant pour éviter tout choix
arbitraire pouvant influer sur la qualité des estimateurs.
3.5.3 Autres méthodes
Il existe de nombreux raffinements de la validation croisée Vieu [86] propose de sélectionner la fenêtre localement en utilisant un
critère de validation croisé local, tenant compte de la densité autour
de chaque observation. Ce critère est malheureusement encore assez
coûteux en temps de calcul pour être utilisé en pratique
Une autre variante consiste à détruire plusieurs points en utilisant un
estimateur de ``leave-several-out'' dans la définition du critère CV.
L'introduction d'une fonction pénalisante X dans l'estimateur naïf de l'EQE permet également d'obtenir un critère de Score sur la base
duquel est estimée la fenêtre. Härdle [46] (pp.155-167) nous
donne une étude comparative sur un échantillon, de différentes
fonctions pénalisantes.
D'autres méthodes sont exposées dans la revue sur ce sujet réalisée
par Vieu [87], parmi lesquelles les méthodes de Bootstrap semblent
également particulièrement prometteuses (voir également Härdle [46]).
3.6 Conclusion
Nous avons exposé dans ce chapitre quelques unes des méthodes
d'estimation fonctionnelle de la régression. Ces méthodes permettent
l'étude des modèles de régression en l'absence de forme fonctionnelle
prédéfinie, et en l'absence de spécification de la loi des résidus.
Cette liberté dans la spécification (ou plutôt dans l'absence de
spécification) des modèles de régression n'est cependant pas exempte
de règles. La sélection du paramètre de lissage, dans chacune de ces
méthodes est soumis à des contraintes et les règles de sélection
pratiques de ce paramètre sont encore à l'étude.
Une autre contrainte nous est donnée par l'inexistence d'un estimateur
sans biais de la régression montré par Collomb [17], il en
résulte une approche asymptotique nécessitant un nombre important
d'observations. Ce point est aggravé par la perte d'une vitesse de
convergence ``paramétrique'' (en n), montré par Stone
[83] ; la convergence non-paramétrique étant plus lente, ces
méthodes exigent un plus grand nombre de données.
Nous avons choisi de développer plus particulièrement la méthode du
noyau pour de simples raisons : cette méthode est la plus développée
à ce jour, et les propriétés des estimateurs sont maintenant bien
connues. En outre elle bénéficie d'une abondante littérature sur des
problèmes théoriques et appliqués. Enfin, une procédure d'estimation
de la fenêtre est possible dans le cadre de cette méthode. Cette
procédure est entièrement guidée par les données et présente donc
un caractère ``objectif'' particulièrement appréciable dans le
cadre de comparaison de modèles. Nous utiliserons cette méthode (et
cette procédure) pour l'estimation des fonctions de régression dans le
chapitre suivant.
3.7 Annexe au chapitre 3
Notations
Les ``petits-o'' et les ``grands-O'', que l'on trouve couramment dans la
littérature sont rappelés de manière précise ici. Ces symboles ont
été introduits par Landau pour simplifier les relations entre
quantités (stochastiques ou non) de même Ordre de grandeur, ou d'un ordre de grandeur inférieur asymptotiquement. Nous nous servirons de ces
notations dans les démonstrations à venir.
Définition 3.4
: Si f et g sont deux fonctions réelles de la variable entière n,
alors la notation f(n)=o( g(n)) signifie que :
Il est important de noter que g(n) peut avoir n'importe quel comportement
lorsque n® ¥ , en particulier la notation f(n)=o(
1) signifie simplement que la suite f(n)® 0 lorsque n® ¥ .
Définition 3.5
: Si f et g sont deux fonctions réelles de la variable entière n,
alors la notation f(n)=O( g(n)) signifie qu'il existe une
constante K>0, indépendante de n, et un entier N tels que :
Ceci signifie donc que f et g ont le ``même ordre de
grandeur''6
De même, des relations liant les ordres de grandeur de quantités
stochastiques sont exprimées par les célèbres ``petits-op''et
``grands-Op'' définis comme suit.
Définition 3.6
: Si an est une suite de variables aléatoires et g est une fonction
réelle de la variable entière n, alors la notation an=op(
g(n)) signifie que :
De manière similaire, la notation an=Op( g(n)) signifie
que il existe une constante K>0, telle que " >0, $ un entier N tel que :
Pr |
æ ç ç è |
|
½ ½ ½ ½ |
|
|
½ ½ ½ ½ |
>K |
ö ÷ ÷ ø |
< ,
" n>N |
|
Démonstration du théorème 3.5 :
Classiquement, nous écrivons la différence ( fn(x)-f(x)) sous la forme :
Nous pouvons simplifier l'écriture en multipliant les deux membres par
l'estimateur j (x), nous obtenons ainsi la décomposition
de ( fn(x)-f(x)) · j (x) :
|
= |
|
|
( |
Yi-f(xi) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
|
+ |
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
-E |
é ê ê ë |
|
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
|
|
+ E |
é ê ê ë |
|
|
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
|
|
=q1(x)+q2(x)+q3(x) |
|
Comme mentionné plus haut, les trois termes ont des comportements
asymptotiques différents, que nous analyserons séparément en trois
parties :
Premier terme :nhnp· q1(x)¾® d N( 0,s 2(x)j (x)ò
K2( z) dz)
Nous pouvons écrire n· hnp· q1(x) sous une
forme permettant d'appliquer le théorème central limite de Lyapunov,
voir Serfling [79] :
avec vn,i(x)=1/hnp· ui K( Xi-x/hn) , où ui=( Yi-f(xi)
On a alors
-
E[ vn,i(x)] =0
- Comportement de E[ vn,i(x)2]
|
|
= |
|
ó õ ui2K2 |
æ ç ç è |
|
|
ö ÷ ÷ ø |
j (xi,yi) dxidyi |
|
|
|
|
= |
|
ó õ ui2K2 |
æ ç ç è |
|
|
ö ÷ ÷ ø |
j
(yi| xi)j (xi) dxidyi |
|
|
|
|
= |
|
ó õ s 2(xi)K2 |
æ ç ç è |
|
|
ö ÷ ÷ ø |
j (xi) dxi |
|
|
Le changement de variable z=x-xi/hn nous donne,
E |
[ |
vn,i(x)2 |
] |
= |
ó õ s 2(x-zhn)K2 |
( |
z |
) |
j (x-zhn) dz
|
La fonction s 2(x)j (x) étant continue et uniformément
bornée, le théorème de la convergence bornée (voir par exemple
Metivier [63]) s'applique :
E |
[ |
vn,i(x)2 |
] |
= |
ó õ s 2(x-zhn)K2 |
( |
z |
) |
j (x-zhn) dz |
|
s
2(x)j (x) |
ó õ K2 |
( |
z |
) |
dz
|
Ce terme détermine la variance asymptotique de n· hnp·
q1(x).
-
Nous devons nous assurer du comportement de :
|
|
E |
é ê ê ë |
|
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
ù ú ú û |
= |
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
E |
é ê ê ê ê ê ë |
|
| |
ui |
| |
|
½ ½ ½ ½ |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
½ ½ ½ ½ |
|
hn-p |
ù ú ú ú ú ú û |
par la même technique :
|
|
= |
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
ó õ |
s |
|
(x-zhni)j (x-zhn) |
| |
K |
( |
z |
) |
| |
|
dz |
|
|
|
|
=Op |
æ ç ç è |
|
|
ö ÷ ÷ ø |
|
|
0 pour d >0 |
|
|
Le théorème central limite de Lyapounov s'applique donc et,
|
|
|
vn,i(x) |
|
N |
æ è |
0,s 2(x)j (x) |
ó õ K2 |
( |
z |
) |
dz |
ö ø |
ce qui termine l'étude du premier terme .
Deuxième terme :E[ ( nhnp·
q2(x)) 2] ¾® n® ¥ 0
q2(x)= |
|
|
ì í î |
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
-E |
é ê ê ë |
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
ü ý þ |
De même que précédemment,
|
E |
é ê ê ë |
|
( |
nhnp· q2(x) |
) |
|
ù ú ú û |
|
= |
ó õ |
( |
f(x-zhn)-f(x) |
) |
|
j (x-zhn)K2 |
( |
z |
) |
dz |
|
|
|
|
- |
|
ì í î |
ó õ |
( |
f(x-zhn)-f(x) |
) |
j
(x-zhn) K |
( |
z |
) |
dz |
ü ý þ |
|
|
|
|
|
|
|
par convergence bornée.
Troisième terme :nhnp· q3(x)¾® l· b(x)
Nous utiliserons ici la formule de Taylor pour une fonction G(x) deux fois
continûment différentiable, à savoir :
$ l nÎ [ 0,1] tel que
|
G(x)-G(x-zhn) |
|
|
|
|
+ |
|
hn2 z |
|
é ê ê ê ë |
|
|
G(x-l nhn z) |
ù ú ú ú û |
z |
|
|
On a :
|
q3(x) |
= |
|
|
E |
é ê ê ë |
|
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
ù ú ú û |
|
|
|
|
= |
|
ó õ |
( |
f(xi)-f(x) |
) |
K |
æ ç ç è |
|
|
ö ÷ ÷ ø |
j (xi)dxi |
|
|
En opérant le même changement de variable que
précédemment,
q3 |
(x)= |
ó õ |
( |
f(x-zhn)-f(x) |
) |
K |
( |
z |
) |
j (x-zhn)dz
|
nous pouvons ajouter et retrancher ( f(x)j (x)) aux deux
membres
|
q3(x) |
= |
ó õ |
( |
f(x-zhn)j (x-zhn)-f(x)j
(x) |
) |
K |
( |
z |
) |
dz |
|
|
|
|
- |
ó õ |
( |
j (x-zhn)-j (x) |
) |
f(x)K |
( |
z |
) |
dz |
|
|
En appliquant la formule de Taylor aux fonctions deux fois différentiables
f(x)j (x) et j (x):
|
q3(x) |
=-hn |
ó õ |
z |
|
|
[ |
f(x)j (x) |
] |
K |
( |
z |
) |
dz |
|
|
|
|
+ |
|
hn2 |
ó õ |
z |
|
é ê ê ê ë |
|
|
f(x-l n· zhn)j (x-l nhn·
z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
|
|
+ hnf(x) |
ó õ |
z |
|
|
[ |
j
(x) |
] |
K |
( |
z |
) |
dz |
|
|
|
|
- |
|
hn2f(x) |
ó õ |
z |
|
é ê ê ê ë |
|
|
j (x-l nhn· z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
soit encore,
|
q3(x) |
=- hn |
|
[ |
f(x)j
(x) |
] |
ó õ |
z |
|
K |
( |
z |
) |
dz |
|
|
|
|
+ |
|
hn2 |
ó õ |
z |
|
é ê ê ê ë |
|
|
f(x-l n· zhn)j (x-l nhn· z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
|
|
+ hnf(x) |
|
[ |
j (x) |
] |
ó õ |
z |
|
K |
( |
z |
) |
dz |
|
|
|
|
- |
|
hn2f(x) |
ó õ |
z |
|
é ê ê ê ë |
|
|
j (x-l nhn· z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
Le noyau K est d'ordre 2, donc ò z K( z) dz=0
et l'on pose :
et donc,
|
q3(x) |
= |
|
hn2 |
ó õ |
z |
|
é ê ê ê ë |
|
|
f(x-l n· zhn)j
(x-l nhn· z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
|
|
- |
|
hn2 f(x) |
ó õ |
z |
|
é ê ê ê ë |
|
|
j (x-l nhn· z) |
ù ú ú ú û |
z K |
( |
z |
) |
dz |
|
|
Les dérivées des fonctions f(x)j (x) et j (x) sont
bornées ce qui permet d'appliquer une nouvelle fois le théorème de la
convergence bornée :
|
hn-2 · q3(x) |
¾® |
|
ó õ |
z |
|
z K |
( |
z |
) |
dz· |
é ê ê ê ë |
|
|
f(x)j (x) |
ù ú ú ú û |
|
|
|
|
|
|
- |
|
f(x) |
ó õ |
z |
|
z K |
( |
z |
) |
dz· |
é ê ê ê ë |
|
|
j (x) |
ù ú ú ú û |
|
|
|
|
|
|
= |
|
Tr |
ì ï í ï î |
X · |
é ê ê ê ë |
|
|
f(x)j (x) |
ù ú ú ú û |
ü ï ý ï þ |
- |
|
Tr |
ì ï í ï î |
X · f(x) |
é ê ê ê ë |
|
|
j (x) |
ù ú ú ú û |
ü ï ý ï þ |
|
|
|
|
|
|
=b(x) |
|
c'est-à-dire que nhnp· q3(x)¾®
l· b(x).
L'addition des trois termes nous donne le résultat.
- 1
- C'est à cette technique que le paramètre de lissage doit le terme usuel
de fenêtre.
- 2
- L'estimateur à noyau de la régression est ainsi solution de (3.1) lorsque :
y |
( |
Wi,a n,x,f |
) |
= |
( |
Yi-f(x) |
) |
|
- 3
- Il existe bien d'autres critères et nous ne citons ici que les plus ``populaires'', voir Härdle [46] , Härdle et Marron [50] ou
Marron [64].
- 4
- Cette fonction de poids est généralement introduite dans ces
définitions pour compenser les problèmes d'estimation lorsque la
densité des régresseurs devient faible (``Effets de bord''). Les
conditions sur cette fonction sont donc liées à la densité inconnue j (x), nécessitant une information supplémentaire sur cette
densité.
- 5
- Une fonction g est Hölder continue s'il existe des constantes positives M
et x , telles que :
|
| |
g(x)-g(t) |
| |
£ M· |
\| |
x-t |
\| |
|
- 6
- Cette définition n'exclut pas la possible nullité de ce rapport,
l'expression ``de même ordre que'' peut être trompeuse.
Chapter 4 Procédures paramétriques et non-paramétriques
4.1 Introduction
La notion d'enveloppement introduite par Mizon et Richard [66], et
développée dans la première partie, est ici élargie à l'étude de
modèles de régression ``libres'' de toute forme prédéfinie.
Cette étude nous amènera à considérer des modèles de régression
munis d'estimateurs non-paramétriques, définis dans le chapitre
précédent, ainsi que des modèles paramétriques standards.
Nous proposerons différents tests concernant l'enveloppement d'un modèle
de régression M2 basé sur la variable Z, par un modèle M1 ayant pour variable conditionnante X, nous plaçant alors
principalement dans un cadre de régresseurs non-emboîtés.
Il est important de distinguer les modèles linéaires qui répondent à
une modélisation particulière, des modèles libres de toute forme
fonctionnelle sur lesquels on opère une approximation linéaire. En
effet, l'opérateur de projection dans un espace L2 nous donne une
approximation linéaire d'un modèle de régression, indépendamment de
la linéarité du modèle lui-même.
Nous utiliserons section (4.2) différents opérateurs de
projection afin de retrouver les résultats de Mizon et Richard [66]
dans un contexte plus général.
Le point clé de notre analyse repose sur l'indépendance des choix de
régresseurs vis-à-vis du choix de la forme des modèles de
régressions. Autrement formulé ce problème pose la question suivante :
``L'exclusion de la variable Z dans le modèle M1 est elle
robuste au choix de la forme fonctionnelle des modèles de régression ? ''
Nous proposerons différents tests concernant l'enveloppement d'un modèle
M2 par un modèle M1 en étudiant les spécifications
paramétriques et non-paramétriques pour chacun des modèles. Quatre
situations se présentent et seront notées conformément à la table
4.1.
|
Modèle M2 |
Modèle |
|
Paramétrique |
Non-paramétrique |
M1 |
Paramétrique |
PP |
PN |
|
Non-paramétrique |
NP |
NN |
Table 4.1: Les 4 cas
Pour chacune de ces situations, nous proposerons section 4.3 une
statistique de test d'enveloppement permettant de répondre à cette
question.
4.2 Notations et modèles
Nous définissons tout d'abord les observations comme étant n
réalisations indépendantes du vecteur aléatoire S=(Y,X,Z) et
notées (Si)i=1,... ,n où YiÎ Â , XiÎ Â p et ZiÎ Â q. Essentiellement les variables X et Z représentent les
variables exogènes associées aux modèles M1 et M2
respectivement.
Formellement, nous supposerons que Si=(Yi,Xi,Zi)i=1,... ,n
constitue un processus centré, iid, de carré intégrable défini sur
l'espace probabilisé ( W , A, P0) . Il est
caractérisé par la densité inconnue j (Si) par rapport à la
mesure de Lebesgue sur  p+q+1. La probabilité P0 est
évidemment inconnue et nous limiterons notre attention à l'étude de
paramètres ou de fonctions définies à partir de P0.
Les composantes de (Xi,Zi) sont supposées linéairement
indépendantes. Cette dernière hypothèse peut être relâchée, et
les vecteurs Xi et Zi pourront éventuellement être imbriqués,
dans ce cas la densité j sera considérée par rapport à la
mesure de Lebesgue sur un sous-espace de  p+q+1, nous ne
détaillerons toutefois pas ce cas.
Nous utiliserons les notations f,g et r pour représenter les
espérances conditionnelles suivantes, dont les définitions sont
conformes à celles données section (2.2.1) :
Il est important de reconnaître que les approximations linéaires
peuvent être utilisées sans que les fonctions de régression ne soient
elles-mêmes linéaires. Nous noterons L(· | · ) les
projections définies comme suit :
Définition 4.1
(Projections dans L2)
La projection de Yi sur le sous espace engendré par les Xi est1 :
L(Yi| Xi)=b |
|
Xi avec b = |
æ ç ç è |
E |
é ê ê ë |
XiX |
|
ù ú ú û |
ö ÷ ÷ ø |
|
E |
[ |
XiYi |
] |
Le vecteur de paramètre b est alors une fonction à valeur dans  p de la densité inconnue j ( · ) , et donc de
P0.
On définit de même la projection sur les Zi par :
L(Yi| Zi)=g |
|
Zi avec g = |
æ ç ç è |
E |
é ê ê ë |
ZiZ |
|
ù ú ú û |
ö ÷ ÷ ø |
|
E |
[ |
ZiYi |
] |
et la projection sur l'espace engendré par (Xi,Zi),
L(Yi| Xi,Zi)=a |
|
Wi avec a = |
æ ç ç è |
E |
é ê ê ë |
WiW |
|
ù ú ú û |
ö ÷ ÷ ø |
|
E |
[ |
WiYi |
] |
où Wi est une base de l'espace engendré par (Xi,Zi). Nous
supposerons par la suite que Wi =(Xi,Zi), Xi et Zi
étant strictement non-emboîtés.
4.2.1 Hypothèses
Le processus Si=(Yi,Xi,Zi)i=1,... ,n étant de carré
intégrable, les fonctions f,g et r sont elles-mêmes de carré
intégrable sur l'espace probabilisé ( W , A, P0) .
Les conditions de régularité suivantes sont supposées pour ces
fonctions :
Hypothèse 4.1
(Version continue des fonctions de régression).
Il existe une version continue des fonctions f,g et r ainsi que des
densités, densités marginales et conditionnelles (représentées par
la même fonction j ).
Cette hypothèse sera maintenue tout au long de ce travail.
Nous chercherons à valider le modèle M1, qui sera le modèle
``enveloppant'', en utilisant le modèle ``à envelopper'' M2. Le modèle M1 est basé sur l'exclusion de la
variable Z, et pourra présenter deux aspects différents suivant
l'hypothèse d'exclusion de cette variable.
Hypothèse 4.2
:
L'exclusion de la variable Z du modèle M1 peut être
considérée par deux hypothèses distinctes :
H1 : E |
[ |
Y| X,Z |
] |
=E |
[ |
Y| X |
] |
,
|
ce qui correspond à une hypothèse d'indépendance de l'espérance
conditionnelle, ou par l'hypothèse :
H2 : L |
[ |
Y| X,Z |
] |
=L |
[ |
Y| X |
] |
,
|
qui est une condition d'orthogonalité conditionnelle (ou d'indépendance
linéaire).
Comme nous l'avons déjà mentionné H2 ne signifie pas que la
fonction de régression est linéaire. La linéarité de cette fonction
correspond à une troisième hypothèse :
H3 : E |
[ |
Y| X,Z |
] |
=L |
[ |
Y| X,Z |
] |
Nous utiliserons également, mais plus rarement, une dernière hypothèse
concernant le carré de Y :
H4 : E |
[ |
Y2| X,Z |
] |
=E |
[ |
Y2| X |
] |
Remarques :
Quelques propriétés simples découlent de la combinaison des
hypothèses précédentes :
-
- Le couple d'hypothèses ( H1, H4) implique
l'égalité des variances conditionnelles :
V(Y| X,Z)=V(Y| X)
- - Le couple ( H2, H4) entraîne l'égalité des
variances des ``résidus linéaires'' :
E |
é ê ê ë |
|
( |
Y-L |
( |
Y| X |
) |
) |
|
| X,Z |
ù ú ú û |
=E |
é ê ê ë |
|
( |
Y-L |
( |
Y| X |
) |
) |
|
| X |
ù ú ú û |
De manière évidente, si S est normalement distribué alors H3 est vérifié et l'hypothèse H2 est équivalente à H1.
4.2.2 Modèles
Dans une optique non-paramétrique, le modèle M1 ``libre'' sera
caractérisé par les hypothèses H1 ou ( H1, H4) , tandis que la linéarité (paramétrique) sera caractérisée
par ( H2, H4) ou ( H2, H3, H4) , ces
deux dernières combinaisons correspondant respectivement à la
linéarité faible ou forte2.
Le modèle rival M2 sera construit avec la variable Z comme
unique régresseur, nous considérerons également une version linéaire
et une version ``libre'' de ce modèle.
Un troisième modèle M est également d'intérêt, c'est le
modèle emboîtant M1 et M2 construit sur les
régresseurs Wi.
Dans l'optique de M1, ou de son propriétaire, ces modèles ne
présentent qu'un intérêt limité, puisque M2 est vu comme
un modèle mal-spécifié et M comme un sur-modèle. Ces deux
modèles seront les instruments de la construction de tests d'enveloppement
bâtis en vue de valider le modèle M1.
Afin de rester cohérent avec notre notion de modèle définie dans la
section 1.7, ces modèles sont associés à des
estimateurs. Les régressions linéaires seront estimées classiquement
par l'estimateur des moindres carrés, les modèles ``libres'' seront
estimés non-paramétriquement par la méthode du noyau de convolution.
Nous obtiendrons donc des estimateurs paramétriques et des estimateurs
fonctionnels pour chacun de ces modèles.
Considérons tout d'abord la version linéaire de M1.
Un estimateur naturel de b défini en (4.1) est :
Les estimateurs correspondants pour g dans M2 et pour a dans le modèle emboîtant M sont :
et,
Les estimateurs non-paramétriques des fonctions de régression f,g et r sont les estimateurs du noyau de convolution conformes à la
définition de la section (3.3), à savoir :
de même,
et
Remarque :
-
De manière abusive, les noyaux intervenant dans ces expressions
sont tous représentés par la même lettre K, alors qu'ils sont
fondamentalement différents, pour des raisons de dimension notamment.
- Les fenêtres sont, elles aussi, distinctes, hn est la fenêtre
associée à l'estimateur fn(x), et kn celle associée
à gn(z). Les vitesses de convergence de ces fenêtres seront
ajustées à la dimension des régresseurs X et Z respectivement.
- Nous avons construit l'estimateur rn conformément aux
estimateurs fn et gn , utilisant les fenêtres hn et kn, en vue de simplifier sa définition. Cette construction est
purement ad hoc et pourrait être améliorée.
Nous supposerons que les conditions sur les vitesses de convergence des
fenêtres données par l'hypothèse 3.3 seront vérifiées
pour chacune de ces deux fenêtres, ce que nous poserons sous la forme de
l'hypothèse suivante :
Hypothèse 4.3
(Conditions minimales sur les fenêtres) :
Les fenêtres hn et kn vérifient les conditions de convergence
et
Ces conditions permettent aux estimateurs fn, gn
et rn d'être convergents dans leurs modèles respectifs
(voir section 3.4).
Nous pouvons énoncer les premiers résultats de convergence de ces
estimateurs.
Théorème 4.1
Sous H1 et sous l'hypothèse 4.3, on a :
|
|
i) |
|
fn(x) |
|
f(x) |
" x |
|
|
|
|
|
|
|
|
ii) |
|
gn(z) |
|
|
" z |
|
|
|
|
|
|
|
|
iii) |
|
rn(x,z) |
|
f(x) |
|
et |
|
|
|
|
|
|
|
iv) |
|
g |
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
[ |
Z· f |
] |
|
|
Preuve3 :
Ce résultat découle directement du corollaire 3.2, qui nous
assure de la convergence en probabilité de l'estimateur du noyau de
convolution. Sous l'hypothèse 4.3, on a
|
fn(x) |
|
|
|
|
|
gn(z) |
|
|
|
|
|
rn(x,z) |
|
E |
[ |
Y|
X=x, Z=z |
] |
=r(x,z) |
|
|
Or sous l'hypothèse H1:
r(x,z)=E |
[ |
Y| X=x, Z=z |
] |
=E |
[ |
Y| X=x |
] |
=f(x)
|
et
|
|
=E |
[ |
E |
[ |
Y| X=x,Z=z |
] |
|
Z=z |
] |
|
|
|
|
=E |
[ |
E |
[ |
Y| X=x |
] |
| Z=z |
] |
|
|
|
|
|
|
De plus l'estimateur g vérifie :
|
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
[ |
ZY |
] |
|
|
|
|
= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
[ |
Z· E |
[ |
Y| X |
] |
] |
|
|
|
|
= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
[ |
Z· f |
] |
|
|
Ce qui montre le dernier point.
Un résultat semblable est obtenu si l'on considère l'hypothèse
d'indépendance linéaire, pour l'exclusion de la variable Z du modèle
M1.
Théorème 4.2
Sous les hypothèses ( H2, H3) ,
on a :
|
i) |
|
b |
|
b |
|
|
|
|
|
ii) |
|
g |
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ë |
Z· |
X |
|
ù û |
· b |
|
|
|
|
|
|
iii) |
|
a |
|
|
|
Si de plus l'hypothèse 4.3 est vérifiée, alors :
Preuve :
L'estimateur b vérifie clairement :
|
|
æ è |
E |
é ë |
XX |
|
ù û |
ö ø |
|
E |
é ë |
X· |
Y |
|
ù û |
|
|
|
|
=b |
|
Tandis que sous H2 et H3 l'estimateur g
voit son comportement asymptotique modifié puisque :
|
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ë |
Z· |
Y |
|
ù û |
|
|
|
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ê ê ë |
Z· L |
[ |
Y| X,Z |
] |
|
ù ú ú û |
|
|
Sous l'hypothèse H2, L[ Y| X,Z] =L[ Y|
X] , d'ou :
|
|
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ê ê ë |
Z· L |
[ |
Y|
X,Z |
] |
|
ù ú ú û |
|
|
|
|
= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ê ê ë |
Z· L |
[ |
Y| X |
] |
|
ù ú ú û |
|
|
|
|
= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ë |
Z· |
X |
|
ù û |
· b |
|
|
L'hypothèse 4.3 nous assure de la consistance de l'estimateur gn(z) nous avons donc :
|
|
|
" z |
|
|
|
|
=E |
[ |
E |
[ |
Y| X,Z |
] |
| Z=z |
] |
|
" z |
|
L'hypohèse de linéarité H3 nous donne :
E |
[ |
E |
[ |
Y| X,Z |
] |
| Z=z |
] |
=E |
[ |
L |
[ |
Y|
X,Z |
] |
| Z=z |
] |
d'ou, sous l'hypothèse H2 maintenue
Ce qui montre le dernier point.
Les limites des estimateurs b et fn sous M1 ne dépendent pas de la distribution sous-jacente P0
des variables conditionnantes. Par contre les limites sous M1 des
estimateurs du modèle M2 (qui est mal-spécifié pour M1) dépendent crucialement de cette distribution.
Cette dépendance disparaît lorsque le modèle rival emboîte le
modèle M1, ce qui est le cas de M. En effet les points (iii) des théorèmes 4.1 et 4.2 donnent les pseudo
vraies valeurs associées à rn et à a
indépendamment de la distribution des variables conditionnantes X et Z.
Ces résultats nous permettent de définir les pseudo-vraies valeurs
associées aux estimateurs g et gn.
4.2.3 Pseudo-vraies valeurs
Aux quatre situations possibles correspondent quatre pseudo-vraies valeurs. Conformément à la définition donnée section 1.7, les
pseudo-vraies valeurs sont définies à partir des plim des
estimateurs associés au modèle M2 données par les
théorèmes 4.1 et 4.2. Ces pseudo- vraies valeurs
lient les ``espaces paramétriques'' attachés aux modèles M1 et M2. Ce terme est ici pris au sens large puisque ces ``espaces paramétriques'' pourront être fonctionnels. Les espaces Q f et Q g représenterons les espaces de fonctions
associés aux modèles M1 et M2 lorsque ceux ci sont
estimés non-paramétriquement, tandis que Q b Ì Â
p et Q gÌ Â q représenterons les espaces
associés aux estimateurs b et g
respectivement.
Définition 4.2
(Pseudo-vraies valeurs sous H1) :
La pseudo-vraie valeur G associée à l'estimateur g sous H1 est :
|
G |
: |
|
Q f |
¾® |
|
|
|
|
|
|
|
|
|
|
f |
¾® |
G (f)= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
[ |
Z· f(X) |
] |
|
|
De même on définit la pseudo-vraie valeur G associée à
l'estimateur gn sous H1 par :
Il faut noter que lorsque l'estimateur paramétrique g
est associé à M2, la pseudo-vraie valeur G (f) est elle
même paramétrique, elle sera d'ailleurs estimée de manière classique
par G (f). Dans le cadre non-paramétrique G(f)(z) est
une fonction de la variable z qui sera estimée par la même méthode
que g(z).
Deux autres pseudo-vraies valeurs sont également déduites du
théorème 4.2, dans le cas où le modèle M1 est
linéaire, conformément à l'hypothèse H2.
Définition 4.3
(Pseudo-vraies valeurs sous H2) :
La pseudo-vraie valeur G L associée à l'estimateur g sous H2 est :
|
G L |
: |
|
|
¾® |
|
|
|
|
|
|
|
|
|
|
b |
¾® |
G L(b )= |
æ è |
E |
é ë |
ZZ |
|
ù û |
ö ø |
|
E |
é ë |
Z· |
X |
|
ù û |
·
b |
|
|
De même on définit la pseudo-vraie valeur GL associée à
l'estimateur gn sous ( H2 , H3)
par :
|
GL |
: |
|
|
¾® |
Q g |
|
|
|
|
|
|
|
|
|
b |
¾® |
GL(b )(z)=b |
|
·
E |
[ |
X| Z=z |
] |
|
|
La nature des pseudo-vraies valeurs est conditionnée par la nature du
paramètre associé à M2. Les pseudo-vraies valeurs G et GL
sont ainsi à valeur dans l'espace fonctionnel Q g, tandis que G L et GL sont à valeur dans Q gÌ Â q.
Ces fonctions sont toutes linéaires en leurs arguments, que ceux-ci soient
des vecteurs ou des fonctions. Elle peuvent s'interpréter également
comme des projections entre espaces de vecteurs ou de fonctions.
Les pseudo-vraies valeurs introduites dans les définitions 4.2 et
4.3 sont théoriques puisque dépendantes du processus P0, elles doivent donc être estimées.
Les estimateurs paramétriques et non-paramétriques suivants seront
utilisés pour l'estimation des pseudo-vraies valeurs.
Définition 4.4
(Estimation des pseudo-vraies valeurs) :
|
i) |
|
G (f)= |
æ ç ç è |
|
|
ZiZ |
|
ö ÷ ÷ ø |
-1 |
|
Zi· f(X) |
|
|
|
|
|
ii) |
|
G(f)(z)= |
|
|
|
|
|
iii) |
|
G L(b )= |
æ ç ç è |
|
|
ZiZ |
|
ö ÷ ÷ ø |
|
|
æ ç ç ç è |
ZiX |
|
ö ÷ ÷ ÷ ø |
b |
|
|
|
|
|
iv) |
|
GL(f)(z)= |
|
|
En appliquant les mêmes arguments que ceux utilisés dans les
théorèmes 4.1 et 4.2, on montre que ces estimateurs G (f), G(f), G L et GL(f) sont des estimateurs convergents de G (f), G(f), G L
et GL(f) respectivement.
Remarque :
Nous avons considéré l'estimation sans imposer aucune contrainte sur le
processus P0. Il existe toutefois des situations pour lesquelles
ce processus est contraint. Bien que ces situations dépassent le cadre de
notre étude nous discutons brièvement de telles situations sur deux
exemples.
Une première restriction abordée en introduction, concerne la présence
de variables communes aux deux modèles. Soit par exemple Xi=(Xi*,x
i) et Zi=(Zi*,x i). Dans ce cas les définitions 4.2 et
4.3 des pseudo-vraies valeurs restent valides, en particulier la
pseudo-vraie valeur G de la définition 4.2 s'écrit :
G(f)(z)= |
ó õ f(X)j (X*| Z,x ) dX
|
et est estimée de manière consistante par G(f)
conformément à la définition 4.4.
Un deuxième exemple est tiré de Govaert et alii [43], dans le
cadre dynamique où deux modèles autorégressifs sont proposés :
|
|
|
M1 |
: |
|
Yi=f(Yi-1)+ui |
et |
|
|
|
|
|
|
|
M2 |
: |
|
Yi=g(Yi-2)+vi |
|
où : f(Yi-1)=E[ Yi| Y0,... ,Yi-1]
Un estimateur non-paramétrique de g est :
Si le processus est ergodique alors g converge vers la
pseudo-vraie valeur :
G(f)= |
ó õ f |
( |
Yi-1 |
) |
j |
( |
Yi-1| Yi-2 |
) |
dYi-1=E |
[ |
Yi| Yi-2 |
] |
Le calcul d'une matrice de covariance asymptotique pour la statistique
définie sur la base de la différence ( g(y)-G(f)(y)) (telles que les statistiques définies ci-dessous), doit
tenir compte des restrictions que comporte le processus P0. Nous
ne discuterons pas davantage ces cas qui compliquent l'étude, laissant le
lecteur intéressé se reporter à Govaert et alii pour une discussion
générale sur l'enveloppement dans un contexte dynamique.
4.3 Statistiques d'enveloppement
Nous proposons de définir les différentes statistiques d'enveloppement
de M2 par M1, en considérant une spécification
paramétrique ou non-paramétrique pour chacun des deux modèles.
Dans chacune des quatre situations décrites par la table 4.1, la
procédure de test d'enveloppement que nous construirons sera la même :
nous évaluerons asymptotiquement la différence entre un estimateur de M2 et un estimateur de la pseudo-vraie valeur.
Il s'agira en fait de la différence entre deux estimateurs de M2, l'un réalisant l'estimation ``conventionelle'' de M2
(paramétrique ou non-paramétrique), l'autre estimant M2 dans
la croyance que M1 est le ``vrai'' modèle. Cette différence,
une fois normalisée, converge dans tous les cas vers une loi normale
centrée, de laquelle nous tirerons une statistique distribuée
asymptotiquement suivant une combinaison linéaire de lois c 2.
Nous rappellerons tout d'abord les résultats paramétriques (PP)
énoncés chapitre 2 et obtenus par Mizon et Richard [66], puis nous
examinerons le cas complètement non-paramétrique (NN) enfin deux cas ``mixtes'' nous permettront de confronter modèles paramétriques et
non-paramétriques (cas PN et NP). Les preuves complètes de chacun des
résultats sont proposées en annexe, les principes de ces
démonstrations seront toutefois exposés à la fin de chaque
théorème.
Dans cette section nous supposerons l'homoscédasticité des résidus
soit,
Hypothèse 4.4
(Homoscédasticité des résidus) :
Sous M1, Var[ Y| X,Z] =s 2 , inconnue.
4.3.1 Enveloppement paramétrique (PP)
M1 et M2 sont deux modèles linéaires basés sur les
Xi et Zi respectivement. La statistique d'enveloppement est basée
sur la différence entre g et G L(b ) l'estimateur de la pseudo-vraie valeur en b
, soit :
Nous avons le résultat suivant :
Théorème 4.3 :
Sous H2 et H3, et sous l'hypothèse 4.4 :
i) |
|
n·d_b,g |