Enveloppement dans les modèles de régression paramétriques et
non-paramétriques
Christophe Bontemps
20 Décembre 1994
Résumé
Le travail présenté dans cette thèse apporte une contribution aux recherches en cours sur la notion d'enveloppement dans les modèles de régression. L'idée principale qui sous-tend ce principe est de ne retenir un modèle que s'il peut incorporer ou expliquer les résultats d'un modèle concurrent. La validation s'opère alors par comparaison des résultats obtenus avec ceux d'un autre modèle.
Le concept d'enveloppement exact est tout d'abord défini, il repose sur l'existence d'une fonction reliant les estimateurs des deux modèles. L'étude des pseudo-vraies valeurs dans le second modèle nous permet de définir l'enveloppement approché. Nous proposons alors des statistiques d'enveloppement bâties sur la différence entre un estimateur du second modèle et un estimateur de la pseudo-vraie valeur. L'étude asymptotique de ces statistiques, une fois normalisées, nous permet de tester la validation du modèle enveloppant.
La notion d'enveloppement approché est ensuite appliquée au cadre de régresseurs non-emboîtés. Les tests paramétriques d'enveloppement sont présentés et reliés aux tests classiques de choix de régresseurs.
Les résultats obtenus dans le cadre paramétrique sont ensuite étendus par l'utilisation des techniques d'estimation non-paramétrique de la régression. Quatre statistiques (paramétriques ou fonctionnelles) sont proposées en combinant les spécifications paramétriques et non-paramétriques pour chacun des deux modèles en présence. Nous montrons que chacune de ces statistiques est asymptotiquement distribuée suivant une loi normale centrée. Les choix de fenêtres intervenant dans ces résultats sont étudiés et la pseudo-vraie fenêtre attachée à l'estimation de la pseudo-vraie valeur est définie.
Enfin, dans le cadre de deux modèles non-paramétriques, nous proposons un critère global d'enveloppement dont le comportement asymptotique est analysé.
Mots Clés
Enveloppement, Régression, Estimation non-paramétrique, Pseudo-vraies valeurs.
Introduction
``As a research tactic, encompassing provides a basis for model
comparisons, as well as integrating a large and diverse literature covering
nested and non-nested hypothesis tests''
David F. Hendry et Jean-François Richard (1986)
Une des plus importantes activités scientifiques a été, et est
toujours, la comparaison de théories et de modèles. Il est en effet
extrêmement rare qu'un phénomène soit expliqué complètement par
une théorie unique faisant l'unanimité. L'histoire des sciences
connaît de nombreux exemples de luttes entre partisans de théories
contradictoires, le temps seul parvenant à désigner les vainqueurs. De
nos jours, si une théorie est acceptée comme utile et potentiellement
durable, il est important de la confronter avec la réalité
d'expériences, ou de données, ce qui est le rôle de la statistique.
Toutefois une des faiblesses de cette discipline est qu'elle ne s'est
intéressée que récemment à la validation de théories. Les études
statistiques en économie, par exemple, mènent souvent à des situations
conflictuelles, les conclusions s'opposant les unes aux autres, sans donner
de méthode effective pour décider quelle théorie adopter. L'idée
qu'une théorie nouvelle doit apporter un progrès dans la
connaissance d'un phénomène est évidemment mise en avant, ce progrès
est souvent jugé par sa capacité à expliquer des éléments que les
autres théories, plus anciennes, n'expliquent pas. Toutefois, il semble
stratégiquement important de s'assurer de la capacité d'une nouvelle
théorie à expliquer également ce que les autres théories
expliquaient déjà.
L'idée qu'une théorie doit être capable d'incorporer les résultats
obtenus par des théories concurrentes, bien qu'adoptée implicitement par
de nombreux scientifiques, n'a été formalisée que récemment en
statistique sous le terme de ``principe d'enveloppement''1, au
travers des travaux de Florens, Hendry, Mizon et Richard, d'une part (voir
Mizon [65], Mizon et Richard [66] et Hendry et Richard [54]), et de ceux de Gourieroux, Monfort et Trognon, d'autre part (voir
Gourieroux et Monfort[38] et [39] ainsi que Gourieroux, Monfort
et Trognon [42]) . L'extension de ces travaux au cadre bayésien,
relié à la notion de spécificité (voir Florens, Hendry et Richard
[31]), présente une vision unificatrice de cette notion,
l'enveloppement bayésien présentant les mêmes caractéristiques que
l'enveloppement classique. L'apport de Gourieroux, Monfort et Trognon [42] dans un contexte dynamique a permis l'introduction d'une procédure
opérationnelle d'information indirecte [40]. L'ensemble de ces
auteurs préconise également l'emploi de tests basés sur ce principe,
et plus particulièrement Hendry [53].
L'étude de l'enveloppement est l'objet du premier chapitre, où nous
discuterons des définitions exactes formalisant ce principe, toutefois une
brève discussion informelle clarifie l'analyse.
Quel est le ``vrai '' modèle ?
Lorsque l'on parle de choix de modèles on est souvent amené
à supposer qu'il existe un ``vrai '' modèle ayant engendré les
données. Bien qu'inconnu et d'une complexité telle que sa connaissance
exacte ne peut être envisagée, ce processus de génération des
données fait l'objet d'hypothèses plus ou moins précises : il peut
être spécifié paramétriquement ou non-paramétriquement, il peut
appartenir à l'un des modèles ou être extérieur , il peut être
dynamique ou pas, stationnaire ou non, etc... Conformément à Florens,
Hendry et Richard [31], nous définirons séparément le ``processus de génération des données'' et les ``modèles''.
Le processus de génération des données est le mécanisme
inconnu dont sont issues les observations, conceptuellement, c'est un
élément P0 d'une classe de probabilités P={
Pq,q Î Q 0} sur l'espace mesurable (W , A). Q 0 est l'espace paramétrique indexant P, il
peut éventuellement être fonctionnel et, tout comme P, ne sera
pas explicitement spécifié. P peut être défini de manière
très large, par exemple comme l'ensemble des lois de probabilités
admettant leurs 2 premiers moments.
Par ``modèle M '' nous entendrons le couple
constitué d'un modèle d'estimation d'un paramètre d'intérêt, d Î Q d, (Q d étant typiquement de
dimension inférieure à celle de Q 0, pourra également être
fonctionnel), et d'un estimateur. Il faudrait donc noter ( M,d ), au lieu de M, toutefois, après avoir levé toute
ambiguïté , nous ignorerons cette notation.
On cherche à confronter un modèle ( M1,b ) avec un modèle rival ( M2,g ) , où b et g sont deux
estimateurs convergents des paramètres b et g
respectivement, appartenant aux espaces paramétiques, ou fonctionnels Q b et Q g ; ces deux espaces pouvant avoir des
dimensions différentes.
Le modèle M1 enveloppe le modèle M2 s'il existe une
``fonction de lien'', G permettant de retrouver g à partir de b , c'est-à-dire, telle que l'on
puisse retrouver les résultats de M2 par ceux de M1.
Dans ce contexte d'enveloppement, l'approche de Gourieroux et Monfort [39] présente l'originalité de supposer le processus de génération
des données extérieur aux modèles en présence. Cette étude propose
ainsi le problème de choix entre deux modèles, deux approximations du
vrai modèle, de manière symétrique, aucun des deux modèles n'ayant
de rôle privilégié. L'enveloppement est alors envisagé dans un sens ( M1 enveloppe M2) comme dans l'autre ( M2
enveloppe M1), les deux sens n'étant pas forcément
incompatibles.
Un autre point de vue est de considérer l'un des deux modèles comme un
favori que l'on cherche à confronter avec un autre modèle, l'intérêt
est alors la validation de ce modèle plutôt que du choix pur entre
modèles concurrents2. Dans des
situations pratiques, où les modèles sont inévitablement
mal-spécifiés, il est souvent plus informatif d'analyser les forces et
faiblesses respectives de chacun, que de chercher à sélectionner l'un
des modèles. De même, le fait qu'un modèle M1 n'enveloppe
pas un concurrent M2, indique que ce dernier incorpore des
caractéristiques spécifiques qui n'ont pas été prises en compte par M1. Au lieu de rejeter simplement un tel modèle, cette
faiblesse peut être exploitée plus constructivement, en incorporant les
caractéristiques pertinentes relevées par M2 et ainsi
améliorer la connaissance du phénomène étudié, c'est-à-dire
progresser. Nous suivrons Hendry et Richard [54] dans cette voie, où
l'enveloppement relève plus de la comparaison de modèles que du choix de modèles.
Enveloppement exact ou approché ?
L'enveloppement (``exact''), tel que nous venons de le définir,
n'est, en général, pas vérifié. Dans ce cas, il est toutefois
possible de mesurer le défaut d'enveloppement de M2 par M1. Il nous faut pour cela introduire de manière plus précise
la correspondance liant les résultats de M1 avec ceux de M2.
L'utilisation du critère d'information de Kulback-Leibler [57](KLIC),
dans un contexte de maximum de vraisemblance, permet de définir une telle
correspondance entre Q b et Q g. Dans la lignée
de Sawa [77], la pseudo-vraie valeur est définie comme
l'élément (s'il existe) minimisant le KLIC. Cette définition, qui
figure également chez White [90] ou Gourieroux, Monfort et
Trognon [42], semble avoir été introduite (implicitement) dans
l'oeuvre de Cox [21] et [22] relative aux tests d'hypothèses
non-emboîtées, ainsi que dans les travaux de Huber [55].
La différence entre l'estimateur g et la pseudo-vraie
valeur, ou un estimateur de celle-ci, permet une mesure du défaut
d'enveloppement exact, et définit l'enveloppement approché. Celui-ci
sera réalisé lorsque cette différence, ou une fonction de cette
différence, sera nulle, presque sûrement ou asymptotiquement.
De même, dans un contexte bayésien, l'enveloppement exact basé sur
l'existence d'une correspondance entre les a posteriori des deux
modélisateurs, ne sera que rarement vérifié. Un concept de
spécificité sera défini afin de mesurer le défaut d'enveloppement
qui s'exprimera comme une ``distance incompressible'' entre modèles.
La pseudo-vraie valeur bayésienne sera elle aussi définie comme
réalisant le minimum de la spécificité entre les modèles.
Dans la pratique (qu'elle soit classique ou bayésienne), l'enveloppement
se jugera sur l'enveloppement approché. Ainsi les différents tests
analysés dans le chapitre 2, seront basés sur la recherche de
la nullité du défaut d'enveloppement exact, c'est à dire sur
l'enveloppement approché. La littérature économétrique s'est
d'ailleurs principalement concentrée sur cette définition plus
opérationnelle.
Classique ou bayésien ?
Les modèles bayésiens se distinguent des modèles classiques en
incorporant une densité à priori sur les paramètres, ce qui
représente une extension des modèles classiques à un cadre où l'on
dispose d'un ensemble d'information plus vaste. Le but de l'apprentissage
bayésien est alors de passer de l'a priori sur le paramètre, à l'a posteriori (conditionnel à l'échantillon), par
l'utilisation judicieuse de la règle de Bayes sur la loi jointe à
l'échantillon et au paramètre. L'intérêt du modèle reposant sur
cet a posteriori, il est alors naturel de baser la notion
d'enveloppement, en tant que comparaison de modèles, sur l'étude des
a posteriori de chacun des modèles.
Il est remarquable que la notion d'enveloppement s'étende aussi
naturellement au cadre bayésien. En effet, la définition de
l'enveloppement d'un modèle par un autre y est pratiquement la même, les
estimateurs classiques proposés informellement ici seront remplacés par
des densités a posteriori, la fonction de lien G devant
être remplacée par une probabilité de transition.
En fait, dans un contexte probabiliste que nous ne détaillerons pas ici,
le concept de probabilité de transition réunit les deux approches
classique et bayésienne.
La principale difficulté de cette généralisation de l'enveloppement
consiste en la recherche de la probabilité de transition donnant la
pseudo-vraie valeur bayésienne (voir section 1.4). La complexité
des calculs de celle-ci pose un réel problème d'estimation. Cette
difficulté peut être contournée par l'utilisation de techniques de
simulation, comme l'échantillonneur de Gibbs, (voir Bouoiyour [13])
, ou par des techniques d'approximation qui permettent un calcul
opérationnel (voir Florens, Hendry et Richard [31]).
Malheureusement, ces procédures ne sont encore définies que pour des cas
particuliers (voir Florens, Larribeau et Mouchart [33]).
Asymptotique ou fini ?
La propriété d'enveloppement est essentiellement une propriété de
``petit échantillon'', typiquement cette notion trouve sa place naturelle
dans un contexte bayésien c'est-à-dire appliqué à des échantillons
finis. Cependant, l'approche asymptotique sera privilégiée dans ce
travail. Tout d'abord, pour être opérationnelle, la propriété
d'enveloppement doit pouvoir être testée. Ces tests qui ont été
élaborés dans la littérature sur les problèmes de spécification
sont majoritairement asymptotiques (voir Hausman [52] et White [91] entre autres). Il est donc nécessaire d'effectuer un minimum de
théorie asymptotique afin de déterminer les lois des statistiques de
test intervenant dans ce contexte. D'autre part, le calcul des pseudo-vraies
valeurs est souvent simplifié asymptotiquement. Gouriéroux, Monfort et
Trognon [42] proposent cependant des procédures de test basées sur
des pseudo-vraies valeurs finies. Ces auteurs mettent en avant l'importance
de ces pseudo-vraies valeurs finies dans des modèles conditionnels, et
décrivent également les cas particuliers où celles-ci coïncident
avec les pseudo-vraies valeurs asymptotiques. Dans l'optique du chapitre 4
où nous traiterons de modèles (et donc d'estimateurs) fonctionnels,
l'approche asymptotique sera bien évidemment privilégiée.
Emboîtés ou non-emboîtés ?
Dans son article sur le problème général de la sélection de
modèles, Pesaran [70] écrit : ``In many economic
applications the models that we eventually encounter are often non-nested in
the sense that they have separate parametric families and one model cannot
be obtained from the others as a limiting process. Unfortunately, in such
cases the application of the classical likelihood-ratio test procedure will
not be correct and other suitable methods of testing have to be sought''.
Des procédures ont ainsi été examinées par de nombreux auteurs, afin
de réconcilier les modèles non-emboîtés avec les techniques
existantes pour les modèles emboîtés. Cox ([21] et [22]), développe une procédure adaptée du test de rapport de
vraisemblance. Cette méthode est basée sur l'examen, d'une part, des
différences des log-vraisemblances empiriques, d'autre part la même
différence est évaluée en supposant que M1 est ``vrai''
(voir Pesaran [70]).
Une des idées à été d'utiliser un ``sur-modèle'' emboîtant
artificiellement les modèles concurrents. Cependant l'issue de ces
procédures n'est pas satisfaisante puisque les deux modèles peuvent
être simultanément acceptés ou rejetés, un autre problème est la
forte collinéarité pouvant exister entre les variables explicatives
intervenant dans le sur-modèle. Atkinson [4], reprend également
l'idée d'un sur-modèle dont la densité est proportionnelle à une
moyenne géométrique des densités des modèles concurrents. Davidson
et Mac Kinnon [24], proposent un sur-modèle additif et contournent
l'obstacle de l'estimation séparée des paramètres des modèles et du
paramètre liant les modèles (l ) en séquançant la
procédure de test. On calcule d'abord les résidus issus de l'estimation
de M2 que l'on reporte ensuite dans le sur-modèle où l'on
peut alors tester de la nullité (ou l'égalité à 1) de l ,
(voir section 2.1.3).
Hendry et Richard [54] notent que le principe d'enveloppement
s'applique, que les modèles soient emboîtés ou non. Heuristiquement,
un sur-modèle Mc emboîtant les modèles M1 et M2, aura la même spécificité que M2 vis-à-vis
du modèle M1 et ne saurait donc apporter aucune aide à la
décision . Nous observerons sur un exemple, (exemple 3, section
1.3.1), la situation où M1 enveloppe M2 est
équivalent à M1 enveloppe Mc . Dès lors,
l'enveloppement parcimonieux, (voir section 1.3.1), permet d'envisager
une procédure de réduction des modèles, l'objectif étant de
construire des modèles ``plus simples'' qui présentent la même
capacité à envelopper des modèles ``plus grands''.
Ce travail se veut une contribution aux recherches en cours sur la notion
d'enveloppement dans les modèles de régression. Les comportements
asymptotiques des statistiques mesurant le défaut d'enveloppement sont
maintenant bien connus dans le cadre paramétrique,et seront rappelés
dans le chapitre 2. Notre objectif est d'étendre ces résultats au cadre
de la régression non-paramétrique.
Les techniques d'estimation fonctionnelle de la régression, proposées
chapitre 3, nous permettent en effet, d'envisager une extension de ces
travaux à des modèles autres que linéaires et/ou gaussiens. Dans cette
optique la question centrale que nous aborderons dans ce travail sera :
``Existe t'il des procédures de test d'enveloppement entre modèles de
régression libres de toute forme fonctionnelle ?''
Cette question en appelle d'autres auxquelles nous tenterons de répondre,
dans le chapitre 4, notamment :
Comment se comporte l'estimateur non-paramétrique d'un modèle de
régression M2 sous l'hypothèse que M1 est ``vrai'' ?
Quelle statistique de test globale peut-on envisager pour tester de
l'enveloppement dans ce cadre ?
Quelle en est la perte en terme de vitesse de convergence par rapport au cas
paramétrique ?
Nous nous efforcerons de répondre à ces questions par les procédures
développées dans le quatrième chapitre.
Nous chercherons également à comparer par enveloppement procédures
paramétriques et non-paramétriques. Nous étudierons 4 cas en combinant
les spécifications paramétriques et fonctionnelles pour chacun des deux
modèles en présence. Cette étude nous poussera à étudier de
manière précise les choix arbitraires qui peuvent être faits dans la
sélection des estimateurs de chacun des modèles. Ces choix, et
particulièrement ceux des fenêtres, peuvent influer sur les critères
nécessairement objectifs de comparaison de modèles, et seront mis en
évidence. Les simulations conduites et proposées dans le chapitre 5
viendront étayer nos résultats.
Enfin et surtout, nous proposerons un critère global d'enveloppement dont
la distribution asymptotique sera caractérisée. Ce critère convergera
vers ce que nous appellerons ``une loi normale fuyante'',
c'est-à-dire qu'un terme résiduel croissant s'ajoutera au terme donnant
la normalité asymptotique dans notre critère. Cette caractéristique,
propre au cadre non-paramétrique, nous indique que notre approche
asymptotique comporte des faiblesses. Ces faiblesses pourraient être
compensées dans le futur par l'utilisation de techniques de Bootstrap.
- 1
- mot que nous choisissons pour la traduction de ''encompassing''
- 2
- Cette vision directionnelle correspond à l'idée de confronter une
théorie nouvelle à une théorie déjà éprouvée
This document was translated from LATEX by
HEVEA.