Enveloppement dans les modèles de régression paramétriques et non-paramétriques

Christophe Bontemps

20 Décembre 1994

Résumé

Le travail présenté dans cette thèse apporte une contribution aux recherches en cours sur la notion d'enveloppement dans les modèles de régression. L'idée principale qui sous-tend ce principe est de ne retenir un modèle que s'il peut incorporer ou expliquer les résultats d'un modèle concurrent. La validation s'opère alors par comparaison des résultats obtenus avec ceux d'un autre modèle.

Le concept d'enveloppement exact est tout d'abord défini, il repose sur l'existence d'une fonction reliant les estimateurs des deux modèles. L'étude des pseudo-vraies valeurs dans le second modèle nous permet de définir l'enveloppement approché. Nous proposons alors des statistiques d'enveloppement bâties sur la différence entre un estimateur du second modèle et un estimateur de la pseudo-vraie valeur. L'étude asymptotique de ces statistiques, une fois normalisées, nous permet de tester la validation du modèle enveloppant.

La notion d'enveloppement approché est ensuite appliquée au cadre de régresseurs non-emboîtés. Les tests paramétriques d'enveloppement sont présentés et reliés aux tests classiques de choix de régresseurs.

Les résultats obtenus dans le cadre paramétrique sont ensuite étendus par l'utilisation des techniques d'estimation non-paramétrique de la régression. Quatre statistiques (paramétriques ou fonctionnelles) sont proposées en combinant les spécifications paramétriques et non-paramétriques pour chacun des deux modèles en présence. Nous montrons que chacune de ces statistiques est asymptotiquement distribuée suivant une loi normale centrée. Les choix de fenêtres intervenant dans ces résultats sont étudiés et la pseudo-vraie fenêtre attachée à l'estimation de la pseudo-vraie valeur est définie.

Enfin, dans le cadre de deux modèles non-paramétriques, nous proposons un critère global d'enveloppement dont le comportement asymptotique est analysé.

Mots Clés

Enveloppement, Régression, Estimation non-paramétrique, Pseudo-vraies valeurs.

Introduction

``As a research tactic, encompassing provides a basis for model comparisons, as well as integrating a large and diverse literature covering nested and non-nested hypothesis tests''

David F. Hendry et Jean-François Richard (1986)

Une des plus importantes activités scientifiques a été, et est toujours, la comparaison de théories et de modèles. Il est en effet extrêmement rare qu'un phénomène soit expliqué complètement par une théorie unique faisant l'unanimité. L'histoire des sciences connaît de nombreux exemples de luttes entre partisans de théories contradictoires, le temps seul parvenant à désigner les vainqueurs. De nos jours, si une théorie est acceptée comme utile et potentiellement durable, il est important de la confronter avec la réalité d'expériences, ou de données, ce qui est le rôle de la statistique. Toutefois une des faiblesses de cette discipline est qu'elle ne s'est intéressée que récemment à la validation de théories. Les études statistiques en économie, par exemple, mènent souvent à des situations conflictuelles, les conclusions s'opposant les unes aux autres, sans donner de méthode effective pour décider quelle théorie adopter. L'idée qu'une théorie nouvelle doit apporter un progrès dans la connaissance d'un phénomène est évidemment mise en avant, ce progrès est souvent jugé par sa capacité à expliquer des éléments que les autres théories, plus anciennes, n'expliquent pas. Toutefois, il semble stratégiquement important de s'assurer de la capacité d'une nouvelle théorie à expliquer également ce que les autres théories expliquaient déjà.

L'idée qu'une théorie doit être capable d'incorporer les résultats obtenus par des théories concurrentes, bien qu'adoptée implicitement par de nombreux scientifiques, n'a été formalisée que récemment en statistique sous le terme de ``principe d'enveloppement''¹, au travers des travaux de Florens, Hendry, Mizon et Richard, d'une part (voir Mizon [65], Mizon et Richard [66] et Hendry et Richard [54]), et de ceux de Gourieroux, Monfort et Trognon, d'autre part (voir Gourieroux et Monfort[38] et [39] ainsi que Gourieroux, Monfort et Trognon [42]) . L'extension de ces travaux au cadre bayésien, relié à la notion de spécificité (voir Florens, Hendry et Richard [31]), présente une vision unificatrice de cette notion, l'enveloppement bayésien présentant les mêmes caractéristiques que l'enveloppement classique. L'apport de Gourieroux, Monfort et Trognon [42] dans un contexte dynamique a permis l'introduction d'une procédure opérationnelle d'information indirecte [40]. L'ensemble de ces auteurs préconise également l'emploi de tests basés sur ce principe, et plus particulièrement Hendry [53].

L'étude de l'enveloppement est l'objet du premier chapitre, où nous discuterons des définitions exactes formalisant ce principe, toutefois une brève discussion informelle clarifie l'analyse.

Quel est le ``vrai '' modèle ?

Lorsque l'on parle de choix de modèles on est souvent amené à supposer qu'il existe un ``vrai '' modèle ayant engendré les données. Bien qu'inconnu et d'une complexité telle que sa connaissance exacte ne peut être envisagée, ce processus de génération des données fait l'objet d'hypothèses plus ou moins précises : il peut être spécifié paramétriquement ou non-paramétriquement, il peut appartenir à l'un des modèles ou être extérieur , il peut être dynamique ou pas, stationnaire ou non, etc... Conformément à Florens, Hendry et Richard [31], nous définirons séparément le ``processus de génération des données'' et les ``modèles''.

Le processus de génération des données est le mécanisme inconnu dont sont issues les observations, conceptuellement, c'est un élément P₀ d'une classe de probabilités P={ P_q,q Î Q ₀} sur l'espace mesurable (W , A). Q ₀ est l'espace paramétrique indexant P, il peut éventuellement être fonctionnel et, tout comme P, ne sera pas explicitement spécifié. P peut être défini de manière très large, par exemple comme l'ensemble des lois de probabilités admettant leurs 2 premiers moments.

Par ``modèle M '' nous entendrons le couple constitué d'un modèle d'estimation d'un paramètre d'intérêt, d Î Q _d, (Q _d étant typiquement de dimension inférieure à celle de Q ₀, pourra également être fonctionnel), et d'un estimateur. Il faudrait donc noter ( M,d ), au lieu de M, toutefois, après avoir levé toute ambiguïté , nous ignorerons cette notation.

On cherche à confronter un modèle ( M₁,b ) avec un modèle rival ( M₂,g ) , où b et g sont deux estimateurs convergents des paramètres b et g respectivement, appartenant aux espaces paramétiques, ou fonctionnels Q _b et Q _g ; ces deux espaces pouvant avoir des dimensions différentes.

Le modèle M₁ enveloppe le modèle M₂ s'il existe une ``fonction de lien'', G permettant de retrouver g à partir de b , c'est-à-dire, telle que l'on puisse retrouver les résultats de M₂ par ceux de M₁.

Dans ce contexte d'enveloppement, l'approche de Gourieroux et Monfort [39] présente l'originalité de supposer le processus de génération des données extérieur aux modèles en présence. Cette étude propose ainsi le problème de choix entre deux modèles, deux approximations du vrai modèle, de manière symétrique, aucun des deux modèles n'ayant de rôle privilégié. L'enveloppement est alors envisagé dans un sens ( M₁ enveloppe M₂) comme dans l'autre ( M₂ enveloppe M₁), les deux sens n'étant pas forcément incompatibles.

Un autre point de vue est de considérer l'un des deux modèles comme un favori que l'on cherche à confronter avec un autre modèle, l'intérêt est alors la validation de ce modèle plutôt que du choix pur entre modèles concurrents². Dans des situations pratiques, où les modèles sont inévitablement mal-spécifiés, il est souvent plus informatif d'analyser les forces et faiblesses respectives de chacun, que de chercher à sélectionner l'un des modèles. De même, le fait qu'un modèle M₁ n'enveloppe pas un concurrent M₂, indique que ce dernier incorpore des caractéristiques spécifiques qui n'ont pas été prises en compte par M₁. Au lieu de rejeter simplement un tel modèle, cette faiblesse peut être exploitée plus constructivement, en incorporant les caractéristiques pertinentes relevées par M₂ et ainsi améliorer la connaissance du phénomène étudié, c'est-à-dire progresser. Nous suivrons Hendry et Richard [54] dans cette voie, où l'enveloppement relève plus de la comparaison de modèles que du choix de modèles.

Enveloppement exact ou approché ?

L'enveloppement (``exact''), tel que nous venons de le définir, n'est, en général, pas vérifié. Dans ce cas, il est toutefois possible de mesurer le défaut d'enveloppement de M₂ par M₁. Il nous faut pour cela introduire de manière plus précise la correspondance liant les résultats de M₁ avec ceux de M₂.

L'utilisation du critère d'information de Kulback-Leibler [57](KLIC), dans un contexte de maximum de vraisemblance, permet de définir une telle correspondance entre Q _b et Q _g. Dans la lignée de Sawa [77], la pseudo-vraie valeur est définie comme l'élément (s'il existe) minimisant le KLIC. Cette définition, qui figure également chez White [90] ou Gourieroux, Monfort et Trognon [42], semble avoir été introduite (implicitement) dans l'oeuvre de Cox [21] et [22] relative aux tests d'hypothèses non-emboîtées, ainsi que dans les travaux de Huber [55].

La différence entre l'estimateur g et la pseudo-vraie valeur, ou un estimateur de celle-ci, permet une mesure du défaut d'enveloppement exact, et définit l'enveloppement approché. Celui-ci sera réalisé lorsque cette différence, ou une fonction de cette différence, sera nulle, presque sûrement ou asymptotiquement.

De même, dans un contexte bayésien, l'enveloppement exact basé sur l'existence d'une correspondance entre les a posteriori des deux modélisateurs, ne sera que rarement vérifié. Un concept de spécificité sera défini afin de mesurer le défaut d'enveloppement qui s'exprimera comme une ``distance incompressible'' entre modèles. La pseudo-vraie valeur bayésienne sera elle aussi définie comme réalisant le minimum de la spécificité entre les modèles.

Dans la pratique (qu'elle soit classique ou bayésienne), l'enveloppement se jugera sur l'enveloppement approché. Ainsi les différents tests analysés dans le chapitre 2, seront basés sur la recherche de la nullité du défaut d'enveloppement exact, c'est à dire sur l'enveloppement approché. La littérature économétrique s'est d'ailleurs principalement concentrée sur cette définition plus opérationnelle.

Classique ou bayésien ?

Les modèles bayésiens se distinguent des modèles classiques en incorporant une densité à priori sur les paramètres, ce qui représente une extension des modèles classiques à un cadre où l'on dispose d'un ensemble d'information plus vaste. Le but de l'apprentissage bayésien est alors de passer de l'a priori sur le paramètre, à l'a posteriori (conditionnel à l'échantillon), par l'utilisation judicieuse de la règle de Bayes sur la loi jointe à l'échantillon et au paramètre. L'intérêt du modèle reposant sur cet a posteriori, il est alors naturel de baser la notion d'enveloppement, en tant que comparaison de modèles, sur l'étude des a posteriori de chacun des modèles.

Il est remarquable que la notion d'enveloppement s'étende aussi naturellement au cadre bayésien. En effet, la définition de l'enveloppement d'un modèle par un autre y est pratiquement la même, les estimateurs classiques proposés informellement ici seront remplacés par des densités a posteriori, la fonction de lien G devant être remplacée par une probabilité de transition.

En fait, dans un contexte probabiliste que nous ne détaillerons pas ici, le concept de probabilité de transition réunit les deux approches classique et bayésienne.

La principale difficulté de cette généralisation de l'enveloppement consiste en la recherche de la probabilité de transition donnant la pseudo-vraie valeur bayésienne (voir section 1.4). La complexité des calculs de celle-ci pose un réel problème d'estimation. Cette difficulté peut être contournée par l'utilisation de techniques de simulation, comme l'échantillonneur de Gibbs, (voir Bouoiyour [13]) , ou par des techniques d'approximation qui permettent un calcul opérationnel (voir Florens, Hendry et Richard [31]). Malheureusement, ces procédures ne sont encore définies que pour des cas particuliers (voir Florens, Larribeau et Mouchart [33]).

Asymptotique ou fini ?

La propriété d'enveloppement est essentiellement une propriété de ``petit échantillon'', typiquement cette notion trouve sa place naturelle dans un contexte bayésien c'est-à-dire appliqué à des échantillons finis. Cependant, l'approche asymptotique sera privilégiée dans ce travail. Tout d'abord, pour être opérationnelle, la propriété d'enveloppement doit pouvoir être testée. Ces tests qui ont été élaborés dans la littérature sur les problèmes de spécification sont majoritairement asymptotiques (voir Hausman [52] et White [91] entre autres). Il est donc nécessaire d'effectuer un minimum de théorie asymptotique afin de déterminer les lois des statistiques de test intervenant dans ce contexte. D'autre part, le calcul des pseudo-vraies valeurs est souvent simplifié asymptotiquement. Gouriéroux, Monfort et Trognon [42] proposent cependant des procédures de test basées sur des pseudo-vraies valeurs finies. Ces auteurs mettent en avant l'importance de ces pseudo-vraies valeurs finies dans des modèles conditionnels, et décrivent également les cas particuliers où celles-ci coïncident avec les pseudo-vraies valeurs asymptotiques. Dans l'optique du chapitre 4 où nous traiterons de modèles (et donc d'estimateurs) fonctionnels, l'approche asymptotique sera bien évidemment privilégiée.

Emboîtés ou non-emboîtés ?

Dans son article sur le problème général de la sélection de modèles, Pesaran [70] écrit : ``In many economic applications the models that we eventually encounter are often non-nested in the sense that they have separate parametric families and one model cannot be obtained from the others as a limiting process. Unfortunately, in such cases the application of the classical likelihood-ratio test procedure will not be correct and other suitable methods of testing have to be sought''. Des procédures ont ainsi été examinées par de nombreux auteurs, afin de réconcilier les modèles non-emboîtés avec les techniques existantes pour les modèles emboîtés. Cox ([21] et [22]), développe une procédure adaptée du test de rapport de vraisemblance. Cette méthode est basée sur l'examen, d'une part, des différences des log-vraisemblances empiriques, d'autre part la même différence est évaluée en supposant que M₁ est ``vrai'' (voir Pesaran [70]).

Une des idées à été d'utiliser un ``sur-modèle'' emboîtant artificiellement les modèles concurrents. Cependant l'issue de ces procédures n'est pas satisfaisante puisque les deux modèles peuvent être simultanément acceptés ou rejetés, un autre problème est la forte collinéarité pouvant exister entre les variables explicatives intervenant dans le sur-modèle. Atkinson [4], reprend également l'idée d'un sur-modèle dont la densité est proportionnelle à une moyenne géométrique des densités des modèles concurrents. Davidson et Mac Kinnon [24], proposent un sur-modèle additif et contournent l'obstacle de l'estimation séparée des paramètres des modèles et du paramètre liant les modèles (l ) en séquançant la procédure de test. On calcule d'abord les résidus issus de l'estimation de M₂ que l'on reporte ensuite dans le sur-modèle où l'on peut alors tester de la nullité (ou l'égalité à 1) de l , (voir section 2.1.3).

Hendry et Richard [54] notent que le principe d'enveloppement s'applique, que les modèles soient emboîtés ou non. Heuristiquement, un sur-modèle M_c emboîtant les modèles M₁ et M₂, aura la même spécificité que M₂ vis-à-vis du modèle M₁ et ne saurait donc apporter aucune aide à la décision . Nous observerons sur un exemple, (exemple 3, section 1.3.1), la situation où M₁ enveloppe M₂ est équivalent à M₁ enveloppe M_c . Dès lors, l'enveloppement parcimonieux, (voir section 1.3.1), permet d'envisager une procédure de réduction des modèles, l'objectif étant de construire des modèles ``plus simples'' qui présentent la même capacité à envelopper des modèles ``plus grands''.

Ce travail se veut une contribution aux recherches en cours sur la notion d'enveloppement dans les modèles de régression. Les comportements asymptotiques des statistiques mesurant le défaut d'enveloppement sont maintenant bien connus dans le cadre paramétrique,et seront rappelés dans le chapitre 2. Notre objectif est d'étendre ces résultats au cadre de la régression non-paramétrique.

Les techniques d'estimation fonctionnelle de la régression, proposées chapitre 3, nous permettent en effet, d'envisager une extension de ces travaux à des modèles autres que linéaires et/ou gaussiens. Dans cette optique la question centrale que nous aborderons dans ce travail sera :

``Existe t'il des procédures de test d'enveloppement entre modèles de régression libres de toute forme fonctionnelle ?''

Cette question en appelle d'autres auxquelles nous tenterons de répondre, dans le chapitre 4, notamment :

Comment se comporte l'estimateur non-paramétrique d'un modèle de régression M₂ sous l'hypothèse que M₁ est ``vrai'' ?

Quelle statistique de test globale peut-on envisager pour tester de l'enveloppement dans ce cadre ?

Quelle en est la perte en terme de vitesse de convergence par rapport au cas paramétrique ?

Nous nous efforcerons de répondre à ces questions par les procédures développées dans le quatrième chapitre.

Nous chercherons également à comparer par enveloppement procédures paramétriques et non-paramétriques. Nous étudierons 4 cas en combinant les spécifications paramétriques et fonctionnelles pour chacun des deux modèles en présence. Cette étude nous poussera à étudier de manière précise les choix arbitraires qui peuvent être faits dans la sélection des estimateurs de chacun des modèles. Ces choix, et particulièrement ceux des fenêtres, peuvent influer sur les critères nécessairement objectifs de comparaison de modèles, et seront mis en évidence. Les simulations conduites et proposées dans le chapitre 5 viendront étayer nos résultats.

Enfin et surtout, nous proposerons un critère global d'enveloppement dont la distribution asymptotique sera caractérisée. Ce critère convergera vers ce que nous appellerons ``une loi normale fuyante'', c'est-à-dire qu'un terme résiduel croissant s'ajoutera au terme donnant la normalité asymptotique dans notre critère. Cette caractéristique, propre au cadre non-paramétrique, nous indique que notre approche asymptotique comporte des faiblesses. Ces faiblesses pourraient être compensées dans le futur par l'utilisation de techniques de Bootstrap.

1: mot que nous choisissons pour la traduction de ''encompassing''
2: Cette vision directionnelle correspond à l'idée de confronter une théorie nouvelle à une théorie déjà éprouvée

This document was translated from L^AT_EX by H^EV^EA.