Contributions to measures of segregation or polarization and to nonasymptotic inference in linear models - TEL - Thèses en ligne Accéder directement au contenu
Thèse Année : 2021

Contributions to measures of segregation or polarization and to nonasymptotic inference in linear models

Contributions aux mesures de ségrégation ou de polarisation et à l’inférence non-asymptotique dans les modèles linéaires

Résumé

This thesis is divided into two independent parts.The first three chapters deal with measures of segregation or polarization. The notion of segregation/polarization applies to various situations, but the formal modeling remains the same. Suppose that a population of individuals, comprised of a minority and a majority group, is allocated into units or makes choices over a set of options. When studying residential, occupational, or school segregation, units can be neighborhoods, firms, classrooms, and the minority group might be immigrants versus natives. The modeling also encompasses speech polarization, for instance. The US congresspeople are divided into Democrats and Republicans; the units or options are the items of a dictionary of words or phrases, and the speakers choose which words they use. Qualitatively, there is some segregation or polarization if the allocation or choice process leads to a situation where the two groups tend to select distinct units/options. In residential segregation, the minority individuals are concentrated in some units more than in others instead of being uniformly allocated. Regarding speech polarization, the presence of polarization means that Democrats and Republicans tend to use different words or phrases when they speak in Congress. Quantitative measures of segregation/polarization struggle with the so-called ``small-unit bias.''The first chapter presents a Stata command that implements three methods to estimate segregation indices robust to ``the small-unit bias.'' The second applies these methods to quantify residential segregation in France between 1968 and 2019 along various dimensions (nationality, social status, labor market position, proxy of races). Finally, the third chapter studies speech polarization in the US Congress between 1873 and 2016 using transcripts of congressional debates.The second part of this thesis is concerned with constructing nonasymptotic confidence intervals (CIs) for the individual coefficients of a linear regression model. Linear regression models are a ubiquitous method of econometric analyses. The CIs rely on explicit upper bounds on the uniform distance between the cumulative distribution function of a standardized sum of independent centered random variables with moments of order four and its first-order Edgeworth expansion. These bounds are derived in the fourth chapter, which is more technical and closer to statistics and probability than the other chapters. The last and fifth chapter uses these results to construct CIs that, at the same time, are (i) valid for any sample size (ii) without assuming parametric assumption such as the normality of error terms or independence between covariates and error terms (hence, our CIs allow for heteroskedasticity), (iii) have a closed-form expression, and (iv) whose length is asymptotically the same as the usual CI based on the t-statistic; thus our CIs have a coverage equals to the desired nominal level in the limit when the sample size goes to infinity.
Cette thèse se compose de deux parties indépendantes.Les trois premiers chapitres s’intéressent aux mesures de ségrégation ou polarisation. Ces notions s’appliquent à des contextes variés mais partagent une formalisation commune. Une population est divisée en deux groupes exclusifs, un groupe dit minoritaire et un majoritaire, et les individus de ces deux groupes se répartissent entre des unités ou choisissent entre des options. Les unités sont par exemple des aires résidentielles, le groupe minoritaire les individus étrangers et le groupe majoritaire les individus français pour étudier un aspect de la ségrégation résidentielle en France. Cette modélisation permet également d’étudier la polarisation du langage politique en considérant comme unités ou options les entrées d’un dictionnaire et comme groupes minoritaire et majoritaire les parlementaires de différents partis ; ici, les individus choisissent les mots qu’ils utilisent. Qualitativement, il y a de la ségrégation ou polarisation si les deux groupes tendent à choisir systématiquement des options distinctes. En ségrégation résidentielle, les individus du groupe minoritaire sont concentrés dans certaines aires géographiques au lieu d’être répartis uniformément sur le territoire. Dans l’étude du langage politique, certains mots ou expressions seront davantage prononcés par un parti que par un autre. Quantitativement, la mesure de la magnitude de la ségrégation ou polarisation est confrontée au small-unit bias.Le premier chapitre présente un programme Stata qui implémente trois méthodes permettant d’estimer des indices de ségrégation robustes au small-unit bias. Le second applique ces méthodes pour quantifier la ségrégation résidentielle en France entre 1968 et 2019 sur plusieurs dimensions (nationalité, statut social, position sur le marché du travail et proxy de l’ethnicité). Le troisième chapitre utilise les retranscriptions des débats au Congrès américain entre 1873 et 2016 pour étudier la polarisation du langage politique.La deuxième partie s’intéresse à la construction d’intervalles de confiance (IC) non-asymptotiques pour les coefficients des modèles de régression linéaire, un outil classique d’analyse économétrique. Ces intervalles reposent sur des majorations explicites de la distance entre la distribution empirique d’une somme normalisée de variables aléatoires indépendantes centrées admettant des moments d’ordre quatre et son expansion d’Edgeworth de 1er ordre. Ces majorations sont obtenues dans le quatrième chapitre, plus statistique et technique. Le cinquième et dernier chapitre utilise ces dernières pour construire des IC qui sont simultanément (i) valides pour toute taille d’échantillon (ii) sans imposer une distribution paramétrique de type Gaussienne ou l’indépendance entre régresseurs et résidus (et autorisent donc des résidus hétéroscédastiques), (iii) ayant une expression explicite, et (iv) atteignant asymptotiquement la même précision que les IC usuels fondés sur la normalité asymptotique de la statistique de Student.
Fichier principal
Vignette du fichier
95943_GIRARD_2021_archivage.pdf (10.44 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-03555582 , version 1 (03-02-2022)

Identifiants

  • HAL Id : tel-03555582 , version 1

Citer

Lucas Girard. Contributions to measures of segregation or polarization and to nonasymptotic inference in linear models. Economics and Finance. Institut Polytechnique de Paris, 2021. English. ⟨NNT : 2021IPPAG007⟩. ⟨tel-03555582⟩
170 Consultations
93 Téléchargements

Partager

Gmail Facebook X LinkedIn More