1,721,031 research outputs found

    A semi-parametric empirical likelihood approach for conditional estimating equations under endogenous selection: empirical likelihood approach for conditional estimating equations

    No full text
    The estimation and inference for conditional estimating equations models with endogenous selection, are considered. The approach takes into account possible endogenous selection which may lead to a selection bias. It can be used for a wide range of statistical models not covered by the model-based sampling theory. Endogeneity can be either part of the selection or within the covariates. It is particularly well suited for models with unknown heteroscedasticity, uncontrolled confounders and measurement errors. It will not be necessary to model the relationship between the endogenous covariates and the instrumental variables, which offer major advantages over two-stage least-squares. The approach proposed has the advantage of being based on a fixed number of constraints determined by the size of the parameter

    Some contributions to the statistical inference in models defined by conditional estimating equations

    No full text
    Dans cette thèse, nous étudions des modèles définis par des équations de moments conditionnels. Une grande partie de modèles statistiques (régressions, régressions quantiles, modèles de transformations, modèles à variables instrumentales, etc.) peuvent se définir sous cette forme. Nous nous intéressons au cas des modèles avec un paramètre à estimer de dimension finie, ainsi qu’au cas des modèles semi paramétriques nécessitant l’estimation d’un paramètre de dimension finie et d’un paramètre de dimension infinie. Dans la classe des modèles semi paramétriques étudiés, nous nous concentrons sur les modèles à direction révélatrice unique qui réalisent un compromis entre une modélisation paramétrique simple et précise, mais trop rigide et donc exposée à une erreur de modèle, et l’estimation non paramétrique, très flexible mais souffrant du fléau de la dimension. En particulier, nous étudions ces modèles semi paramétriques en présence de censure aléatoire. Le fil conducteur de notre étude est un contraste sous la forme d’une U-statistique, qui permet d’estimer les paramètres inconnus dans des modèles généraux.In this dissertation we study statistical models defined by condition estimating equations. Many statistical models could be stated under this form (mean regression, quantile regression, transformation models, instrumental variable models, etc.). We consider models with finite dimensional unknown parameter, as well as semiparametric models involving an additional infinite dimensional parameter. In the latter case, we focus on single-index models that realize an appealing compromise between parametric specifications, simple and leading to accurate estimates, but too restrictive and likely misspecified, and the nonparametric approaches, flexible but suffering from the curse of dimensionality. In particular, we study the single-index models in the presence of random censoring. The guiding line of our study is a U-statistics which allows to estimate the unknown parameters in a wide spectrum of models

    Contribution to statistical analysis of functional data

    No full text
    Dans cette thèse, nous nous intéressons aux données fonctionnelles. La généralisation du modèle linéaire généralisé fonctionnel au modèle défini par des équations estimantes est étudiée. Nous obtenons un théorème du type théorème de la limite centrale pour l'estimateur considéré. Les instruments optimaux sont estimés, et nous obtenons une convergence uniforme des estimateurs. Nous nous intéressons ensuite à différents tests en données fonctionnelles. Il s'agit de tests non-paramétriques pour étudier l'effet d'une covariable aléatoire fonctionnelle sur un terme d'erreur, qui peut être directement observé comme une réponse ou estimé à partir d'un modèle fonctionnel comme le modèle linéaire fonctionnel. Nous avons prouvé, pour pouvoir mettre en oeuvre les différents tests, un résultat de réduction de la dimension qui s'appuie sur des projections de la covariable fonctionnelle. Nous construisons des tests de non-effet et d'adéquation en utilisant soit un lissage par un noyau, soit un lissage par les plus proches voisins. Un test d'adéquation dans le modèle linéaire fonctionnel est proposé. Tous ces tests sont étudiés d'un point de vue théorique et pratique.In this thesis, we are interested in the functional data. The problem of estimation in a model of estimating equations is studying. We derive a central limit type theorem for the considered estimator. The optimal instruments are estimated, and we obtain a uniform convergence of the estimators. We are then interested in various testing with functional data. We study the problem of nonparametric testing for the effect of a random functional covariate on an error term which could be directly observed as a response or estimated from a functional model like for instance the functional linear model. We proved, in order to construct the tests, a result of dimension reduction which relies on projections of the functional covariate. We have constructed no-effect tests by using a kernel smoothing or a nearest neighbor smoothing. A goodness-of-fit test in the functional linear model is also proposed. All these tests are studied from a theoretical and practical perspective

    Essays in Econometrics with focus on smooth minimum distance inference

    Full text link
    This thesis consists of three self-contained essays in econometrics and statistics. It discusses methodological topics in semiparametric statistics as well as dynamic panel data models. In chapters 1 and 2 the smooth minimum distance (SmoothMD) approach is considered in the context of a partially linear model. The motivation for the SmoothMD estimator is that models nonlinear in parameters that are based on conditional moment restrictions can render inconsistent parameter estimates when the generalized method of moments (GMM) is used for estimation. The reason is that the conditional moment restrictions, that identify the model, imply an infinite number of unconditional moment restrictions if the conditioning variables have a support with infinite cardinality. GMM relies only on a finite number of instruments and, thus, might lead to inconsistent estimates. Therefore, there have recently been proposed several approaches that account for conditional equations at the outset to obtain more efficient estimators. All these approaches share a common feature. The sensitivity to user-chosen parameters, that remains largely unknown. This is one key motivation for the SmoothMD estimator. In chapter 3 dynamic panel data models with individual fixed effects are considered. The transformed maximum likelihood approach of Hasio et al. is compared to the factor analytical approach proposed by Bai. This is interesting as the first approach considers the model in differences whereas the latter approach focuses on the model in levels. In addition, the factor analytical approach is extended to models with additional exogenous covariates

    Of nonparametric testing in regression

    No full text
    Dans cette thèse, nous étudions des tests du type : (H0) : E [U | X] = 0 p.s. contre (H1) : P {E [U | X] = 0} < 1 où U est le résidu de la modélisation d'une variable Y en fonction de X. Dans ce cadre et pour plusieurs cas particuliers – significativité de variables, régression quantile, données fonctionnelles, modèle single-index –, nous proposons une statistique de test permettant d'obtenir des valeurs critiques issues d'une loi asymptotique pivotale. Dans chaque cas, nous donnons également une méthode de bootstrap appropriée pour les échantillons de petite taille. Nous montrons la consistance envers des alternatives locales – ou à la Pitman – des tests proposés, lorsque ce type d'alternative ne tend pas trop vite vers l'hypothèse nulle. À chaque fois, nous vérifions à partir de simulations sous l'hypothèse nulle et sous une séquence d'hypothèses alternatives que les résultats théoriques sont en accord avec la pratique.In this thesis, we study test statistics of the form : (H0) : E [U | X] = 0 p.s. contre (H1) : P {E [U | X] = 0} < 1 where U is the residual of some Y modeling with respect to covariates X. In this setup and for several particular cases – significance, quantile regression, functional data, single-index model –, we introduce test statistics that have pivotal asymptotic critical values. For each case, we also give a suitable bootstrap procedure for small samples. We prove the consistency against local – or Pitman – alternatives for the proposed test statistics, when such an alternative does not get close to the null hypothesis too fast. Simulation studies are used to check the effectiveness of the theoretical results in applications

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Scoring for credit risk : polytomous response variable, variable selection, dimension reduction, applications

    No full text
    Le but de cette thèse était d'explorer la thématique du scoring dans le cadre de son utilisation dans le monde bancaire, et plus particulièrement pour contrôler le risque de crédit. En effet, la diversification et la globalisation des activités bancaires dans la deuxième moitié du XXe siècle ont conduit à l'instauration d'un certain nombre de régulations, afin de pouvoir s'assurer que les établissements bancaires disposent de capitaux nécessaires à couvrir le risque qu'ils prennent. Cette régulation impose ainsi la modélisation de certains indicateurs de risque, dont la probabilité de défaut, qui est pour un prêt en particulier la probabilité que le client se retrouve dans l'impossibilité de rembourser la somme qu'il doit. La modélisation de cet indicateur passe par la définition d'une variable d'intérêt appelée critère de risque, dénotant les "bons payeurs" et les "mauvais payeurs". Retranscrit dans un cadre statistique plus formel, cela signifie que nous cherchons à modéliser une variable à valeurs dans {0,1} par un ensemble de variables explicatives. Cette problématique est en pratique traitée comme une question de scoring. Le scoring consiste en la définition de fonction, appelées fonctions de score, qui retransmettent l'information contenue dans l'ensemble des variables explicatives dans une note de score réelle. L'objectif d'une telle fonction sera de donner sur les individus le même ordonnancement que la probabilité a posteriori du modèle, de manière à ce que les individus ayant une forte probabilité d'être "bons" aient une note élevée, et inversement que les individus ayant une forte probabilité d'être "mauvais" (et donc un risque fort pour la banque) aient une note faible. Des critères de performance tels que la courbe ROC et l'AUC ont été définis, permettant de quantifier à quel point l'ordonnancement produit par la fonction de score est pertinent. La méthode de référence pour obtenir des fonctions de score est la régression logistique, que nous présentons ici. Une problématique majeure dans le scoring pour le risque de crédit est celle de la sélection de variables. En effet, les banques disposent de larges bases de données recensant toutes les informations dont elles disposent sur leurs clients, aussi bien sociodémographiques que comportementales, et toutes ne permettent pas d'expliquer le critère de risque. Afin d'aborder ce sujet, nous avons choisi de considérer la technique du Lasso, reposant sur l'application d'une contrainte sur les coefficients, de manière à fixer les valeurs des coefficients les moins significatifs à zéro. Nous avons envisagé cette méthode dans le cadre des régressions linéaires et logistiques, ainsi qu'une extension appelée Group Lasso, permettant de considérer les variables explicatives par groupes. Nous avons ensuite considéré le cas où la variable réponse n'est plus binaire, mais polytomique, c'est-à-dire avec plusieurs niveaux de réponse possibles. La première étape a été de présenter une définition du scoring équivalente à celle présentée précédemment dans le cas binaire. Nous avons ensuite présenté différentes méthodes de régression adaptées à ce nouveau cas d'étude : une généralisation de la régression logistique binaire, des méthodes semi-paramétriques, ainsi qu'une application à la régression logistique polytomique du principe du Lasso. Enfin, le dernier chapitre est consacré à l'application de certaines des méthodes évoquées dans le manuscrit sur des jeux de données réelles, permettant de les confronter aux besoins réels de l'entreprise.The objective of this thesis was to explore the subject of scoring in the banking world, and more precisely to study how to control credit risk. The diversification and globalization of the banking business in the second half of the twentieth century led to introduce regulations, which require banks to make reserves to cover the risk they take. These regulations also dictate that they should model different risk indicators, among which the probability of default. This indicator represents the probability for a client to find himself in the incapacity to pay back his debt. In order to predict this probability, one should define a risk criterion, that allows to distinguish the "bad clients" from the "good clients". In a more formal statistical approach, that means we want to model a binary variable by an ensemble of explanatory variables. This problem is usually treated as a scoring problem. It consists in the definition of functions, called scoring functions, which interpret the information contained in the explanatory variables and transform it into a real-value score note. The goal of such a function is to induce the same order on the observations than the a posteriori probability, so that the observations that have a high probability to be "good" have a high score, and those that have a high probability to be "bad" (and thus a high risk for the bank) have a low score. Performance criteria such as the ROC curve and the AUC allow us to quantify the quality of the order given by the scoring function. The reference method to obtain such scoring functions is the logistic regression, which we present here. A major subject in credit scoring is the variable selection. The banks have access to large databases, which gather information on the profile of their clients and their past behavior. However, those variables may not all be discriminating regarding the risk criterion. In order to select the variables, we proposed to use the Lasso method, based on the restriction of the coefficients of the model, so that the less significative coefficients will be fixed to zero. We applied the Lasso method on linear regression and logistic regression. We also considered an extension of the Lasso method called Group Lasso on logistic regression, which allows us to select groups of variables rather than individual variables. Then, we considered the case in which the response variable is not binary, but polytomous, that is to say with more than two response levels. The first step in this new context was to extend the scoring problem as we knew in the binary case to the polytomous case. We then presented some models adapted to this case: an extension of the binary logistic regression, semi-parametric methods, and an application of the Lasso method on the polytomous logistic regression. Finally, the last chapter deals with some application studies, in which the methods presented in this manuscript are applied to real data from the bank, to see how they meet the needs of the real world

    Semiparametric regression models with applications to scoring: A review

    No full text
    International audienc

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
    corecore