1,720,992 research outputs found

    Semi-Parametric Methods for Applications in Survey Data and Geostatistical Data

    No full text
    Classical linear regression models involve relating a response variable as a linear function of one or more covariates. In practice, however, many relationships between a response and a covariate are non-linear. A standard statistical technique to model these kind of relationships are smoothing splines. A spline function consists of polynomials with the polynomial pieces joining at the so-called knots. In this thesis, we make use of penalized splines to deal with problems encountered in applications of survey data and geostatistical data. To fit the penalized splines, the useful property that penalized splines can be cast in a (generalized) linear mixed model is used. This property is based on the connection between the mixed components in a (generalized) linear mixed model and the penalization of the spline coefficients to overcome overfitting. These (generalized) linear mixed models are fit within the likelihood framework. Besides fitting models within the likelihood paradigm, Bayesian approaches are considered in some chapters. In that case, non-linear relationships between a response and a covariate are modelled using random walks which are the stochastic analogue of P-splines of degree zero. In the first part of the thesis, applications on survey datasets are of interest. Statistical surveys are used to collect quantitative information from a specific population. In Chapters 3, 4 and 5, the focus is on a survey for which the sampling design is out of the control of the researcher (a non-probabilistic design). Whereas, in Chapters 6 and 7, the focus is on surveys for which the sampling design is known. To reflect this sampling design survey weights are attached to each observation which represent the probability to be included in the survey. The success of surveys with a non-probabilistic design depends on the representativeness of the sample with respect to the target population of interest. Surveys with a non-probabilistic sampling design are known to produce biased samples and techniques are needed to account for this. The Great Influenza Survey (GIS) is such a survey where who is observed is out of the control of the researcher. The GIS is an online survey, open for everyone, aiming at the surveillance of influenza-like illness (ILI) in the general population. In Chapter 3, we assess the validity of the GIS in Flanders with respect to the representativeness of the survey population and ILI incidence time trends. We observe that the age distribution of the survey population is dissimilar to the age distribution of the general population. Since ILI incidence and age are related we expect that ILI attack rates and incidence rates estimated from the GIS, without correcting for the dissimilar age distribution, are biased. To correct for the difference between the age distribution of the survey sample and the general population post-stratification weights can be calculated. Standard estimates using these post-stratification weights can then be calculated to obtain ILI attack rates and incidence rates, but these estimates are inefficient when highly variable post-stratification weights are present. This problem is the motivation for the statistical methods proposed in Chapters 4 and 5. In these two chapters, we investigate statistical methods that can reduce variability in prevalence and trend estimation of binary survey outcomes when high post-stratification weights are present. In Chapter 4, we describe the weight smoothing model for prevalence estimation. Penalized splines are used in the weight smoothing model to allow for a flexible relationship between the post-stratum means and the post-stratifying variable. Since a prevalence estimate based on the weight smoothing model is not robust against model misspecification, a model-assisted design-based generalized regression estimator is proposed. In the chapter, we also present how appropriate estimates of the variance of the estimators can be obtained. We show in a simulation study that our proposed methods perform the most consistent and robust over all simulation conditions. As an application of the proposed methods, we apply the estimators to the Great Influenza Survey to estimate the ILI attack rate during the 2010-2011 influenza season. Whereas Chapter 4 deals with prevalence estimation from surveys with highly dispersed post-stratification weights, the focus in Chapter 5 is on trend estimation. We extend the ideas developed in Chapter 4 to incorporate a time trend in the weight smoothing model which is modelled through a penalized spline function. In a simulation study, we clearly observe the benefit of the model-assisted design-based generalized regression estimator in the case of model misspecification. Again the GIS is considered as an application, namely ILI incidence rates during the 2010-2011 influenza season are estimated. Surveys with a probabilistic design and thus surveys with accompanying survey weights are of interest in Chapters 6 and 7. More specific, we investigate statistical methods that deal with survey weights in small area estimation. The goal of small area estimation is providing reliable estimates of characteristics such as means and totals for areas or domains for which only small samples or no samples are available. In Chapter 6, an overview of often used models in small area estimation is presented. In Chapter 7, we propose a predictive model-based approach to small area estimation with design weights. As predicting model, a hierarchical Bayesian model is used in which the outcome is regressed on the sampling weight using a random walk. The model also accounts for the spatial structure in the data. To make predictions using the model, the sampling weights themselves are modelled. In a simulation study, we observe that the proposed model-based approach performs at least as well as other methods dealing with survey weights in small area estimation. As an application, asthma prevalences are calculated for the 43 districts in Belgium using the 2001 Health Interview Survey. In the second part of this thesis, statistical methods dealing with the analysis of geostatistical data are of interest. The goal of geostatistics is the production of a (prediction) map of a quantity of interest over particular domain based on, usually noisy, measurements taken at several locations over the domain. In this thesis, only Gaussian geostatistical response data is considered. In Chapter 8 the basics of two geostatistical prediction methods, namely kriging and splines, are described. Both methods, however, suffer from some disadvantages. In kriging, for example, it is not common to take non-linear relationships between the response and a covariate into account. In addition, kriging methods are not capable of accounting for clustered observations or multiple measurements at one location. The main criticism against the use of smoothing splines is the fact that the spatial autocorrelation is not accounted for. These disadvantages are the motivation of Chapter 9 where we propose the concept of K-splines. K-splines are an extension of the geoadditive model such that the spline function estimates the underlying spatial process with similar accuracy and precision as in kriging. Radial basis functions of the form of often used covariance functions are used as spline basis functions. These radial basis functions require a choice for the spatial decay parameter. We propose to estimate this parameter via the likelihood approach. The mixed model presentation of the K-splines enables one to easily take into account other model complexities such as non-linear covariate effects, clustered observations or multiple measurements at one spatial location. In a simulation study, K-splines are compared with kriging and the standard geoadditive model in terms of both the estimation of the underlying process and the prediction of the underlying surface. The results indicate that K-splines perform similar as kriging and outperform the standard geoadditive model in simple geostatistical data cases. In more complex cases, such as non-linear covariate effects or clustered observations, K-splines outperform the other methods. To evaluate K-splines on real-life data examples we apply them on precipitation data and on pollution data of heavy metals in the soil. The proposed methodology of K-splines is still basic and much more developments could be made.In klassieke lineaire regressiemodellen wordt een responsvariabele gemodelleerd als een lineaire functie van ´e´en of meer covariabelen. Echter, in praktijk zijn vele relaties tussen een responsvariabele en een covariabele vaak niet-lineair. Een standaard statistische techniek om dit soort relaties te modelleren is het gebruik van smoothing splines. Een spline functie is een serie van polynomiale functies waarvan de verschillende polynomialen aan elkaar worden gekoppeld bij de zogenoemde knopen. In deze thesis maken we gebruik van gepenaliseerde splines om enkele problemen met toepassingen in enquˆetedata en geostatistische data aan te pakken. Om deze gepenaliseerde splines te fitten maken we gebruik van de eigenschap dat gepenaliseerde splines gefit kunnen worden door ze te schrijven als een (gegeneraliseerd) lineair gemengd model. Deze eigenschap gebruikt de connectie tussen de gemengde componenten in een (gegeneraliseerd) lineair gemengd model en het penaliseren van de spline co¨effici¨enten om overfitten van de data te voorkomen. De bekomen (gegeneraliseerde) lineair gemengde modellen worden gefit binnen het likelihood kader. Naast het fitten van modellen in dit kader, maken we ook gebruik van het Bayesiaanse kader in enkele hoofdstukken. Binnen dit kader worden niet-lineaire relaties tussen een responsvariabele en een covariabele gemodelleerd door middel van toevalsbewegingen omdat deze laatste de stochastische evenknie zijn van gepenaliseerde splines van graad nul. In het eerste deel van deze thesis staan de toepassingen op enquˆetedata centraal. Enquˆetes worden gebruikt om kwantitatieve gegevens over een bepaalde populatie te bekomen. In Hoofdstukken 3, 4 en 5 ligt de focus op enquˆetes waarvan het steekproefdesign niet onder controle is van de onderzoeker en dus ook ongekend (een zogenoemd niet-probabilistisch steekproefdesign). In hoofdstukken 6 en 7 focussen we dan weer op enquˆetes waarvan het steekproefdesign gekend is. Dit design wordt gereflecteerd door enquˆetegewichten die de kans weergeven voor specifieke individuen om opgenomen te worden in de enquˆete. Het succes van enquˆetes met een niet-probabilistisch steekproefdesign hangt sterk af van de representativiteit van de steekproefpopulatie en de algemene populatie waarvan we informatie willen bekomen. Bij enquˆetes met een niet-probabilistisch steekproefdesign bekomt men vaak vertekende steekproeven en er zijn bijgevolg statistische technieken nodig om dit in rekening te brengen. De Grote GriepMeting (GGM) is een voorbeeld van zo een enquˆete waar de onderzoeker niet onder controle heeft wie er wordt opgenomen in de enquˆete. De GGM is een online enquˆete waaraan iedereen kan deelnemen. Het doel van de GGM is de surveillantie van griepachtige ziektebeelden (influenza-like illness = ILI) in de algemene populatie. In Hoofdstuk 3 onderzoeken we de validiteit van de GGM in Vlaanderen met betrekking tot de representativiteit van de steekproefpopulatie en de bekomen ILI incidentietendensen. Het blijkt dat de leeftijdsverdeling van de steekproefpopulatie zeer verschillend is van de leeftijdsverdeling van de algemene populatie. Omdat we weten dat leeftijd en ILI incidentie afhankelijk zijn bekomen we vertekende schattingen van de ILI attack rates en ILI incidentietrends wanneer we niet zouden corrigeren voor deze sterk afwijkende leeftijdsverdelingen. Om voor de verschillen in de leeftijdsverdelingen te corrigeren kunnen we gebruik maken van post-stratificatiegewichten. Veel gebruikte schatters die deze post-stratificatiegewichten in rekening brengen kunnen dan worden gebruikt om ILI attack rates and ILI incidentie trends te berekenen. Spijtig genoeg zijn deze schatters ineffici¨ent wanneer deze post-stratificatiegewichten veel variabiliteit vertonen. Dit probleem was de motivatie voor de statistische methoden die we ontwikkelen in Hoofdstukken 4 en 5. In deze twee hoofdstukken onderzoeken we statistische methoden die de variabiliteit doen afnemen van prevalentie- en incidentieschattingen gebaseerd op binaire uitkomsten van een enquˆete met post-stratificatiegewichten die veel variabiliteit vertonen. In Hoofdstuk 4 beschrijven we het weight smoothing model voor het bekomen van prevalentieschattingen. Gepenaliseerde splines worden gebruikt in het weight smoothing model om flexibele relaties toe te laten tussen de poststratificatiegemiddelden en de post-stratificatievariabele. Omdat prevalentieschattingen bekomen door middel van het weight smoothing model niet robuust zijn tegen een eventuele modelmisspecificatie, stellen we ook een model-geholpen design-gebaseerde gegeneraliseerde regressieschatter voor. In dit hoofdstuk, geven we ook de details hoe variantie schatters voor deze schatters bekomen kunnen worden. In een simulatiestudie tonen we aan dat de door ons voorgestelde methoden het meest consistent en robuust presteren over alle beschouwde simulatiesituaties. Als toepassing in dit hoofdstuk gebruiken we de GGM van het 2010-2011 griepseizoen om ILI attack rates te schatten aan de hand van de voorgestelde schatters. Waar de focus in Hoofstuk 4 prevalentieschattingen zijn, concentreren we ons in Hoofdstuk 5 op tendensschattingen gebaseerd op enquˆetes met poststratificatiegewichten die veel variabiliteit vertonen. We breidden de idee¨en ontwikkeld in Hoofdstuk 4 uit door een tijdscomponent op te nemen in het weight smoothing model. Deze component wordt gemodelleerd door middel van gepenaliseerde splines. In een simulatiestudie blijkt duidelijk dat de voorgestelde model-geholpen designgebaseerde gegeneraliseerde regressieschatter goed presteert in geval van modelmisspecificatie. De GGM wordt weer gebruikt als toepassing. ILI incidentieratio’s tijdens het 2010-2011 influenza seizoen worden geschat aan de hand van de ontwikkelde methoden. Enquˆetes met een probabilistisch design − en dus enquˆetes met bijhorende enquˆetegewichten − zijn de focus in Hoofdstukken 6 en 7. Om meer specifiek te zijn, we onderzoeken statistische methoden die enquˆetegewichten in rekening brengen bij small area schattingen. Het doel van small area schattingen is het bekomen van goede en betrouwbare schatters van bepaalde karakteristieken zoals gemiddelden en totalen voor gebieden (vb. arrondissementen, gemeenten,. . . ) waarvan enkel een kleine steekproef of geen steekproef aanwezig is. In Hoofdstuk 6 geven we een overzicht van veel gebruikte modellen binnen het domein van small area schattingen. In Hoofdstuk 7 stellen we een voorspellende modelgebaseerde methode voor om small area schattingen te bekomen aan de hand van enquˆetes met bijhorende enquˆetegewichten. Een hi¨erarchisch Bayesiaans model waarin de uitkomst wordt gemodelleerd op de enquˆetegewichten door middel van toevalsbewegingen wordt gebruikt als voorspellend model. Het model houdt ook rekening met de spatiale structuur van de data. Om de voorspellingen te kunnen maken dienen de enquˆetegewichten ook zelf gemodelleerd te worden. In een simulatiestudie laten we zien dat de door ons voorgestelde schatter minstens even goed presteert als andere methoden die enquˆetegewichten in rekening brengen binnen het domein van small area schattingen. Als toepassing schatten we astmaprevalenties overheen de 43 arrondissementen in Belgi¨e door gebruik te maken van de 2001 Gezondheidsenquˆete. In het tweede deel van deze thesis ligt de focus op de ontwikkeling van statistische methoden voor toepassingen in geostatistische data. Het doel van geostatistiek is de productie van een (voorspellende) kaart voor een variabele over een spatiaal domein. Dit gebeurt aan de hand van observaties − meestal geobserveerd met ruis − genomen op locaties over het spatiaal domein. In deze thesis focussen we enkel op normaal verdeelde geostatistische uitkomsten. In Hoofdstuk 8 beschrijven we de basisconcepten van twee veelgebruikte geostatistische methoden, namelijk kriging en splines. Beide methoden hebben echter enkele nadelen. Bij kriging is het bijvoorbeeld zeer ongewoon om niet-lineaire relaties tussen de uitkomsten en covariabelen in rekening te brengen. Verder is het niet mogelijk om bij kriging methoden rekening te houden met geclusterde observaties of met meerdere observaties op eenzelfde locatie. Daartegenover staat dat de belangrijkste kritiek tegen spline gebruik in geostatistiek het feit is dat er geen rekening wordt gehouden met de spatiale autocorrelatie. Deze nadelen van beide methoden zijn de motivatie voor het ontwikkelen van het concept K-splines in Hoofdstuk 9. K-splines zijn een uitbreiding van het geoadditieve model waarin de gebruikte spline functies het onderliggend spatiaal proces (de spatiale autocorrelatie) met dezelfde accuraatheid en precisie schatten als in kriging. Radiale basisfuncties van de vorm van veel gebruikte covariantiefuncties worden gebruikt als spline basisfuncties. Men moet een keuze maken voor de spatiale-afname-parameter bij deze radiale basisfuncties. Wij stellen voor om deze parameter te schatten binnen het likelihood kader. De lineair gemengde modelrepresentatie van K-splines maakt het mogelijk om uitbreidingen zoals niet-lineaire covariabele effecten, geclusterde gegevens of meerdere observaties op eenzelfde locatie makkelijk op te nemen. In een simulatiestudie vergelijken we de prestaties van K-splines met kriging methoden, spline methoden en het standaard geoadditief model in termen van schatten van het onderliggend spatiaal proces en de predicties van een voorspellende kaart. De resultaten van de simulatie tonen dat K-splines analoog presteren als kriging en beter presteren dan het standaard geoadditief model voor simpele datavoorbeelden. Voor meer complexe scenario’s, zoals niet-lineaire covariabele effecten of geclusterde gegevens, zijn de prestaties van de K-splines beter. Om K-splines te evalueren op levensechte datasets gebruiken we regenvaldata en data in verband met de vervuiling van de bodem door zware metalen. De voorgestelde methodologie van K-splines is nog zeer basis, maar er kunnen nog vele uitbreidingen in de toekomst worden aangebracht

    Semi-Parametric Methods for Applications in Survey Data and Geostatistical Data

    No full text
    Classical linear regression models involve relating a response variable as a linear function of one or more covariates. In practice, however, many relationships between a response and a covariate are non-linear. A standard statistical technique to model these kind of relationships are smoothing splines. A spline function consists of polynomials with the polynomial pieces joining at the so-called knots. In this thesis, we make use of penalized splines to deal with problems encountered in applications of survey data and geostatistical data. To fit the penalized splines, the useful property that penalized splines can be cast in a (generalized) linear mixed model is used. This property is based on the connection between the mixed components in a (generalized) linear mixed model and the penalization of the spline coefficients to overcome overfitting. These (generalized) linear mixed models are fit within the likelihood framework. Besides fitting models within the likelihood paradigm, Bayesian approaches are considered in some chapters. In that case, non-linear relationships between a response and a covariate are modelled using random walks which are the stochastic analogue of P-splines of degree zero. In the first part of the thesis, applications on survey datasets are of interest. Statistical surveys are used to collect quantitative information from a specific population. In Chapters 3, 4 and 5, the focus is on a survey for which the sampling design is out of the control of the researcher (a non-probabilistic design). Whereas, in Chapters 6 and 7, the focus is on surveys for which the sampling design is known. To reflect this sampling design survey weights are attached to each observation which represent the probability to be included in the survey. The success of surveys with a non-probabilistic design depends on the representativeness of the sample with respect to the target population of interest. Surveys with a non-probabilistic sampling design are known to produce biased samples and techniques are needed to account for this. The Great Influenza Survey (GIS) is such a survey where who is observed is out of the control of the researcher. The GIS is an online survey, open for everyone, aiming at the surveillance of influenza-like illness (ILI) in the general population. In Chapter 3, we assess the validity of the GIS in Flanders with respect to the representativeness of the survey population and ILI incidence time trends. We observe that the age distribution of the survey population is dissimilar to the age distribution of the general population. Since ILI incidence and age are related we expect that ILI attack rates and incidence rates estimated from the GIS, without correcting for the dissimilar age distribution, are biased. To correct for the difference between the age distribution of the survey sample and the general population post-stratification weights can be calculated. Standard estimates using these post-stratification weights can then be calculated to obtain ILI attack rates and incidence rates, but these estimates are inefficient when highly variable post-stratification weights are present. This problem is the motivation for the statistical methods proposed in Chapters 4 and 5. In these two chapters, we investigate statistical methods that can reduce variability in prevalence and trend estimation of binary survey outcomes when high post-stratification weights are present. In Chapter 4, we describe the weight smoothing model for prevalence estimation. Penalized splines are used in the weight smoothing model to allow for a flexible relationship between the post-stratum means and the post-stratifying variable. Since a prevalence estimate based on the weight smoothing model is not robust against model misspecification, a model-assisted design-based generalized regression estimator is proposed. In the chapter, we also present how appropriate estimates of the variance of the estimators can be obtained. We show in a simulation study that our proposed methods perform the most consistent and robust over all simulation conditions. As an application of the proposed methods, we apply the estimators to the Great Influenza Survey to estimate the ILI attack rate during the 2010-2011 influenza season. Whereas Chapter 4 deals with prevalence estimation from surveys with highly dispersed post-stratification weights, the focus in Chapter 5 is on trend estimation. We extend the ideas developed in Chapter 4 to incorporate a time trend in the weight smoothing model which is modelled through a penalized spline function. In a simulation study, we clearly observe the benefit of the model-assisted design-based generalized regression estimator in the case of model misspecification. Again the GIS is considered as an application, namely ILI incidence rates during the 2010-2011 influenza season are estimated. Surveys with a probabilistic design and thus surveys with accompanying survey weights are of interest in Chapters 6 and 7. More specific, we investigate statistical methods that deal with survey weights in small area estimation. The goal of small area estimation is providing reliable estimates of characteristics such as means and totals for areas or domains for which only small samples or no samples are available. In Chapter 6, an overview of often used models in small area estimation is presented. In Chapter 7, we propose a predictive model-based approach to small area estimation with design weights. As predicting model, a hierarchical Bayesian model is used in which the outcome is regressed on the sampling weight using a random walk. The model also accounts for the spatial structure in the data. To make predictions using the model, the sampling weights themselves are modelled. In a simulation study, we observe that the proposed model-based approach performs at least as well as other methods dealing with survey weights in small area estimation. As an application, asthma prevalences are calculated for the 43 districts in Belgium using the 2001 Health Interview Survey. In the second part of this thesis, statistical methods dealing with the analysis of geostatistical data are of interest. The goal of geostatistics is the production of a (prediction) map of a quantity of interest over particular domain based on, usually noisy, measurements taken at several locations over the domain. In this thesis, only Gaussian geostatistical response data is considered. In Chapter 8 the basics of two geostatistical prediction methods, namely kriging and splines, are described. Both methods, however, suffer from some disadvantages. In kriging, for example, it is not common to take non-linear relationships between the response and a covariate into account. In addition, kriging methods are not capable of accounting for clustered observations or multiple measurements at one location. The main criticism against the use of smoothing splines is the fact that the spatial autocorrelation is not accounted for. These disadvantages are the motivation of Chapter 9 where we propose the concept of K-splines. K-splines are an extension of the geoadditive model such that the spline function estimates the underlying spatial process with similar accuracy and precision as in kriging. Radial basis functions of the form of often used covariance functions are used as spline basis functions. These radial basis functions require a choice for the spatial decay parameter. We propose to estimate this parameter via the likelihood approach. The mixed model presentation of the K-splines enables one to easily take into account other model complexities such as non-linear covariate effects, clustered observations or multiple measurements at one spatial location. In a simulation study, K-splines are compared with kriging and the standard geoadditive model in terms of both the estimation of the underlying process and the prediction of the underlying surface. The results indicate that K-splines perform similar as kriging and outperform the standard geoadditive model in simple geostatistical data cases. In more complex cases, such as non-linear covariate effects or clustered observations, K-splines outperform the other methods. To evaluate K-splines on real-life data examples we apply them on precipitation data and on pollution data of heavy metals in the soil. The proposed methodology of K-splines is still basic and much more developments could be made.In klassieke lineaire regressiemodellen wordt een responsvariabele gemodelleerd als een lineaire functie van ´e´en of meer covariabelen. Echter, in praktijk zijn vele relaties tussen een responsvariabele en een covariabele vaak niet-lineair. Een standaard statistische techniek om dit soort relaties te modelleren is het gebruik van smoothing splines. Een spline functie is een serie van polynomiale functies waarvan de verschillende polynomialen aan elkaar worden gekoppeld bij de zogenoemde knopen. In deze thesis maken we gebruik van gepenaliseerde splines om enkele problemen met toepassingen in enquˆetedata en geostatistische data aan te pakken. Om deze gepenaliseerde splines te fitten maken we gebruik van de eigenschap dat gepenaliseerde splines gefit kunnen worden door ze te schrijven als een (gegeneraliseerd) lineair gemengd model. Deze eigenschap gebruikt de connectie tussen de gemengde componenten in een (gegeneraliseerd) lineair gemengd model en het penaliseren van de spline co¨effici¨enten om overfitten van de data te voorkomen. De bekomen (gegeneraliseerde) lineair gemengde modellen worden gefit binnen het likelihood kader. Naast het fitten van modellen in dit kader, maken we ook gebruik van het Bayesiaanse kader in enkele hoofdstukken. Binnen dit kader worden niet-lineaire relaties tussen een responsvariabele en een covariabele gemodelleerd door middel van toevalsbewegingen omdat deze laatste de stochastische evenknie zijn van gepenaliseerde splines van graad nul. In het eerste deel van deze thesis staan de toepassingen op enquˆetedata centraal. Enquˆetes worden gebruikt om kwantitatieve gegevens over een bepaalde populatie te bekomen. In Hoofdstukken 3, 4 en 5 ligt de focus op enquˆetes waarvan het steekproefdesign niet onder controle is van de onderzoeker en dus ook ongekend (een zogenoemd niet-probabilistisch steekproefdesign). In hoofdstukken 6 en 7 focussen we dan weer op enquˆetes waarvan het steekproefdesign gekend is. Dit design wordt gereflecteerd door enquˆetegewichten die de kans weergeven voor specifieke individuen om opgenomen te worden in de enquˆete. Het succes van enquˆetes met een niet-probabilistisch steekproefdesign hangt sterk af van de representativiteit van de steekproefpopulatie en de algemene populatie waarvan we informatie willen bekomen. Bij enquˆetes met een niet-probabilistisch steekproefdesign bekomt men vaak vertekende steekproeven en er zijn bijgevolg statistische technieken nodig om dit in rekening te brengen. De Grote GriepMeting (GGM) is een voorbeeld van zo een enquˆete waar de onderzoeker niet onder controle heeft wie er wordt opgenomen in de enquˆete. De GGM is een online enquˆete waaraan iedereen kan deelnemen. Het doel van de GGM is de surveillantie van griepachtige ziektebeelden (influenza-like illness = ILI) in de algemene populatie. In Hoofdstuk 3 onderzoeken we de validiteit van de GGM in Vlaanderen met betrekking tot de representativiteit van de steekproefpopulatie en de bekomen ILI incidentietendensen. Het blijkt dat de leeftijdsverdeling van de steekproefpopulatie zeer verschillend is van de leeftijdsverdeling van de algemene populatie. Omdat we weten dat leeftijd en ILI incidentie afhankelijk zijn bekomen we vertekende schattingen van de ILI attack rates en ILI incidentietrends wanneer we niet zouden corrigeren voor deze sterk afwijkende leeftijdsverdelingen. Om voor de verschillen in de leeftijdsverdelingen te corrigeren kunnen we gebruik maken van post-stratificatiegewichten. Veel gebruikte schatters die deze post-stratificatiegewichten in rekening brengen kunnen dan worden gebruikt om ILI attack rates and ILI incidentie trends te berekenen. Spijtig genoeg zijn deze schatters ineffici¨ent wanneer deze post-stratificatiegewichten veel variabiliteit vertonen. Dit probleem was de motivatie voor de statistische methoden die we ontwikkelen in Hoofdstukken 4 en 5. In deze twee hoofdstukken onderzoeken we statistische methoden die de variabiliteit doen afnemen van prevalentie- en incidentieschattingen gebaseerd op binaire uitkomsten van een enquˆete met post-stratificatiegewichten die veel variabiliteit vertonen. In Hoofdstuk 4 beschrijven we het weight smoothing model voor het bekomen van prevalentieschattingen. Gepenaliseerde splines worden gebruikt in het weight smoothing model om flexibele relaties toe te laten tussen de poststratificatiegemiddelden en de post-stratificatievariabele. Omdat prevalentieschattingen bekomen door middel van het weight smoothing model niet robuust zijn tegen een eventuele modelmisspecificatie, stellen we ook een model-geholpen design-gebaseerde gegeneraliseerde regressieschatter voor. In dit hoofdstuk, geven we ook de details hoe variantie schatters voor deze schatters bekomen kunnen worden. In een simulatiestudie tonen we aan dat de door ons voorgestelde methoden het meest consistent en robuust presteren over alle beschouwde simulatiesituaties. Als toepassing in dit hoofdstuk gebruiken we de GGM van het 2010-2011 griepseizoen om ILI attack rates te schatten aan de hand van de voorgestelde schatters. Waar de focus in Hoofstuk 4 prevalentieschattingen zijn, concentreren we ons in Hoofdstuk 5 op tendensschattingen gebaseerd op enquˆetes met poststratificatiegewichten die veel variabiliteit vertonen. We breidden de idee¨en ontwikkeld in Hoofdstuk 4 uit door een tijdscomponent op te nemen in het weight smoothing model. Deze component wordt gemodelleerd door middel van gepenaliseerde splines. In een simulatiestudie blijkt duidelijk dat de voorgestelde model-geholpen designgebaseerde gegeneraliseerde regressieschatter goed presteert in geval van modelmisspecificatie. De GGM wordt weer gebruikt als toepassing. ILI incidentieratio’s tijdens het 2010-2011 influenza seizoen worden geschat aan de hand van de ontwikkelde methoden. Enquˆetes met een probabilistisch design − en dus enquˆetes met bijhorende enquˆetegewichten − zijn de focus in Hoofdstukken 6 en 7. Om meer specifiek te zijn, we onderzoeken statistische methoden die enquˆetegewichten in rekening brengen bij small area schattingen. Het doel van small area schattingen is het bekomen van goede en betrouwbare schatters van bepaalde karakteristieken zoals gemiddelden en totalen voor gebieden (vb. arrondissementen, gemeenten,. . . ) waarvan enkel een kleine steekproef of geen steekproef aanwezig is. In Hoofdstuk 6 geven we een overzicht van veel gebruikte modellen binnen het domein van small area schattingen. In Hoofdstuk 7 stellen we een voorspellende modelgebaseerde methode voor om small area schattingen te bekomen aan de hand van enquˆetes met bijhorende enquˆetegewichten. Een hi¨erarchisch Bayesiaans model waarin de uitkomst wordt gemodelleerd op de enquˆetegewichten door middel van toevalsbewegingen wordt gebruikt als voorspellend model. Het model houdt ook rekening met de spatiale structuur van de data. Om de voorspellingen te kunnen maken dienen de enquˆetegewichten ook zelf gemodelleerd te worden. In een simulatiestudie laten we zien dat de door ons voorgestelde schatter minstens even goed presteert als andere methoden die enquˆetegewichten in rekening brengen binnen het domein van small area schattingen. Als toepassing schatten we astmaprevalenties overheen de 43 arrondissementen in Belgi¨e door gebruik te maken van de 2001 Gezondheidsenquˆete. In het tweede deel van deze thesis ligt de focus op de ontwikkeling van statistische methoden voor toepassingen in geostatistische data. Het doel van geostatistiek is de productie van een (voorspellende) kaart voor een variabele over een spatiaal domein. Dit gebeurt aan de hand van observaties − meestal geobserveerd met ruis − genomen op locaties over het spatiaal domein. In deze thesis focussen we enkel op normaal verdeelde geostatistische uitkomsten. In Hoofdstuk 8 beschrijven we de basisconcepten van twee veelgebruikte geostatistische methoden, namelijk kriging en splines. Beide methoden hebben echter enkele nadelen. Bij kriging is het bijvoorbeeld zeer ongewoon om niet-lineaire relaties tussen de uitkomsten en covariabelen in rekening te brengen. Verder is het niet mogelijk om bij kriging methoden rekening te houden met geclusterde observaties of met meerdere observaties op eenzelfde locatie. Daartegenover staat dat de belangrijkste kritiek tegen spline gebruik in geostatistiek het feit is dat er geen rekening wordt gehouden met de spatiale autocorrelatie. Deze nadelen van beide methoden zijn de motivatie voor het ontwikkelen van het concept K-splines in Hoofdstuk 9. K-splines zijn een uitbreiding van het geoadditieve model waarin de gebruikte spline functies het onderliggend spatiaal proces (de spatiale autocorrelatie) met dezelfde accuraatheid en precisie schatten als in kriging. Radiale basisfuncties van de vorm van veel gebruikte covariantiefuncties worden gebruikt als spline basisfuncties. Men moet een keuze maken voor de spatiale-afname-parameter bij deze radiale basisfuncties. Wij stellen voor om deze parameter te schatten binnen het likelihood kader. De lineair gemengde modelrepresentatie van K-splines maakt het mogelijk om uitbreidingen zoals niet-lineaire covariabele effecten, geclusterde gegevens of meerdere observaties op eenzelfde locatie makkelijk op te nemen. In een simulatiestudie vergelijken we de prestaties van K-splines met kriging methoden, spline methoden en het standaard geoadditief model in termen van schatten van het onderliggend spatiaal proces en de predicties van een voorspellende kaart. De resultaten van de simulatie tonen dat K-splines analoog presteren als kriging en beter presteren dan het standaard geoadditief model voor simpele datavoorbeelden. Voor meer complexe scenario’s, zoals niet-lineaire covariabele effecten of geclusterde gegevens, zijn de prestaties van de K-splines beter. Om K-splines te evalueren op levensechte datasets gebruiken we regenvaldata en data in verband met de vervuiling van de bodem door zware metalen. De voorgestelde methodologie van K-splines is nog zeer basis, maar er kunnen nog vele uitbreidingen in de toekomst worden aangebracht

    On the choice of the mesh for the analysis of geostatistical data using R-INLA

    No full text
    Many methods used in spatial statistics are computationally demanding, and so, the development of more computationally efficient methods has received attention. A important development is the integrated nested Laplace approximation method which is carry out Bayesian analysis more efficiently This method, for geostatistical data, is done considering the SPDE approach that requires the creation of a mesh overlying the study area and all the obtained results depend on it. The impact of the mesh on inference and prediction is investigated through simulations. As there is no formal procedure to specify it, we investigate a guideline to create an optimal mesh.The first author acknowledge the financial support of the "Ciencia sem Fronteiras" program of CNPq (Brazil) under the process number 200573/2015-2. Support from the IAP Research Network P7/06 of the Belgian State (Belgian Science Policy) is also gratefully acknowledged by the second and third author.Ribeiro, PJ (reprint author), Univ Sao Paulo, Dept Ciencias Exatas, BR-13418900 Piracicaba, SP, Brazil. [email protected]

    Spatial Modelling to Inform Public Health Based on Health Surveys: Impact of Unsampled Areas at Lower Geographical Scale

    No full text
    Small area estimation is an important tool to provide area-specific estimates of population characteristics for governmental organizations in the context of education, public health and care. However, many demographic and health surveys are unrepresentative at a small geographical level, as often areas at a lower level are not included in the sample due to financial or logistical reasons. In this paper, we investigated (1) the effect of these unsampled areas on a variety of design-based and hierarchical model-based estimates and (2) the benefits of using auxiliary information in the estimation process by means of an extensive simulation study. The results showed the benefits of hierarchical spatial smoothing models towards obtaining more reliable estimates for areas at the lowest geographical level in case a spatial trend is present in the data. Furthermore, the importance of auxiliary information was highlighted, especially for geographical areas that were not included in the sample. Methods are illustrated on the 2008 Mozambique Poverty and Social Impact Analysis survey, with interest in the district-specific prevalence of school attendance

    Cohort-based smoothing methods for age-specific contact rates

    No full text
    International audienceThe use of social contact rates is widespread in infectious disease modeling since it has been shown that they are key driving forces of important epidemiological parameters. Quantification of contact patterns is crucial to parameterize dynamic transmission models and to provide insights on the (basic) reproduction number. Information on social interactions can be obtained from population-based contact surveys, such as the European Commission project POLYMOD. Estimation of age-specific contact rates from these studies is often done using a piecewise constant approach or bivariate smoothing techniques. For the latter, typically, smoothness is introduced in the dimensions of the respondent’s and contact’s age (i.e., the rows and columns of the social contact matrix). We propose a smoothing constrained approach—taking into account the reciprocal nature of contacts—introducing smoothness over the diagonal (including all subdiagonals) of the social contact matrix. This modeling approach is justified assuming that when people age their contact behavior changes smoothly. We call this smoothing from a cohort perspective. Two approaches that allow for smoothing over social contact matrix diagonals are proposed, namely (i) reordering of the diagonal components of the contact matrix and (ii) reordering of the penalty matrix ensuring smoothness over the contact matrix diagonals. Parameter estimation is done in the likelihood framework by using constrained penalized iterative reweighted least squares. A simulation study underlines the benefits of cohort-based smoothing. Finally, the proposed methods are illustrated on the Belgian POLYMOD data of 2006. Code to reproduce the results of the article can be downloaded on this GitHub repository https://github.com/oswaldogressani/Cohort_smoothing

    Spatial smoothing models to deal with the complex sampling design and nonresponse in the Florida BRFSS survey

    No full text
    Public health and governmental organizations have acknowledged the importance of obtaining information of various characteristics for small areas, such as counties. Spatial smoothing models have been developed to gain reliable information on the geographical distribution of the outcome of interest. When the geographical analysis is based on survey data, two issues pose challenges: (1) the complex design of the survey and (2) the presence of missing data due to non-response. We investigate the influence of missing data and the adjustment thereof in the context of the 2013 Florida Behavioral Risk Factor Surveillance System (BRFSS) health survey. We focus on the application and comparison of the Hajek ratio estimator and two model-based approaches for estimation of the spatial trend of the prevalence of having no health insurance coverage. The model-based methods are compared using the Deviance Information Criterion which show the benefits of modeling the weights as flexibly as possible. Methods are extended towards subgroup analyses and the estimation of area-specific standardized rates, where household incomes was identified as an important factor to include in the analysis. 1Support from the National Institutes of Health is ac- knowledged [award number 1. National Institutes of Health R01CA172805]. Support from the IAP Research Network P7/06 of the Belgian State (Belgian Science Policy) is grate- fully acknowledged. For the analyses we used the in- frastructure of the VSC - Flemish Supercomputer Center, funded by the Hercules Foundation and the Flemish Gov- ernment - department EWI

    Model-based inference for small area estimation with sampling weights

    No full text
    Abstract: Obtaining reliable estimates about health outcomes for areas or domains where only few to no samples are available is the goal of small area estimation (SAE). Often, we rely on health surveys to obtain information about health outcomes. Such surveys are often characterised by a complex design, stratification, and unequal sampling weights as common features. Hierarchical Bayesian models are well recognised in SAE as a spatial smoothing method, but often ignore the sampling weights that reflect the complex sampling design. In this paper, we focus on data obtained from a health survey where the sampling weights of the sampled individuals are the only information available about the design. We develop a predictive model-based approach to estimate the prevalence of a binary outcome for both the sampled and non-sampled individuals, using hierarchical Bayesian models that take into account the sampling weights. A simulation study is carried out to compare the performance of our proposed method with other established methods. The results indicate that our proposed method achieves great reductions in mean squared error when compared with standard approaches. It performs equally well or better when compared with more elaborate methods when there is a relationship between the responses and the sampling weights. The proposed method is applied to estimate asthma prevalence across districts

    Doubly-robust weight smoothing models to smooth post-stratification weights in case of a Gaussian survey outcome

    No full text
    In order to obtain unbiased estimates of a population quantity based on sample survey data, post-stratification techniques use external data to adjust the estimates during the analysis stage. Small sample sizes in any post- strata may yield highly variable estimator. The weight trimming method pools highly underrepresented units into a stratum with better representation but it is somehow arbitrary. In the same spirit, weight-smoothing approach treats post-stratum means as random-effects, inducing shrinkage across post-stratum means. To protect against the bias generated by possible misspecification of the mixed-model, a doubly-robust version is used as well as a nonparametric spline function for the underlying weight stratum means. I compare those approaches in a simulation study for the inference about the population mean of a normally distributed survey outcome with ordinal post-stratifying variable. None of the 9 estimators is uniformly best in all 24 scenarios considered but the nonparametric weight-smoothing doubly-robust is close to the best for a wide range of populations offering protection against unfavorable mean structures and model misspecification, therefore can be seen as a robust technique. The methods are illustrated by estimating the weekly working hours using data from the 2008 Quality of Life Survey in Colombia
    corecore