1,720,992 research outputs found
Semi-Parametric Methods for Applications in Survey Data and Geostatistical Data
Classical linear regression models involve relating a response variable as a linear function of one or more covariates. In practice, however, many relationships between a
response and a covariate are non-linear. A standard statistical technique to model
these kind of relationships are smoothing splines. A spline function consists of polynomials with the polynomial pieces joining at the so-called knots.
In this thesis, we make use of penalized splines to deal with problems encountered
in applications of survey data and geostatistical data. To fit the penalized splines, the
useful property that penalized splines can be cast in a (generalized) linear mixed model
is used. This property is based on the connection between the mixed components in
a (generalized) linear mixed model and the penalization of the spline coefficients
to overcome overfitting. These (generalized) linear mixed models are fit within the
likelihood framework. Besides fitting models within the likelihood paradigm, Bayesian
approaches are considered in some chapters. In that case, non-linear relationships
between a response and a covariate are modelled using random walks which are the
stochastic analogue of P-splines of degree zero.
In the first part of the thesis, applications on survey datasets are of interest. Statistical surveys are used to collect quantitative information from a specific population.
In Chapters 3, 4 and 5, the focus is on a survey for which the sampling design is out
of the control of the researcher (a non-probabilistic design). Whereas, in Chapters 6
and 7, the focus is on surveys for which the sampling design is known. To reflect this
sampling design survey weights are attached to each observation which represent the
probability to be included in the survey.
The success of surveys with a non-probabilistic design depends on the representativeness of the sample with respect to the target population of interest. Surveys with a non-probabilistic sampling design are known to produce biased samples and
techniques are needed to account for this. The Great Influenza Survey (GIS) is such
a survey where who is observed is out of the control of the researcher. The GIS is
an online survey, open for everyone, aiming at the surveillance of influenza-like illness
(ILI) in the general population. In Chapter 3, we assess the validity of the GIS in
Flanders with respect to the representativeness of the survey population and ILI incidence time trends. We observe that the age distribution of the survey population
is dissimilar to the age distribution of the general population. Since ILI incidence
and age are related we expect that ILI attack rates and incidence rates estimated
from the GIS, without correcting for the dissimilar age distribution, are biased. To
correct for the difference between the age distribution of the survey sample and the
general population post-stratification weights can be calculated. Standard estimates
using these post-stratification weights can then be calculated to obtain ILI attack
rates and incidence rates, but these estimates are inefficient when highly variable
post-stratification weights are present. This problem is the motivation for the statistical methods proposed in Chapters 4 and 5. In these two chapters, we investigate
statistical methods that can reduce variability in prevalence and trend estimation of
binary survey outcomes when high post-stratification weights are present.
In Chapter 4, we describe the weight smoothing model for prevalence estimation.
Penalized splines are used in the weight smoothing model to allow for a flexible relationship between the post-stratum means and the post-stratifying variable. Since
a prevalence estimate based on the weight smoothing model is not robust against
model misspecification, a model-assisted design-based generalized regression estimator is proposed. In the chapter, we also present how appropriate estimates of the
variance of the estimators can be obtained. We show in a simulation study that our
proposed methods perform the most consistent and robust over all simulation conditions. As an application of the proposed methods, we apply the estimators to the
Great Influenza Survey to estimate the ILI attack rate during the 2010-2011 influenza
season.
Whereas Chapter 4 deals with prevalence estimation from surveys with highly dispersed post-stratification weights, the focus in Chapter 5 is on trend estimation. We
extend the ideas developed in Chapter 4 to incorporate a time trend in the weight
smoothing model which is modelled through a penalized spline function. In a simulation study, we clearly observe the benefit of the model-assisted design-based generalized regression estimator in the case of model misspecification. Again the GIS
is considered as an application, namely ILI incidence rates during the 2010-2011 influenza season are estimated. Surveys with a probabilistic design and thus surveys with accompanying survey
weights are of interest in Chapters 6 and 7. More specific, we investigate statistical
methods that deal with survey weights in small area estimation. The goal of small
area estimation is providing reliable estimates of characteristics such as means and
totals for areas or domains for which only small samples or no samples are available.
In Chapter 6, an overview of often used models in small area estimation is presented.
In Chapter 7, we propose a predictive model-based approach to small area estimation
with design weights. As predicting model, a hierarchical Bayesian model is used in
which the outcome is regressed on the sampling weight using a random walk. The
model also accounts for the spatial structure in the data. To make predictions using
the model, the sampling weights themselves are modelled. In a simulation study, we
observe that the proposed model-based approach performs at least as well as other
methods dealing with survey weights in small area estimation. As an application,
asthma prevalences are calculated for the 43 districts in Belgium using the 2001 Health
Interview Survey.
In the second part of this thesis, statistical methods dealing with the analysis of
geostatistical data are of interest. The goal of geostatistics is the production of a
(prediction) map of a quantity of interest over particular domain based on, usually
noisy, measurements taken at several locations over the domain. In this thesis, only
Gaussian geostatistical response data is considered. In Chapter 8 the basics of two
geostatistical prediction methods, namely kriging and splines, are described. Both
methods, however, suffer from some disadvantages. In kriging, for example, it is
not common to take non-linear relationships between the response and a covariate
into account. In addition, kriging methods are not capable of accounting for clustered
observations or multiple measurements at one location. The main criticism against the
use of smoothing splines is the fact that the spatial autocorrelation is not accounted
for. These disadvantages are the motivation of Chapter 9 where we propose the
concept of K-splines.
K-splines are an extension of the geoadditive model such that the spline function
estimates the underlying spatial process with similar accuracy and precision as in
kriging. Radial basis functions of the form of often used covariance functions are used
as spline basis functions. These radial basis functions require a choice for the spatial
decay parameter. We propose to estimate this parameter via the likelihood approach.
The mixed model presentation of the K-splines enables one to easily take into account
other model complexities such as non-linear covariate effects, clustered observations
or multiple measurements at one spatial location. In a simulation study, K-splines
are compared with kriging and the standard geoadditive model in terms of both the estimation of the underlying process and the prediction of the underlying surface. The
results indicate that K-splines perform similar as kriging and outperform the standard
geoadditive model in simple geostatistical data cases. In more complex cases, such
as non-linear covariate effects or clustered observations, K-splines outperform the
other methods. To evaluate K-splines on real-life data examples we apply them on
precipitation data and on pollution data of heavy metals in the soil. The proposed
methodology of K-splines is still basic and much more developments could be made.In klassieke lineaire regressiemodellen wordt een responsvariabele gemodelleerd als
een lineaire functie van ´e´en of meer covariabelen. Echter, in praktijk zijn vele relaties tussen een responsvariabele en een covariabele vaak niet-lineair. Een standaard
statistische techniek om dit soort relaties te modelleren is het gebruik van smoothing
splines. Een spline functie is een serie van polynomiale functies waarvan de verschillende polynomialen aan elkaar worden gekoppeld bij de zogenoemde knopen.
In deze thesis maken we gebruik van gepenaliseerde splines om enkele problemen
met toepassingen in enquˆetedata en geostatistische data aan te pakken. Om deze gepenaliseerde splines te fitten maken we gebruik van de eigenschap dat gepenaliseerde
splines gefit kunnen worden door ze te schrijven als een (gegeneraliseerd) lineair gemengd model. Deze eigenschap gebruikt de connectie tussen de gemengde componenten in een (gegeneraliseerd) lineair gemengd model en het penaliseren van de spline
co¨effici¨enten om overfitten van de data te voorkomen. De bekomen (gegeneraliseerde)
lineair gemengde modellen worden gefit binnen het likelihood kader. Naast het fitten
van modellen in dit kader, maken we ook gebruik van het Bayesiaanse kader in enkele
hoofdstukken. Binnen dit kader worden niet-lineaire relaties tussen een responsvariabele en een covariabele gemodelleerd door middel van toevalsbewegingen omdat deze
laatste de stochastische evenknie zijn van gepenaliseerde splines van graad nul.
In het eerste deel van deze thesis staan de toepassingen op enquˆetedata centraal.
Enquˆetes worden gebruikt om kwantitatieve gegevens over een bepaalde populatie te
bekomen. In Hoofdstukken 3, 4 en 5 ligt de focus op enquˆetes waarvan het steekproefdesign niet onder controle is van de onderzoeker en dus ook ongekend (een zogenoemd
niet-probabilistisch steekproefdesign). In hoofdstukken 6 en 7 focussen we dan weer op
enquˆetes waarvan het steekproefdesign gekend is. Dit design wordt gereflecteerd door enquˆetegewichten die de kans weergeven voor specifieke individuen om opgenomen te
worden in de enquˆete.
Het succes van enquˆetes met een niet-probabilistisch steekproefdesign hangt sterk
af van de representativiteit van de steekproefpopulatie en de algemene populatie waarvan we informatie willen bekomen. Bij enquˆetes met een niet-probabilistisch steekproefdesign bekomt men vaak vertekende steekproeven en er zijn bijgevolg statistische
technieken nodig om dit in rekening te brengen. De Grote GriepMeting (GGM) is
een voorbeeld van zo een enquˆete waar de onderzoeker niet onder controle heeft wie
er wordt opgenomen in de enquˆete. De GGM is een online enquˆete waaraan iedereen kan deelnemen. Het doel van de GGM is de surveillantie van griepachtige
ziektebeelden (influenza-like illness = ILI) in de algemene populatie. In Hoofdstuk 3
onderzoeken we de validiteit van de GGM in Vlaanderen met betrekking tot de representativiteit van de steekproefpopulatie en de bekomen ILI incidentietendensen.
Het blijkt dat de leeftijdsverdeling van de steekproefpopulatie zeer verschillend is van
de leeftijdsverdeling van de algemene populatie. Omdat we weten dat leeftijd en ILI
incidentie afhankelijk zijn bekomen we vertekende schattingen van de ILI attack rates
en ILI incidentietrends wanneer we niet zouden corrigeren voor deze sterk afwijkende
leeftijdsverdelingen. Om voor de verschillen in de leeftijdsverdelingen te corrigeren
kunnen we gebruik maken van post-stratificatiegewichten. Veel gebruikte schatters
die deze post-stratificatiegewichten in rekening brengen kunnen dan worden gebruikt
om ILI attack rates and ILI incidentie trends te berekenen. Spijtig genoeg zijn deze
schatters ineffici¨ent wanneer deze post-stratificatiegewichten veel variabiliteit vertonen. Dit probleem was de motivatie voor de statistische methoden die we ontwikkelen
in Hoofdstukken 4 en 5. In deze twee hoofdstukken onderzoeken we statistische methoden die de variabiliteit doen afnemen van prevalentie- en incidentieschattingen
gebaseerd op binaire uitkomsten van een enquˆete met post-stratificatiegewichten die
veel variabiliteit vertonen.
In Hoofdstuk 4 beschrijven we het weight smoothing model voor het bekomen van prevalentieschattingen. Gepenaliseerde splines worden gebruikt in
het weight smoothing model om flexibele relaties toe te laten tussen de poststratificatiegemiddelden en de post-stratificatievariabele. Omdat prevalentieschattingen bekomen door middel van het weight smoothing model niet robuust zijn tegen een
eventuele modelmisspecificatie, stellen we ook een model-geholpen design-gebaseerde
gegeneraliseerde regressieschatter voor. In dit hoofdstuk, geven we ook de details
hoe variantie schatters voor deze schatters bekomen kunnen worden. In een simulatiestudie tonen we aan dat de door ons voorgestelde methoden het meest consistent
en robuust presteren over alle beschouwde simulatiesituaties. Als toepassing in dit hoofdstuk gebruiken we de GGM van het 2010-2011 griepseizoen om ILI attack rates
te schatten aan de hand van de voorgestelde schatters.
Waar de focus in Hoofstuk 4 prevalentieschattingen zijn, concentreren we
ons in Hoofdstuk 5 op tendensschattingen gebaseerd op enquˆetes met poststratificatiegewichten die veel variabiliteit vertonen. We breidden de idee¨en ontwikkeld in Hoofdstuk 4 uit door een tijdscomponent op te nemen in het weight smoothing
model. Deze component wordt gemodelleerd door middel van gepenaliseerde splines.
In een simulatiestudie blijkt duidelijk dat de voorgestelde model-geholpen designgebaseerde gegeneraliseerde regressieschatter goed presteert in geval van modelmisspecificatie. De GGM wordt weer gebruikt als toepassing. ILI incidentieratio’s tijdens
het 2010-2011 influenza seizoen worden geschat aan de hand van de ontwikkelde methoden.
Enquˆetes met een probabilistisch design − en dus enquˆetes met bijhorende enquˆetegewichten − zijn de focus in Hoofdstukken 6 en 7. Om meer specifiek te zijn,
we onderzoeken statistische methoden die enquˆetegewichten in rekening brengen bij
small area schattingen. Het doel van small area schattingen is het bekomen van goede
en betrouwbare schatters van bepaalde karakteristieken zoals gemiddelden en totalen voor gebieden (vb. arrondissementen, gemeenten,. . . ) waarvan enkel een kleine
steekproef of geen steekproef aanwezig is. In Hoofdstuk 6 geven we een overzicht van
veel gebruikte modellen binnen het domein van small area schattingen. In Hoofdstuk 7 stellen we een voorspellende modelgebaseerde methode voor om small area
schattingen te bekomen aan de hand van enquˆetes met bijhorende enquˆetegewichten.
Een hi¨erarchisch Bayesiaans model waarin de uitkomst wordt gemodelleerd op de enquˆetegewichten door middel van toevalsbewegingen wordt gebruikt als voorspellend
model. Het model houdt ook rekening met de spatiale structuur van de data. Om de
voorspellingen te kunnen maken dienen de enquˆetegewichten ook zelf gemodelleerd te
worden. In een simulatiestudie laten we zien dat de door ons voorgestelde schatter
minstens even goed presteert als andere methoden die enquˆetegewichten in rekening
brengen binnen het domein van small area schattingen. Als toepassing schatten we
astmaprevalenties overheen de 43 arrondissementen in Belgi¨e door gebruik te maken
van de 2001 Gezondheidsenquˆete.
In het tweede deel van deze thesis ligt de focus op de ontwikkeling van statistische methoden voor toepassingen in geostatistische data. Het doel van geostatistiek
is de productie van een (voorspellende) kaart voor een variabele over een spatiaal
domein. Dit gebeurt aan de hand van observaties − meestal geobserveerd met ruis
− genomen op locaties over het spatiaal domein. In deze thesis focussen we enkel
op normaal verdeelde geostatistische uitkomsten. In Hoofdstuk 8 beschrijven we de basisconcepten van twee veelgebruikte geostatistische methoden, namelijk kriging en
splines. Beide methoden hebben echter enkele nadelen. Bij kriging is het bijvoorbeeld zeer ongewoon om niet-lineaire relaties tussen de uitkomsten en covariabelen in
rekening te brengen. Verder is het niet mogelijk om bij kriging methoden rekening te
houden met geclusterde observaties of met meerdere observaties op eenzelfde locatie.
Daartegenover staat dat de belangrijkste kritiek tegen spline gebruik in geostatistiek
het feit is dat er geen rekening wordt gehouden met de spatiale autocorrelatie. Deze
nadelen van beide methoden zijn de motivatie voor het ontwikkelen van het concept
K-splines in Hoofdstuk 9.
K-splines zijn een uitbreiding van het geoadditieve model waarin de gebruikte
spline functies het onderliggend spatiaal proces (de spatiale autocorrelatie) met dezelfde accuraatheid en precisie schatten als in kriging. Radiale basisfuncties van de
vorm van veel gebruikte covariantiefuncties worden gebruikt als spline basisfuncties.
Men moet een keuze maken voor de spatiale-afname-parameter bij deze radiale basisfuncties. Wij stellen voor om deze parameter te schatten binnen het likelihood kader.
De lineair gemengde modelrepresentatie van K-splines maakt het mogelijk om uitbreidingen zoals niet-lineaire covariabele effecten, geclusterde gegevens of meerdere
observaties op eenzelfde locatie makkelijk op te nemen. In een simulatiestudie vergelijken we de prestaties van K-splines met kriging methoden, spline methoden en het
standaard geoadditief model in termen van schatten van het onderliggend spatiaal
proces en de predicties van een voorspellende kaart. De resultaten van de simulatie
tonen dat K-splines analoog presteren als kriging en beter presteren dan het standaard
geoadditief model voor simpele datavoorbeelden. Voor meer complexe scenario’s, zoals niet-lineaire covariabele effecten of geclusterde gegevens, zijn de prestaties van de
K-splines beter. Om K-splines te evalueren op levensechte datasets gebruiken we regenvaldata en data in verband met de vervuiling van de bodem door zware metalen.
De voorgestelde methodologie van K-splines is nog zeer basis, maar er kunnen nog
vele uitbreidingen in de toekomst worden aangebracht
Semi-Parametric Methods for Applications in Survey Data and Geostatistical Data
Classical linear regression models involve relating a response variable as a linear function of one or more covariates. In practice, however, many relationships between a
response and a covariate are non-linear. A standard statistical technique to model
these kind of relationships are smoothing splines. A spline function consists of polynomials with the polynomial pieces joining at the so-called knots.
In this thesis, we make use of penalized splines to deal with problems encountered
in applications of survey data and geostatistical data. To fit the penalized splines, the
useful property that penalized splines can be cast in a (generalized) linear mixed model
is used. This property is based on the connection between the mixed components in
a (generalized) linear mixed model and the penalization of the spline coefficients
to overcome overfitting. These (generalized) linear mixed models are fit within the
likelihood framework. Besides fitting models within the likelihood paradigm, Bayesian
approaches are considered in some chapters. In that case, non-linear relationships
between a response and a covariate are modelled using random walks which are the
stochastic analogue of P-splines of degree zero.
In the first part of the thesis, applications on survey datasets are of interest. Statistical surveys are used to collect quantitative information from a specific population.
In Chapters 3, 4 and 5, the focus is on a survey for which the sampling design is out
of the control of the researcher (a non-probabilistic design). Whereas, in Chapters 6
and 7, the focus is on surveys for which the sampling design is known. To reflect this
sampling design survey weights are attached to each observation which represent the
probability to be included in the survey.
The success of surveys with a non-probabilistic design depends on the representativeness of the sample with respect to the target population of interest. Surveys with a non-probabilistic sampling design are known to produce biased samples and
techniques are needed to account for this. The Great Influenza Survey (GIS) is such
a survey where who is observed is out of the control of the researcher. The GIS is
an online survey, open for everyone, aiming at the surveillance of influenza-like illness
(ILI) in the general population. In Chapter 3, we assess the validity of the GIS in
Flanders with respect to the representativeness of the survey population and ILI incidence time trends. We observe that the age distribution of the survey population
is dissimilar to the age distribution of the general population. Since ILI incidence
and age are related we expect that ILI attack rates and incidence rates estimated
from the GIS, without correcting for the dissimilar age distribution, are biased. To
correct for the difference between the age distribution of the survey sample and the
general population post-stratification weights can be calculated. Standard estimates
using these post-stratification weights can then be calculated to obtain ILI attack
rates and incidence rates, but these estimates are inefficient when highly variable
post-stratification weights are present. This problem is the motivation for the statistical methods proposed in Chapters 4 and 5. In these two chapters, we investigate
statistical methods that can reduce variability in prevalence and trend estimation of
binary survey outcomes when high post-stratification weights are present.
In Chapter 4, we describe the weight smoothing model for prevalence estimation.
Penalized splines are used in the weight smoothing model to allow for a flexible relationship between the post-stratum means and the post-stratifying variable. Since
a prevalence estimate based on the weight smoothing model is not robust against
model misspecification, a model-assisted design-based generalized regression estimator is proposed. In the chapter, we also present how appropriate estimates of the
variance of the estimators can be obtained. We show in a simulation study that our
proposed methods perform the most consistent and robust over all simulation conditions. As an application of the proposed methods, we apply the estimators to the
Great Influenza Survey to estimate the ILI attack rate during the 2010-2011 influenza
season.
Whereas Chapter 4 deals with prevalence estimation from surveys with highly dispersed post-stratification weights, the focus in Chapter 5 is on trend estimation. We
extend the ideas developed in Chapter 4 to incorporate a time trend in the weight
smoothing model which is modelled through a penalized spline function. In a simulation study, we clearly observe the benefit of the model-assisted design-based generalized regression estimator in the case of model misspecification. Again the GIS
is considered as an application, namely ILI incidence rates during the 2010-2011 influenza season are estimated. Surveys with a probabilistic design and thus surveys with accompanying survey
weights are of interest in Chapters 6 and 7. More specific, we investigate statistical
methods that deal with survey weights in small area estimation. The goal of small
area estimation is providing reliable estimates of characteristics such as means and
totals for areas or domains for which only small samples or no samples are available.
In Chapter 6, an overview of often used models in small area estimation is presented.
In Chapter 7, we propose a predictive model-based approach to small area estimation
with design weights. As predicting model, a hierarchical Bayesian model is used in
which the outcome is regressed on the sampling weight using a random walk. The
model also accounts for the spatial structure in the data. To make predictions using
the model, the sampling weights themselves are modelled. In a simulation study, we
observe that the proposed model-based approach performs at least as well as other
methods dealing with survey weights in small area estimation. As an application,
asthma prevalences are calculated for the 43 districts in Belgium using the 2001 Health
Interview Survey.
In the second part of this thesis, statistical methods dealing with the analysis of
geostatistical data are of interest. The goal of geostatistics is the production of a
(prediction) map of a quantity of interest over particular domain based on, usually
noisy, measurements taken at several locations over the domain. In this thesis, only
Gaussian geostatistical response data is considered. In Chapter 8 the basics of two
geostatistical prediction methods, namely kriging and splines, are described. Both
methods, however, suffer from some disadvantages. In kriging, for example, it is
not common to take non-linear relationships between the response and a covariate
into account. In addition, kriging methods are not capable of accounting for clustered
observations or multiple measurements at one location. The main criticism against the
use of smoothing splines is the fact that the spatial autocorrelation is not accounted
for. These disadvantages are the motivation of Chapter 9 where we propose the
concept of K-splines.
K-splines are an extension of the geoadditive model such that the spline function
estimates the underlying spatial process with similar accuracy and precision as in
kriging. Radial basis functions of the form of often used covariance functions are used
as spline basis functions. These radial basis functions require a choice for the spatial
decay parameter. We propose to estimate this parameter via the likelihood approach.
The mixed model presentation of the K-splines enables one to easily take into account
other model complexities such as non-linear covariate effects, clustered observations
or multiple measurements at one spatial location. In a simulation study, K-splines
are compared with kriging and the standard geoadditive model in terms of both the estimation of the underlying process and the prediction of the underlying surface. The
results indicate that K-splines perform similar as kriging and outperform the standard
geoadditive model in simple geostatistical data cases. In more complex cases, such
as non-linear covariate effects or clustered observations, K-splines outperform the
other methods. To evaluate K-splines on real-life data examples we apply them on
precipitation data and on pollution data of heavy metals in the soil. The proposed
methodology of K-splines is still basic and much more developments could be made.In klassieke lineaire regressiemodellen wordt een responsvariabele gemodelleerd als
een lineaire functie van ´e´en of meer covariabelen. Echter, in praktijk zijn vele relaties tussen een responsvariabele en een covariabele vaak niet-lineair. Een standaard
statistische techniek om dit soort relaties te modelleren is het gebruik van smoothing
splines. Een spline functie is een serie van polynomiale functies waarvan de verschillende polynomialen aan elkaar worden gekoppeld bij de zogenoemde knopen.
In deze thesis maken we gebruik van gepenaliseerde splines om enkele problemen
met toepassingen in enquˆetedata en geostatistische data aan te pakken. Om deze gepenaliseerde splines te fitten maken we gebruik van de eigenschap dat gepenaliseerde
splines gefit kunnen worden door ze te schrijven als een (gegeneraliseerd) lineair gemengd model. Deze eigenschap gebruikt de connectie tussen de gemengde componenten in een (gegeneraliseerd) lineair gemengd model en het penaliseren van de spline
co¨effici¨enten om overfitten van de data te voorkomen. De bekomen (gegeneraliseerde)
lineair gemengde modellen worden gefit binnen het likelihood kader. Naast het fitten
van modellen in dit kader, maken we ook gebruik van het Bayesiaanse kader in enkele
hoofdstukken. Binnen dit kader worden niet-lineaire relaties tussen een responsvariabele en een covariabele gemodelleerd door middel van toevalsbewegingen omdat deze
laatste de stochastische evenknie zijn van gepenaliseerde splines van graad nul.
In het eerste deel van deze thesis staan de toepassingen op enquˆetedata centraal.
Enquˆetes worden gebruikt om kwantitatieve gegevens over een bepaalde populatie te
bekomen. In Hoofdstukken 3, 4 en 5 ligt de focus op enquˆetes waarvan het steekproefdesign niet onder controle is van de onderzoeker en dus ook ongekend (een zogenoemd
niet-probabilistisch steekproefdesign). In hoofdstukken 6 en 7 focussen we dan weer op
enquˆetes waarvan het steekproefdesign gekend is. Dit design wordt gereflecteerd door enquˆetegewichten die de kans weergeven voor specifieke individuen om opgenomen te
worden in de enquˆete.
Het succes van enquˆetes met een niet-probabilistisch steekproefdesign hangt sterk
af van de representativiteit van de steekproefpopulatie en de algemene populatie waarvan we informatie willen bekomen. Bij enquˆetes met een niet-probabilistisch steekproefdesign bekomt men vaak vertekende steekproeven en er zijn bijgevolg statistische
technieken nodig om dit in rekening te brengen. De Grote GriepMeting (GGM) is
een voorbeeld van zo een enquˆete waar de onderzoeker niet onder controle heeft wie
er wordt opgenomen in de enquˆete. De GGM is een online enquˆete waaraan iedereen kan deelnemen. Het doel van de GGM is de surveillantie van griepachtige
ziektebeelden (influenza-like illness = ILI) in de algemene populatie. In Hoofdstuk 3
onderzoeken we de validiteit van de GGM in Vlaanderen met betrekking tot de representativiteit van de steekproefpopulatie en de bekomen ILI incidentietendensen.
Het blijkt dat de leeftijdsverdeling van de steekproefpopulatie zeer verschillend is van
de leeftijdsverdeling van de algemene populatie. Omdat we weten dat leeftijd en ILI
incidentie afhankelijk zijn bekomen we vertekende schattingen van de ILI attack rates
en ILI incidentietrends wanneer we niet zouden corrigeren voor deze sterk afwijkende
leeftijdsverdelingen. Om voor de verschillen in de leeftijdsverdelingen te corrigeren
kunnen we gebruik maken van post-stratificatiegewichten. Veel gebruikte schatters
die deze post-stratificatiegewichten in rekening brengen kunnen dan worden gebruikt
om ILI attack rates and ILI incidentie trends te berekenen. Spijtig genoeg zijn deze
schatters ineffici¨ent wanneer deze post-stratificatiegewichten veel variabiliteit vertonen. Dit probleem was de motivatie voor de statistische methoden die we ontwikkelen
in Hoofdstukken 4 en 5. In deze twee hoofdstukken onderzoeken we statistische methoden die de variabiliteit doen afnemen van prevalentie- en incidentieschattingen
gebaseerd op binaire uitkomsten van een enquˆete met post-stratificatiegewichten die
veel variabiliteit vertonen.
In Hoofdstuk 4 beschrijven we het weight smoothing model voor het bekomen van prevalentieschattingen. Gepenaliseerde splines worden gebruikt in
het weight smoothing model om flexibele relaties toe te laten tussen de poststratificatiegemiddelden en de post-stratificatievariabele. Omdat prevalentieschattingen bekomen door middel van het weight smoothing model niet robuust zijn tegen een
eventuele modelmisspecificatie, stellen we ook een model-geholpen design-gebaseerde
gegeneraliseerde regressieschatter voor. In dit hoofdstuk, geven we ook de details
hoe variantie schatters voor deze schatters bekomen kunnen worden. In een simulatiestudie tonen we aan dat de door ons voorgestelde methoden het meest consistent
en robuust presteren over alle beschouwde simulatiesituaties. Als toepassing in dit hoofdstuk gebruiken we de GGM van het 2010-2011 griepseizoen om ILI attack rates
te schatten aan de hand van de voorgestelde schatters.
Waar de focus in Hoofstuk 4 prevalentieschattingen zijn, concentreren we
ons in Hoofdstuk 5 op tendensschattingen gebaseerd op enquˆetes met poststratificatiegewichten die veel variabiliteit vertonen. We breidden de idee¨en ontwikkeld in Hoofdstuk 4 uit door een tijdscomponent op te nemen in het weight smoothing
model. Deze component wordt gemodelleerd door middel van gepenaliseerde splines.
In een simulatiestudie blijkt duidelijk dat de voorgestelde model-geholpen designgebaseerde gegeneraliseerde regressieschatter goed presteert in geval van modelmisspecificatie. De GGM wordt weer gebruikt als toepassing. ILI incidentieratio’s tijdens
het 2010-2011 influenza seizoen worden geschat aan de hand van de ontwikkelde methoden.
Enquˆetes met een probabilistisch design − en dus enquˆetes met bijhorende enquˆetegewichten − zijn de focus in Hoofdstukken 6 en 7. Om meer specifiek te zijn,
we onderzoeken statistische methoden die enquˆetegewichten in rekening brengen bij
small area schattingen. Het doel van small area schattingen is het bekomen van goede
en betrouwbare schatters van bepaalde karakteristieken zoals gemiddelden en totalen voor gebieden (vb. arrondissementen, gemeenten,. . . ) waarvan enkel een kleine
steekproef of geen steekproef aanwezig is. In Hoofdstuk 6 geven we een overzicht van
veel gebruikte modellen binnen het domein van small area schattingen. In Hoofdstuk 7 stellen we een voorspellende modelgebaseerde methode voor om small area
schattingen te bekomen aan de hand van enquˆetes met bijhorende enquˆetegewichten.
Een hi¨erarchisch Bayesiaans model waarin de uitkomst wordt gemodelleerd op de enquˆetegewichten door middel van toevalsbewegingen wordt gebruikt als voorspellend
model. Het model houdt ook rekening met de spatiale structuur van de data. Om de
voorspellingen te kunnen maken dienen de enquˆetegewichten ook zelf gemodelleerd te
worden. In een simulatiestudie laten we zien dat de door ons voorgestelde schatter
minstens even goed presteert als andere methoden die enquˆetegewichten in rekening
brengen binnen het domein van small area schattingen. Als toepassing schatten we
astmaprevalenties overheen de 43 arrondissementen in Belgi¨e door gebruik te maken
van de 2001 Gezondheidsenquˆete.
In het tweede deel van deze thesis ligt de focus op de ontwikkeling van statistische methoden voor toepassingen in geostatistische data. Het doel van geostatistiek
is de productie van een (voorspellende) kaart voor een variabele over een spatiaal
domein. Dit gebeurt aan de hand van observaties − meestal geobserveerd met ruis
− genomen op locaties over het spatiaal domein. In deze thesis focussen we enkel
op normaal verdeelde geostatistische uitkomsten. In Hoofdstuk 8 beschrijven we de basisconcepten van twee veelgebruikte geostatistische methoden, namelijk kriging en
splines. Beide methoden hebben echter enkele nadelen. Bij kriging is het bijvoorbeeld zeer ongewoon om niet-lineaire relaties tussen de uitkomsten en covariabelen in
rekening te brengen. Verder is het niet mogelijk om bij kriging methoden rekening te
houden met geclusterde observaties of met meerdere observaties op eenzelfde locatie.
Daartegenover staat dat de belangrijkste kritiek tegen spline gebruik in geostatistiek
het feit is dat er geen rekening wordt gehouden met de spatiale autocorrelatie. Deze
nadelen van beide methoden zijn de motivatie voor het ontwikkelen van het concept
K-splines in Hoofdstuk 9.
K-splines zijn een uitbreiding van het geoadditieve model waarin de gebruikte
spline functies het onderliggend spatiaal proces (de spatiale autocorrelatie) met dezelfde accuraatheid en precisie schatten als in kriging. Radiale basisfuncties van de
vorm van veel gebruikte covariantiefuncties worden gebruikt als spline basisfuncties.
Men moet een keuze maken voor de spatiale-afname-parameter bij deze radiale basisfuncties. Wij stellen voor om deze parameter te schatten binnen het likelihood kader.
De lineair gemengde modelrepresentatie van K-splines maakt het mogelijk om uitbreidingen zoals niet-lineaire covariabele effecten, geclusterde gegevens of meerdere
observaties op eenzelfde locatie makkelijk op te nemen. In een simulatiestudie vergelijken we de prestaties van K-splines met kriging methoden, spline methoden en het
standaard geoadditief model in termen van schatten van het onderliggend spatiaal
proces en de predicties van een voorspellende kaart. De resultaten van de simulatie
tonen dat K-splines analoog presteren als kriging en beter presteren dan het standaard
geoadditief model voor simpele datavoorbeelden. Voor meer complexe scenario’s, zoals niet-lineaire covariabele effecten of geclusterde gegevens, zijn de prestaties van de
K-splines beter. Om K-splines te evalueren op levensechte datasets gebruiken we regenvaldata en data in verband met de vervuiling van de bodem door zware metalen.
De voorgestelde methodologie van K-splines is nog zeer basis, maar er kunnen nog
vele uitbreidingen in de toekomst worden aangebracht
On the choice of the mesh for the analysis of geostatistical data using R-INLA
Many methods used in spatial statistics are computationally demanding, and so, the development of more computationally efficient methods has received attention. A important development is the integrated nested Laplace approximation method which is carry out Bayesian analysis more efficiently This method, for geostatistical data, is done considering the SPDE approach that requires the creation of a mesh overlying the study area and all the obtained results depend on it. The impact of the mesh on inference and prediction is investigated through simulations. As there is no formal procedure to specify it, we investigate a guideline to create an optimal mesh.The first author acknowledge the financial support of the "Ciencia sem Fronteiras" program of CNPq (Brazil) under the process number 200573/2015-2. Support from the IAP Research Network P7/06 of the Belgian State (Belgian Science Policy) is also gratefully acknowledged by the second and third author.Ribeiro, PJ (reprint author), Univ Sao Paulo, Dept Ciencias Exatas, BR-13418900 Piracicaba, SP, Brazil.
[email protected]
Spatial Modelling to Inform Public Health Based on Health Surveys: Impact of Unsampled Areas at Lower Geographical Scale
Small area estimation is an important tool to provide area-specific estimates of population characteristics for governmental organizations in the context of education, public health and care. However, many demographic and health surveys are unrepresentative at a small geographical level, as often areas at a lower level are not included in the sample due to financial or logistical reasons. In this paper, we investigated (1) the effect of these unsampled areas on a variety of design-based and hierarchical model-based estimates and (2) the benefits of using auxiliary information in the estimation process by means of an extensive simulation study. The results showed the benefits of hierarchical spatial smoothing models towards obtaining more reliable estimates for areas at the lowest geographical level in case a spatial trend is present in the data. Furthermore, the importance of auxiliary information was highlighted, especially for geographical areas that were not included in the sample. Methods are illustrated on the 2008 Mozambique Poverty and Social Impact Analysis survey, with interest in the district-specific prevalence of school attendance
Cohort-based smoothing methods for age-specific contact rates
International audienceThe use of social contact rates is widespread in infectious disease modeling since it has been shown that they are key driving forces of important epidemiological parameters. Quantification of contact patterns is crucial to parameterize dynamic transmission models and to provide insights on the (basic) reproduction number. Information on social interactions can be obtained from population-based contact surveys, such as the European Commission project POLYMOD. Estimation of age-specific contact rates from these studies is often done using a piecewise constant approach or bivariate smoothing techniques. For the latter, typically, smoothness is introduced in the dimensions of the respondent’s and contact’s age (i.e., the rows and columns of the social contact matrix). We propose a smoothing constrained approach—taking into account the reciprocal nature of contacts—introducing smoothness over the diagonal (including all subdiagonals) of the social contact matrix. This modeling approach is justified assuming that when people age their contact behavior changes smoothly. We call this smoothing from a cohort perspective. Two approaches that allow for smoothing over social contact matrix diagonals are proposed, namely (i) reordering of the diagonal components of the contact matrix and (ii) reordering of the penalty matrix ensuring smoothness over the contact matrix diagonals. Parameter estimation is done in the likelihood framework by using constrained penalized iterative reweighted least squares. A simulation study underlines the benefits of cohort-based smoothing. Finally, the proposed methods are illustrated on the Belgian POLYMOD data of 2006. Code to reproduce the results of the article can be downloaded on this GitHub repository https://github.com/oswaldogressani/Cohort_smoothing
Spatial smoothing models to deal with the complex sampling design and nonresponse in the Florida BRFSS survey
Public health and governmental organizations have acknowledged the importance of obtaining information of various characteristics for small areas, such as counties. Spatial smoothing models have been developed to gain reliable information on the geographical distribution of the outcome of interest. When the geographical analysis is based on survey data, two issues pose challenges: (1) the complex design of the survey and (2) the presence of missing data due to non-response. We investigate the influence of missing data and the adjustment thereof in the context of the 2013 Florida Behavioral Risk Factor Surveillance System (BRFSS) health survey. We focus on the application and comparison of the Hajek ratio estimator and two model-based approaches for estimation of the spatial trend of the prevalence of having no health insurance coverage. The model-based methods are compared using the Deviance Information Criterion which show the benefits of modeling the weights as flexibly as possible. Methods are extended towards subgroup analyses and the estimation of area-specific standardized rates, where household incomes was identified as an important factor to include in the analysis. 1Support from the National Institutes of Health is ac- knowledged [award number 1. National Institutes of Health R01CA172805]. Support from the IAP Research Network P7/06 of the Belgian State (Belgian Science Policy) is grate- fully acknowledged. For the analyses we used the in- frastructure of the VSC - Flemish Supercomputer Center, funded by the Hercules Foundation and the Flemish Gov- ernment - department EWI
Model-based inference for small area estimation with sampling weights
Abstract: Obtaining reliable estimates about health outcomes for areas or domains where only few to no samples are available is the goal of small area estimation (SAE). Often, we rely on health surveys to obtain information about health outcomes. Such surveys are often characterised by a complex design, stratification, and unequal sampling weights as common features. Hierarchical Bayesian models are well recognised in SAE as a spatial smoothing method, but often ignore the sampling weights that reflect the complex sampling design. In this paper, we focus on data obtained from a health survey where the sampling weights of the sampled individuals are the only information available about the design. We develop a predictive model-based approach to estimate the prevalence of a binary outcome for both the sampled and non-sampled individuals, using hierarchical Bayesian models that take into account the sampling weights. A simulation study is carried out to compare the performance of our proposed method with other established methods. The results indicate that our proposed method achieves great reductions in mean squared error when compared with standard approaches. It performs equally well or better when compared with more elaborate methods when there is a relationship between the responses and the sampling weights. The proposed method is applied to estimate asthma prevalence across districts
Doubly-robust weight smoothing models to smooth post-stratification weights in case of a Gaussian survey outcome
In order to obtain unbiased estimates of a population quantity based on sample survey data, post-stratification
techniques use external data to adjust the estimates during the analysis stage. Small sample sizes in any post-
strata may yield highly variable estimator. The weight trimming method pools highly underrepresented units
into a stratum with better representation but it is somehow arbitrary. In the same spirit, weight-smoothing
approach treats post-stratum means as random-effects, inducing shrinkage across post-stratum means. To protect
against the bias generated by possible misspecification of the mixed-model, a doubly-robust version is used as
well as a nonparametric spline function for the underlying weight stratum means. I compare those approaches in
a simulation study for the inference about the population mean of a normally distributed survey outcome with
ordinal post-stratifying variable. None of the 9 estimators is uniformly best in all 24 scenarios considered but
the nonparametric weight-smoothing doubly-robust is close to the best for a wide range of populations offering
protection against unfavorable mean structures and model misspecification, therefore can be seen as a robust
technique. The methods are illustrated by estimating the weekly working hours using data from the 2008 Quality
of Life Survey in Colombia
- …
