Portail HAL Insee

Not a member yet

1187 research outputs found

Sort by

Lifecycle Wages and Human Capital Investments: Selection and Missing Data

Author: Gobillon Laurent
Magnac Thierry
Roux Sébastien
Publication venue: Oxford University Press (OUP)
Publication date: 01/01/2025
Field of study

International audienceWe derive wage equations with individual specific coefficients from a structural model of human capital investment over the life cycle. This model allows for interruptions in labour market participation and deals with missing data and attrition problems. We propose a new framework that deals with missingness at random and is based on factor decompositions that allow for flexible control of selection. Our approach leads to an interactive effect wage specification, which we estimate using long administrative panel data on male wages in the private sector in France. A structural function approach shows that interruptions negatively affect average wages. Interestingly, they also negatively affect the inter-decile range of wages after twenty years. This is only partly due to the fact that interruptions are endogenous

Enquêter sur les populations au temps de la mécanographie: Journée d'études, Ined, 17 janvier 2025.

Author: Beaurepaire Camille
Publication venue: Société française de statistique (SFdS)
Publication date: 01/01/2025
Field of study

Comité d'organisation : Julie Baron (Ined), Fabrice Cahen (Ined), Agnès Hirsch (Paris-Dauphine, Ined), Lionel Kesztenbaum (Ined), Efi Markou (Ined), Thomas Merly-Alpa (Insee), Emilien Ruiz (Sciences Po).International audienc

Prévenir les discriminations par une action de formation : une évaluation

Author: Challe Laetitia
Chareyron Sylvain
l'Horty Yannick
Petit Pascale
Publication venue: INSEE
Publication date: 11/12/2025
Field of study

International audienceIn France, training of recruiters is often emphasised as an effective means for combating discrimination and in 2017 it was made compulsory for companies with more than 300 employees. In this study, we assess the effect of a measure similar to this compulsory train ing by comparing the results of correspondence tests performed before and after implementation of the measure in treated companies and control companies. The results show that the level of discrimination was the same between the two groups of companies prior to implementation of the measures and that the same was true five months later. Double-and triple-difference esti mates show no significant impact of these measures on the level of discrimination in access to employment.En France, la formation des recruteurs est souvent mise en avant comme un moyen efficace de lutte contre les discriminations et elle a été rendue obligatoire pour les entreprises de plus de 300 salariés en 2017. Dans cette étude, nous évaluons l'effet d'une action proche de cette formation obligatoire en comparant les résultats de tests par correspondance réalisés avant et après la mise en oeuvre des actions dans des entreprises traitées et des entreprises témoins. Les résultats révèlent que le niveau des discriminations est le même entre les deux groupes d'entreprises avant la mise en oeuvre des actions et qu'il en va de même cinq mois après. Des estimations en double et triple différences ne montrent pas d'effet significatif de ces actions sur le niveau de discrimination à l'embauche

An Identification Method for Two Types of Particular Behaviours in Stream Temperature Time Series: Application to a National Dataset in Mainland France

Author: Moulin Nelly
Gresselin Frederic
Dardaillon Bruno
Thomas Zahra
Publication venue: Wiley
Publication date: 19/11/2025
Field of study

International audienceThe measurement of the stream water temperature signal is subject to various issues and environmental phenomena. Accurate interpretations of the data composing water temperature time series (WTS) often require a high‐level human expertise during data preprocessing steps to sort out meaningful temperature signals. This study proposes a method to highlight two main types of particular behaviours encountered in WTS, apart from outliers: intensified data and buffered data. The method uses a metric based on the WTS itself to identify periods with particular data. It enables the identification and the visualisation of regular and irregular particular behaviours in a given WTS. The method was applied to a large national dataset collected in mainland France. The dataset contains 993 WTS with a wide range of data quality and environmental measurement conditions. Data identified as particular behaviour accounts for up to 7% of the dataset. Depending on the measurement conditions, up to 25% of a given WTS data can be considered as ‘occasional particular behaviour’ and potentially not exploitable. Buffered data mostly occur during winter months with no apparent spatial pattern. Intensified data occur mainly in summer months and a spatial pattern shows WTS containing the highest percentage of intensified data in the south‐east part of the study area. The identification method was also applied to several known situations where a high‐level human expertise was available. It provided robust identification performances at regional scale confronted with human expertise as well as at national scale, on a large dataset. Such methods can facilitate the selection of exploitable data in large datasets which are more widely available today. Potentially problematic data becomes straightforward and subsequent data qualification or correction is facilitated

L’apport des technologies cloud pour industrialiser le processus d’innovation statistique

Author: Avouac Romain
Faria Thomas
Comte Frédéric
Publication venue: CCSD
Publication date: 2025
Field of study

Le développement des méthodes de data science présente une opportunité importante pour la statistique publique. Elles permettent de traiter des sources de données non conventionnelles, que ce soit du fait de leur volumétrie ou de leur structure, et donc de produire de l'information statistique nouvelle et/ou à des résolutions spatiales et temporelles beaucoup plus fines. De même, les méthodes d'apprentissage statistique s'intègrent comme des outils supplémentaires dans la palette des statisticiens publics, leur permettant à la fois d'appréhender des domaines classiques de la statistique sous un jour nouveau — comme la codification automatique ou l'imputation de données manquantes — et de tirer parti de sources jusqu'ici peu utilisées — par exemple, l'exploitation des données satellites grâce à des modèles d'apprentissage profond. L'intégration de ces nouveaux objets dans un processus de production statistique pose des défis qui se situent au confluent de la méthodologie statistique et de la technique informatique. Sur le plan méthodologique, de nombreux travaux réalisés aussi bien au sein du SSP que dans le cadre de projets européens ont exploré les opportunités et les implications de ces nouveaux objets pour la statistique publique. En revanche, la dimension informatique de leur exploitation a été peu documentée. Ce document de travail vise à montrer l'opportunité des technologies cloud pour favoriser l'innovation dans la production statistique. Nous montrons en particulier comment certaines technologies centrales de cet écosystème — la conteneurisation et le stockage objet — permettent de mettre à disposition des environnements qui favorisent à la fois l’autonomie, le passage à l'échelle et la reproductibilité des traitements. Nous détaillons comment le projet Onyxia, développé à l'Insee, permet aux statisticiens de s'approprier ces technologies à travers une interface simple d'utilisation et un catalogue de services de data science prêts à l’emploi. Enfin, nous illustrons l'intérêt pratique de ces technologies en montrant comment elles ont permis d'industrialiser le processus de codification automatique des domaines d'activité des entreprises françaises en facilitant la mise en production d'un modèle de machine learning selon les principes du MLOps

Statistiques fondées sur des données administratives : Esquisse d’un cadre général

Author: Koumarianos Heidi
Rivière Pascal
Publication venue: CCSD
Publication date: 2025
Field of study

La mobilisation de données administratives pour la production de statistiques et les questions qui l'accompagnent ne sont pas nouvelles dans les statistiques officielles, mais elles ne donnent pas lieu à un cadre méthodologique équivalent à ce qui existe pour les enquêtes. Cet usage peut parfois être perçu à tort comme immédiat, puisque les données « existent » déjà, et qu'elles ne nécessitent pas la mise en œuvre par le statisticien d'un processus de collecte pour les obtenir. Cependant, cette absence de collecte n'est qu'une illusion de simplicité : elle est aussi le signe d'une perte de maîtrise sur les modalités d'obtention des données, leur temporalité, la définition des variables, des nomenclatures, les possibilités de vérification … Au total, pour ces nouvelles sources de données, c'est tout un pan du processus de production statistique qu'il faut repenser, pour tenir compte des nouvelles questions qu'elles soulèvent. Les données administratives sont liées, par leur nature même, à un univers particulier, avec ses objectifs, son langage, ses catégories, ses dynamiques. Sous-produits de l'activité de l'administration, elles ne sont en aucun cas « données », et peuvent se révéler très éloignées de l'univers de l'utilisateur. Leur utilisation à des fins statistiques soulève des problématiques de qualité particulières, le concept de qualité étant subordonné à l'usage. Elle requiert une transition du monde administratif au monde statistique, un détachement de l'un pour se réattacher à l'autre. Cela ne peut se faire sans difficultés, sans frottements : c'est la notion de data friction. Pour effectuer cette transition rigoureusement et dans de bonnes conditions, une grille d'analyse est nécessaire. Elle se présente sous la forme de 5 axes : objet (ou unité statistique), population et champ, variable, domaine (ou catégorisation), temporalités. On propose ici une démarche fondée sur cette grille, et qui se décompose en 3 phases : acquisition, transformation, traitement statistique.• La phase d'acquisition part des données du SI administratif, non conçu pour les statistiques, car hétérogène, épars, mouvant, lié à un usage métier. Elle vise à rassembler, documenter, filtrer mais aussi figer, pour arriver à une « source administrative » utilisable. • La phase de transformation vise à passer de l'univers administratif à l'univers statistique.• La phase de traitement statistique correspond à une étape classique, que l'on retrouve aussi dans les enquêtes. Pour chacune des phases, on met en évidence l'importance de « boucles de rétroaction », dans l'esprit du data tracking : pour assurer la qualité des données, donc des statistiques produites, il faut effectuer des retours arrière. C'est d'autant plus difficile que, contrairement aux enquêtes, on n'a pas la pleine maîtrise des concepts. Il en découle de nombreuses vérifications, à plusieurs niveaux : en cas d'anomalie, cela conduit à remonter en amont dans le processus, y compris jusqu'à la source. Ces boucles sont de natures très différentes selon les phases. Au total, en raison du besoin de qualité et d'explicabilité des résultats, l'enchaînement des phases n'a rien de linéaire. Si le document propose un cadre général, sa mise en pratique peut nécessiter certains ajustements en lien avec des contraintes pratiques (de volume, ou de temps, par exemple). Adapté à une situation de mono-source administrative, il peut s'étendre : les principes proposés s'appliquent aussi en bonne partie aux données privées, avec des difficultés supplémentaires (champ, confidentialité, conventions, coût, ...). Ils peuvent aussi être replacés dans un contexte multi-sources, en associant données administratives et enquêtes, ce qui pose là aussi de nouvelles questions

Take-up of Social Benefits: Experimental Evidence from France

Author: Castell Laura
Gurgand Marc
Imbert Clément
Tochev Todor
Publication venue: American Economic Association
Publication date: 2025
Field of study

International audienceWe report on two nationwide experiments with job seekers in France. We first show that a meeting with social services to assess eligibility and help with applications to social benefits increased new benefit take-up by 29 percent. By contrast, an online simulator that gave personalized information on benefit eligibility did not increase take-up. Marginal treatment effects show that individuals who benefit the most from the meetings are the least likely to attend. Overall, without ruling out information frictions, our results suggest that transaction costs represent the main obstacle to applying for benefits or accessing government’s assistance in applying

Politiques sociales et de santé: Comprendre et agir

Author: Huteau Gilles
Allanic Maud
André Jean-Marie
Barlet Christophe
Chauvin Pierre-Antoine
Daubas-Letourneux Véronique
Elshoud Stéphane
Desmoulin Gil
Huteau Gisèle
Jabot Françoise
de Montalembert Pierre
Pariset Chloé
Perrocheau Antonin
Torres Marion
Villeneuve Pierre
Vioujas Vincent
Publication venue: Presses de l'EHESP
Publication date: 2025
Field of study

International audienceComprendre les politiques sociales et de santé suppose une vision d’ensemble, à la fois transversale et thématique. C’est ce que propose cet ouvrage, en articulant approches pluridisciplinaires (science politique, santé publique, sociologie, économie…) et savoirs professionnels.Loin d’un simple inventaire juridique, il éclaire les enjeux, les orientations et les acteurs de ces politiques.Cette 4e édition, entièrement actualisée, s’enrichit de chapitres sur la lutte contre les discriminations, la santé au travail ou encore la santé environnementale. Elle conserve la spécificité d’aborder conjointement politiques sociales et de santé, pour mieux en révéler les synergies.Conçu comme un ouvrage de référence, il s’adresse aux étudiants (université, IEP, écoles du travail social, concours de la fonction publique,…), aux enseignants, ainsi qu’à toute personne souhaitant actualiser ou approfondir leurs connaissances

Quel jour naît-on le plus en France ?

Author: Blanpain Nathalie
Publication venue: Insee
Publication date: 18/09/2025
Field of study

National audienceOver the last ten years, from 2015 to 2024, the day with the highest average number of births was on the 20th of July, while Christmas Day recorded the fewest. Apart from July, a noticeable concentration of births occurred in late September, reflecting conceptions that took place during the end of year holidays. Births tended to be less frequent on weekends and public holidays.Since the 1970s, France’s “baby season” shifted from spring to summer. From 1975 to 2010, heat waves were most often followed by a dip in births 9 months later, in April or May. This effect became less pronounced in recent years, as heatwaves grew in frequency. Another striking change was the sharp decline, since the 1970s, of the traditional April baby boom among primary school teachers.Sur les dix dernières années, de 2015 à 2024, le jour ayant en moyenne le maximum de naissances est le 20 juillet, tandis que Noël est le jour en ayant le minimum. En dehors de fin juillet-début août, les jours avec le plus de naissances se situent fin septembre, ce qui correspond à une conception au moment des fêtes de fin d'année. Les naissances sont moins fréquentes les jours fériés et les week-ends. Depuis les années 1970, la saison des bébés s'est décalée du printemps à l'été. De 1975 à 2010, les vagues de chaleur ont le plus souvent été suivies d'un déficit de naissances 9 mois plus tard en avril ou mai ; ce déficit est moins visible depuis, dans un contexte où les vagues de chaleur se multiplient. Par ailleurs, le pic des naissances en avril des mères professeures des écoles a fortement diminué depuis les années 1970

Saddlepoint Monte Carlo and its Application to Exact Ecological Inference

Author: Voldoire Théo
Chopin Nicolas
Rateau Guillaume
Ryder Robin
Publication venue: CCSD
Publication date: 14/11/2025
Field of study

Assuming X is a random vector and A a non-invertible matrix, one sometimes need to perform inference while only having access to samples of Y = AX. The corresponding likelihood is typically intractable. One may still be able to perform exact Bayesian inference using a pseudo-marginal sampler, but this requires an unbiased estimator of the intractable likelihood. We propose saddlepoint Monte Carlo, a method for obtaining an unbiased estimate of the density of Y with very low variance, for any model belonging to an exponential family. Our method relies on importance sampling of the characteristic function, with insights brought by the standard saddlepoint approximation scheme with exponential tilting. We show that saddlepoint Monte Carlo makes it possible to perform exact inference on particularly challenging problems and datasets. We focus on the ecological inference problem, where one observes only aggregates at a fine level. We present in particular a study of the carryover of votes between the two rounds of various French elections, using the finest available data (number of votes for each candidate in about 60,000 polling stations over most of the French territory). We show that existing, popular approximate methods for ecological inference can lead to substantial bias, which saddlepoint Monte Carlo is immune from. We also present original results for the 2024 legislative elections on political centre-to-left and left-to-centre conversion rates when the far-right is present in the second round. Finally, we discuss other exciting applications for saddlepoint Monte Carlo, such as dealing with aggregate data in privacy or inverse problems

0

full texts

1,187

metadata records

Updated in last 30 days.

Portail HAL Insee

Access Repository Dashboard

Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇