1,721,034 research outputs found
Méthodes d'apprentissage automatique basées sur le réseau pour modéliser la variabilité entre les individus
Les technologies en développement rapide pour caractériser les variations génomiques et épigénomiques entre les individus permettent des approches personnalisées et "précises" en médecine. Dans cette thèse, notre objectif est de développer des approches d'apprentissage automatique basées sur les réseaux pour identifier les mécanismes biologiques sous-jacents aux variations des phénotypes de maladies, tels que la progression des maladies et la réponse aux médicaments. Le développement de nos méthodes a été motivé par trois applications différentes : [i] la découverte de sous-types dans le lupus érythémateux systémique, [ii] la prédiction des réponses aux médicaments dans le cancer, [iii] l'association des dynamiques du microbiome chez les nouveau-nés avec leur régime alimentaire et leur mode d'accouchement. Nous avons évalué la pertinence des voies et sous-réseaux résultants, vérifié la qualité des solutions sur des données de référence et comparé les résultats aux méthodes existantes.Rapidly developing technologies to characterize genomic and epigenomic variation across individuals enable personalized “precision” approaches to medicine. In this thesis, our objective is to develop network-based machine learning approaches to identify biological mechanisms underlying variation in disease phenotypes, such as disease progression and drug response. The development of our methods was driven by three different applications: [i] the discovery of subtypes in systemic Lupus erythematosus, [ii] the prediction of drug responses in cancer, [iii] the association of microbiome dynamics in new-borns with their diet and delivery mode. We evaluated the meaningfulness of the resulting pathways and subnetworks, assessed the quality of the solutions on benchmark data, and compared the results to existing methods
Vers une meilleur compréhension des réponses cellulaires aux stimuli externes en utilisant des approches informatiques dit réseaux
Pendant mes travaux de thèse, j'ai développé et appliqué des méthodes informatiques utilisant des données de réseaux afin d'aider l'analyse des données biologiques à haut-débit. Ma thèse consiste en trois projets : L'identification de protéines supplémentaires dans des approches de protéomique différentielle à l'aide des réseaux d'interaction protéiques, l'identification de réseaux régulatoires sous-jacents aux réponses aux stress abiotiques dans arabidopsis thaliana et l'analyse de signature transcriptomique de réponse immunitaire d'hôte spécifique à différentes étapes d'infection par shigella flexneri.In the course of my Ph.D work, i have developed and applied methods making use of network information to adavance the analysis of high-throughput biological data. My thesis comprises three projects :- The identification of additional proteins in differential protemics using protein interaction networks. In this study, we developed a novel computational approach based on protein-protein interaction networks to identify a list of proteins that might have remained undetected in differential proteomic profiling experiments.- The transcriptional regulatory networks underlying responses to environmental stresses. Based on publicly available data, measuring the response of A. Thaliana to a set of abiotic stresses in a time-resolved manner, we applied two complimentary approaches to derive gene regulatory networks underlying the plant's response to the perceived stresses.- The analysis of transcriptional host immune response signatures specific for distinct stages of infection by shigella flexneri. During their host invasion process, shigella localize to different subcellular niches
Algorithmic challenges in mass spectrometry and systems biology
Cell biology is in the middle of a paradigm change where approaches focusing on the biochemically oriented understanding of single genes are slowly replaced by the systems approach that views systems of genes and proteins in their network context [1]. In this talk we will examine a number of new computational challenges associated with this approach, from various aspects of interpreting peptide mass spectra, to the visualization and integration of heterogenous data types in the molecular network context [2-5]
Automated flow cytometric analysis across a large number of samples
Cette thèse a conduit à la mise au point de deux nouvelles approches statistiques pour l'identification automatique de populations cellulaires en cytometrie de flux multiparamétrique, et ceci pour le traitement d'un grand nombre d'échantillons, chaque échantillon étant prélevé sur un donneur particulier. Ces deux approches répondent à des besoins exprimés dans le cadre du projet Labex «Milieu Intérieur». Dix panels cytométriques de 8 marqueurs ont été sélectionnés pour la quantification des populations principales et secondaires présentes dans le sang périphérique. Sur la base de ces panels, les données ont été acquises et analysées sur une cohorte de 1000 donneurs sains.Tout d'abord, nous avons recherché une quantification robuste des principales composantes cellulaires du système immunitaire. Nous décrivons une procédure computationnelle, appelée FlowGM, qui minimise l'intervention de l'utilisateur. Le cœur statistique est fondé sur le modèle classique de mélange de lois gaussiennes. Ce modèle est tout d'abord utilisé pour obtenir une classification initiale, le nombre de classes étant déterminé par le critère d'information BIC. Après cela, une méta-classification, qui consiste en l'étiquetage des classes et la fusion de celles qui ont la même étiquette au regard de la référence, a permis l'identification automatique de 24 populations cellulaires sur quatre panels. Ces identifications ont ensuite été intégrées dans les fichiers de cytométrie de flux standard (FCS), permettant ainsi la comparaison avec l'analyse manuelle opérée par les experts. Nous montrons que la qualité est similaire entre FlowGM et l'analyse manuelle classique pour les lymphocytes, mais notamment que FlowGM montre une meilleure discrimination des sous-populations de monocytes et de cellules dendritiques (DC), qui sont difficiles à obtenir manuellement. FlowGM fournit ainsi une analyse rapide de phénotypes cellulaires et se prête à des études de cohortes.A des fins d'évaluation, de diagnostic et de recherche, une analyse tenant compte de l'influence de facteurs, comme par exemple les effets du protocole, l'effet de l'âge et du sexe, a été menée. Dans le contexte du projet MI, les 1000 donneurs sains ont été stratifiés selon le sexe et l'âge. Les résultats de l'analyse quantitative faite avec FlowGM ont été jugés concordants avec l'analyse manuelle qui est considérée comme l'état de l'art. On note surtout une augmentation de la précision pour les populations CD16+ et CDC1, où les sous-populations CD14loCD16hi et HLADRhi CDC1 ont été systématiquement identifiées. Nous démontrons que les effectifs de ces deux populations présentent une corrélation significative avec l'âge. En ce qui concerne les populations qui sont connues pour être associées à l'âge, un modèle de régression linéaire multiple a été considéré qui fournit un coefficient de régression renforcé. Ces résultats établissent une base efficace pour l'évaluation de notre procédure FlowGM.Lors de l'utilisation de FlowGM pour la caractérisation détaillée de certaines sous-populations présentant de fortes variations au travers des différents échantillons, par exemple les cellules T, nous avons constaté que FlowGM était en difficulté. En effet, dans ce cas, l'algorithme EM classique initialisé avec la classification de l'échantillon de référence est insuffisant pour garantir l'alignement et donc l'identification des différentes classes entre tous échantillons. Nous avons donc amélioré FlowGM en une nouvelle procédure FlowGMP. Pour ce faire, nous avens ajouté au modèle de mélange, une distribution a priori sur les paramètres de composantes, conduisant à un algorithme EM contraint. Enfin, l'évaluation de FlowGMP sur un panel difficile de cellules T a été réalisée, en effectuant une comparaison avec l'analyse manuelle. Cette comparaison montre que notre procédure Bayésienne fournit une identification fiable et efficace des onze sous-populations de cellules T à travers un grand nombre d'échantillons.In the course of my Ph.D. work, I have developed and applied two new computational approaches for automatic identification of cell populations in multi-parameter flow cytometry across a large number of samples. Both approaches were motivated and taken by the LabEX "Milieu Intérieur" study (hereafter MI study). In this project, ten 8-color flow cytometry panels were standardized for assessment of the major and minor cell populations present in peripheral whole blood, and data were collected and analyzed from 1,000 cohorts of healthy donors.First, we aim at robust characterization of major cellular components of the immune system. We report a computational pipeline, called FlowGM, which minimizes operator input, is insensitive to compensation settings, and can be adapted to different analytic panels. A Gaussian Mixture Model (GMM) - based approach was utilized for initial clustering, with the number of clusters determined using Bayesian Information Criterion. Meta-clustering in a reference donor, by which we mean labeling clusters and merging those with the same label in a pre-selected representative donor, permitted automated identification of 24 cell populations across four panels. Cluster labels were then integrated into Flow Cytometry Standard (FCS) files, thus permitting comparisons to human expert manual analysis. We show that cell numbers and coefficient of variation (CV) are similar between FlowGM and conventional manual analysis of lymphocyte populations, but notably FlowGM provided improved discrimination of "hard-to-gate" monocyte and dendritic cell (DC) subsets. FlowGM thus provides rapid, high-dimensional analysis of cell phenotypes and is amenable to cohort studies.After having cell counts across a large number of cohort donors, some further analysis (for example, the agreement with other methods, the age and gender effect, etc.) are required naturally for the purpose of comprehensive evaluation, diagnosis and discovery. In the context of the MI project, the 1,000 healthy donors were stratified across gender (50% women and 50% men) and age (20-69 years of age). Analysis was streamlined using our established approach FlowGM, the results were highly concordant with the state-of-art gold standard manual gating. More important, further precision of the CD16+ monocytes and cDC1 population was achieved using FlowGM, CD14loCD16hi monocytes and HLADRhi cDC1 cells were consistently identified. We demonstrate that the counts of these two populations show a significant correlation with age. As for the cell populations that are well-known to be related to age, a multiple linear regression model was considered, and it is shown that our results provided higher regression coefficient. These findings establish a strong foundation for comprehensive evaluation of our previous work.When extending this FlowGM method for detailed characterization of certain subpopulations where more variations are revealed across a large number of samples, for example the T cells, we find that the conventional EM algorithm initiated with reference clustering is insufficient to guarantee the alignment of clusters between all samples due to the presence of technical and biological variations. We then improved FlowGM and presented FlowGMP pipeline to address this specific panel. We introduce a Bayesian mixture model by assuming a prior distribution of component parameters and derive a penalized EM algorithm. Finally the performance of FlowGMP on this difficult T cell panel with a comparison between automated and manual analysis shows that our method provides a reliable and efficient identification of eleven T cell subpopulations across a large number of samples
Application de la biologie systémique et du profilage multicouche pour une compréhension globale du vieillissement cellulaire
La sénescence cellulaire (SC) qui correspond à un destin cellulaire est caractérisée par un arrêt stable de son cycle dont les cellules présentent un dysfonctionnement. La SC joue un rôle complexe dans la physiologie et la physio-pathologie. Les cellules sénescentes sont extrêmement impliquées dans la suppression de tumeurs, le développement embryonnaire et la cicatrisation des plaies, mais aussi dans de nombreuses pathologies liées à l’âge, y compris, paradoxalement, dans le développement de tumeurs. Mon travail de thèse représente une analyse exhaustive, en temps différé, des différentes couches de l’épigénome, du transcriptome et du métabolome des cellules qui entrent en SC. Il est divisé en trois sous-projets.Tout d’abord, j’ai étudié la dynamique de la liaison des facteurs de transcription(FT) aux activateurs dans la sénescence induite par oncogène (SIO). Les facteurs de transcription s’organisent en un réseau hiérarchisé, les ”pioneers” façonnant le paysage des activateurs en recrutant des ”settlers” et des ”migrants” pour affiner la régulation de l’expression des gènes. Plus précisément, j’ai découvert que les membres de la famille des AP1 précèdent la majorité des autres FT, amorçant la chromatine afin d’initier et coordonner la réponse transcriptionnelle de la SC.Ensuite, j’ai effectué une analyse approfondie des changements métaboliques associés à la SC, en intégrant les résultats de fibroblastes qui entrent en sénescence réplicative, induite par oncogènes et par dommages à l’ADN, en parallèle d’une caractérisation de la SIO dans les myoblastes primaires. J’ai identifié plusieurs métabolites qui s’accumulent ou diminuent dans les cellules sénescentes. Ceux-ci sont associés à des modifications post-traductionnelles, à la synthèse des protéines, àla biosynthèse et à l’oxydation des lipides, ainsi qu’à la production d’énergie. En particulier, l’alpha-cétoglutarate (aKG) et l’uridine diphosphate N-acétylglucosamine(UDP-GlcNAc) agissent comme des substrats pour les modificateurs de la chroma-tine, ce qui suggère un implication dans la régulation des gènes.Troisièmement, j’ai défini un modèle mathématique décrivant l’évolution tran-scriptionnelle des cellules entrant en SIO. J’ai généré ce modèle en me servant de l’algorithme Sparse Identification of Nonlinear Dynamics (SINDy) dans unenvironnement de calcul haute performance. J’ai validé le modèle avec des données de transcriptomiques provenant des expériences d’inhibition de JUN et RELA. Lorsde l’inhibition de JUN, un membre de la famille des AP1, la simulation du modèle s’est davantage rapprochée de la sénescence cellulaire que de RELA. Ce qui suggère que le rang des FT dans la hiérarchie de la liaison à la chromatine pourrait être déterminée par la prévisibilité de sa réponse transcriptionnelle.Dans son ensemble, mon analyse intégrative permet une meilleure compréhension de la SC et possède le potentiel de révéler des vulnérabilités jusqu’alors inconnues des cellules sénescentes et qui pourraient être utilisées en vue de traiter le cancer et les maladies liées à l’âge, favorisant ainsi une plus longue et meilleure qualité de vie.Cellular senescence (CS) is a cell fate characterized by a stable cell cyclearrest of dysfunctional cells. CS has an intricate role in physiology and patho-physiology. Senescent cells play a vital role in tumor suppression, embryonicdevelopment, and wound healing, but also in many age-related pathologies,including paradoxically, tumor development. My thesis work represents acomprehensive time-resolved analysis of the epigenome, transcriptome, andmetabolome layers of cells undergoing CS and is divided into three subprojects.First, I investigated the dynamics of transcription factor (TF) binding toenhancers in oncogene-induced senescence (OIS). TFs organize in a hierar-chical network, with pioneers shaping the enhancer landscape by recruitingsettlers and migrants to fine-tune gene expression. Specifically, I discoveredthat the AP1 family members precede the majority of other TFs, primingchromatin to initiate and coordinate the CS transcriptional response.Second, I performed an extensive analysis of the metabolic changes asso-ciated with CS, integrating results from fibroblasts undergoing replicative,oncogene-induced, and DNA damage-induced senescence, in addition to acharacterization of OIS in primary myoblasts. I identified several metabolitesthat accumulate or diminish in senescent cells, and those are associated withpost-translational modifications, protein synthesis, lipid biosynthesis and oxi-dation, and energy production. In particular, alpha-ketoglutarate (aKG) anduridine diphosphate N-acetylglucosamine (UDP-GlcNAc) act as substratesfor chromatin modifiers, suggesting roles in gene regulation.Third, I defined a mathematical model describing the transcriptionalevolution of cells undergoing OIS. I generated this model using the SparseIdentification of Nonlinear Dynamics (SINDy) algorithm in a high-performancecomputing environment. I validated the model with transcriptome dataderived from JUN and RELA depletion experiments. On inhibition of JUN, amember of the AP1 family, the model simulation behaved closer to senescentcells than on RELA, suggesting that TF rank in the chromatin bindinghierarchy may determine the predictability of its transcriptional response.Together, my integrative analysis provides a deeper understanding of CSand has the potential to reveal previously unknown vulnerabilities of senescentcells that may be exploited to treat cancer and age-related diseases, promotinga longer healthspan
The Cytoscape platform for network analysis and visualization
International audienceCytoscape is an open source software platform that supports the visualization and analysis of molecular profiling data in the context of functional interaction networks. It is developed by several research groups that are actively involved in the development of technologies around the generation and integrative analysis of molecular profiling data in the context of biological and biomedical research. Here, we outline the rationale behind the use of functional interaction networks, introduce the Cytoscape platform, and present an example in which data analysis and visualization using Cytoscape has led to a discovery of previously unknown disease biology
Going Beyond Counting First Authors in Author Co-citation Analysis
The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation
counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings
are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that
only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into
account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed
Variations on the Author
“Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship
Appropriate Similarity Measures for Author Cocitation Analysis
We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis
- …
