1,721,213 research outputs found
Construction and use of a pharmacogenomic knowledge base for data integration and knowledge discovery
Cette thèse porte sur l’utilisation d’ontologies et de bases de connaissances pour guider différentes étapes du processus d’extraction de connaissances à partir de bases de données (ECBD) et une application dans le domaine de la pharmacogénomique. Les données relatives à ce domaine sont hétérogènes, complexes, et distribuées dans diverses bases de données, ce qui rend cruciale l’étape préliminaire de préparation et d’intégration des données à fouiller. Je propose pour guider cette étape une approche originale d’intégration de données qui s’appuie sur une représentation des connaissances du domaine sous forme de deux ontologies en logiques de description : SNP-Ontology et SO-Pharm. Cette approche a été implémentée grâce aux technologies du Web sémantique et conduit au peuplement d’une base de connaissances pharmacogénomique. Le fait que les données à fouiller soient alors disponibles dans une base de connaissances entraîne de nouvelles potentialités pour le processus d’extraction de connaissances. Je me suis d’abord intéressé au problème de la sélection des données les plus pertinentes à fouiller en montrant comment la base de connaissances peut être exploitée dans ce but. Ensuite j’ai décrit et appliqué à la pharmacogénomique, une méthode qui permet l’extraction de connaissances directement à partir d’une base de connaissances. Cette méthode appelée Analyse des Assertions de Rôles (ou AAR) permet d’utiliser des algorithmes de fouille de données sur un ensemble d’assertions de la base de connaissances pharmacogénomique et d’expliciter des connaissances nouvelles et pertinentes qui y étaient enfouies.This thesis studies the use of ontology and knowledge base for guiding various steps of the Knowledge Discovery in Databases (KDD) process in the domain of pharmacogenomics. Data related to this domain are heterogeneous, complex, and disseminated through several data sources. Consequently, the preliminary step that consists in the preparation and the integration of data is crucial. For guiding this step, an original approach is proposed, based on a knowledge representation of the domain within two ontologies in description logics : SNP-Ontology and SO-Pharm. This approach has been implemented using semantic Web technologies and leads finally to populating a pharmacogenomic knowledge base. As a result, data to analyze are represented in the knowledge base, which is a benefit for guiding following steps of the knowledge discovery process. Firstly, I study this benefit for feature selection by illustrating how the knowledge base can be used for this purpose. Secondly, I describe and apply to pharmacogenomics a new method named Role Assertion Analysis (or RAA) that enables knowledge discovery directly from knowledge bases. This method uses data mining algorithms over assertions of our pharmacogenomic knowledge base and results in the discovery of new and relevant knowledge
Using domain knowledge in the Transcriptomic analysis : Semantic similarity, functional classification and fuzzy profiles. Application to colorectal cancer
L'analyse bioinformatique des données de transcriptomique a pour but d'identifier les gènes qui présentent des variations d'expression entre différentes situations, par exemple entre des échantillons de tissu sain et de tissu malade et de caractériser ces gènes à partir de leurs annotations fonctionnelles. Dans ce travail de thèse, je propose quatre contributions pour la prise en compte des connaissances du domaine dans ces méthodes. Tout d'abord je définis une nouvelle mesure de similarité sémantique et fonctionnelle (IntelliGO) entre les gènes, qui exploite au mieux les annotations fonctionnelles issues de l'ontologie GO ('Gene Ontology'). Je montre ensuite, grâce à une méthodologie d'évaluation rigoureuse, que la mesure IntelliGO est performante pour la classification fonctionnelle des gènes. En troisième contribution je propose une approche différentielle avec affectation floue pour la construction de profils d'expression différentielle (PED). Je définis alors un algorithme d'analyse de recouvrement entre classes fonctionnelles et ensemble des références, ici les PEDs, pour mettre en évidence des gènes ayant à la fois les mêmes variations d'expression et des annotations fonctionnelles similaires. Cette méthode est appliquée à des données expérimentales produites à partir d'échantillons de tissus sains, de tumeur colo-rectale et de lignée cellulaire cancéreuse. Finalement, la mesure de similarité IntelliGO est généralisée à d'autres vocabulaires structurés en graphe acyclique dirigé et enraciné (rDAG) comme l'est l'ontologie GO, avec un exemple d'application concernant la réduction sémantique d'attributs avant la fouille.Bioinformatic analyses of transcriptomic data aims to identify genes with variations in their expression level in different tissue samples, for example tissues from healthy versus seek patients, and to characterize these genes on the basis of their functional annotation. In this thesis, I present four contributions for taking into account domain knowledge in these methods. Firstly, I define a new semantic and functional similarity measure which optimally exploits functional annotations from Gene Ontology (GO). Then, I show, thanks to a rigorous evaluation method, that this measure is efficient for the functional classification of genes. In the third contribution, I propose a differential approach with fuzzy assignment for building differential expression profiles (DEPs). I define an algorithm for analyzing overlaps between functional clusters and reference sets such as DEPs here, in order to point out genes that have both similar functional annotation and similar variations in expression. This method is applied to experimental data produced from samples of healthy tissue, colorectal tumor and cancerous cultured cell line. Finally the similarity measure IntelliGO is generalized to another structured vocabulary organized as GO as a rooted directed acyclic graph, with an application concerning the semantic reduction of attributes before mining
Supporting information for the RNAct Data Science Wizard (DSW) knowledge model for early-stage researchers.
<p>The two attached Excel sheets contain information about the datasets collected by the Early Stage Researchers (ESRs) in the RNAct MSCA-ITN project (RNAct_datasets.xlsx) and on the questionnaire that was put to the ESRs in relation to the Data Science Wizard (DSW) knowledge model that was developed as part of RNAct. </p>
<p>The zip file contains data in relation to the Data Science Wizard template development:</p>
<p>- DMP_1stRound_introductory_presentation.pdf: Presentation for the ESRs to prepare them for filling in the first version of the DMP</p>
<p>- DMPs_1stRound, DMPs_2ndRound: The filled in DMPs by the ESRs in the first and second round</p>
<p>- RNAct-ESRtraining-KM_1.0.3.km: The first version of the knowledge model to create the DMP</p>
<p>- RNAct-ESRtraining-KM_1.0.14.km: The second and final version of the knowledge model to create the DMP</p>
<p>- TemplateDMP_RNAct-ESRtraining-KM_1.0.14.pdf: A PDF overview of the second and final version of the knowledge model</p>
Contribution of domain ontologies for knowledge discovery in biomedical data
Le Web sémantique propose un ensemble de standards et d'outils pour la formalisation et l'interopérabilité de connaissances partagées sur le Web, sous la forme d'ontologies. Les ontologies biomédicales et les données associées constituent de nos jours un ensemble de connaissances complexes, hétérogènes et interconnectées, dont l'analyse est porteuse de grands enjeux en santé, par exemple dans le cadre de la pharmacovigilance. On proposera dans cette thèse des méthodes permettant d'utiliser ces ontologies biomédicales pour étendre les possibilités d'un processus de fouille de données, en particulier, permettant de faire cohabiter et d'exploiter les connaissances de plusieurs ontologies biomédicales. Les travaux de cette thèse concernent dans un premier temps une méthode fondée sur les structures de patrons, une extension de l'analyse formelle de concepts pour la découverte de co-occurences de événements indésirables médicamenteux dans des données patients. Cette méthode utilise une ontologie de phénotypes et une ontologie de médicaments pour permettre la comparaison de ces événements complexes, et la découverte d'associations à différents niveaux de généralisation, par exemple, au niveau de médicaments ou de classes de médicaments. Dans un second temps, on utilisera une méthode numérique fondée sur des mesures de similarité sémantique pour la classification de déficiences intellectuelles génétiques. On étudiera deux mesures de similarité utilisant des méthodes de calcul différentes, que l'on utilisera avec différentes combinaisons d'ontologies phénotypiques et géniques. En particulier, on quantifiera l'influence que les différentes connaissances de domaine ont sur la capacité de classification de ces mesures, et comment ces connaissances peuvent coopérer au sein de telles méthodes numériques. Une troisième étude utilise les données ouvertes liées ou LOD du Web sémantique et les ontologies associées dans le but de caractériser des gènes responsables de déficiences intellectuelles. On utilise ici la programmation logique inductive, qui s'avère adaptée pour fouiller des données relationnelles comme les LOD, en prenant en compte leurs relations avec les ontologies, et en extraire un modèle prédictif et descriptif des gènes responsables de déficiences intellectuelles. L'ensemble des contributions de cette thèse montre qu'il est possible de faire coopérer avantageusement une ou plusieurs ontologies dans divers processus de fouille de donnéesThe semantic Web proposes standards and tools to formalize and share knowledge on the Web, in the form of ontologies. Biomedical ontologies and associated data represents a vast collection of complex, heterogeneous and linked knowledge. The analysis of such knowledge presents great opportunities in healthcare, for instance in pharmacovigilance. This thesis explores several ways to make use of this biomedical knowledge in the data mining step of a knowledge discovery process. In particular, we propose three methods in which several ontologies cooperate to improve data mining results. A first contribution of this thesis describes a method based on pattern structures, an extension of formal concept analysis, to extract associations between adverse drug events from patient data. In this context, a phenotype ontology and a drug ontology cooperate to allow a semantic comparison of these complex adverse events, and leading to the discovery of associations between such events at varying degrees of generalization, for instance, at the drug or drug class level. A second contribution uses a numeric method based on semantic similarity measures to classify different types of genetic intellectual disabilities, characterized by both their phenotypes and the functions of their linked genes. We study two different similarity measures, applied with different combinations of phenotypic and gene function ontologies. In particular, we investigate the influence of each domain of knowledge represented in each ontology on the classification process, and how they can cooperate to improve that process. Finally, a third contribution uses the data component of the semantic Web, the Linked Open Data (LOD), together with linked ontologies, to characterize genes responsible for intellectual deficiencies. We use Inductive Logic Programming, a suitable method to mine relational data such as LOD while exploiting domain knowledge from ontologies by using reasoning mechanisms. Here, ILP allows to extract from LOD and ontologies a descriptive and predictive model of genes responsible for intellectual disabilities. These contributions illustrates the possibility of having several ontologies cooperate to improve various data mining processe
Caractérisation structurale de la liaison de l'ARN aux domaines à Motif de Reconnaissance de l'ARN (RRM) à l'aide de l'intégration de données, la modélisation 3D et la simulation dynamique moléculaire
Cette thèse a été réalisée dans le cadre d'un projet Européen plus vaste (ITN RNAct) dans lequel des approches informatiques et biologiques étaient combinées pour progresser vers la synthèse de nouveaux domaines protéiques capables de se fixer sur des séquences spécifiques d'ARN. L'objectif spécifique de cette thèse était de concevoir et développer des outils informatiques pour mieux exploiter les connaissances existantes sur les domaines à Motif de Reconnaissance de l'ARN (RRM) lors de la modélisation 3D des complexes RRM-ARN. Les domaines RRMs représentent 50% de toutes les protéines fixant l'ARN et sont trouvées dans environ 2% de toutes les régions codantes du génome humain. Cependant, du fait de la grande diversité des domaines RRMs, il n'y a eu jusqu'à présent que très peu de succès rapportés dans la conception de nouveaux domaines RRMs. La contribution centrale de cette thèse est la construction d'une base de données relationnelle appelée (InteR3M) qui intègre des informations de séquence, de structure et de fonction sur les domaines RRMs. La base de données InteR3M (href{https://inter3mdb.loria.fr/}{https://inter3mdb.loria.fr/}) contient 400,892 instances de domaines RRM (dérivées d'entrées UniProt) et 1,456 structures 3D déterminées expérimentalement (dérivées d'entrées PDB), qui correspondent à seulement 303 instances distinctes de domaines RRM. De plus, InteR3M contient 459,859 interactions atomiques entre RRM et acides nucléiques, dérivées de 656 structures 3D dans lesquelles le domaine RRM forme un complexe avec un ARN ou un ADN. Au cours du processus de collecte de données, des incohérences ont été détectées dans la classification de plusieurs instances de domaines RRMs dans les bases de données de domaines protéiques populaires CATH et Pfam. Ceci m'a conduit à proposer une approche originale (CroMaSt) pour résoudre ce problème, à partir de la mise en correspondance des instances structurales de domaines RRMs entre ces deux bases de données et de l'alignement structural des domaines sans correspondance avec une structure prototype du domaine RRM. Le workflow CroMast est disponible sur le Workflow Hub Européen (href{https://workflowhub.eu/workflows/390}{https://workflowhub.eu/workflows/390}). Les informations de séquence et de structure intégrées dans la base de données InteR3M ont ensuite été utilisées pour aligner entre eux tous les domaines RRM et cartographier toutes les interactions RRM-ARN sur cet alignement en vue d'identifier les différents modes de liaison de l'ARN aux domaines RRM. Ceci a conduit au développement, avec nos partenaires RNAct de VUB (Vrije Universiteit Brussel), de l'outil `RRMScorer'. Cet outil contribue au déchiffrage du code de reconnaissance RRM-ARN en calculant les probabilités de liaison entre les nucléotides de l'ARN et les acides aminés des domaines RRM à certaines positions de l'alignement. Les contacts atomiques entre RRMs et ARN ont aussi été utilisés pour identifier des motifs d'ancrage, c'est-à-dire des prototypes des positions 3D atomiques (relatives au squelette protéique) d'un nucléotide interagissant par empilement (`stacking') avec un acide aminé aromatique conservé. Ces ancres peuvent être utilisées comme des contraintes dans un protocole d'amarrage ancré (`anchored docking'). Le pipeline `RRM-RNA dock' est présenté ici et il intègre à la fois les motifs d'ancrage extraits de la base de données InteR3M et les scores de liaison de RRMScorer. Finalement, la simulation en dynamique moléculaire (MD) est un autre outil informatique testé dans cette thèse pour contribuer à la modélisation 3D des complexes RRM-ARN. Des protocoles MD préliminaires mais prometteurs sont décrits au titre d'essais visant à distinguer entre les complexes RRM-ARN à liaison forte ou faible.This thesis was carried out in the frame of a larger European project (ITN RNAct) in which computer science and biology approaches were combined to make progress towards the synthesis of new protein domains able to bind to specific RNA sequences. The specific goal of this thesis was to design and develop computational tools to better exploit existing knowledge on RNA Recognition Motif (RRM) domains using 3D modeling of RRM-RNA complexes. RRMs account for 50% of all RNA binding proteins and are present in about 2% of the protein-coding regions of the human genome. However, due to the large diversity of RRMs, there have been very few successful examples of new RRM design so far. A central achievement of this thesis is the construction of a relational database called `InteR3M' that integrates sequence, structural and functional information about RRM domains. InteR3M database (href{https://inter3mdb.loria.fr/}{https://inter3mdb.loria.fr/}) contains 400,892 RRM domain instances (derived from UniProt entries) and 1,456 experimentally solved 3D structure (derived from PDB entries) corresponding to only 303 distinct RRM instances. In addition, InteR3M stores 459,859 atom-atom interactions between RRM and nucleic acids, retrieved from 656 3D structures in which the RRM domain is complexed with RNA or DNA. During the data collection procedure, inconsistencies were detected in the classification of several RRM instances in the popular domain databases CATH and Pfam. This led me to propose an original approach (CroMaSt) to solve this issue, based on cross-mapping of structural instances of RRMs between these two domain databases and on the structural alignment of unmapped instances with an RRM structural prototype. The CroMaSt CWL workflow is available on the European Workflow hub at href{https://workflowhub.eu/workflows/390}{https://workflowhub.eu/workflows/390}. Sequence and structural information stored in InteR3M database was then used to align RRM domains and map all RRM-RNA interactions onto this alignment to identify the different binding modes of RNA to RRM domains. This led to the development, with RNAct partners at VUB (Vrije Universiteit Brussel), of the `RRMScorer' tool. This tool contributes to decipher the RRM-RNA code by computing binding probabilities between RNA nucleotides and RRM amino acids at certain positions of the alignment. Atomic contacts between RRMs and RNA were also used to identify anchoring patterns, i.e. prototypes of 3D atomic positions (relative to the protein backbone) of a nucleotide stacked on a conserved aromatic amino acid. These anchors can be used as constraints in anchored docking protocols. The `RRM-RNA dock' docking pipeline is presented here and integrates both anchoring patterns extracted from InteR3M and binding scores from RRMScorer. Finally, molecular dynamic (MD) simulation is another computational tool tested in this thesis to contribute to the 3D modeling of RRM-RNA complexes. Promising preliminary MD protocols are described as attempts to distinguish between strongly and weakly binding RRM-RNA complexes
Organization and exploitation of biological molecular networks for studying the etiology of genetic diseases and for characterizing drug side effects
La compréhension des pathologies humaines et du mode d'action des médicaments passe par la prise en compte des réseaux d'interactions entre biomolécules. Les recherches récentes sur les systèmes biologiques produisent de plus en plus de données sur ces réseaux qui gouvernent les processus cellulaires. L'hétérogénéité et la multiplicité de ces données rendent difficile leur intégration dans les raisonnements des utilisateurs. Je propose ici des approches intégratives mettant en oeuvre des techniques de gestion de données, de visualisation de graphes et de fouille de données, pour tenter de répondre au problème de l'exploitation insuffisante des données sur les réseaux dans la compréhension des phénotypes associés aux maladies génétiques ou des effets secondaires des médicaments. La gestion des données sur les protéines et leurs propriétés est assurée par un système d'entrepôt de données générique, NetworkDB, personnalisable et actualisable de façon semi-automatique. Des techniques de visualisation de graphes ont été couplées à NetworkDB pour utiliser les données sur les réseaux biologiques dans l'étude de l'étiologie des maladies génétiques entrainant une déficience intellectuelle. Des sous-réseaux de gènes impliqués ont ainsi pu être identifiés et caractérisés. Des profils combinant des effets secondaires partagés par les mêmes médicaments ont été extraits de NetworkDB puis caractérisés en appliquant une méthode de fouille de données relationnelles couplée à Network DB. Les résultats permettent de décrire quelles propriétés des médicaments et de leurs cibles (incluant l'appartenance à des réseaux biologiques) sont associées à tel ou tel profil d'effets secondairesThe understanding of human diseases and drug mechanisms requires today to take into account molecular interaction networks. Recent studies on biological systems are producing increasing amounts of data. However, complexity and heterogeneity of these datasets make it difficult to exploit them for understanding atypical phenotypes or drug side-effects. This thesis presents two knowledge-based integrative approaches that combine data management, graph visualization and data mining techniques in order to improve our understanding of phenotypes associated with genetic diseases or drug side-effects. Data management relies on a generic data warehouse, NetworkDB, that integrates data on proteins and their properties. Customization of the NetworkDB model and regular updates are semi-automatic. Graph visualization techniques have been coupled with NetworkDB. This approach has facilitated access to biological network data in order to study genetic disease etiology, including X-linked intellectual disability (XLID). Meaningful sub-networks of genes have thus been identified and characterized. Drug side-effect profiles have been extracted from NetworkDB and subsequently characterized by a relational learning procedure coupled with NetworkDB. The resulting rules indicate which properties of drugs and their targets (including networks) preferentially associate with a particular side-effect profil
Knowledge-based approaches for modelling the 3D structural interactome
L'étude structurale de l'interactome cellulaire peut conduire à des découvertes intéressantes sur les bases moléculaires de certaines pathologies. La modélisation par homologie et l'amarrage de protéines ("protein docking") sont deux approches informatiques pour modéliser la structure tri-dimensionnelle (3D) d'une interaction protéine-protéine (PPI). Des études précédentes ont montré que ces deux approches donnent de meilleurs résultats quand des données expérimentales sur les PPIs sont prises en compte. Cependant, les données PPI ne sont souvent pas disponibles sous une forme facilement accessible, et donc ne peuvent pas être re-utilisées par les algorithmes de prédiction. Cette thèse présente une approche systématique fondée sur l'extraction de connaissances pour représenter et manipuler les données PPI disponibles afin de faciliter l'analyse structurale de l'interactome et d'améliorer les algorithmes de prédiction par la prise en compte des données PPI. Les contributions majeures de cette thèse sont de : (1) décrire la conception et la mise en oeuvre d'une base de données intégrée KBDOCK qui regroupe toutes les interactions structurales domaine-domaine (DDI); (2) présenter une nouvelle méthode de classification des DDIs par rapport à leur site de liaison dans l'espace 3D et introduit la notion de site de liaison de famille de domaines protéiques ("domain family binding sites" ou DFBS); (3) proposer une classification structurale (inspirée du système CATH) des DFBSs et présenter une étude étendue sur les régularités d'appariement entre DFBSs en terme de structure secondaire; (4) introduire une approche systématique basée sur le raisonnement à partir de cas pour modéliser les structures 3D des complexes protéiques à partir des DDIs connus. Une interface web (http://kbdock.loria.fr) a été développée pour rendre accessible le système KBDOCKUnderstanding how the protein interactome works at a structural level could provide useful insights into the mechanisms of diseases. Comparative homology modelling and ab initio protein docking are two computational methods for modelling the three-dimensional (3D) structures of protein-protein interactions (PPIs). Previous studies have shown that both methods give significantly better predictions when they incorporate experimental PPI information. However, in general, PPI information is often not available in an easily accessible way, and cannot be re-used by 3D PPI modelling algorithms. Hence, there is currently a need to develop a reliable framework to facilitate the reuse of PPI data. This thesis presents a systematic knowledge-based approach for representing, describing and manipulating 3D interactions to study PPIs on a large scale and to facilitate knowledge-based modelling of protein-protein complexes. The main contributions of this thesis are: (1) it describes an integrated database of non-redundant 3D hetero domain interactions; (2) it presents a novel method of describing and clustering DDIs according to the spatial orientations of the binding partners, thus introducing the notion of "domain family-level binding sites" (DFBS); (3) it proposes a structural classification of DFBSs similar to the CATH classification of protein folds, and it presents a study of secondary structure propensities of DFBSs and interaction preferences; (4) it introduces a systematic case-base reasoning approach to model on a large scale the 3D structures of protein complexes from existing structural DDIs. All these contributions have been made publicly available through a web server (http://kbdock.loria.fr
Proceedings of ECCB 2014: The 13th European Conference on Computational Biology
International audienc
Approche science des données pour l'exploration de l'antigénicité HLA fondée sur les structures 3D et la dynamique moléculaire
Cette thèse présente une approche de science des données pour explorer l'antigénicité des molécules du complexe majeur d'histocompatibilité (HLA) en se basant sur leurs structures 3D et des simulations de dynamique moléculaire (MD). L'objectif principal est de mieux comprendre les déterminants du rejet de greffe causé par les anticorps spécifiques du donneur (DSA en anglais) et d'améliorer l'évaluation de la compatibilité donneur-receveur, qui ne prend actuellement pas en compte la structure 3D des antigènes HLA. La thèse a produit et analysé les structures 3D et les simulations MD de 207 antigènes HLA. Diverses méthodes de science des données ont été employées pour transformer les données 3D brutes en descripteurs statiques et dynamiques, permettant finalement l'entraînement d'un prédicteur d'épitopes HLA hautement performant. La thèse explore les propriétés structurales des antigènes HLA en utilisant selon divers points de vue, examinant des caractéristiques telles que l'accessibilité au solvant, les propriétés physico-chimiques et la flexibilité des chaînes latérales des acides aminés (AA). L'étude de la flexibilité des AA pendant les simulations MD a révélé que la flexibilité était plus faible pour les AA présents dans les éplets confirmés par rapport aux non-éplets, ce qui est cohérent avec des résultats récents sur les épitopes en général. De plus, la thèse introduit l'utilisation des polynômes de Zernike pour représenter la surface 3D des molécules, facilitant des tâches telles que la comparaison et la classification des structures. L'hypothèse selon laquelle l'antigénicité des HLA dépend de la similarité structurelle entre les antigènes HLA du receveur et du donneur a été étudiée en utilisant la distance de Wasserstein pour comparer des nuages de points multidimensionnels représentant les trajectoires MD. L'utilisation des polynômes de Zernike pour l'identification des conformères de peptides le long de trajectoires MD a également été explorée. Les résultats ont montré une capacité prometteuse à identifier des conformères distinctifs en fonction de leur forme. Une contribution clé de la thèse est la construction d'un prédicteur d'épitopes HLA appelé HLA-EpiCheck. En utilisant des caractéristiques structurales statiques et dynamiques extraites des simulations MD, un jeu de données composé de 18 descripteurs calculés sur près de 7000 patchs de surface 3D dérivés de 207 antigènes HLA a été construit. Le prédicteur a été entraîné en utilisant des éplets confirmés de la base de données HLA Eplet Registry, puis employé pour prédire le statut des éplets non confirmés. Les résultats de prédiction ont montré une cohérence remarquable avec des résultats expérimentaux. De plus, une analyse de l'importance des descripteurs, effectuée sur HLA-EpiCheck, a révélé l’importance notable des descripteurs associés à la flexibilité des chaînes latérales, soulignant l’intérêt d’introduire des descripteurs dynamiques dans le processus d’apprentissage quand il s’agit de structures de protéines. En outre, la thèse a impliqué le développement d'une base de données pour les structures 3D des antigènes HLA et d'une interface graphique appelée HLA-3D-Diff. Cette interface permet aux utilisateurs de superposer des structures 3D d'antigènes HLA, de visualiser leurs trajectoires dans les simulations de DM et d'identifier les différences potentielles apparaissant de manière dynamique pendant les trajectoires. Elle sert d'outil pour explorer manuellement les paires d'antigènes HLA dans des situations cliniques d'immunisation complexes ou inattendues. Le travail inclus dans cette thèse vise à permettre la prise en compte de caractéristiques dynamiques dans l’étude des différences structurales et des prédictions d'épitopes HLA lors de l'appariement donneur-receveur pour l'attribution des greffons.Les travaux futurs pourraient impliquer des études cliniques rétrospectives de la contribution de ces nouveaux éléments au maintien ou au rejet de la greffeThis thesis presents a data science approach to explore the antigenicity of Human Leukocyte Antigen (HLA) molecules based on their three-dimensional (3D) structures and molecular dynamics (MD) simulations. The primary objective is to better understand the determinants of graft rejection caused by donor-specific antibodies (DSAs) and to improve donor-recipient compatibility assessment, which currently does not consider the 3D structure of HLA antigens. The thesis produced and analyzed the 3D structures and MD simulations of 207 HLA antigens. Various data science methods were employed to transform raw 3D data into manageable static and dynamic descriptors, ultimately enabling the training of a highly performant HLA epitope predictor on nearly 7,000 3D surface patches. The thesis explores the structural properties of HLA antigens from various points of vies, examining characteristics such as solvent accessibility, physico-chemical properties, and side-chain flexibility of amino acids. The study of amino acid flexibility during MD simulations revealed that flexibility was lower for amino acids present in confirmed eplets compared to non-eplets, consistent with recent reports about epitopes. Additionally, the thesis introduces the use of Zernike polynomials to represent the 3D surface of molecules, facilitating tasks such as structure comparison and classification. The hypothesis that HLA antigenicity depends on the structural similarity between the recipient's and donor's HLA antigens was investigated using the Wasserstein distance to compare multidimensional point clouds (i.e. 3D surface patches) representing MD simulation trajectories. The use of Zernike polynomials for the identification of peptide conformers along MD trajectories was also explored. The results showed a promising ability to identify distinctive conformers based on shape. A key contribution of the thesis is the construction of an epitope predictor for HLA antigens called HLA-EpiCheck. Using static and dynamic structural features extracted from MD simulations, a dataset consisting of 18 descriptors calculated on nearly 7,000 3D surface patches derived from 207 HLA antigens was built. The predictor was trained using confirmed eplets from the HLA Eplet Registry database and then employed to predict the status of non-confirmed eplets. The prediction results showed remarkable consistency with experimental results produced at the Immunology-Histocompatibility laboratory of Saint Louis Hospital. Furthermore, feature importance analysis performed on HLA-EpiCheck revealed a noteworthy importance of the descriptors associated with side-chain flexibility, underlining the importance of introducing dynamic descriptors in ML tasks related to protein structure. Furthermore, the thesis involved the development of a database for 3D structures of HLA antigens and a graphical interface called HLA-3D-Diff. This interface allows users to superimpose 3D structures of HLA antigens, visualize their trajectories in MD simulations, and identify or confirm potential differences appearing dynamically during trajectories. It serves as a tool for manually exploring pairs of HLA antigens in complex or unexpected clinical immunization situations. The work presented in this thesis aims to include dynamic features in the study of structural differences and HLA epitope predictions for a better donor-recipient matching in graft allocation. Future work could involve retrospective clinical studies to evaluate the contribution of these new elements to graft maintenance or rejection
- …
