1,721,049 research outputs found

    La génération automatique de poésie en français

    No full text
    National audienceLa génération automatique de poésie est une tâche ardue pour un système informatique. Pour qu'un poème ait du sens, il est important de prendre en compte à la fois des aspects linguistiques et littéraires. Ces dernières années, un certain nombre d'approches fructueuses sont apparues, capables de modéliser de manière adéquate divers aspects du langage naturel. En particulier, les modèles de langue basés sur les réseaux de neurones ont amélioré l'état de l'art par rapport à la modélisation prédictive de langage, tandis que les topic models sont capables de capturer une certaine cohérence thématique. Dans cet article, on explorera comment ces approches peuvent être adaptées et combinées afin de modéliser les aspects linguistiques et littéraires nécessaires pour la génération de poésie. Le système est exclusivement entraîné sur des textes génériques, et sa sortie est contrainte afin de conférer un caractère poétique au vers généré. Le cadre présenté est appliqué à la génération de poèmes en français, et évalué à l'aide d'une évaluation humaine. ABSTRACT Automatic Poetry Generation in French Automatic poetry generation is a challenging task for a computational system. For a poem to be meaningful, both linguistic and literary aspects need to be taken into account. In the last few years, a number of successful approaches have emerged that are able to adequately model various aspects of natural language. Particularly, language models based on neural networks have improved the state of the art with regard to predictive language modeling, while topic models are able to capture some form of thematic coherence. In this article, we will explore how these approaches can be adapted and combined to model the linguistic and literary aspects needed for poetry generation. The system is exclusively trained on generic text, and its output is constrained in order to confer a poetic character to the generated verse. The framework is applied to the generation of poems in French, and it is evaluated using a human evaluation. MOTS-CLÉS : génération de poésie, réseaux de neurones, factorisation en matrices non-négatives

    From Text to Trust : A Priori Interpretability Versus Post Hoc Explainability in Natural Language Processing

    No full text
    Avec l'avènement des architectures Transformer en Traitement Automatique des Langues il y a quelques années, nous avons observé des progrès sans précédents dans diverses tâches de classification ou de génération de textes. Cependant, l'explosion du nombre de paramètres et de la complexité de ces modèles "boîte noire" de l'état de l'art, rendent de plus en plus évident le besoin désormais urgent de transparence dans les approches d'apprentissage automatique. La capacité d'expliquer, d'interpréter et de comprendre les décisions algorithmiques deviendra primordiale à mesure que les modèles informatiques deviennent de plus en plus présents dans notre vie quotidienne. En utilisant les méthodes de l'IA eXplicable (XAI), nous pouvons par exemple diagnostiquer les biais dans des ensembles de données, des corrélations erronées qui peuvent au final entacher le processus d'apprentissage des modèles, les conduisant à apprendre des raccourcis indésirables, ce qui pourrait conduire à des décisions algorithmiques injustes, incompréhensibles, voire risquées. Ces modes d'échec de l'IA peuvent finalement éroder la confiance que les humains auraient pu placer dans des applications bénéfiques. Dans ce travail, nous explorons plus spécifiquement deux aspects majeurs de l'XAI, dans le contexte des tâches et des modèles de Traitement Automatique des Langues : dans la première partie, nous abordons le sujet de l'interprétabilité intrinsèque, qui englobe toutes les méthodes qui sont naturellement faciles à expliquer. En particulier, nous nous concentrons sur les représentations de plongement de mots, qui sont une composante essentielle de pratiquement toutes les architectures de TAL, permettant à ces modèles mathématiques de manipuler le langage humain d'une manière plus riche sur le plan sémantique. Malheureusement, la plupart des modèles qui génèrent ces représentations les produisent d'une manière qui n'est pas interprétable par les humains. Pour résoudre ce problème, nous expérimentons la construction et l'utilisation de modèles de plongement de mots interprétables, qui tentent de corriger ce problème, en utilisant des contraintes qui imposent l'interprétabilité de ces représentations. Nous utilisons ensuite ces modèles, dans une configuration nouvelle, simple mais efficace, pour tenter de détecter des corrélations lexicales, erronées ou non, dans certains ensembles de données populaires en TAL. Dans la deuxième partie, nous explorons les méthodes d'explicabilité post-hoc, qui peuvent cibler des modèles déjà entraînés, et tenter d'extraire diverses formes d'explications de leurs décisions. Ces méthodes peuvent aller du diagnostic des parties d'une entrée qui étaient les plus pertinentes pour une décision particulière, à la génération d'exemples adversariaux, qui sont soigneusement conçus pour aider à révéler les faiblesses d'un modèle. Nous explorons un nouveau type d'approche, en partie permis par les architectures Transformer récentes, très performantes mais opaques : au lieu d'utiliser une méthode distincte pour produire des explications des décisions d'un modèle, nous concevons et mettons au point une configuration qui apprend de manière jointe à exécuter sa tâche, tout en produisant des explications en langage naturel en forme libre de ses propres résultats. Nous évaluons notre approche sur un ensemble de données de grande taille annoté avec des explications humaines, et nous jugeons qualitativement certaines des explications générées par notre approcheWith the advent of Transformer architectures in Natural Language Processing a few years ago, we have observed unprecedented progress in various text classification or generation tasks. However, the explosion in the number of parameters, and the complexity of these state-of-the-art blackbox models, is making ever more apparent the now urgent need for transparency in machine learning approaches. The ability to explain, interpret, and understand algorithmic decisions will become paramount as computer models start becoming more and more present in our everyday lives. Using eXplainable AI (XAI) methods, we can for example diagnose dataset biases, spurious correlations which can ultimately taint the training process of models, leading them to learn undesirable shortcuts, which could lead to unfair, incomprehensible, or even risky algorithmic decisions. These failure modes of AI, may ultimately erode the trust humans may have otherwise placed in beneficial applications. In this work, we more specifically explore two major aspects of XAI, in the context of Natural Language Processing tasks and models: in the first part, we approach the subject of intrinsic interpretability, which encompasses all methods which are inherently easy to produce explanations for. In particular, we focus on word embedding representations, which are an essential component of practically all NLP architectures, allowing these mathematical models to process human language in a more semantically-rich way. Unfortunately, many of the models which generate these representations, produce them in a way which is not interpretable by humans. To address this problem, we experiment with the construction and usage of Interpretable Word Embedding models, which attempt to correct this issue, by using constraints which enforce interpretability on these representations. We then make use of these, in a simple but effective novel setup, to attempt to detect lexical correlations, spurious or otherwise, in some popular NLP datasets. In the second part, we explore post-hoc explainability methods, which can target already trained models, and attempt to extract various forms of explanations of their decisions. These can range from diagnosing which parts of an input were the most relevant to a particular decision, to generating adversarial examples, which are carefully crafted to help reveal weaknesses in a model. We explore a novel type of approach, in parts allowed by the highly-performant but opaque recent Transformer architectures: instead of using a separate method to produce explanations of a model's decisions, we design and fine-tune an architecture which jointly learns to both perform its task, while also producing free-form Natural Language Explanations of its own outputs. We evaluate our approach on a large-scale dataset annotated with human explanations, and qualitatively judge some of our approach's machine-generated explanation

    Assessing and Efficiently Leveraging the Generalisation Abilities of Multimodal Models

    No full text
    À mesure que de plus grands ensembles de données multimodaux deviennent disponibles sur le Web, la possibilité de développer de meilleurs modèles multimodaux, plus humains, augmente. Mon objectif de recherche est d'évaluer ce que la multimodalité apporte à la représentation des données par les machines, notamment lorsqu'il s'agit de généraliser dans une ou deux modalités (image et/ou texte), ainsi que de trouver des moyens d'améliorer la qualité de l'espace latent des algorithmes mutlimodaux. De plus grands ensembles de données et une plus grande puissance de calcul permettent certes de développer de meilleurs algorithmes, mais dans ce projet, je vise à utiliser le moins de données possible, avec le moins d'annotations possible, pour améliorer la représentation multimodale d'algorithmes préentraînés. De grands progrès ont été faits en ce qui concerne la disponibilité des ensembles de données multimodaux, principalement en raison de la possibilité d'extraire des informations à partir de données volumineuses, non structurées, sur le Web. Les réseaux attentionnels, conçus à l'origine uniquement pour le texte, ont fait leurs preuves dans leur capacité à fusionner les données. Plus récemment, l'objectif d'apprentissage contrastif appliqué sur des centaines de millions d'images annotées a fourni des résultats SOTA. Cependant, les méthodes et les évaluations standards dans le domaine multimodal présentent deux lacunes : Les capacités de généralisation des modèles formés de manière multimodale restent à déterminer, et il n'existe aucun moyen de calcul bon marché, à la fois en termes de données et de puissance, pour améliorer ou exploiter les capacités des espaces latents de ces algorithmes sur des tâches telles que la description d'images. Dans cette thèse, la première lacune est abordée par nos tâches d'évaluation, qui peuvent être appliquées à d'autres réseaux afin de comparer la capacité de généralisation de n'importe quel modèle d'image et/ou de texte. Une partie du deuxième problème est traitée à l'aide de notre CycleGAN Latent (Latent CycleGAN), qui est très rentable et qui améliore une méthode de description plus simple avec des données multimodales non-appairées.As larger multimodal datasets are becoming available on the web, the possibility for better, more human-like multimodal models grows. My research goal is to evaluate what multimodality brings to machine representation of data, especially when it comes to generalizing in one or two modalities (image and/or text), as well as to find ways of improving the quality of the latent space of multimodal algorithms. Bigger datasets and larger computational power enable better algorithms to be developed, but in this project, I aim at using as little data as possible, with as few annotations as possible, to improve the multimodal representation of pretrained algorithms. There has been great progress in multimodal dataset availability, mostly due to the possibility of extracting information from big unstructured data on the web. The attention networks, originally designed for text only, have proven successful in their capacity for merging data. Most recently, the contrastive learning objective applied on hundreds of millions of annotated images has provided SOTA results. However, the standard methods and evaluations in the multimodal field have two shortcomings: The generalisation abilities of models trained multimodally are yet to be determined, and there is no computationally cheap way, both in terms of data and power, to improve or leverage the latent space abilities of these cost-expensive algorithm on a tasks such as image captioning In this thesis, the first shortcoming is addressed by our evaluation tasks, that can be applied to other networks in order to compare the generalisation ability of any image and/or text model. Part of the second issue is dealt with using our Latent CycleGAN, which is very cost-effective, and which improves a more straightfoward captioning pipeline with unmatched multimodal data

    Semantic and Discursive Representation for Natural Language Understanding

    No full text
    Les modèles computationnels pour la compréhension automatique des textes ont suscité un vif intérêt en raison de gains de performances inhabituels au cours des dernières années, certains d'entre eux conduisant à des scores d'évaluation surhumains. Ce succès a conduit à affirmer la création de représentations universelles de phrases. Dans cette thèse, nous questionnons cette affirmation au travers de deux angles complémentaires. Premièrement, les réseaux de neurones et les représentations vectorielles sont-ils suffisamment expressifs pour traiter du texte de sorte à pouvoir effectuer un large éventail de tâches complexes ? Dans cette thèse, nous présenterons les modèles neuronaux actuellement utilisés et les techniques d'entraînement associées. Nous proposons des critères pour l'expressivité de composition des représentations vectorielles et montrons que la suite d'évaluations et les encodeurs de phrases très répandus (SentEval/InferSent) sont limités dans leur expressivité ; des changements mineurs peuvent permettre de nouvelles compositions expressives et interprétables, mais pourraient ne pas suffire, ce qui peut justifier le changement de paradigme vers de nouveaux modèles basés sur les Transformers. Deuxièmement, nous aborderons la question de l'universalité dans les représentation des phrases: que cachent en réalité ces prétentions à l'universalité ? Nous décrivons quelques théories de ce qu'est le sens d'une expression textuelle, et dans une partie ultérieure de cette thèse, nous soutenons que la sémantique (contenu littéral, non situé) par rapport à la pragmatique (la partie du sens d'un texte définie par son rôle et son contexte) est prépondérante dans les données d'entraînement et d'évaluation actuelles des modèles de compréhension du langage naturel. Pour atténuer ce problème, nous montrons que la prédiction de marqueurs de discours (classification de marqueurs de discours initialement présents entre des phrases) peut être considérée comme un signal d'apprentissage centré sur la pragmatique pour la compréhension de textes. Nous construisons un nouvel ensemble de données de prédiction de marqueurs de discours qui donne des résultats nettement supérieurs aux travaux précédents. Nous proposons également un nouvel outil d'évaluation de la compréhension du langage naturel en se basant sur le discours et la pragmatique. Cet outil pourrait inciter la communauté du traitement des langues à prendre en compte les considérations pragmatiques lors de l'évaluation de modèles de compréhension du langage naturel.Computational models for automatic text understanding have gained a lot of interest due to unusual performance gains over the last few years, some of them leading to super-human scores. This success reignited some grandeur claims about artificial intelligence, such as universal sentence representation. In this thesis, we question these claims through two complementary angles. Firstly, are neural networks and vector representations expressive enough to process text and perform a wide array of complex tasks? In this thesis, we will present currently used computational neural models and their training techniques. We propose a criterion for expressive compositions and show that a popular evaluation suite and sentence encoders (SentEval/InferSent) have an expressivity bottleneck; minor changes can yield new compositions that are expressive and insightful, but might not be sufficient, which may justify the paradigm shift towards newer Transformers-based models. Secondly, we will discuss the question of universality in sentence representation: what actually lies behind these universality claims? We delineate a few theories of meaning, and in a subsequent part of this thesis, we argue that semantics (unsituated, literal content) as opposed to pragmatics (meaning as use) is preponderant in the current training and evaluation data of natural language understanding models. To alleviate that problem, we show that discourse marker prediction (classification of hidden discourse markers between sentences) can be seen as a pragmatics-centered training signal for text understanding. We build a new discourse marker prediction dataset that yields significantly better results than previous work. In addition, we propose a new discourse-based evaluation suite that could incentivize researchers to take into account pragmatic considerations when evaluating text understanding models

    Qu'est-ce que tu sais, BERT ? Explorer les compétences linguistiques des plongements lexicaux contextuels basés sur Transformers

    No full text
    Les plongements lexicaux basés sur des Transformers, également connus comme modèles de langage grands, sont largement utilisés dans les applications NLP, surpassant les méthodes de statistique et de réseaux neuronaux. Cependant, le succès quantitatif dans les tâches de NLP ne garantit pas une maîtrise complète du langage humain.Cette thèse étudie les capacités linguistiques et les limites des plongements lexicaux contextuels basés sur Transformers, avec des expériences sur des phénomènes syntactico-sémantiques complexes. La question principale est la suivante: même si les plongements lexicaux peuvent capturer suffisamment d'informations pour être compétents dans des tâches linguistiques complexes, leurs succès sont-ils dus à une véritable compréhension des relations et des hiérarchies entre les mots ou à une répétition de schémas de langue? Nous avons sélectionné des caractéristiques linguistiques en anglais et en français qui sont comprises par les locuteurs natifs ayant des compétences syntaxico-sémantiques matures, mais qui sont traditionnellement difficiles à définir avec des règles linguistiques.La préférence sélective est la tendance d'un prédicat à favoriser certains arguments dans un certain contexte linguistique et à en rejeter d'autres qui aboutissent à des significations contradictoires ou peu plausibles. Cette partie de l'étude a examiné si les modèles BERT en anglais contiennent des informations sur les préférences sélectives, en examinant la probabilité qu'ils attribuent au mot dépendant compte tenu de la présence de son mot principal dans une phrase. Ces probabilités ont été comparées aux annotations humaines. Les résultats montrent qu'il n'y a pas de forte corrélation entre les jugements humains et les probabilités du modèle dans n'importe quelle relation syntaxique, mais certains mots de tête ont une forte corrélation, et le masquage de tous les mots sauf le mot de tête produit les corrélations les plus positives.L'aspect lexical est une caractéristique du verbe qui décrit comment une action, un événement ou un état d'un verbe est situé dans le temps, indépendamment du temps du verbe. Nous avons exploré, avec deux séries d'expériences, si les modèles peuvent identifier et apprendre la télicité et la durée. Nous avons effectué des analyses quantitatives avec des modèles pré-entraînés et affinés, ainsi que des analyses qualitatives pour observer le comportement des modèles dans des cas difficiles. Les expériences ont été menées en anglais et en français. Les résultats montrent que les modèles capturent l'information sur la télicité et la durée dans leurs vecteurs, mais qu'ils sont biaisés en ce qui concerne le temps du verbe et l'ordre des mots.La dernière expérience examine les capacités des modèles à identifier et apprendre la position des adjectifs attributifs en français. Bien que ces modèles pré-entraînés soient insensibles à l'ordre des mots permutés, nous avons observé que les modèles affinés pouvaient apprendre et sélectionner la position correcte de l'adjectif. En comparant les modèles aux locuteurs natifs, on remarque que les modèles favorisent le contexte et les rôles syntaxiques globaux, et qu'ils sont plus faibles avec les structures complexes et les expressions fixes.Pour résumer, les plongements lexicaux sont très efficaces, mais les résultats sont irréguliers. Les modèles attribuent des probabilités élevées aux tokens fréquents, mais ne peuvent pas créer de classes ou de groupes de mots selon le contenu. Les plongements de verbes peuvent capturer des informations syntactico-sémantiques importantes, mais les adjectifs n'ont pas d'influence. Les modèles sont sensibles à la syntaxe et apprennent des schémas syntaxiques rudimentaires. Sur le plan sémantique, les modèles s'appuient sur des caractéristiques de fréquence et de surface, même lorsque le contexte suggère le contraire.Transformer-based embeddings, also known as large language models, are being widely used in NLP applications, outperforming traditional methods and neural network approaches. However, quantitative success in NLP tasks does not guarantee a complete mastery of human language. Humans are capable of learning semantic concepts and expressing them with the appropriate syntactic patterns, while Transformer-based language models learn artifacts and idiosyncratic patterns of syntax, but no notions of semantics.This doctoral thesis studies the linguistic abilities and limitations of Transformer-based contextual word embeddings, with experiments on complex syntactic-semantic phenomena. The main question is: even though contextual word embeddings can capture enough information to be competent in complex linguistic tasks, are their successes due to a true understanding of word relations and hierarchies or a repetition of language patterns? We selected linguistic features in English and French that are understood by native speakers with mature syntactic-semantic competencies but have been traditionally hard to define with linguistic rules.Selectional preference is the tendency of a predicate to favor certain arguments within a certain linguistic context and reject others that result in conflicting or implausible meanings. This part of the study investigated whether BERT models in English contain information on the selectional preferences of words, by examining the probability it assigns to the dependent word given the presence of its head word in a sentence. These probabilities were compared to human annotations. Results show that there is no strong positive or negative correlation between human judgments and model probabilities in any syntactic relation, but certain head words have a strong correlation, and masking all words but the head word yields the most positive correlations in most scenarios.Lexical aspect is a verb feature that describes how an action, event, or state of a verb is situated in time regardless of verb tense. We explored, with two rounds of experiments, whether the models can identify and learn telicity and duration. We performed quantitative analyses with pretrained and finetuned models, and qualitative analyses to observe the models’ behavior in challenging cases. Experiments were carried out in English and French. Results show that the models capture information on telicity and duration in their vectors, but are biased concerning verb tense and word order.The final experiment examines the models’ capacities for identifying and learning attributive adjective position in French. Even though these models are insensitive to permutated word order by design, we observed that the finetuned models could learn and select the correct position of the adjective. However, this is attributed to finetuning rather than knowledge learned during pretraining. Comparing the finetuned models to native speakers, we notice that the models favor context and global syntactic roles, and are weaker with complex structures and fixed expressions.To summarize our findings, contextual word embeddings are very successful, but results are irregular. The models assign high probabilities to frequent tokens, but cannot create classes or clusters of word embeddings based on content. Verb embeddings can capture important syntactic-semantic information, but adjectives do not have a transformative influence. The models show sensitivity to syntax and learn rudimentary syntactic patterns. Semantically, the models rely on frequency and surface-level features, even when the context suggests otherwise

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship

    Appropriate Similarity Measures for Author Cocitation Analysis

    Full text link
    We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis

    Latent Semantic Word Sense Induction and Disambiguation

    Full text link
    International audienceIn this paper, we present a unified model for the automatic induction of word senses from text, and the subsequent disambiguation of particular word instances using the automatically extracted sense inventory. The induction step and the disambiguation step are based on the same principle: words and contexts are mapped to a limited number of topical dimensions in a latent semantic word space. The intuition is that a particular sense is associated with a particular topic, so that different senses can be discriminated through their association with particular topical dimensions; in a similar vein, a particular instance of a word can be disambiguated by determining its most important topical dimensions. The model is evaluated on the SemEval-2010 word sense induction and disambiguation task, on which it reaches state-of-the-art results
    corecore