1,721,136 research outputs found

    Building Brownian Bridges to Learn Dynamic Author Representations from Texts

    No full text
    International audienceAuthors writing habits fluctuate throughout their lives. This evolution may stem from engaging in new topics, new genres or by the variation of their writing style. However, most representation models aiming at building meaningful authors embedding focus on static repre- sentations. They skip the precious time information useful to build more powerful and versatile representations. Only a limited number of meth- ods learn dynamic representations, each dedicated to a time bin. Here we propose a new representation learning model called BARL (Brown- ian Bridges for Author Representation Learning). BARL uses Brownian Bridges, a Gaussian process, to embed authors as continuous trajectories through time. Leveraging the Variational Information Bottleneck (VIB) framework, it integrates a pre-trained temporal text encoder to encode authors and documents into the same space, learning a distinct dynamic for each author along with a customized variance. We evaluate BARL on several tasks: authorship attribution, document dating and author classification on two datasets from the literature. BARL outperforms baselines and existing dynamic author embedding models while learning a continuous temporal representation space

    Building Brownian Bridges to Learn Dynamic Author Representations from Texts

    No full text
    International audienceAuthors writing habits fluctuate throughout their lives. This evolution may stem from engaging in new topics, new genres or by the variation of their writing style. However, most representation models aiming at building meaningful authors embedding focus on static repre- sentations. They skip the precious time information useful to build more powerful and versatile representations. Only a limited number of meth- ods learn dynamic representations, each dedicated to a time bin. Here we propose a new representation learning model called BARL (Brown- ian Bridges for Author Representation Learning). BARL uses Brownian Bridges, a Gaussian process, to embed authors as continuous trajectories through time. Leveraging the Variational Information Bottleneck (VIB) framework, it integrates a pre-trained temporal text encoder to encode authors and documents into the same space, learning a distinct dynamic for each author along with a customized variance. We evaluate BARL on several tasks: authorship attribution, document dating and author classification on two datasets from the literature. BARL outperforms baselines and existing dynamic author embedding models while learning a continuous temporal representation space

    Authors representation learning with language models for analysing writing dynamics

    No full text
    La démocratisation récente et massive des outils numériques a donné à tous le moyen de produire de l'information et de la partager sur le web, que ce soit à travers des blogs, des réseaux sociaux, des plateformes de partage, ... La croissance exponentielle de cette masse d'information disponible, en grande partie textuelle, nécessite le développement de modèles de traitement automatique du langage naturel (TAL), afin de la représenter mathématiquement pour ensuite la classer, la trier ou la recommander. C'est l'apprentissage de représentation. Il vise à construire un espace de faible dimension où les distances entre les objets projetées (mots, textes) reflètent les distances constatées dans le monde réel, qu'elles soient sémantique, stylistique, ...La multiplication des données disponibles, combinée à l'explosion des moyens de calculs et l'essor de l'apprentissage profond à permis de créer des modèles de langue extrêmement performant pour le plongement des mots et des documents. Ils assimilent des notions sémantiques et de langue complexes, en restant accessibles à tous et facilement spécialisables sur des tâches ou des corpus plus spécifiques. Il est possible de les utiliser pour construire des plongements d'auteurices. Seulement il est difficile de savoir sur quels aspects un modèle va se focaliser pour les rapprocher ou les éloigner. Dans un cadre littéraire, il serait préférable que les similarités se rapportent principalement au style écrit. Plusieurs problèmes se posent alors. La définition du style littéraire est floue, il est difficile d'évaluer l'écart stylistique entre deux textes et donc entre leurs plongements. En linguistique computationnelle, les approches visant à le caractériser sont principalement statistiques, s'appuyant sur des marqueurs du langage. Fort de ces constats, notre première contribution propose une méthode d'évaluation de la capacité des modèles de langue à appréhender le style écrit. Nous aurons au préalable détaillé comment le texte est représenté en apprentissage automatique puis en apprentissage profond, au niveau du mot, du document puis des auteurices. Nous aurons aussi présenté le traitement de la notion de style littéraire en TAL, base de notre méthode. Le transfert de connaissances entre les boîtes noires que sont les grands modèles de langue et ces méthodes issues de la linguistique n'en demeure pas moins complexe. Notre seconde contribution vise à réconcilier ces approches via un modèle d'apprentissage de représentations d'auteurices se focalisant sur le style, VADES (Variational Author and Document Embedding with Style). Nous nous comparons aux méthodes existantes et analysons leurs limites dans cette optique-là. Enfin, nous nous intéressons à l'apprentissage de plongements dynamiques d'auteurices et de documents. En effet, l'information temporelle est cruciale et permet une représentation plus fine des dynamiques d'écriture. Après une présentation de l'état de l'art, nous détaillons notre dernière contribution, B²ADE (Brownian Bridge for Author and Document Embedding), modélisant les auteurices comme des trajectoires. Nous finissons en décrivant plusieurs axes d'améliorations de nos méthodes ainsi que quelques problématiques pour de futurs travaux.The recent and massive democratization of digital tools has empowered individuals to generate and share information on the web through various means such as blogs, social networks, sharing platforms, and more. The exponential growth of available information, mostly textual data, requires the development of Natural Language Processing (NLP) models to mathematically represent it and subsequently classify, sort, or recommend it. This is the essence of representation learning. It aims to construct a low-dimensional space where the distances between projected objects (words, texts) reflect real-world distances, whether semantic, stylistic, and so on.The proliferation of available data, coupled with the rise in computing power and deep learning, has led to the creation of highly effective language models for word and document embeddings. These models incorporate complex semantic and linguistic concepts while remaining accessible to everyone and easily adaptable to specific tasks or corpora. One can use them to create author embeddings. However, it is challenging to determine the aspects on which a model will focus to bring authors closer or move them apart. In a literary context, it is preferable for similarities to primarily relate to writing style, which raises several issues. The definition of literary style is vague, assessing the stylistic difference between two texts and their embeddings is complex. In computational linguistics, approaches aiming to characterize it are mainly statistical, relying on language markers. In light of this, our first contribution is a framework to evaluate the ability of language models to grasp writing style. We will have previously elaborated on text embedding models in machine learning and deep learning, at the word, document, and author levels. We will also have presented the treatment of the notion of literary style in Natural Language Processing, which forms the basis of our method. Transferring knowledge between black-box large language models and these methods derived from linguistics remains a complex task. Our second contribution aims to reconcile these approaches through a representation learning model focusing on style, VADES (Variational Author and Document Embedding with Style). We compare our model to state-of-the-art ones and analyze their limitations in this context.Finally, we delve into dynamic author and document embeddings. Temporal information is crucial, allowing for a more fine-grained representation of writing dynamics. After presenting the state of the art, we elaborate on our last contribution, B²ADE (Brownian Bridge Author and Document Embedding), which models authors as trajectories. We conclude by outlining several leads for improving our methods and highlighting potential research directions for the future

    Representation Learning for authors and documents : probabilistic approaches using pretrained representations

    No full text
    La révolution numérique a entraîné une croissance exponentielle de la quantité d'informations stockées à long terme. Une part importante de cette information est textuelle (pages Web, médias sociaux, etc.). Les modèles de traitement du langage naturel (NLP), qui permettent de classer ou de regrouper cette information, ont besoin que le texte soit représenté sous forme d'objets mathématiques : on parle alors d'apprentissage de représentations. L'objectif de l'apprentissage de représentations est de construire des représentations d'objets textuels (mots, documents, auteurs) dans un espace vectoriel de faible dimension. La similarité entre les représentations vectorielles de ces objets devrait être liée à leur proximité sémantique ou à leur similarité stylistique. En plus du texte lui-même, les documents sont souvent associés à des métadonnées. Ils peuvent être liés (par exemple, par des références hypertextes), associés à leurs auteurs, et horodatés. Il a été démontré que ces informations améliorent la qualité de la représentation d'un document. Néanmoins, l'incorporation de ces métadonnées n'est pas triviale. De plus, le langage naturel a rapidement évolué au cours des dernières décennies. Les modèles de représentation sont maintenant entraînés sur des quantités massives de données textuelles et affinés pour des tâches spécifiques. Ces modèles sont d'un grand intérêt lorsqu'on travaille avec de petits ensembles de données, permettant de transférer des connaissances à partir de sources d'information pertinentes. Il est crucial de développer des modèles d'apprentissage de représentations qui peuvent incorporer ces représentations pré-entraînées. La plupart des travaux antérieurs apprennent une représentation ponctuelle. C'est une limitation sérieuse car la langue est plus complexe que cela : les mots sont souvent polysémiques, et les documents sont, la plupart du temps, sur plusieurs sujets. Une branche de la littérature propose d'apprendre des distributions probabilistes dans un espace sémantique pour contourner ce problème. Dans cette thèse, nous présentons tout d'abord la théorie de l'apprentissage automatique, ainsi qu'un aperçu général des travaux existants en apprentissage de représentations de mots et de documents (sans métadonnées). Nous nous concentrons ensuite sur l'apprentissage de représentations de documents liés. Nous présentons les travaux antérieurs du domaine et proposons deux contributions : le modèle RLE (Regularized Linear Embedding), et le modèle GELD (Gaussian Embedding of Linked Documents). Ensuite, nous explorons l'apprentissage des représentations d'auteurs et de documents dans le même espace vectoriel. Nous présentons les travaux les plus récents et notre contribution VADE (Variational Authors and Documents Embedding). Enfin, nous étudions la problématique de l'apprentissage de représentations dynamiques d'auteurs : leurs représentations doivent évoluer dans le temps. Nous présentons d'abord les modèles existants, puis nous proposons une contribution originale, DGEA (Dynamic Gaussian Embedding of Authors). De plus, nous proposons plusieurs axes scientifiques pour améliorer nos contributions, et quelques questions ouvertes pour de futures recherches.The ``digital revolution'' led to an exponential growth of the quantity of long term stored information. Most of this information is textual (e.g., web pages, social media). Natural Language Processing (NLP) models, that allow to classify or to cluster textual objects, need the text to be represented as a mathematical object. This is the goal of representation learning, which makes use of machine learning approaches to learn representations for textual objects (word, document, author) in a low dimensional vectorial space. The distance between the vectorial representations of these objects should relate with their semantic proximity or stylistic similarity. In addition to the text itself, documents are often associated with meta data. They are often linked (e.g., hypertext references, citations in scientific production), tagged with their author, and timestamped. This information was shown to improve the quality of the documents representation and can help to guide the learning of the author representation. Nevertheless, incorporating these meta data is not trivial.Additionally, NLP evolved rapidly during last decades. Representation models are now trained on massive amount of textual data and fine-tuned on specific tasks. These models are of high interest when working with small dataset, allowing to transfer knowledge from relevant information sources. Developing representation learning models that can incorporate these pre-trained representations is crucial. Most of prior works learn pointwise representation. This is a serious limitation as language is more complex than that : words are often polysemic, and documents are, most of the time on, several topics. A branch of the literature proposes to learn probabilistic distribution in a semantic space to circumvent this issue. In this thesis, we first introduce theoretical of machine learning, and a general overview of existing works in representation learning for words, and documents (without meta data). We then focus on representation learning for linked documents. We present prior works of the domain and propose two contributions : the RLE (regularized Linear Embedding) model, and the GELD model (Gaussian Embedding of Linked Documents). Then, we explore representation learning for authors and documents in the same vector space. We present most recent works and our contribution VADE (Variational Authors and Documents Embedding). Finally, we study the problematic of representation learning for authors in a dynamic context : their representations should evolve over time. We first previous models, and propose an original contribution, DGEA (Dynamic Gaussian Embedding of Authors). Additionally, we propose several scientific axes to improve our contributions, and some open questions for future research

    Capturing Style in Author and Document Representation

    Full text link
    A wide range of Deep Natural Language Processing (NLP) models integrates continuous and low dimensional representations of words and documents. Surprisingly, very few models study representation learning for authors. These representations can be used for many NLP tasks, such as author identification and classification, or in recommendation systems. A strong limitation of existing works is that they do not explicitly capture writing style, making them hardly applicable to literary data. We therefore propose a new architecture based on Variational Information Bottleneck (VIB) that learns embeddings for both authors and documents with a stylistic constraint. Our model fine-tunes a pre-trained document encoder. We stimulate the detection of writing style by adding predefined stylistic features making the representation axis interpretable with respect to writing style indicators. We evaluate our method on three datasets: a literary corpus extracted from the Gutenberg Project, the Blog Authorship Corpus and IMDb62, for which we show that it matches or outperforms strong/recent baselines in authorship attribution while capturing much more accurately the authors stylistic aspects

    Modélisation et fouille de discussions de Web

    No full text
    The development of Web 2.0 has resulted in the generation of a vast amount of online discussions. Mining and extracting quality knowledge from online discussions is significant for the industrial and marketing sector, as well as for e-commerce applications. Discussions of this kind encapsulate people's interests and beliefs and hence, there is a great interest in acquiring and developing online discussion analysis tools. The objective of this thesis is to define a model which represents online discussions and facilitates their analysis. We propose a graph-oriented model. The vertices of the graph represent postings. Each posting encapsulates information such as the content of the message, the author who has written it, the opinion polarity of the message and the time that the message was posted. The edges among the postings point out a "reply-to" relation. In other words they show which posting replies to what as it is given by the structure of the online discussion.The proposed model is accompanied by a number of measures which facilitate the discussion mining and the extraction of knowledge from it. Defined measures consist in measures that are underlined by the structure of the discussion and the way the postings are linked to each other. There are opinion-oriented measures which deal with the opinion evolution within a discussion. Time-oriented measures exploit the presence of the temporal dimension within a model, while topic-oriented measures can be used in order to measure the presence of topics within a discussion. The user's presence inside the online discussions can be exploited either by social network techniques or through the new model which encapsulates knowledge about the author of each posting.The representation of an online discussion in the proposed way allows a user to "zoom" inside the discussion. A recommendation of messages is proposed to the user to enable a more efficient participation inside the discussion.Additionally, a prototype system has been implemented which allows the user to mine online discussions by selecting a subset of postings and browse through them efficiently.Le développement du Web 2.0 a donné lieu à la production d'une grande quantité de discussions en ligne. La fouille et l'extraction de données de qualité de ces discussions en ligne sont importantes dans de nombreux domaines (industrie, marketing) et particulièrement pour toutes les applications de commerce électronique. Les discussions de ce type contiennent des opinions et des croyances de personnes et cela explique l'intérêt de développer des outils d'analyse efficaces pour ces discussions.L'objectif de cette thèse est de définir un modèle qui représente les discussions en ligne et facilite leur analyse. Nous proposons un modèle basé sur des graphes. Les sommets du graphe représentent les objets de type message. Chaque objet de type message contient des informations comme son contenu, son auteur, l'orientation de l'opinion qui y été exprimée et la date où il a été posté. Les liens parmi les objets message montrent une relation de type "répondre à". En d'autres termes, ils montrent quels objets répondent à quoi, conséquence directe de la structure de la discussion en ligne.Avec ce nouveau modèle, nous proposons un certain nombre de mesures qui guident la fouille au sein de la discussion et permettent d'extraire des informations pertinentes. Les mesures sont définies par la structure de la discussion et la façon dont les objets messages sont liés entre eux. Il existe des mesures centrées sur l'analyse de l'opinion qui traitent de l'évolution de l'opinion au sein de la discussion. Nous définissons également des mesures centrées sur le temps, qui exploitent la dimension temporelle du modèle, alors que les mesures centrées sur le sujet peuvent être utilisées pour mesurer la présence de sujets dans une discussion. La représentation d'une discussion en ligne de la manière proposée permet à un utilisateur de "zoomer" dans une discussion. Une liste de messages clés est recommandée à l'utilisateur pour permettre une participation plus efficace au sein de la discussion. De plus, un système prototype a été implémenté pour permettre à l'utilisateur de fouiller les discussions en ligne en sélectionnant un sous ensemble d'objets de type message et naviguer à travers ceux-ci de manière efficace

    Early novelty detection in textual data streams

    No full text
    Les travaux présentés dans cette thèse, réalisés en partenariat avec l'entreprise Électricité de France (EDF), ont pour objectif de développer des modèles de détection de nouveauté dans des flux de données textuelles. Pour EDF, cela s'inscrit dans une démarche d'anticipation des besoins clients.Nous présentons les différentes approches de détection de nouveauté existantes dans la littérature, ce qui nous permet de définir précisément les tâches que nous voulons résoudre. Ces définitions nous permettent de mettre en place des méthodes d'évaluations, basées soit sur des données simulées, soit sur des données réelles. La modification des données réelles nous permet de simuler des scénarios d'arrivées de la nouveauté et donc de mesurer l'efficacité des méthodes existantes. Nous présentons deux modèles de détections d'éléments nouveaux en utilisant tout d'abord les modèles thématiques probabilistes. Le deuxième modèle est CEND, un algorithme se basant sur les mouvements des mots dans des espaces de représentations en grandes dimensions. Ce type de modèle nous permet de faire la différence entre des mots liés à des évènements abrupts et des thématiques émergents doucement.Nous présentons un modèle de surveillance des dynamiques des plans de classements. En liant des méthodes de prévision de série temporelle et d'analyse séquentielle, nous arrivons à estimer quand est-ce qu'un signal temporel change de dynamique. Nous testons ces méthodes sur des données d'articles de presse et sur des données industrielles d'EDF.The work presented in this thesis, made in collaboration with Électricité de France (EDF), aims to develop novelty detection models in textual data streams. For EDF, this is part of an approach to anticipate customer needs.We present different novelty detection approaches that exist in the literature, which allows us to precisely define the tasks we want to solve. These definitions allow us to set up evaluation methods, based either on simulated data or on real data. Modifying real data allows us to simulate novelty arrival scenarios and therefore to measure the performance of existing methods.We present two models of detection for new elements by first using topic probabilistic models. The second approach is CEND, an algorithm based on the movements of words in high dimensional representation spaces. This type of model allows us to distinguish words linked with abrupt events or slowly emerging themes.We present a model for monitoring the dynamics of a classification plan. By linking methods of time series forecasting and sequential analysis, we estimate when the dynamic of a signal changes. We test these methods on public press data and on an EDF industrial dataset

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Representation Learning in Document Networks : Application to the Scientific Literature

    No full text
    Les travaux présentés dans cette thèse, réalisés en collaboration avec l’entreprise Digital Scientific Research Technology, ont pour objectif de développer des modèles d’apprentissage de représentation pour les réseaux dans l’optique d’aborder la résolution de différentes tâches de recherche d’information, en particulier sur des données issues de la littérature scientifique.Nous présentons GVNR, un algorithme de plongement de sommets dans les réseaux dont la complexité algorithmique en temps est plus faible que les algorithmes représentatifs de la littérature. GVNR-t, son extension, permet de prendre en compte le texte associé aux sommets dans un réseau de documents. Nous décrivons ensuite MATAN, un modèle qui entraîne un mécanisme d’attention mutuelle entre documents. Nous présentons enfin IDNE, un modèle d’apprentissage de représentation de documents qui s’appuie sur un nouveau mécanisme, l’attention thématique. Nous étudions expérimentalement les performances de ces 4 modèles sur des tâches transductives et inductives de classification des sommets et de prédiction de liens avec 9 jeux de données. Nous montrons que ces modèles réussissent mieux que l’état de l’art sur la plupart des jeux de données et sur toutes les tâches. De plus, nous présentons nos travaux sur la recherche automatique d’experts. Nous introduisons une nouvelle méthodologie d’évaluation et nous fournissons 4 nouveaux jeux de données annotés. Nous montrons expérimentalement la pertinence de notre protocole d’évaluation et mettons en lumière les étapes restantes pour la conception d’un modèle de recherche d’experts reposant sur les techniques de plongement de réseau de documents.The work presented in this thesis, made in collaboration with the company Digital Scientific Research Technology, aims to develop representation learning models for networks in order to address the resolution of different tasks of information retrieval, in particular, on data extracted from the scientific literature. We present GVNR, a network embedding algorithm whose algorithmic time complexity is lower than other mechanism between documents. Finally, we present IDNE, a document network embedding model based on a new mechanism, the topic-attention. We experimentally study the performances of these 4 models on transductive and inductive tasks of classification of nodes and of link prediction with 9 datasets. We show that these models achieve state-of-the-art performances in most datasets on all tasks.In addition, we present our work on expert finding. We introduce a new evaluation methodology and we provide 4 new annotated datasets. We experimentally show the relevance of our evaluation protocol and highlight the remaining steps for the design of an expert finding model based on document network embedding techniques
    corecore