1,721,002 research outputs found
Du statut des plongements lexicaux en tant qu'implémentations de l'hypothése distributionnelle
This dissertation studies the status of word embeddings, i.e, vectors produced by NLP systems, insofar they are relevant to linguistic studies. We morespecifically focus on the relation between word embeddings and distributional semantics—the field of study based on the assumption that context correlates to meaning. We question whether word embeddings can be seen as a practical implementation of distributional semantics.Our first approach to this inquiry consists in comparing word embeddings to some other representation of meaning, namely dictionary definitions. The assumption underlying this approach is that semantic representations from distinct formalisms should be equivalent, and therefore the information encoded in distributional semantics representations should be equivalent to that of definitions. We test this assumption using two distinct experimental protocols: the first is based on overall metric space similarity, the second relies on neural networks. In both cases, we find limited success, suggesting that either distributional semantics and dictionaries encode different information, or that word embeddings are not linguistically coherent representations of distributional semantics. The second angle we adopt to study the relation between word embeddings and distributional semantics consists in formalizing our expectations for distributional semantics representations, and comparing these expectations to what we observe for word embeddings. We construct a dataset of human judgments on the distributional hypothesis, which we use to elicit predictions on distributional substitutability from word embeddings. While word embeddings attain some degree of performance on this task, their behavior and that of our human annotators are found to drastically differ. Strengthening these results, we observe that a large family of broadly successful embedding models all exhibit artifacts imputable to the neural network architecture they use, rather than to any semantically meaningful factor.Our experiments suggest that, while we can formally delineate criteria we expect of distributional semantics models, the linguistic validity of word embeddings is not a solved problem. Three main conclusions emerge from our experiments. First, the diversity of studies in distributional semantics do not entail that no formal statements regarding this theory can be made: we saw that distributional substitutability provides a very convenient handle for the linguist to grasp. Second, that we cannot easily relate distributional semantics to another lexical semantic theory questions whether the distributional hypothesis actually provides an alternative account of meaning, or whether it deals with a very distinct set of facts altogether. Third, while the gap in quality between practical implementations of distributional semantics and our expectations necessarily adds on to the confusion, that we can make quantitative statements about this gap should be taken as a very encouraging sign for future research.Cette thèse s’intéresse au statut des plongements lexicaux (ou « word embeddings »), c’est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu’ils entretiennent avec la sémantique distributionnnelle, le champ d’étude fondé sur l’hypothèse que le contexte est corrélé au sens. L’objet de notre recherche est d’établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle.Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d’autres représentations du sens, en particulier aux définitionstelles qu’on en trouve dans des dictionnaires. Cette démarche se fonde sur l’hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l’information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l’épreuve à travers deux protocoles expérimentaux distincts : le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n’obtenons qu’un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d’un point de vue linguistique.Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis à comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l’hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle à partir de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance en utilisant les modèles en question, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu’une large famille de modèles de plongements qui ont ren-contré un franc succès, ceux basés sur l’architecture Transformer, présente des artéfacts directement imputables à l’architecture qu’elle emploie plutôt qu’à des facteurs d’ordre sémantique.Nos expériences suggèrent que la validité linguistique des plongements lexicaux n’est aujourd’hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n’implique pas que ce champ d’étude est voué aux approches informelles: nous avons vu que le linguiste peut s’appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d’étudier si la sémantique distributionnelle s’intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l’on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu’on attend qu’ils puissent faire, la possibilité d’étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir
Language Models and the Paradigmatic Axis
The massive relevance of large language models, static, and contextualized word embeddings in today's research in NLP implies a need for accounts of how they process data from the point of view of the linguist. The goal of the present article is to frame language modeling objectives in structuralist terms: Word embeddings are derived from models attempting to quantify the probability of lexical items in a given context, and thus can be understood as models of the paradigmatic axis. This re-framing further allows us to demonstrate that, with some consideration given to how to formulate a word's context, training a simple model with a masked language modeling objective can yield paradigms that are both accurate and coherent from a theoretical linguistic perspective.Peer reviewe
Du statut des plongements lexicaux en tant qu'implémentations de l'hypothèse distributionnelle
Cette thèse s'intéresse au statut des plongements lexicaux (ou "word embeddings"), c'est-à-dire des vecteurs de mots issus de modèles de Traitement Automatique des Langues. Plus particulièrement, notre intérêt se porte sur leur valeur linguistique et la relation qu'ils entretiennent avec la sémantique distributionnnelle, le champ d'études fondé sur l'hypothèse que le contexte est corrélé au sens. L'objet de notre recherche est d'établir si ces plongements lexicaux peuvent être considérés comme une implémentation concrète de la sémantique distributionnelle. Notre première approche dans cette étude consiste à comparer les plongements lexicaux à d'autres représentations du sens, en particulier aux définitions telles qu'on en trouve dans des dictionnaires. Cette démarche se fonde sur l'hypothèse que des représentations sémantiques de deux formalismes distincts devraient être équivalentes, et que par conséquent l'information encodée dans les représentations sémantiques distributionnelles devrait être équivalente à celle encodée dans les définitions. Nous mettons cette idée à l'épreuve à travers deux protocoles expérimentaux distincts~: le premier est basé sur la similarité globale des espaces métrisables décrits par les vecteurs de mots et les définitions, le second repose sur des réseaux de neurones profonds. Dans les deux cas, nous n'obtenons qu'un succès limité, ce qui suggère soit que la sémantique distributionnelle et les dictionnaires encodent des informations différentes, soit que les plongements lexicaux ne sont pas motivés d'un point de vue linguistique. Le second angle que nous adoptons ici pour étudier le rapport entre sémantique distributionnelle et plongements lexicaux consiste à formellement définir ce que nous attendons des représentations sémantiques distributionnelles, puis de comparer nos attentes à ce que nous observons effectivement dans les plongements lexicaux. Nous construisons un jeu de données de jugements humains sur l'hypothèse distributionnelle. Nous utilisons ensuite ce jeu pour obtenir des prédictions sur une tâche de substituabilité distributionnelle de la part de modèles de plongements lexicaux. Bien que nous observions un certain degré de performance de la part des modèles en questions, leur comportement se démarque très clairement de celui de nos annotateurs humains. Venant renforcer ces résultats, nous remarquons qu'une large famille de modèles de plongements qui ont rencontré un franc succès, ceux basés sur l'architecture Transformer, présente des artéfacts directement imputables à l'architecture qu'elle emploie plutôt qu'à des facteurs d'ordre sémantique. Nos expériences suggèrent que la validité linguistique des plongements lexicaux n'est aujourd'hui pas un problème résolu. Trois grandes conclusions se dégagent de nos expériences. Premièrement, la diversité des approches en sémantique distributionnelles n'impliquent pas que ce champ d'étude est voué aux approches informelles: nous avons vu que le linguiste peut s'appuyer sur la substituabilité distributionnelle. Deuxièmement, comme on ne peut pas aisément comparer la sémantique distributionnelle à une autre théorie lexicale, il devient nécessaire d'étudier si la sémantique distributionnelle s'intéresse bien au sens, ou bien si elle porte sur une série de faits entièrement distincte. Troisièmement, bien que l'on puisse souligner une différence entre la qualité des plongements lexicaux et ce qu'on attend qu'ils puisse faire, la possibilité d'étudier cette différence sous un angle quantitatif est de très bon augure pour les travaux à venir.This dissertation studies the status of word embeddings, i.e, vectors produced by NLP systems, insofar they are relevant to linguistic studies. We more specifically focus on the relation between word embeddings and distributional semantics-the field of study based on the assumption that context correlates to meaning. We question whether word embeddings can be seen as a practical implementation of distributional semantics. Our first approach to this inquiry consists in comparing word embeddings to some other representation of meaning, namely dictionary definitions. The assumption underlying this approach is that semantic representations from distinct formalisms should be equivalent, and therefore the information encoded in distributional semantics representations should be equivalent to that of definitions. We test this assumption using two distinct experimental protocols: the first is based on overall metric space similarity, the second relies on neural networks. In both cases, we find limited success, suggesting that either distributional semantics and dictionaries encode different information, or that word embeddings are not linguistically coherent representations of distributional semantics. The second angle we adopt to study the relation between word embeddings and distributional semantics consists in formalizing our expectations for distributional semantics representations, and compare these expectations to what we observe for word embeddings. We construct a dataset of human judgments on the distributional hypothesis, which we use to elicit predictions on distributional substitutability from word embeddings. While word embeddings attain some degree of performance on this task, their behavior and that of our human annotators are found to drastically differ. Strengthening these results, we observe that a large family of broadly successful embedding models all exhibit artifacts imputable to the neural network architecture they use, rather than to any semantically meaningful factor. Our experiments suggest that, while we can formally delineate criteria we expect of distributional semantics models, the linguistic validity of word embeddings is not a solved problem. Three main conclusions emerge from our experiments. First, the diversity of studies in distributional semantics do not entail that no formal statements regarding this theory can be made: we saw that distributional substitutability provides a very convenient handle for the linguist to grasp. Second, that we cannot easily relate distributional semantics to another lexical semantic theory questions whether the distributional hypothesis actually provides an alternative account of meaning, or whether it deals with a very distinct set of facts altogether. Third, while the gap in quality between practical implementations of distributional semantics and our expectations necessarily adds on to the confusion, that we can make quantitative statements about this gap should be taken as a very encouraging sign for future research
Why Bother with Geometry? On the Relevance of Linear Decompositions of Transformer Embeddings
A recent body of work has demonstrated that Transformer embeddings can be linearly decomposed into well-defined sums of factors, that can in turn be related to specific network inputs or components. There is however still a dearth of work studying whether these mathematical reformulations are empirically meaningful. In the present work, we study representations from machine-translation decoders using two of such embedding decomposition methods. Our results indicate that, while decomposition-derived indicators effectively correlate with model performance, variation across different runs suggests a more nuanced take on this question. The high variability of our measurements indicate that geometry reflects model-specific characteristics more than it does sentence-specific computations, and that similar training conditions do not guarantee similar vector spaces.Peer reviewe
Stranger than Paradigms : Word Embedding Benchmarks Don't Align With Morphology
Word embeddings have proven a boon in NLP in general, and computational approaches to morphology in particular. However, methods to assess the quality of a word embedding model only tangentially target morphological knowledge, which may lead to suboptimal model selection and biased conclusions in research that employs word embeddings to investigate morphology. In this paper, we empirically test this hypothesis by exhaustively evaluating 1,200 French models with varying hyperparameters on 14 different tasks. Models that perform well on morphology tasks tend to differ from those which succeed on more traditional benchmarks. An especially critical hyperparameter appears to be the negative sampling distribution smoothing exponent: Our study suggest that the common practice of setting it to 0.75 is not appropriate: its optimal value depends on the type of linguistic knowledge being tested.Peer reviewe
So many design choices : Improving and interpreting neural agent communication in signaling games
Emergent language games are experimental protocols designed to model how communication may arise among a group of agents. In this paper, we focus on how to improve performances of neural agents playing a signaling game: a sender is exposed to an image and generates a sequence of symbols that is transmitted to a receiver, which uses it to distinguish between two images, one that is semantically related to the original image, and one that is not. We consider multiple design choices, such as pretraining the visual components of the agents, introducing regularization terms, how to sample training items from the dataset, and we study how these different choices impact the behavior and performances of the agents. To that end, we introduce a number of automated metrics to measure the properties of the emergent language. We find that some implementation choices are always beneficial, and that the information that is conveyed by the agents’ messages is shaped not only by the game, but also by the overall design of the agents as well as seemingly unrelated implementation choices.Peer reviewe
"Definition Modeling: To Model Definitions." Generating Definitions With Little to No Semantics
Peer reviewe
AXOLOTL'24 Shared Task on Multilingual Explainable Semantic Change Modeling
This paper describes the organization and findings of AXOLOTL'24, the first
multilingual explainable semantic change modeling shared task. We present new
sense-annotated diachronic semantic change datasets for Finnish and Russian
which were employed in the shared task, along with a surprise test-only German
dataset borrowed from an existing source. The setup of AXOLOTL'24 is new to the
semantic change modeling field, and involves subtasks of identifying unknown
(novel) senses and providing dictionary-like definitions to these senses. The
methods of the winning teams are described and compared, thus paving a path
towards explainability in computational approaches to historical change of
meaning
Going Beyond Counting First Authors in Author Co-citation Analysis
The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation
counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings
are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that
only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into
account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed
- …
