1,721,126 research outputs found

    Evaluating LLM-Generated Legal Explanations for Regulatory Compliance in Social Media Influencer Marketing

    No full text
    The rise of influencer marketing has blurred boundaries between organic content and sponsored content, making the enforcement of legal rules relating to transparency challenging. Effective regulation requires applying legal knowledge with a clear purpose and reason, yet current detection methods of undisclosed sponsored content generally lack legal grounding or operate as opaque ``black boxes.'' Using 1,143 Instagram posts, we compare gpt-5-nano and gemini-2.5-flash-lite under three prompting strategies with controlled levels of legal knowledge provided. Both models perform strongly in classifying content as sponsored or not (F1 up to 0.93), with Gemini favouring recall (0.93) and GPT favouring precision (0.95), though performance drops by over 10 points on ambiguous cases. We further develop a taxonomy of reasoning errors, showing frequent citation omissions (28.57%), unclear references (20.71%), and hidden ads exhibiting the highest miscue rate (28.57%). While adding regulatory text to the prompt improves explanation quality, it does not consistently improve detection accuracy. The contribution of this paper is threefold. First, it makes a novel addition to regulatory compliance technology by providing a taxonomy of common errors in LLM-generated legal reasoning to evaluate whether automated moderation is not only accurate but also legally robust, thereby advancing the transparent detection of influencer marketing content. Second, it features an original dataset of LLM explanations annotated by two students who were trained in influencer marketing law. Third, it combines quantitative and qualitative evaluation strategies for LLM explanations and critically reflects on how these findings can support advertising regulatory bodies in automating moderation processes on a solid legal foundation

    LegalLens Shared Task 2024:Legal Violation Identification in Unstructured Text

    No full text
    This paper presents the results of the Legal-Lens Shared Task, focusing on detecting legal violations within text in the wild across two sub-tasks: LegalLens-NER for identifying legal violation entities and LegalLens-NLI for associating these violations with relevant legal contexts and affected individuals. Using an enhanced LegalLens dataset covering labor, privacy, and consumer protection domains, 38 teams participated in the task. Our analysis reveals that while a mix of approaches was used, the top-performing teams in both tasks consistently relied on fine-tuning pretrained language models, outperforming legalspecific models and few-shot methods. The topperforming team achieved a 7.11% improvement in NER over the baseline, while NLI saw a more marginal improvement of 5.7%. Despite these gains, the complexity of legal texts leaves room for further advancements

    LegalLens Shared Task 2024:Legal Violation Identification in Unstructured Text

    No full text
    This paper presents the results of the Legal-Lens Shared Task, focusing on detecting legal violations within text in the wild across two sub-tasks: LegalLens-NER for identifying legal violation entities and LegalLens-NLI for associating these violations with relevant legal contexts and affected individuals. Using an enhanced LegalLens dataset covering labor, privacy, and consumer protection domains, 38 teams participated in the task. Our analysis reveals that while a mix of approaches was used, the top-performing teams in both tasks consistently relied on fine-tuning pretrained language models, outperforming legalspecific models and few-shot methods. The topperforming team achieved a 7.11% improvement in NER over the baseline, while NLI saw a more marginal improvement of 5.7%. Despite these gains, the complexity of legal texts leaves room for further advancements

    Utilizing Longitudinal Data to Build Decision Trees for Profile Building and Predicting Eating Behavior

    Full text link
    AbstractIn this paper a framework for warning people when they are at risk of unhealthy eating is presented. Data is collected trough a mo- bile application called “ThinkSlim” which was developed for the purpose of studying eating behavior using Ecological Momentary Assessment (EMA) principles. Data is converted in order to allow early prediction of healthy and unhealthy eating events and a decision tree algorithm taking into account the longitudinal structure of the dataset is utilized to predict healthy versus unhealthy eating events. Rules that are derived from this decision tree are used to cluster users to groups based on the rule triggering frequen- cies. Groups created are used for providing users with semi-tailored feedback and are analyzed providing useful insights regarding the conditions that lead to unhealthy eating among different participants allowing for building different eating profiles

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Variations on the Author

    Full text link
    “Variations on the Author” discusses two of Eduardo Coutinho’s recent films (Um Dia na Vida, from 2010, and Últimas Conversas, posthumously released in 2015) and their contribution to the general question of documentary authorship. The director’s filmography is characterized by a consistent yet self-effacing form of authorial self-inscription: Coutinho often features as an interviewer that rather than express opinions propels discourses; an interviewer that is good at listening. This mode of self-inscription characterizes him as an author who is not expressive but who is nonetheless markedly present on the screen. In Um Dia na Vida, however, Coutinho is completely absent form the image, while Últimas Conversas, on the contrary, includes a confessional prologue that moves the director from the margins to the center of his films. This article examines the ways in which these works stand out in the filmography of a director who offers new insights into the notion of cinematic authorship

    Appropriate Similarity Measures for Author Cocitation Analysis

    Full text link
    We provide a number of new insights into the methodological discussion about author cocitation analysis. We first argue that the use of the Pearson correlation for measuring the similarity between authors’ cocitation profiles is not very satisfactory. We then discuss what kind of similarity measures may be used as an alternative to the Pearson correlation. We consider three similarity measures in particular. One is the well-known cosine. The other two similarity measures have not been used before in the bibliometric literature. Finally, we show by means of an example that our findings have a high practical relevance.information science;Pearson correlation;cosine;similarity measure;author cocitation analysis

    A Cancel Culture Corpus through the Lens of Natural Language Processing

    Full text link
    Cancel Culture as an Internet phenomenon has been previously explored from a social and legal science perspective. This paper demonstrates how Natural Language Processing tasks can be derived from this previous work, underlying techniques on how cancel culture can be measured, identified and evaluated. As part of this paper, we introduce a first cancel culture data set with of over 2.3 million tweets and a framework to enlarge it further. We provide a detailed analysis of this data set and propose a set of features, based on various models including sentiment analysis and emotion detection that can help characterizing cancel culture

    Intelligent techniques of text semantic analysis and search

    No full text
    The rapid proliferation of digital text documents during the last years raises the need to create efficient organization and management systems. The textual content of digital documents is a huge source of information that grows every day, assisted by the global growth of the Internet, which contains large quantities of plain text. The size of available documents demands efficient ways to store and represent information using computers, as well as efficient methods for its organization, management, search and editing. The contribution of this PhD thesis rests in the fields of efficient and more thorough representation of documents and the efficient analysis of problems related with them (organization, classification etc.)The use of language is particularly complicated and creates various problems in the attempt to represent documents using computers. The meanings and senses that exist latently in a document because of the context, the relations between the words, the implied information (derived from natural or earlier knowledge), metaphors etc. are some of the problems that emerge, which, combined with the computational complexity that is introduced by the large size of documents, have not allowed for a stable and efficient way of representation to be found until today.In this PhD thesis we examine the basic units of document representation (syllables, words, phrases/sentences) and specifically the Vector Space Model (VSM) which is widely used for document representation based on words. Words are the main unit of document representation and, despite the drawbacks (large search space, breaking of multi-words etc.) introduced, they still are the base of most models. It is no random fact that World Wide Web search engines utilize keywords. Based on the idea that documents consist of words and therefore, every similarity or relation between documents can be reduced to the determination of the relation between the words that consist them and given the observation that searching with keywords is the main way of searching, this PhD thesis proposes a method of determining the semantic relation between words. The main goal is to find a scalar measure that quantifies any relation (synonym, antonym, hypernym etc.) between any two words. For this reason, the method utilizes the information provided by the hierarchical dictionary WordNet as well as the lexico-syntactic patterns extracted from the search results returned by a search engine using those words.Recognizing the weaknesses of a representation model based on words as well as the limitations that are bound by the scalar measurement of word relatedness, the next step in this PhD thesis is the introduction of a new representation model, which is not based on document words, but rather includes semantics in the representation, based on its named entities-concepts (which can contain more than one word). Wikipedia is utilized for this purpose, since its increasing size and rich structure (hierarchical organization, full well-written sentences, informative article headers etc.) provide many capabilities to enhance the document semantics with characteristics created by attributes derived from Wikipedia. The presented model leads to representations not only richer, but also more compressed ones, compared to the VSM model.The introduction of a better representation mode allows the PhD thesis to examine not only the relations between the words-senses of a document, but also the topics appearing in large document collections through the proposal of two document clustering techniques (according to their content). In both techniques the Wikipedia based representation model plays an important role utilizing the constructed features. The first technique is based on the most important concepts of the document collection examined and creates fast and efficiently a hierarchical tree structure of the groups that documents are clustered to, according to their content. The depth and width of the tree structure is fully controlled by the user. The second technique utilizes Self Organizing Maps (SOM) as a tool for document clustering. Self Organizing Map's initialization and initial neuron structure (grid) is modified to the original SOM algorithm (utilizing the Wikipedia based representation model) and training is carried out in three steps in accelerated time compared to the original process. At the end of training, user has the possibility to hierarchically organize similar neurons of the map.The actual contribution of this PhD thesis is summarized in the possibility of using intelligent techniques and utilizing various source of knowledge in order to improve aspects or solve problems related to the efficient representation and analysis of the growing in size documents. In order to derive useful conclusions, at every stage of the research and for each proposed method the results of appropriately designed and performed experiments and comparisons are provided, which do not focus only on the overall evaluation of the methodologies, but, in parallel, intend to justify the particular choices and to prove their merits.Η ραγδαία αύξηση του όγκου των διαθέσιμων ψηφιακών εγγράφων τα τελευταία χρόνια δημιουργεί την ανάγκη δημιουργίας συστημάτων οργάνωσης και διαχείρισής τους. Η κειμενική πληροφορία με τη μορφή ψηφιακών εγγράφων αποτελεί μία τεράστια πηγή πληροφοριών που αναπτύσσεται μέρα με τη μέρα λόγω και της εξάπλωσης του Παγκόσμιου Ιστού, ο οποίος σήμερα διαθέτει μεγάλες ποσότητες ελεύθερου κειμένου. Ο όγκος των διαθέσιμων εγγράφων απαιτεί αποδοτικές τεχνικές αποθήκευσης και αναπαράστασής τους στον υπολογιστή καθώς και αποτελεσματικές μεθόδους οργάνωσης, διαχείρισης, αναζήτησης και επεξεργασίας. Η συνεισφορά της διατριβής εντάσσεται στην περιοχή της αποδοτικής και πιο πλήρους αναπαράστασης εγγράφων και της αποτελεσματικής ανάλυσης προβλημάτων που σχετίζονται με τα έγγραφα (οργάνωση, ομαδοποίηση κτλ).Η χρήση της γλώσσας είναι εξαιρετικά πολύπλοκη, κάτι το οποίο δημιουργεί διάφορα προβλήματα στην προσπάθεια αναπαράστασης εγγράφων στον υπολογιστή: Τα νοήματα που κρύβονται σε ένα κείμενο λόγω των σχέσεων που υπάρχουν ανάμεσα στις λέξεις, η πληροφορία που υπονοείται λόγω πρότερης ή εκ φύσεως γνώσης, παρομοιώσεις, μεταφορές κτλ είναι μερικά από τα προβλήματα που ανακύπτουν και σε συνδυασμό με την υπολογιστική πολυπλοκότητα που εισάγεται λόγω του μεγάλου όγκου των εγγράφων δεν έχουν επιτρέψει μέχρι σήμερα να βρεθεί ένα σταθερό και αποδοτικό μοντέλο αναπαράστασης.Στα πλαίσια της διατριβής εξετάζονται οι βασικές μονάδες αναπαράστασης των εγγράφων (συλλαβές, λέξεις, προτάσεις/φράσεις) και πιο συγκεκριμένα το μοντέλο του χώρου διανυσμάτων (Vector Space Model, VSM), το οποίο χρησιμοποιείται ευρέως για την αναπαράσταση εγγράφων. Οι λέξεις αποτελούν την κυριότερη μονάδα αναπαράστασης εγγράφων και παρά τα μειονεκτήματα που παρουσιάζουν ως μονάδα αναπαράστασης (μεγάλος χώρος αναζήτησης, διάσπαση ομάδων λέξεων κτλ) παραμένουν έως και σήμερα στο επίκεντρο των περισσοτέρων μοντέλων. Εξάλλου, δεν είναι τυχαίο πως οι μηχανές αναζήτησης στον Παγκόσμιο Ιστό λειτουργούν βάσει λέξεων-κλειδιών. Βάσει της ιδέας του ότι οποιαδήποτε ομοιότητα ή σχέση μεταξύ εγγράφων μπορεί να αναχθεί στον καθορισμό της σχέσης των λέξεων που τα αποτελούν και βάσει της παρατήρησης πως η αναζήτηση με λέξεις-κλειδιά παραμένει ο κυριότερος τρόπος αναζήτησης, η διατριβή προτείνει μία μέθοδο προσδιορισμού της σημασιολογικής σχέσης λέξεων. Στόχος είναι να βρεθεί ένα βαθμωτό μέτρο που θα ποσοτικοποιεί την οποιαδήποτε σχέση (συνωνυμία, υπερωνυμία, αντωνυμία κτλ) υπάρχει μεταξύ δύο οποιωνδήποτε λέξεων και γιαυτό το σκοπό αξιοποιεί την πληροφορία που παρέχεται από το ιεραρχικό λεξικό WordNet καθώς και τα λεξικο-συντακτικά πρότυπα που εξάγονται από τα αποτελέσματα αναζήτησης για τις εν λόγω λέξεις που επιστρέφονται από κάποια μηχανή αναζήτησης. Αναγνωρίζοντας τις αδυναμίες ενός μοντέλου αναπαράστασης με λέξεις αλλά και των περιορισμών που θέτει ένα βαθμωτό μέτρο συσχέτισης λέξεων, το επόμενο βήμα της διατριβής είναι η εισαγωγή ενός νέου μοντέλου αναπαράστασης που δε θα βασίζεται στις λέξεις του εγγράφου, αλλά θα εισάγει σημασιολογικό περιεχόμενο στην αναπαράσταση βάσει των εννοιών (concepts) (οι οποίες μπορεί να αποτελούνται από παραπάνω της μιας λέξης). Για το σκοπό αυτό αξιοποιείται η Wikipedia που λόγω του αυξανόμενου όγκου της και της δομής της (ιεραρχική δόμηση, πλήρεις καλογραμμένες προτάσεις, κατατοπιστικοί τίτλοι άρθρων κτλ) παρέχει πολλές δυνατότητες ενίσχυσης της σημασιολογίας των εγγράφων, μέσω χαρακτηριστικών που κατασκευάζονται από γνωρίσματα τα οποία εξάγονται από τη Wikipedia. Το μοντέλο που παρουσιάζεται οδηγεί σε αναπαραστάσεις τόσο πιο πλούσιες (σημασιολογικά) όσο και πιο συμπιεσμένες (από άποψη απαιτήσεων χώρου) σε σχέση με το κλασσικό μοντέλο VSM. Αφού πλέον υπάρχει διαθέσιμο ένα καλύτερο μοντέλο αναπαράστασης εγγράφων, η διατριβή πηγαίνει στο επόμενο επίπεδο και δεν εξετάζει πλέον τις σχέσεις ανάμεσα στις λέξεις του εγγράφου, αλλά τα θέματα με τα οποία ασχολούνται μεγάλες συλλογές εγγράφων, προτείνοντας δύο μεθοδολογίες ομαδοποίησης εγγράφων βάσει του περιεχομένου τους. Και στις δύο μεθοδολογίες κυρίαρχο ρόλο διαδραματίζει το μοντέλο αναπαράστασης εγγράφων βάσει της Wikipedia χρησιμοποιώντας τα χαρακτηριστικά που έχουν κατασκευαστεί. Η πρώτη μεθοδολογία βασίζεται στις πιο σημαντικές έννοιες της συλλογής των εγγράφων που εξετάζεται και δημιουργεί γρήγορα και αποδοτικά μία ιεραρχική δενδρική δομή ομάδων στις οποίες κατανέμονται τα έγγραφα βάσει του περιεχομένου τους. Η δομή είναι κατευθυνόμενη από το χρήστη ως προς το βάθος και το πλάτος του δέντρου (και συνακόλουθα ελέγχονται και οι θεματικές περιοχές στις οποίες χωρίζονται τα έγγραφα). Η δεύτερη μεθοδολογία αξιοποιεί τους Αυτο-Οργανούμενους Χάρτες (Self Organizing Maps, SOM) ως εργαλείο για την ομαδοποίηση εγγράφων. Μέσα από τρία βήματα υλοποιείται η εκπαίδευση ενός Αυτο-Οργανούμενου Χάρτη, τροποποιημένου τόσο ως προς την αρχικοποίηση και τη δημιουργία του πλέγματος των νευρώνων (που γίνεται βάσει μιας διαδικασίας που βασίζεται στο μοντέλο αναπαράστασης με χρήση της Wikipedia), όσο και ως προς τη διαδικασία της εκπαίδευσης, επιταχύνοντάς τη καταλυτικά. Στο τέλος της εκπαίδευσης παρέχεται η δυνατότητα ιεραρχικής ομαδοποίησης των παρόμοιων νευρώνων του Χάρτη σε ομάδες, ενώ η οπτικοποίηση δίνει με ακρίβεια την τοπολογική σχέση των ομάδων (θεματικών περιοχών).Η ουσιαστική συμβολή της διατριβής συνοψίζεται στη δυνατότητα χρήσης ευφυών τεχνικών με αξιοποίηση διαφόρων πηγών γνώσης, ώστε να βελτιωθούν ζητήματα που έχουν να κάνουν με την αποδοτική αναπαράσταση και αντιμετώπιση ζητημάτων ανάλυσης των ολοένα και μεγαλύτερων σε όγκο εγγράφων. Κάθε μεθοδολογία που αναπτύχθηκε αξιολογήθηκε πειραματικά με χρήση συνόλων δεδομένων, τα οποία χρησιμοποιούνται ευρέως από την επιστημονική κοινότητα ενώ έγιναν και συγκρίσεις με τις σημαντικότερες μεθόδους στο κάθε πεδίο έρευνας
    corecore