1,720,984 research outputs found

    PaLaFra dataset Korkiakangas

    No full text
    Dataset used in the regression analysis in Korkiakangas' chapter in the PaLaFra publication. Case: 0 = nominative, 1 = accusative; Human (Subject animacy): 0 = non-human, 1 = human; Predicate type: 0 = transitive, 1 = intransitive with Agent-like subject, 2 = intransitive with Patient-like subject; Pronoun type: 0 = not relative pronoun, 1 = relative pronoun, 999 = missing value; POS (Subject part-of-speech): 0 = noun, 1 = pronoun.</p

    Late Latin Charter Treebank, version 1 (LLCT1)

    No full text
    Version 1 of the Late Latin Charter Treebank (LLCT1). Early medieval Latin documentary texts with morphological and syntactic annotation. Ancient Language Dependency Treebank compatible linguistic annotation, Prague style treebank format (PML). See full description in Korkiakangas & Lassila, 2013, "Abbreviations, fragmentary words, formulaic language: treebanking medieval charter material". Will be replaced by LLCT2 in 2018 (version 2).</p

    Late Latin Charter Treebank 2 (LLCT2)

    No full text
    The current CoNLL version of the second part of the Late Latin Charter Treebank (LLCT2). Early medieval Latin documentary texts with morphological and syntactic annotation. Ancient Language Dependency Treebank (ALDT) compatible linguistic annotation with modifications concerning morphology (see Korkiakangas & Passarotti, 2011, “Challenges in Annotating Medieval Latin Charters”). LLCT2 expands the chronological span of LLCT1 up to AD 897. LLCT2 contains 521 charters and 257,918 tokens. See Korkiakangas, [in print], “Late Latin Charter Treebank: contents and annotation”.</p

    Challenges in Annotating Medieval Latin Charters

    No full text
    No annotation guidelines concerning substandard Latin are presently available. This paper describes an annotation style of substandard Latin that supplements the method designed for standard Latin by the Perseus Latin Dependency Treebank and the Index Thomisticus Treebank. Each word of the corpus can be assigned only one morphological analysis. In our system, the analysis can be either functional or formal. Functional analysis is applied when a form is language-evolutionarily deducible from the corresponding standard Latin form used in the same (semantico-)syntactic function (e.g. solidus pro solidos ‘gold coins’ as a direct object: analysis “accusative”). Formal analysis applies when no connection to the functionally required classical form exists (e.g. heredibus pro heredes ‘heirs’ as a subject: analysis “ablative” or “dative”). When running queries on the corpus, the formally analysed forms can be isolated, and percentages of standard and substandard forms can be counted. In addition, further principles concerning syntax and specific morphological issues are introduced

    Neutri Ravennan papyruksissa : määrällinen ja laadullinen analyysi neutrikategorian tilasta ja muutoksesta myöhäislatinalaisessa tekstikorpuksessa

    No full text
    Tutkielmani aineistona ovat Ravennan papyrukset, jotka on kirjoitettu vuosien 433 ja n. 750 välillä Italiassa. Näitä latinankielisiä originaaliasiakirjoja on 59 kappaletta, ja ne sisältävät yhteensä n. 19 000 sanaa. Tarkastelen kvantitatiivisin ja kvalitatiivisin menetelmin neutrin tilaa dokumenttien kielessä, joka on vahvasti asiakirjakaavan säätelemää. Menetelmäni perustuvat substantiivien taivutuspäätteiden määrien vertailuun. Pronominit ja sukunsa kongruenssin välityksellä saavat määreet on jätetty tilastoinnin ulkopuolelle. Ensisijaisesti keskityn 2. deklinaation yksiköllisen um-päätteisen neutrin maskuliinisoitumiseen ja a-päätteisen monikon feminiinisoitumiseen. Vertaan havaintojani muista myöhäislatinalaisista teksteistä laadittuihin vastaaviin analyyseihin. Romaanisissa kielissä ei neutria enää ole, mutta Ravennan papyrusten kielessä sillä on edelleen oma, joskin usein klassisesta normista poikkeava asemansa. On havaittavissa eriasteisia muutoksia: vain harvat neutrisubstantiivit ovat vaihtaneet sukuaan kiistattomasti (esim. labellos, authenticas), kun sen sijaan monet esiintyvät muodollisesti neutrissa mutta saavat ei-neutrisia määreitä (esim. venientem...eundem spat ium); eräs muutoksen laji näkyy tilastollisena taipumuksena suosia neutrin päätteitä (-um, -a) jopa väärissä yhteyksissä. Neutri oli muuttunut pelkästään muodollisin perustein määrittyneeksi kategoriaksi. Siitä todistaa 3. deklinaation neutrin yksikön akkusatiivimuodon säilyminen (esim. akk. ius muttei koskaan iurem). Toisekseen um-pääte (ääntyi [o]), joka miellettiin neutrille tunnusomaiseksi, säilyy akkusatiiviobjektina käytetyssä neutrissa (93 %) maskuliinia (39 %) varmemmin ja tunkeutuu ablatiiviin useammin neutrissa (10 %) kuin maskuliinissa (2 %). Prepositiorektioissa vastaavat jakaumat ovat yllättäen kooltaan päinvastaisia. Ilmiötä ei voi selittää tilastoni perusteella tyydyttävästi. Yksiköllisten neutrien sukumuutos on morfologisesti motivoitunutta, monikollisten semanttisperusteista. Sellaiset monikolliset a-päätteiset neutrit, jotka on voitu mieltää kollektiivisuutensa vuoksi yksiköiksi, esim. māla ’omenat; omenaa’, on myöhäislatinassa helposti tulkittu yksikön feminiineiksi. Ravennan papyrusten akkusatiiviobjekteissa 1. deklinaation feminiinin a-pääte (eikä -am) esiintyy 51 %:ssa tapauksista, kun taas 3. deklinaation maskuliineilla ja feminiineillä virheellinen pääte -e (eikä -em) on vain 15 %:ssa. Ääntymättömäksi muuttunut loppu-m unohtuu siis useammin 1:sessä kuin 3. deklinaatiossa, jossa pääte ei voi sekaantua monikon neutrin päätteen kanssa. Lisäksi 1. deklinaation yksikön ablatiiveista epäkorrekteja eli ampäätteisiä on 0 %, kun taas epäkorrekti -em esiintyy 3. deklinaation maskuliineilla ja feminiineillä 10 %:ssa adverbiaalisista ablatiiveista. Feminiinille varattua m-päätettä ei 1. deklinaatiossa hevin yhdistetty neutrin monikon merkitystä omaksuneeseen a-muotoon. Neutri ei ollut enää puhutun kielen luonnollinen kategoria, vaan sen käyttö opittiin kirjallisen koulutuksen yhteydessä. Neutrikategoria koettiin luonteeltaan teoreettiseksi, joten on helppo ymmärtää, että kirjoittajat pyrkivät sitomaan sen tiettyihin morfologisiin ulkoasuihin. Neutrille tyypillisiksi koetut roolit pirstoutuivat erillisiksi, muotopiirteen määrittämiksi saarekkeiksi, jollaisina pidän um-päätteen säilymistä ja yleistymistä, 3. deklinaation neutrin akkusatiivin säilymistä päätteettömänä sekä neutrisen perfektipartisiipin käyttöä epämääräisten korrelaattien yhdistäjänä.unknown accessibilityei tietoa saavutettavuudest

    Going Beyond Counting First Authors in Author Co-citation Analysis

    Full text link
    The present study examines one of the fundamental aspects of author co-citation analysis (ACA) - the way co-citation counts are defined. Co-citation counting provides the data on which all subsequent statistical analyses and mappings are based, and we compare ACA results based on two different types of co-citation counting - the traditional type that only counts the first one among a cited work's authors on the one hand and a non-traditional type that takes into account the first 5 authors of a cited work on the other hand. Results indicate that the picture produced through this non-traditional author co-citation counting contains more coherent author groups and is therefore considerably clearer. However, this picture represents fewer specialties in the research field being studied than that produced through the traditional first-author co-citation counting when the same number of top-ranked authors is selected and analyzed. Reasons for these effects are discussed

    Late Latin Charter Treebank : contents and annotation

    Full text link
    This paper describes the construction and annotation of the Late Latin Charter Treebank, a set of three dependency treebanks (LLCT1, LLCT2 and LLCT3) which together contain 1,261 Early Medieval Latin documentary texts (i.e., original charters) written in Italy between AD 714 and 1000 (about 594,000 tokens). The paper focusses on matters which a linguistically or philologically inclined user of LLCT needs to know: the criteria on which the charters were selected, the special characteristics of the annotation types utilised, and the geographical and chronological distribution of the data. In addition to normal queries on forms, lemmas, morphology and syntax, complex philological research settings are enabled by the textual annotation layer of LLCT, which indicates abbreviated and damaged words, as well as the formulaic and non-formulaic passages of each charter.Peer reviewe

    Documentary Formulae as Text Reuse Templates : Constat and Manifestus Clauses in Early Medieval Latin Charters

    No full text
    This paper seeks to develop a digital diplomatic approach for reducing medieval charters’ documentary formulae into text reuse templates that represent their variational subtypes. The paper also tests this approach by visualizing the variation of two, partly mutually competing, formulae. The research data consists of 1,024 constat and manifestus clauses extracted from Latin charters written in Tuscany in the eighth to tenth centuries. Charters largely consist of formulae, which are prefabricated semi-fixed expressions of juridical content and recur in varying forms in charters of the same type. The complex interplay of documentary text reuse elements in time and place can be used to investigate historical drifts of documentary production and underlying administrative and cultural changes. The computer-assisted text reuse approach proposed is expected to be applicable to large datasets and scalable to other historical contexts.Peer reviewe

    Theoretical and pragmatic considerations on the lemmatization of non-standard Early Medieval Latin charters

    Full text link
    This paper discusses the theoretical bases as well as the pragmatic implementation of the lemmatization of the Late Latin Charter Treebanks (LLCT). LLCT is a set of three dependency treebanks (LLCT1, LLCT2, LLCT3) of Early Medieval Latin documentary texts (charters) written in Italy between AD 714 and 1000 (c. 594,000 tokens). The original model for the lemmatization of LLCT was the Latin Dependency Treebank (LDT), which is mainly Classical standard Latin and based on the entries of Lewis and Short’s Latin Dictionary. Since LLCT reflects later linguistic developments of Latin and contains a plethora of non-standard proper names, particular attention is paid to how non-standard lexemes are lemmatized systematically to make the lemmatization maximally usable. The theoretical underpinnings to manage the lemmatization boil down to two principles: the evolutionary principle and the parsimony principle.Peer reviewe
    corecore