FDAT Research Data Repository (Universität Tübingen)

The TüTeAM Corpus

Author: Penka Doris
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The TüTeAM corpus contains about 2800 entries from Ancient Greek, German, English, Italian, Hungarian, Latin, Swedish, Russian, Ukrainian, Bulgarian. The data come from various sources: linguistic literature (the "classics" on tense and aspect), fiction, documentary evidence. Examples appear in the original script, if necessary with transliteration, English or German gloss and translation. The examples also contain an indication of the source or a complete  denotation of the bibliographic source. Sentences are analysed according to various criteria: tense and aspect morphology, types of time adverbials, Aktionsarten. The analysis allows a specific search for similar phenomena in a variety of languages and makes the discovery of typological regularities easier.Das TüTeAM-Korpus umfasst etwa 2800 Einträge aus den Sprachen Altgriechisch, Deutsch, Englisch, Italienisch, Ungarisch, Latein, Schwedisch, Russisch, Ukrainisch und Bulgarisch. Die Daten stammen aus verschiedenen Quellen,  unter anderem aus der linguistischen Literatur (die Klassiker zu den Bereichen Tempus und Aspekt). Beispiele wurden in der ursprünglichen Schrift notiert, teilweise wurden sie transliteriert, in Deutsch oder Englisch übersetzt und glossiert. Die Beispiele enthalten zusätzlich einen Hinweis auf die jeweilige Quelle oder eine vollständige Literaturangabe. Sätze werden in Bezug auf verschiedene Kriterien analysiert: Morphologie (Tempus und Aspekt), unterschiedliche Typen   temporaler Adverbiale, Aktionsarten. Die Analyse erlaubt die spezifische Suche ähnlicher Phänomene in verschiedenen Sprachen und erleichtert die Entdeckung typologischer Regularitäten.Research carried out in work package B10 of the SFB 441

Sammlung interessanter Beispielsätze aus dem Deutschen

Author: Sternefeld Wolfgang
Wandmacher Tonio
Kiziak Tanja
Toth Monica
Weimer Anca
Vanderelst John
Hartung Simone
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The aim of the sentence collection (SINBAD) is to provide researchers with access to a large body of (suboptimal) example sentences and their grammaticality judgements from the literature and from Project A3 empirical work.Dass Grammatikalitätsurteile nicht immer eine zweiwertige Polarität aufweisen sondern eher auf einer Intervallskala anzuordnen sind, ist als Befund lange bekannt, ohne dass diesem Phänomen ein adäquater Platz in der Theoriebildung eingeräumt wurde. In der Computerlinguistik gibt es neuerdings zwar vereinzelte Ansätze, dieser Tatsache Rechnung zu tragen (z.B. Abney 1997, Riezler 1997), und auch in der theoretischen Syntax ist die Fragestellung aufgenommen worden (z.B. Uszkoreit 1987, Hayes 1998, Fischer 1999, Keller 2000). Das Projekt A3 beleuchtet das Problem der Suboptimalität aus einer systematischen Perspektive; methodologische Aspekte stehen dabei ebenso im Vordergrund wie experimentelle Befunde. Erstere betreffen den Datentyp des Grammatikalitätsurteils, letztere die Erhebung und Bewertung gradierter Daten im Verhältnis zur Grammatiktheorie. Die empirischen Daten werden experimentell, d.h. unter streng kontrollierten Bedingungen erhoben, so dass eine solide methodologische Basis für die weitere syntaxtheoretische Schlussziehung gewährleistet ist. Der empirische Zugang determiniert auch die theoretische Stellung der Suboptimalität im Rahmen eines Grammatikmodells, das auf syntaktischer Gewichtung beruht. Die Untersuchungen werden vorwiegend zu klassischen Fragestellungen in der Syntax des Deutschen geführt, beziehen aber auch ausgewählte zwischensprachliche Aspekte ein. Einen weiteren Teilbereich des Projektes bildet eine Datenbank suboptimaler Strukturen, die es dem generativen Syntaktiker ermöglichen soll, auf effektive Weise Einblicke in umstrittene, jedoch für die Theoriebildung relevante Daten zu nehmen. Interessant ist dieser Datenbank auch daher, dass es die Instantiierung eines generativen Grammatikmodells in einer Treebank darstellt.Research carried out in work package A03 of the SFB 441

Götz von Berlichingen

Author: Müller Reimar
Axel Katrin
Wiebel Dirk
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The Early Modern High German text "Götz von Berlichingen" was digitised by the SFB 441 project B3. The original text was scanned, OCR processed and manually corrected.  The encoding follows the TUSNELDA standards. In order to preserve the line numbers of the source text, we used the TUSNELDA "poem" element. Pages starting with a n=0 paragraph refer to the preceding paragraphs.Der frühneuhochdeutsche Text "Götz von Berlichingen" wurde vom SFB 441 Projekt B3 digitalisiert.  Zunächst wurde der Text eingescannt, mit OCR Software verarbeitet und anschließend manuell korrigiert. Um die Zeilennummern des Ursprungstextes zu bewahren, wurde das TUSNELDA "poem"-Element eingesetzt. Seiten, die mit einem n=0 Abschnitt beginnen, beziehen sich auf den vorhergehenden Abschnitt.Originalquelle: Mein Fehd und Handlungen / Goetz von Berlichingen,Helgard Ulmschneider, Sigmaringen, Thorbecke, 1981, 3-7995-7614-2Research carried out in work package B03 of the SFB 441

Bosnisch/Kroatisch/Serbisches Korpus: bosnische Interviews

Author: Raecke Jochen
Fulir Gabi
Stevanović Slavica
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The BKS Corpus consists of three subcorpora: (a) Comic Corpus, (b) Bosnian Interviews, (c) Novosadski Corpus of Spoken Language. The research interest of the SFB 441 project B8 lies in the use of the Bosnian/Croatian/Serbian v/t/n-deictics in different text classes.Das BKS-Korpus besteht aus drei Subkorpora: (a) Comic Korpus, (b) bosnische Interviews, (c)  Novosadski Korpus gesprochener Sprache. Das Forschungsinteresse des SFB 441 Projekts B8 bezieht sich auf Deiktika des Bosnischen, Kroatischen und Serbischen und wird exemplifiziert an verschiedenen Textklassen.Gegenstand des Projekts sind alle jene Worteinheiten des Bosnischen /Kroatischen /Serbischen, die formal eine auffallend homogene Klasse bilden ([fast vollständig] formgleiche Basen mit [fast vollständig] gleichen derivativen Formativen) und traditionell als Einheiten einer dreistufigen personen-, d.h. auf Sprecher, Angesprochenen und Besprochenen bezogenen Deixis angesehen werden. An der funktionellen Zusammengehörigkeit dieser Einheiten ist ebenfalls nicht zu zweifeln, da sie alle als Demonstrativa und damit im unbestrittenen Kernbereich der Deixis fungieren können, so daß ihre Auffassung als morphologische Klasse gerechtfertigt ist. Allerdings läßt schon der Blick in Vuk Karadžićs (1818, 1852) und spätere Wörterbücher, vor allem aber die bereits unternommene Untersuchung umfangreicherer Texte, die Teile eines z. T. selbsterstellten, z.T. übernommenen Korpus sind, das laufend erweitert wird - erhebliche Zweifel daran aufkommen, daß es sich bei diesen Einheiten durchgehend und ausschließlich um Repräsentanten einer dreistufigen personenzentrierten Deixis handelt. Im Projekt wird folglich zweierlei in und als Frage gestellt, nämlich ob sich (1) eine durch die Form der Einheiten nahegelegte durchgehende Dreistufigkeit und (2) die Interpretation als ausschließlich personenzentriert im tatsächlichen Gebrauch dieser Einheiten (noch) erkennen und linguistisch vertreten läßt. Das diese Zweifel besonders begründende Korpus besteht aus recht verschiedenartigen Texten sowohl literarischer als auch nichtliterarischer Art (Fernsehnachrichten und Zeitungstexte, Comics, Interviews, wissenschaftl. Publikationen), dokumentiert speziell aber auch (unredigierte) spontan gesprochene Sprache (Narrativinterviews), und gerade die vergleichende Analyse solcher heterogener Texte deutet die Notwendigkeit einer weitgehenden Revision der Vorstellungen von a) einer systematischen Dreigliedrigkeit, b) ausschließlicher Personenzentriertheit an, und zwar dahingehend, daß der Zusammenhang zwischen der Form und der Funktion dieser Einheiten mit starken semantisch/syntaktisch/pragmatischen Spezialisierungen in verschiedenen Gebrauchssphären inzwischen - wenn er je so bestanden hat - weitgehend gelöst ist. Diese Deiktika, resp. alle jene, die heute überhaupt noch gebräuchlich sind, bilden zwar immer noch eine funktionelle Klasse, aber keine in sich homogen oder systematisch strukturierte mehr. Erhebliche und dabei rekurrente Unterschiede lassen sich insbesondere feststellen zwischen Texten, die als Dokumente einerseits reflektiert schriftlichen und andererseits spontan mündlichen Sprachgebrauchs beschrieben werden können. Entsprechende Analysen, die - abweichend vom häufig Geübten - weder auf die Bestätigung eines explizit oder implizit vorweg angenommenen deiktischen Systems ausgelegt, noch auf die Diskussion ausgewählter Beispiele beschränkt sind, sondern sämtliche der im Korpus enthaltenen einschlägigen Daten zunächst einmal als im Prinzip gleichwertig in Betracht ziehen, lassen bereits jetzt feststellen, daß es 1. einen signifikanten medialen Unterschied im Gebrauch der einzelnen Einheiten gibt - sowohl das Inventar wie ihre Frequenz betreffend -, woraus folgt, daß sowohl die beiden diesbezüglichen "Systeme" der Schriftsprache und der spontan gesprochenen Sprache als auch die Funktionen der "gleichen" Einheiten in den beiden Medien unterschiedlich sind - dies legt den Schluß auf einen in der spontanen Mündlichkeit z.T. bereits vollzogenen, z.T. sich noch vollziehenden Sprachwandel nahe -, daß 2. die Dreistufigkeit partiell bereits einer Zweistufigkeit gewichen ist und Personenbezogeheit starken Restriktionen unterworfen ist, so daß sie weder als durchgehend noch als ausschließlich angesehen werden kann, und daß 3. das Phänomen dieser Deiktika oder der Deiktika insgesamt ein in wesentlich höherem Maße textsortenspezifisches ist, als bisher - wenn überhaupt (Diewald 1991, Green 1995) - in und von der Forschung wahrgenommen wurde. Ziel des Projektes ist es, mittels extensiver PC-gestützter Datenexploration theoriegeleitete Beschreibung und sprachliche Wirklichkeit der v/t/n-Deiktika im genannten Teilbereich näher aneinanderzuführen, als sie es im Augenblick offensichtlich sind.The subject of the project are all those units of words within the Bosnian/Croatian/Serbian language that formally build a homogenious class ([almost complete] similar bases with [almost complete] derivative formatives) and are traditionally considered to be units of a three-level personrelated deixis, i. e. related to the speaker, the contacted person and the discussed topic. There is no doubt that these units belong together in a functional way because they can be used as demonstratives and therefore can function in the indisputable essence of deixis. Therefore it is only correct to see them as a morphological class. But already the dictionairies of Vuk Karadžić (1818, 1852) and others, which were published later, and predominantly the researches, which have been made on the basis of more voluminous texts that build the parts of a continuously broadened, partially self-gatherd and partially taken-over corpus, let us suspect that these units are not only representatives of a three-level personcentered deixis. The project questions, in accordance with this suspection, two claims: the first one questions the three-level distinction that is anticipated in the form of the units, and the second one asks if the interpretation of these units as exclusively personcentered is to be seen in their real usage and whether this can linguistically be justified. The corpus, that engrows our doubts, includes various texts, literary and non literary ones (televisionnews, newspaper-texts, comics, interviews, academic publications) and (not edited) spontaneously spoken language (narrativinterviews). It is exactly the comparative analysis of such heterogeneous texts that should show the necessity of an extensive revision of the idea about the deictics as systematically three-level distincted and exclusively personcentered. This analysis points out that the connection between the form and the function of these units with strong semantic/syntactic/pragmatic specialisations is - if it has ever existed this way - in the meanwhile abundant broken off. These deictics, or rather those of them, which are still common nowadays, still build a functional class, but no more a heterogeneosly or systematically structured one. Relevant and recurrent differences are to be established particularly between the texts that can be described as documents of, on the one hand, reflected written, and on the other hand, spontaneosly spoken language. Equivalent analyses that are - deviating from custom - neither inclined to confirm one, explicit or implicit, beforehand given deictics system, nor limited to the discussion of the chosen examples, but observe all the appropriate dates which are contained in the corpus as principally equal units, allow us already by this time to consolidate that: 1) there is a significant medial distinction in the usage of single units, concerning both the inventory and their frequency, which means that both the two "systems" - the written language and the spontaneously spoken language - and the functions of the "same" units are different in the two media; this leads us to assume a change that in the spontaneosly spoken language partially already took and partially still takes place; 2) the two-level distinction has partially taken place of the three-level and the person- relation is subjected to restrictions, so that this relation is to be seen as neither a general nor as the only one; and 3) the phenomenon of these deictics, or the deictics in general, is that they depend on the sort of the text much more as it has been - if it has at all (Diewald 1991, Green 1995) - perceived by the research. The aim of the project is to bring the theoretical description and the language reality of the v/t/n-deictics, by means of an extensivelly PC-supported dataexploration, closer together as it is evident at the moment.Research carried out in work package B08 of the SFB 441

BraToLi-Korpus

Author: Jungbluth Konstanze
Galsterer Alda Veronica
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The BraToLi corpus contains transcriptions of soccer match commentaries (TV and radio) as well as conversations about steeringwheel locks. Languages include Brazillian Portugese, European Spanish (Toledo) and American Spanish (Lima).Das BraToLi-Korpus umfasst Transkriptionen von handlungsbegleitendem Sprechen in brasilianischem Portugiesisch, europäischem Spanisch (Toledo) und amerikanischem Spanisch (Lima), zum Beispiel Fußballkomentare zu Spielübertragungen in Radio und Fernsehen und freie Monologe und Dialoge über Lenkradschlösser.Research carried out in work package B09 of the SFB 441

Gradkonstruktionen

Author: Krasikova Sveta
Publication venue: University of Tübingen
Publication date: 15/06/2008
Field of study

The database presents parallel sets of data on comparison constructions from 15 languages: Bulgarian, Guaraní (an Amerindian language spoken mostly in Paraguay), Hindi, Hungarian, Japanese, Mandarin Chinese, Mooré (a Gur language),Motu (from Papua New Guinea), Romanian, Russian, Samoan, Spanish, Thai, Turkish and Yorùbá (a Kwa language). The sentences have been elicited from naive informants with the help of language specific questionnaires. The goal has been an in-depth study of those languages, with the perspective of figuring out how their grammars differ in order to yield the diverse empirical picture that comparisons present across languages. Each language set contains at most 19 examples presented in the following order: 1) descriptive part that exemplifies the basic types of degree constructions in the given language (predicative phrasal, adverbial and attributive comparative, comparative of quantity, clausal comparative, equative, less-comparative, positive, superlative, too/enough-constructions) and gives an impression of the systematicity of degree constructions in the syntax and semantics of the language; 2) data that pertains to different aspects of cross-linguistic variation in the semantics of degree (differential comparative, comparison with a degree, ʻnegative island effectʼ test, tests for scope interactions of the comparative with the modals, degree question, measure phrase construction, subcomparative). Examples appear partly in the original script and are provided with the gloss, the translation, the grammaticality/felicity judgement and the context/reading where necessary. The judgement field contains felicity judgements for the scope interaction examples (supplied with the relevant contexts or readings) and grammaticality judgements for the rest. The following ranking has been used in both cases: ok(grammatical/felicitous); ?(slightly marked/slightly odd); ??(marked/odd); *(ungrammatical/infelicitous). "n/c" and "n/a" in the judgement field indicate that the example cannot be constructed or the test is not applicable. In the latter case, the comment field in the footer row contains a short explanation. "n/c" and "*" rows usually contain alternative examples (Alt) along with the literal ones (Lit). The former reflect alternative ways to express the relevant meaning, e.g. in the form of paraphrases.Die vorliegende Datenbank beinhaltet parallele Datensätze zu Vergleichskonstruktionen in 15 Sprachen: Bulgarisch, Guaraní (eine amerindische Sprache, die v.a. in Paraguay gesprochen wird), Hindi, Japanisch, Mandarin-Chinesisch, Mooré (eine Gur-Sprache), Motu (aus Papua-Neuguinea), Rumänisch, Russisch, Samoan, Spanisch, Thailändisch, Türkisch, Ungarisch und Yorùbá (eine Kwa-Sprache).  Die Sätze wurden dafür mittels sprachspezifischer Fragebögen mithilfe von naiven Informanten erhoben. Dabei bestand das Ziel der Befragungen in einer gründlichen Untersuchung dieser Sprachen, mit der Perspektive, herauszufinden, inwiefern sich deren Grammatik unterscheidet, um das empirisch recht unterschiedliche Bild zu erklären, dass sich bei Vergleichskonstruktionen sprachübergreifend ergibt. Für jede Sprache werden dabei maximal 19 Beispielsätze aufgeführt, die in der nachstehenden Reihenfolge angeordnet sind: i) beschreibender Teil, der die Grundtypen von Gradkonstruktionen in der jeweiligen Sprache exemplifiziert (prädikativ-phrasaler, adverbialer und attributiver Komparativ, Komparativ der Quantität, klausaler Komparativ, Äquativ, less-Komparativ, Positiv, Superlativ, too-/enough-Konstruktionen) und einen Eindruck von der Systematik der Gradkonstruktionen in Semantik und Syntax vermittelt; ii) Daten, die verschiedene Aspekte zwischensprachlicher Variation im Hinblick auf die Gradsemantik betreffen (Differentialkomparativ, Vergleich mit einem Grad, Test für Negativinsel-Effekte, Tests für Skopusinteraktionen des Komparativs mit Modalen, Gradfrage, Maßphrasenkonstruktion, Subkomparativ). Teilweise erscheinen die Beispiele in der Originalschrift und sind mit der Glosse, der Übersetzung und dem Grammatikalitäts- bzw. Angemessenheitsurteil sowie – soweit erforderlich – dem Kontext/der relevanten Lesart versehen. Das Feld mit den Urteilen enthält Angemessenheitsurteile bei den Beispielen zur Skopusinteraktion (unter Angabe der relevanten Kontexte oder Lesarten) und Grammatikalitätsurteile in allen übrigen Fällen. In beiden Fällen wurde die folgende Bewertungsskala verwendet: ok(grammatisch/angemessen); ?(etwas markiert/etwas seltsam); ??(markiert/seltsam); *(ungrammatisch/unangemessen). Die Angaben "n/c" und "n/a" im Bewertungsfeld geben an, dass das Beispiel nicht konstruiert werden kann oder dass der Test nicht anwendbar ist. Im letzteren Fall beinhaltet das Kommentarfeld in der untersten Zeile eine kurze Erläuterung. Zeilen mit den Urteilen "n/c" und "*" umfassen normalerweise neben dem wörtlichen Beispiel (Lit) auch Alternativen (Alt). Letztere geben alternative Möglichkeiten an, die relevante Bedeutung auszudrücken; beispielsweise anhand von Umschreibungen.Research carried out in work package B17 of the SFB 441

The Collection of Distributionally Idiosyncratic Items (CoDII)

Author: Iordachioaia Gianina
Lichte Timm
Liu Mingya
Richter Frank
Sailer Manfred
Söhn Jan-Philipp
Trawinski Beata
Publication venue: University of Tübingen
Publication date: 15/03/2008
Field of study

The Collection of Distributionally Idiosyncratic Items (CoDII) is a linguistic resource on lexical items which have highly idiosyncratic occurrence patterns.Research carried out in work package A05 of the SFB 441.Die Collection of Distributionally Idiosyncratic Items (CoDII) ist eine freie linguistische Online-Ressource, in der lexikalische Elemente mit besonderem Distributionsprofil dokumentiert werden. Das bedeutet, dass sich die Verteilung dieser Lexeme im Text nicht alleine aufgrund ihrer syntaktischen Kategorie vorhersagen lässt. Die Methoden, die in der Entwicklung von CoDII angewandt werden, greifen über traditionelle Fachgrenzen hinaus und umfassen Korpuslinguistik, Computerlinguistik, Phraseologie und theoretische Sprachwissenschaft.CoDII durchlief die folgenden Entwicklungsschritte: 2002 – 2004: Im Rahmen des SFB 441, Projekt A5 Distributionsidiosynkrasien: korpuslinguistische Erfassung und grammatiktheoretische Deutung wurde die Grundstruktur entwickelt und die Teilsammlung zu phraseologisch gebundenen Wörtern des Deutschen (CoDII-BW.de) erstellt. 2004 – 2008: In der zweiten Förderphase des Projekts A5 wurden die Sammlungen zu Polaritätselementen erstellt (CoDII-NPI.de, CoDII-PPI.de, CoDII-NPI.ro). Gleichzeitig entstand an der Universität Göttingen die Sammlung zu gebundenen Wörtern des Englischen (CoDII-BW.en) ab 2012: CoDII wurde an die Universität Frankfurt am Main migriert.  CoDII wurde gefördert von der Deutschen Forschungsgemeinschaft (2002 – 2008) und der Landesstiftung Baden-Württemberg (2007 – 2009). Die hier vorliegende Fassung stammt aus der zweiten Förderphase im SFB 441

Tübinger Partiell Geparstes Korpus des Deutschen/Schriftsprache

Author: Zinsmeister Heike
Müller Frank
Ule Tylman
Versley Yannick
Wunsch Holgeer
Publication venue: University of Tübingen
Publication date: 20/09/2004
Field of study

TüPP-D/Z is a collection of articles from the taz newspaper ("die tageszeitung") which have been automatically annotated with clause structure, topological fields, and chunks, in addition to more low level annotation including parts of speech and morphological ambiguity classes.  All texts have been processed automatically, starting from paragraph, sentence and token segmentation. Word forms include information about some regular types of named entities,  including dates, telephone numbers, and number/unit combinations

GermaNet: Ein lexikalisch-semantisches Wortnetz

Author: Hinrichs Erhard
Feldweg Helmut
Kunze Claudia
Lemnitzer Lothar
Barkey Reinhild
Hinrichs Marie
Henrich Verena
Piklu Gupta
Publication venue: University of Tübingen
Publication date: 01/01/1997
Field of study

GermaNet ist ein lexikalisch-semantisches Wortnetz, das deutsche Nomina, Verben und Adjektive semantisch zueinander in Beziehung setzt, indem es lexikalische Einheiten, die dasselbe Konzept ausdrücken, in Synsets zusammenfasst und semantische Relationen zwischen diesen Synsets definiert. GermaNet hat viel mit dem Englischen WordNet®  gemeinsam und kann als ein Online-Thesaurus oder als eine Lightweight-Ontologie betrachtet werden.GermaNet is a lexical-semantic net that relates German nouns, verbs, and adjectives semantically by grouping lexical units that express the same concept into synsets and by defining semantic relations between these synsets. GermaNet has much in common with the English WordNet® and can be viewed as an on-line thesaurus or a light-weight ontology

0

full texts

419

metadata records

Updated in last 30 days.

FDAT Research Data Repository (Universität Tübingen)

Access Repository Dashboard

Do you manage Open Research Online? Become a CORE Member to access insider analytics, issue reports and manage access to outputs from your repository in the CORE Repository Dashboard! 👇