Echtzeitanwendungen[1]

Assistent für die automatische Erkennung der gesuchten Motive

1. erthaos-23

Weitere Tools werten die zuvor annotierten Textdaten in Echtzeit aus und stellen folgende Ausgaben bereit:

2. Auf Graphen basiertes Typenmodell:

– Die Knoten entsprechen den Typen.

– Die Kanten zeigen das gemeinsame Auftreten der durch sie verbundenen Typen innerhalb einzelner Texte.

3. Grundform eines ausgewählten Typs:

Die Grundform fasst die am häufigsten vorkommende Merkmale des Typs zusammen. Die Zusammenfassung erfolgt durch das Auflisten der für die Annotation verwendeten Markup-Elemente (s. Markup).

4. Zusammenfassungen der Texte:

– entweder zu einem ausgewählten Typ (z. B. a300),

– oder zu einem Text mit gewähltem Identifikator (z. B. ava_rus_23).

Die Zusammenfassung erfolgt durch das Auflisten der für die Annotation verwendeten Markup-Elemente (s. Markup).

5. Volltext des ausgewählten Märchens.

Um das gewünschte Rechercheergebnis zu erhalten, können die Tools über bestimmte Filterfelder angepasst werden.

Dafür stehen folgende Felder zur Verfügung:

Filterfelder

Beschreibung

Tools

Repertoire

Die Herkunft des Repertoires ergibt sich aus der Bezeichnung der XML-TEI-Korpusdatei (Verzeichnis der aktuell vorhandenen Dateien).

1 – 5

Knotenwert ≥

Erwartet wird eine natürliche Zahl, die das minimale Vorkommen eines Knotens bestimmt.

2

Kantenwert ≥

Erwartet wird eine natürliche Zahl, die angibt, wie oft zwei Knoten mindestens gemeinsam vorkommen müssen.

2

Text-ID

Entspricht der Identifikationsnummer eines Textes, z. B. „zyx_cr_ava_rus_23“. Vor Eingabe muss sichergestellt sein, dass der Text im ausgewählten Repertoire enthalten ist.

4, 5

ATU-Typ

Statt der Abkürzung ATU wird das Kürzel a verwendet. Für ATU 300 wird also a300 erwartet.

3

Typ markieren

Erwartet wird eine Typnummer (z. B. a300). Der entsprechende Knoten wird im Graphen rot markiert (falls vorhanden; andernfalls wird die Eingabe ignoriert).

2

Langform

Entspricht der vollständigen Bezeichnung des Typs. Ohne Aktivierung dieser Option werden die Typen lediglich durch ihre Nummer angezeigt.

2

Gesuchtes Label

Beliebiger Teil oder vollständiger Zeichenkette des Markupelements sowie ihre Komposition

1

Nur gültig für…

gefolgt vom Wert eines a-Attributs, z. B. a300. Datensätze, die diesen a-Wert nicht besitzen, jedoch dieselben b- und/oder c-Attributwerte aufweisen, werden aus der Aggregation ausgeschlossen. Dadurch wird verhindert, dass Datensätze mit ähnlichem Inhalt fälschlich als negative Gegenwerte interpretiert werden.

1

Gesuchter Typ

Abfragemuster:

"a300" = Typ a300 tritt ausschließlich allein auf (Kombinationen werden abgelehnt).
{"AND":["a300"]} = Typ a300 tritt in allen vorhandenen Kombinationen auf.
{"AND":["a300","a301"]} = Kombinationsfälle, in denen die Typen a300 und a301 gemeinsam auftreten.

3

Häufigkeit ≥

Erwartet wird eine natürliche Zahl, die angibt, wie oft jedes Motiv mindestens gemeinsam mit anderen Motiven vorkommen muss.

3

 

 

Verzeichnis der aktuell verfügbaren Dateien

Datei

Beschreibung

Tools

test.xml

Das Korpus wurde eigens für die Evaluation des Motiv-Erkennungsassistenten erstellt. Von den insgesamt 417 deutschsprachigen Texten stammen acht aus nicht-deutschen Märchenrepertoires: Italien (2 Texte) sowie Österreich, Ungarn, Frankreich, Polen, Schweden und Russland (jeweils ein Text). Die übrigen Texte sind dem deutschen Märchenrepertoire zuzuordnen. Annotiert sind insgesamt 10 Texte: ATU 551 vollständig, ATU 300, 301, 303 und 567 partiell.

1-3

georgisch.xml

Die Daten bestehen aus XML-basierten Annotationsergebnissen zum georgischen Märchenrepertoire und wurden durch Harvesting einschlägiger fachwissenschaftlicher Datenbanken zusammengeführt. Ein Textkorpus liegt nicht vor.

2

deutsch.xml

Die Daten bestehen aus XML-basierten Annotationsergebnissen zum deutschen Märchenrepertoire und wurden durch die Erschließung der im Deutschen Märchenkatalog von Hans-Jörg Uther erfassten Angaben zusammengeführt. Ein Textkorpus liegt nicht vor.

2

dagestanisch.xml

Das Korpus besteht aus annotierten und zur Annotation bereitgestellten russischsprachigen Texten der dagestanischen Folklore. Texte mit eingeschränkten Nutzungsrechten werden in abgeleiteter Form veröffentlicht. Dabei wurden die Texte von für den Vergleich irrelevanten Wörtern bereinigt, und jeder Absatz wird in Form eines alphabetisch geordneten Vokabulars dargestellt. Solche Texte eignen sich ideal für Topic-Modelling  Verfahren, lassen sich jedoch nicht mehr als vollständige Texte rekonstruieren.

1-3

 

 



[1] Die Weiterentwicklung des prototypischen Basiscodes hin zu Echtzeitanwendungen erfolgte im Rahmen einer Zusammenarbeit mit Dr. George Dadunashvili.