Echtzeitanwendungen[1]

Assistent für die automatische Erkennung der gesuchten Motive

Weitere Tools werten die zuvor annotierten Textdaten in Echtzeit aus und stellen folgende Ausgaben bereit:

2. Auf Graphen basiertes Typenmodell:

– Die Knoten entsprechen den Typen.

– Die Kanten zeigen das gemeinsame Auftreten der durch sie verbundenen Typen innerhalb einzelner Texte.

3. Grundform eines ausgewählten Typs:

Die Grundform fasst die am häufigsten vorkommende Merkmale des Typs zusammen. Die Zusammenfassung erfolgt durch das Auflisten der für die Annotation verwendeten Markup-Elemente (s. Markup).

4. Zusammenfassungen der Texte:

– entweder zu einem ausgewählten Typ (z. B. a300),

– oder zu einem Text mit gewähltem Identifikator (z. B. ava_rus_23).

Die Zusammenfassung erfolgt durch das Auflisten der für die Annotation verwendeten Markup-Elemente (s. Markup).

5. Volltext des ausgewählten Märchens.

Um das gewünschte Rechercheergebnis zu erhalten, können die Tools über bestimmte Filterfelder angepasst werden.

Dafür stehen folgende Felder zur Verfügung:

Filterfelder	Beschreibung	Tools
Repertoire	Die Herkunft des Repertoires ergibt sich aus der Bezeichnung der XML-TEI-Korpusdatei (Verzeichnis der aktuell vorhandenen Dateien).	☑ 1 – 5
Knotenwert ≥	Erwartet wird eine natürliche Zahl, die das minimale Vorkommen eines Knotens bestimmt.	☑ 2
Kantenwert ≥	Erwartet wird eine natürliche Zahl, die angibt, wie oft zwei Knoten mindestens gemeinsam vorkommen müssen.	☑ 2
Text-ID	Entspricht der Identifikationsnummer eines Textes, z. B. „zyx_cr_ava_rus_23“. Vor Eingabe muss sichergestellt sein, dass der Text im ausgewählten Repertoire enthalten ist.	☑ 4, 5
ATU-Typ	Statt der Abkürzung ATU wird das Kürzel a verwendet. Für ATU 300 wird also a300 erwartet.	☑ 3
Typ markieren	Erwartet wird eine Typnummer (z. B. a300). Der entsprechende Knoten wird im Graphen rot markiert (falls vorhanden; andernfalls wird die Eingabe ignoriert).	☑ 2
Langform	Entspricht der vollständigen Bezeichnung des Typs. Ohne Aktivierung dieser Option werden die Typen lediglich durch ihre Nummer angezeigt.	☑ 2
Gesuchtes Label	Beliebiger Teil oder vollständiger Zeichenkette des Markupelements sowie ihre Komposition	☑ 1
Nur gültig für…	gefolgt vom Wert eines a-Attributs, z. B. a300. Datensätze, die diesen a-Wert nicht besitzen, jedoch dieselben b- und/oder c-Attributwerte aufweisen, werden aus der Aggregation ausgeschlossen. Dadurch wird verhindert, dass Datensätze mit ähnlichem Inhalt fälschlich als negative Gegenwerte interpretiert werden.	☑ 1
Gesuchter Typ	Abfragemuster: "a300" = Typ a300 tritt ausschließlich allein auf (Kombinationen werden abgelehnt). {"AND":["a300"]} = Typ a300 tritt in allen vorhandenen Kombinationen auf. {"AND":["a300","a301"]} = Kombinationsfälle, in denen die Typen a300 und a301 gemeinsam auftreten.	☑ 3
Häufigkeit ≥	Erwartet wird eine natürliche Zahl, die angibt, wie oft jedes Motiv mindestens gemeinsam mit anderen Motiven vorkommen muss.	☑ 3

Verzeichnis der aktuell verfügbaren Dateien

Datei	Beschreibung	Tools
test.xml	Das Korpus wurde eigens für die Evaluation des Motiv-Erkennungsassistenten erstellt. Von den insgesamt 417 deutschsprachigen Texten stammen acht aus nicht-deutschen Märchenrepertoires: Italien (2 Texte) sowie Österreich, Ungarn, Frankreich, Polen, Schweden und Russland (jeweils ein Text). Die übrigen Texte sind dem deutschen Märchenrepertoire zuzuordnen. Annotiert sind insgesamt 10 Texte: ATU 551 vollständig, ATU 300, 301, 303 und 567 partiell.	☑ 1-3
georgisch.xml	Die Daten bestehen aus XML-basierten Annotationsergebnissen zum georgischen Märchenrepertoire und wurden durch Harvesting einschlägiger fachwissenschaftlicher Datenbanken zusammengeführt. Ein Textkorpus liegt nicht vor.	☑ 2
deutsch.xml	Die Daten bestehen aus XML-basierten Annotationsergebnissen zum deutschen Märchenrepertoire und wurden durch die Erschließung der im Deutschen Märchenkatalog von Hans-Jörg Uther erfassten Angaben zusammengeführt. Ein Textkorpus liegt nicht vor.	☑ 2
bulgarisch.xml	Die Daten bestehen aus XML-basierten Annotationsergebnissen zum deutschen Märchenrepertoire und wurden durch die Erschließung der im Typenverzeichnis der bulgarischen Volksmärchen von Liljana Daskalova-Perkovski erfassten Angaben zusammengeführt. Ein Textkorpus liegt nicht vor.	☑ 2
dagestanisch.xml	Das Korpus besteht aus annotierten und zur Annotation bereitgestellten russischsprachigen Texten der dagestanischen Folklore. Texte mit eingeschränkten Nutzungsrechten werden in abgeleiteter Form veröffentlicht. Dabei wurden die Texte von für den Vergleich irrelevanten Wörtern bereinigt, und jeder Absatz wird in Form eines alphabetisch geordneten Vokabulars dargestellt. Solche Texte eignen sich ideal für Topic-Modelling Verfahren, lassen sich jedoch nicht mehr als vollständige Texte rekonstruieren.	☑ 1-3

[1] Die Weiterentwicklung des prototypischen Basiscodes hin zu Echtzeitanwendungen erfolgte im Rahmen einer Zusammenarbeit mit Dr. George Dadunashvili.