Abstracts zum Workshop
(Generative) KI für Kultur- und
Textdaten
Weimar, 4./5. November 2024 (Programm)
Intuition vs. Präzision – LLMs in der Ontologieentwicklung
Harald Sack, Karlsruhe
Die Entwicklung präziser und aussagekräftiger Ontologien erfordert eine enge
Zusammenarbeit zwischen Ontologieexperten und Domain-Spezialisten. Der erforderliche
Wissenstransfer zwischen diesen Gruppen ist oft zeitaufwendig und komplex. Large
Language Models (LLMs) bieten vielversprechende Ansätze, um diesen Prozess zu
automatisieren und zu beschleunigen. In verschiedenen Phasen des Ontologie-Lebenszyklus
können LLMs unterstützen, beispielsweise bei der Generierung von Begriffsvorschlägen,
der Überprüfung von Konsistenzen oder der Erstellung von Definitionen. Der Vortrag
beleuchtet verschiedene Einsatzmöglichkeiten von LLMs in der Ontologieentwicklung,
diskutiert dabei sowohl Chancen als auch Risiken und präsentiert erste Ergebnisse aus
aktuellen Forschungsprojekten.
Named Entity Recognition und Linking in deutschsprachigen Zeitungstexten – Wie
können (L)LMs unterstützen?
Pia Schwarz, Mannheim
Um auf sprachwissenschaftliche Fragen Antwort zu finden, braucht es vor allem eine gute Datengrundlage. Bezogen auf Textdaten sind diese im besten Fall ausreichend annotiert und gut durchsuchbar. Textkorpora wie das Deutsche Referenzkorpus DeReKo[1] mit großen Mengen an Zeitungstexten bieten eine hervorragende Datenquelle – verlinkte Entitäten sind dort allerdings noch nicht vorhanden. Mit Modellen für Named Entity Recognition können automatisiert Eigennamen annotiert und diese Ergebnisse wiederum mithilfe von Entity Linking Modellen verlinkt werden: beispielsweise mit Datenbanken wie Wikidata oder der Gemeinsamen Normdatei, die zusätzlichen Kontext zu einer Entität liefern. Im Idealfall werden so weitere Zusammenhänge aufgedeckt und Entitäten besser disambiguiert. Im Fall von DeReKo ließen sich dann gezielt thematisch zusammenhängende Subsets des Gesamtkorpus extrahieren. In diesem Beitrag werden mehrere Entity Linker für deutschsprachige Texte evaluiert und beleuchtet, inwiefern generative große Sprachmodelle dabei unterstützen können.
[1] Leibniz-Institut für Deutsche Sprache (2024): Deutsches Referenzkorpus /
Archiv der Korpora geschriebener Gegenwartssprache 2024-I-RC3 (RC vom 13.03.2024).
Mannheim: Leibniz-Institut für Deutsche Sprache. www.ids-mannheim.de/dereko
Wieso, weshalb, warum? Explainable Artificial Intelligence in der
Kunstgeschichte
Stefanie Schneider, München
Selbst traditionell hermeneutisch geprägte Disziplinen wie die Kunstgeschichte widmen
sich seit einigen Jahren dem Objekt in Form seiner digitalen Repräsentation, die in
semantisch dichte Vektorräume eingeschrieben wird. Die Prozesse dieser Transformation
sind jedoch aufgrund des Black-Box-Charakters fortgeschrittener künstlicher neuronaler
Netze – wie etwa Large Vision Models (LVMs) – für kunsthistorische Analysen häufig
intransparent. So ist z.B. unklar, warum bestimmte Kunstwerke bei einer Text- oder
Bildabfrage in Retrieval-Aufgaben, die auf der Repräsentation des Objekts basieren, als
relevant klassifiziert werden. In diesem Vortrag sollen daher Methoden aus dem Bereich
der Explainable Artificial Intelligence (XAI) motiviert werden, um zu besser
interpretierbaren Klassifikations- und Retrieval-Ergebnissen für die kunsthistorische
Forschung zu gelangen. Eingesetzt werden dazu Methoden zur Hervorhebung
entscheidungsrelevanter Bildregionen.
Vom Dokumentenbestand zum Knowledgegraph. Die Ankaufsakten der Düsseldorfer
Museen
Ruth von dem Bussche / Bories von dem Bussche, Düsseldorf
Wir möchten am Beispiel der Ankaufs- und Angebotsakten der Düsseldorfer Museen zeigen,
mit welchen Methoden und über welche Zwischenschritte wir RDF auf OCR-Texte generieren,
und wie wir die dabei generieren Daten auf die Belange der Provenienzforschung hin
zuschneiden. Typische Problemstellung dabei sind Text- bzw. Tokengrenzen oder das
vorgegebene Datenmodell. Punkte für die gemeinsame Diskussion: Was sind die spezifischen
Probleme dieser maschinell generierten Daten im Vergleich zu „intelektuellen“
Knowledgegraphen? Wo und wie verwenden wir solche Daten (etwa in vektorbasierten Suchen
und RAGs)? Wie schaffen wir mit den eingesetzten Suchtools die nötige Transparenz für
die Forschung?
Generative Sprachmodelle in interpretativen Konstellationen: Annäherungen über
den Bedeutungsbegriff
Rabea Kleymann, Chemnitz / Julian Schröter,
München
Im gegenwärtigen Diskurs über Funktion und Einsatz großer generativer Sprachmodelle
gewinnen die Begriffe der Interpretation und Interpretierbarkeit an Relevanz. So werden
Sprachmodelle nicht nur selbst als interpretationsbedürftig wahrgenommen. Vielmehr
verändern sie auch unser Nachdenken über geisteswissenschaftliche
Interpretationsverfahren. Der Vortrag nimmt nun diese neuen interpretativen
Konstellationen zum Ausgangspunkt, um nach dem Bedeutungsbegriff zu fragen. Wie und wo
wird Bedeutung im Sprachmodell repräsentiert und transformiert? Wie prägt der
Bedeutungsbegriff die diskursiven Formationen über KI? Anhand von konkreten
Fallbeispielen untersucht der Vortrag einzelne Bausteine der sozio-technischen
Architektur von Sprachmodellen, wie das Transformermodell, den Tokenizer oder die
Trainingsdatensätze. Dabei zeigt der Vortrag auf, wie diese neuen interpretativen
Konstellationen Prozesse der geisteswissenschaftlichen Bedeutungsgenerierung sowie
unsere Auffassungen von Textrepräsentation und Sprache beeinflussen.
Mehr Licht – Die Auswertung mittelalterlicher Quellen mit Hilfe von
LLMs
Clemens Beck / Clemens Beckstein / Robert Gramsch-Stehfest /
Johannes Mitschunas, Jena
Das sogenannte Repertorium Germanicum (RG) ist eine Edition von Verwaltungsschriftgut der spätmittelalterlichen Kirche. Diese Quelle bietet ein reichhaltiges und vielschichtiges Bild der spätmittelalterlichen Kirche, einschließlich ihrer religiösen und kanonisch-rechtlichen Grundlagen, organisatorischen und fiskalischen Mechanismen, personellen und räumlichen Netzwerke sowie politischen Ambitionen und Alltagsrealitäten. Die extrem verdichteten lateinischen Regesten des RG sind jedoch Fluch und Segen zugleich: Ein Fluch, weil sie Uneingeweihte und selbst viele professionelle Historiker verwirren oder abschrecken können, und ein Segen, weil sie den formelhaften Gehalt der Papstschreiben platzsparend und übersichtlich wiedergeben, ohne wesentliche inhaltliche Abstriche machen zu müssen.
Bisher mussten die lateinischen Regesten in einem mühsamen Prozess händisch ausgewertet werden. In unserem Vortrag stellen wir die Einsatzmöglichkeiten von Künstlicher Intelligenz bei der Auswertung des Repertorium Germanicum in der Forschung unserer interdisziplinären Arbeitsgruppe MEPHIsto („Digitale Modelle, Erklärungen und Prozesse in den Historischen Wissenschaften“) vor.
Wir zeigen in unserem Vortrag exemplarisch auf, wie wir Large Language Models für die
Named Entity Recognition, die Extraktion von historischen Informationen aus den
lateinischen Regesten und der Umwandlung der Informationen in Factoids einsetzen.
Daneben diskutieren wir, wie wir die LLMs auch für die Entwicklung einer Ontologie für
die Personen- und Rechtsgeschichte der spätmittelalterlichen Kirche einsetzen.
Rechtsfragen bei (generativer) KI
Fabian Rack, Karlsruhe
Der Vortrag erläutert die wichtigsten urheberrechtlichen Fragen beim Einsatz von KI.
Dabei widmet sich der Vortrag unter anderem der aktuellen Debatte darüber, inwiefern
KI-Modelle mit offen im Netz verfügbaren Inhalten trainiert werden dürfen. Anschließend
wird diese Diskussion spezifisch auf den Kontext von Kultur- und Textdaten ausgeweitet.
(Generative) Künstliche Intelligenz als Herausforderung für die digitalen
Geisteswissenschaften – Roundtable-Diskussion
Paul M. Näger, München /
Tessa Gengnagel, Köln / Lina Franken, Vechta
Die im Workshop diskutierten Anwendungen von (Generativer) Künstlicher Intelligenz geben Anlass zu grundsätzlicheren Fragen an die Forschung und zur Rolle von Forschenden innerhalb, aber auch jenseits des Felds der digitalen Geisteswissenschaften (DH):
- Modell und Wissen: Wie verhalten sich Annahmen zur Wissens- und Weltrepräsentation in KI-Modellen zu bestehenden DH-Theorien und wie lassen sich diese Diskurse zusammenführen? Welche Auswirkungen haben sie auf die Datenmodellierung und -manipulation geisteswissenschaftlicher Wissensdomänen?
- Verantwortung und Ethik: Wie könnte eine angemessene Wissenschaftsethik für das KI-Zeitalter aussehen? Stellen KI-Systeme unser Verständnis und vertraute Redeweisen von Transparenz, Erklärbarkeit und Verantwortung in Frage? Auf welche ethischen Aspekte müssen geisteswissenschaftlich Forschende bei der Anwendung von KI in ihren Projekten besonders achten?
- Menschlicher Anteil und Bias: Welche Perspektiven, die in KI-basierter Forschung zum Ausdruck kommen, sind durch und mit menschlicher Interaktion entstanden, etwa durch die Erstellung von gelabelten Datensätzen, und wie sollte dies in der Anwendung berücksichtigt werden? Inwiefern kann und sollte Bias thematisiert werden? Welche Auswirkung sollte die Nutzung durch KI-Modelle darauf haben, ob und wenn ja welche Datensätze in Open Access-Formaten zur Verfügung gestellt werden?
Zur Entfaltung und Diskussion der genannten Fragen versammelt das Roundtable drei Positionen aus den Feldern DH-Theorie (Tessa Gengnagel), Philosophie (Paul Näger) und digitale Kulturwissenschaft (Lina Franken).