Abstracts zum Workshop
(Generative) KI für Kultur- und Textdaten
Weimar, 4./5. November 2024 (Programm)

Intuition vs. Präzision – LLMs in der Ontologieentwicklung
Harald Sack, Karlsruhe

Die Entwicklung präziser und aussagekräftiger Ontologien erfordert eine enge Zusammenarbeit zwischen Ontologieexperten und Domain-Spezialisten. Der erforderliche Wissenstransfer zwischen diesen Gruppen ist oft zeitaufwendig und komplex. Large Language Models (LLMs) bieten vielversprechende Ansätze, um diesen Prozess zu automatisieren und zu beschleunigen. In verschiedenen Phasen des Ontologie-Lebenszyklus können LLMs unterstützen, beispielsweise bei der Generierung von Begriffsvorschlägen, der Überprüfung von Konsistenzen oder der Erstellung von Definitionen. Der Vortrag beleuchtet verschiedene Einsatzmöglichkeiten von LLMs in der Ontologieentwicklung, diskutiert dabei sowohl Chancen als auch Risiken und präsentiert erste Ergebnisse aus aktuellen Forschungsprojekten.

Named Entity Recognition und Linking in deutschsprachigen Zeitungstexten – Wie können (L)LMs unterstützen?
Pia Schwarz, Mannheim

Um auf sprachwissenschaftliche Fragen Antwort zu finden, braucht es vor allem eine gute Datengrundlage. Bezogen auf Textdaten sind diese im besten Fall ausreichend annotiert und gut durchsuchbar. Textkorpora wie das Deutsche Referenzkorpus DeReKo[1] mit großen Mengen an Zeitungstexten bieten eine hervorragende Datenquelle – verlinkte Entitäten sind dort allerdings noch nicht vorhanden. Mit Modellen für Named Entity Recognition können automatisiert Eigennamen annotiert und diese Ergebnisse wiederum mithilfe von Entity Linking Modellen verlinkt werden: beispielsweise mit Datenbanken wie Wikidata oder der Gemeinsamen Normdatei, die zusätzlichen Kontext zu einer Entität liefern. Im Idealfall werden so weitere Zusammenhänge aufgedeckt und Entitäten besser disambiguiert. Im Fall von DeReKo ließen sich dann gezielt thematisch zusammenhängende Subsets des Gesamtkorpus extrahieren. In diesem Beitrag werden mehrere Entity Linker für deutschsprachige Texte evaluiert und beleuchtet, inwiefern generative große Sprachmodelle dabei unterstützen können.

[1] Leibniz-Institut für Deutsche Sprache (2024): Deutsches Referenzkorpus / Archiv der Korpora geschriebener Gegenwartssprache 2024-I-RC3 (RC vom 13.03.2024). Mannheim: Leibniz-Institut für Deutsche Sprache. www.ids-mannheim.de/dereko

Wieso, weshalb, warum? Explainable Artificial Intelligence in der Kunstgeschichte
Stefanie Schneider, München

Selbst traditionell hermeneutisch geprägte Disziplinen wie die Kunstgeschichte widmen sich seit einigen Jahren dem Objekt in Form seiner digitalen Repräsentation, die in semantisch dichte Vektorräume eingeschrieben wird. Die Prozesse dieser Transformation sind jedoch aufgrund des Black-Box-Charakters fortgeschrittener künstlicher neuronaler Netze – wie etwa Large Vision Models (LVMs) – für kunsthistorische Analysen häufig intransparent. So ist z.B. unklar, warum bestimmte Kunstwerke bei einer Text- oder Bildabfrage in Retrieval-Aufgaben, die auf der Repräsentation des Objekts basieren, als relevant klassifiziert werden. In diesem Vortrag sollen daher Methoden aus dem Bereich der Explainable Artificial Intelligence (XAI) motiviert werden, um zu besser interpretierbaren Klassifikations- und Retrieval-Ergebnissen für die kunsthistorische Forschung zu gelangen. Eingesetzt werden dazu Methoden zur Hervorhebung entscheidungsrelevanter Bildregionen.

Vom Dokumentenbestand zum Knowledgegraph. Die Ankaufsakten der Düsseldorfer Museen
Ruth von dem Bussche / Bories von dem Bussche, Düsseldorf

Wir möchten am Beispiel der Ankaufs- und Angebotsakten der Düsseldorfer Museen zeigen, mit welchen Methoden und über welche Zwischenschritte wir RDF auf OCR-Texte generieren, und wie wir die dabei generieren Daten auf die Belange der Provenienzforschung hin zuschneiden. Typische Problemstellung dabei sind Text- bzw. Tokengrenzen oder das vorgegebene Datenmodell. Punkte für die gemeinsame Diskussion: Was sind die spezifischen Probleme dieser maschinell generierten Daten im Vergleich zu „intelektuellen“ Knowledgegraphen? Wo und wie verwenden wir solche Daten (etwa in vektorbasierten Suchen und RAGs)? Wie schaffen wir mit den eingesetzten Suchtools die nötige Transparenz für die Forschung?

Generative Sprachmodelle in interpretativen Konstellationen: Annäherungen über den Bedeutungsbegriff
Rabea Kleymann, Chemnitz / Julian Schröter, München

Im gegenwärtigen Diskurs über Funktion und Einsatz großer generativer Sprachmodelle gewinnen die Begriffe der Interpretation und Interpretierbarkeit an Relevanz. So werden Sprachmodelle nicht nur selbst als interpretationsbedürftig wahrgenommen. Vielmehr verändern sie auch unser Nachdenken über geisteswissenschaftliche Interpretationsverfahren. Der Vortrag nimmt nun diese neuen interpretativen Konstellationen zum Ausgangspunkt, um nach dem Bedeutungsbegriff zu fragen. Wie und wo wird Bedeutung im Sprachmodell repräsentiert und transformiert? Wie prägt der Bedeutungsbegriff die diskursiven Formationen über KI? Anhand von konkreten Fallbeispielen untersucht der Vortrag einzelne Bausteine der sozio-technischen Architektur von Sprachmodellen, wie das Transformermodell, den Tokenizer oder die Trainingsdatensätze. Dabei zeigt der Vortrag auf, wie diese neuen interpretativen Konstellationen Prozesse der geisteswissenschaftlichen Bedeutungsgenerierung sowie unsere Auffassungen von Textrepräsentation und Sprache beeinflussen.

Mehr Licht – Die Auswertung mittelalterlicher Quellen mit Hilfe von LLMs
Clemens Beck / Clemens Beckstein / Robert Gramsch-Stehfest / Johannes Mitschunas, Jena

Das sogenannte Repertorium Germanicum (RG) ist eine Edition von Verwaltungsschriftgut der spätmittelalterlichen Kirche. Diese Quelle bietet ein reichhaltiges und vielschichtiges Bild der spätmittelalterlichen Kirche, einschließlich ihrer religiösen und kanonisch-rechtlichen Grundlagen, organisatorischen und fiskalischen Mechanismen, personellen und räumlichen Netzwerke sowie politischen Ambitionen und Alltagsrealitäten. Die extrem verdichteten lateinischen Regesten des RG sind jedoch Fluch und Segen zugleich: Ein Fluch, weil sie Uneingeweihte und selbst viele professionelle Historiker verwirren oder abschrecken können, und ein Segen, weil sie den formelhaften Gehalt der Papstschreiben platzsparend und übersichtlich wiedergeben, ohne wesentliche inhaltliche Abstriche machen zu müssen.

Bisher mussten die lateinischen Regesten in einem mühsamen Prozess händisch ausgewertet werden. In unserem Vortrag stellen wir die Einsatzmöglichkeiten von Künstlicher Intelligenz bei der Auswertung des Repertorium Germanicum in der Forschung unserer interdisziplinären Arbeitsgruppe MEPHIsto („Digitale Modelle, Erklärungen und Prozesse in den Historischen Wissenschaften“) vor.

Wir zeigen in unserem Vortrag exemplarisch auf, wie wir Large Language Models für die Named Entity Recognition, die Extraktion von historischen Informationen aus den lateinischen Regesten und der Umwandlung der Informationen in Factoids einsetzen. Daneben diskutieren wir, wie wir die LLMs auch für die Entwicklung einer Ontologie für die Personen- und Rechtsgeschichte der spätmittelalterlichen Kirche einsetzen.

Rechtsfragen bei (generativer) KI
Fabian Rack, Karlsruhe

Der Vortrag erläutert die wichtigsten urheberrechtlichen Fragen beim Einsatz von KI. Dabei widmet sich der Vortrag unter anderem der aktuellen Debatte darüber, inwiefern KI-Modelle mit offen im Netz verfügbaren Inhalten trainiert werden dürfen. Anschließend wird diese Diskussion spezifisch auf den Kontext von Kultur- und Textdaten ausgeweitet.

(Generative) Künstliche Intelligenz als Herausforderung für die digitalen Geisteswissenschaften – Roundtable-Diskussion
Paul M. Näger, München / Tessa Gengnagel, Köln / Lina Franken, Vechta

Die im Workshop diskutierten Anwendungen von (Generativer) Künstlicher Intelligenz geben Anlass zu grundsätzlicheren Fragen an die Forschung und zur Rolle von Forschenden innerhalb, aber auch jenseits des Felds der digitalen Geisteswissenschaften (DH):

  1. Modell und Wissen: Wie verhalten sich Annahmen zur Wissens- und Weltrepräsentation in KI-Modellen zu bestehenden DH-Theorien und wie lassen sich diese Diskurse zusammenführen? Welche Auswirkungen haben sie auf die Datenmodellierung und -manipulation geisteswissenschaftlicher Wissensdomänen?
  2. Verantwortung und Ethik: Wie könnte eine angemessene Wissenschaftsethik für das KI-Zeitalter aussehen? Stellen KI-Systeme unser Verständnis und vertraute Redeweisen von Transparenz, Erklärbarkeit und Verantwortung in Frage? Auf welche ethischen Aspekte müssen geisteswissenschaftlich Forschende bei der Anwendung von KI in ihren Projekten besonders achten?
  3. Menschlicher Anteil und Bias: Welche Perspektiven, die in KI-basierter Forschung zum Ausdruck kommen, sind durch und mit menschlicher Interaktion entstanden, etwa durch die Erstellung von gelabelten Datensätzen, und wie sollte dies in der Anwendung berücksichtigt werden? Inwiefern kann und sollte Bias thematisiert werden? Welche Auswirkung sollte die Nutzung durch KI-Modelle darauf haben, ob und wenn ja welche Datensätze in Open Access-Formaten zur Verfügung gestellt werden?

Zur Entfaltung und Diskussion der genannten Fragen versammelt das Roundtable drei Positionen aus den Feldern DH-Theorie (Tessa Gengnagel), Philosophie (Paul Näger) und digitale Kulturwissenschaft (Lina Franken).