LLM-Benchmarking für die Digital Humanities: Ein praxisorientierter Ansatz aus der Forschungsberatung
(Maximilian Hindermann),
11.11.2025

Abstract

Grosse Sprachmodelle (LLMs) werden zunehmend in den digitalen Geisteswissenschaften eingesetzt. Doch welches Modell eignet sich für welche Aufgabe, und wie lassen sich Leistung, Kosten und Aufwand zuverlässig vergleichen? Das Webinar stellt die Humanities Data Benchmark Suite vor, ein offenes Framework zur Evaluation von Sprachmodellen auf geisteswissenschaftlichen Bild- und Textdaten. Entwickelt in der Forschungsberatung des RISE-Teams der Universität Basel, umfasst die Suite derzeit über 275 Testkonfigurationen für vier typische Anwendungsszenarien: bibliografische Datenextraktion, Metadatenerfassung aus historischer Korrespondenz, Fraktur-Texterkennung und strukturierte Katalogerschliessung. Ein Dutzend weiterer Szenarien ist in Vorbereitung.

Im Unterschied zu allgemeinen NLP-Benchmarks richtet sich der Ansatz an den praktischen Fragen realer DH-Projekte aus: Wann sind Ergebnisse «gut genug» für den Projektkontext? Wie lässt sich die Verarbeitung grosser Datenmengen planen? Und was ist technisch möglich, wenn sensible Materialien lokal bleiben müssen?

Das Webinar zeigt den Aufbau der Benchmark-Suite, zentrale Metriken zu Leistung, Kosten und Laufzeit sowie Vergleichsergebnisse verschiedener Modelle, darunter GPT, Claude, Gemini, Mistral und Llama. Zudem werden Infrastruktur-Optionen vorgestellt – von API-Diensten über OpenRouter bis zu lokalen HPC-Installationen – und in einer kurzen Demonstration gezeigt, wie sich die Suite für eigene Evaluationen einsetzen lässt.

Slides

Hindermann, M. (2025, November 11). LLM-Benchmarking für die Digital Humanities: Ein praxisorientierter Ansatz aus der Forschungsberatung. Zenodo. https://doi.org/10.5281/zenodo.17582144