Bericht 3. CLARIN-D Fach-AG Workshop, Leipzig 30.6.-01.7.15

Unter dem Thema „Fächerübergreifende Perspektiven durch digitale Forschungsinfrastrukturen“ fand in Leipzig der 3. Fach-AG Workshop statt, der mit über 100 Teilnehmerinnen und Teilnehmern gut besucht war und eine breite Palette an Fachvorträgen sowie Möglichkeiten zum informellen Austausch und zur Kontaktaufnahme über die Fächergrenzen hinweg bot.

Datei 02.07.15 19 55 43

Das Programm und weitere Informationen finden sich unter der Adresse: http://clarin2015.informatik.uni-leipzig.de/.

Im folgenden einige Eindrücke vom Workshop. Zunächst ist die Öffnung der Computerlinguistik hin zu den anderen Geistes- und Sozialwissenschaftlichen Fächern schon im Titel der Veranstaltung greifbar. CLARIN-D geht offen auf diese Disziplinen zu und versucht mit seiner computerlinguistisch geprägten Infrastruktur Projekte anzuziehen und zur Nutzung dieser Strukturen zu motivieren. Dies war auch das Thema des einführenden Vortrags von Erhard Hinrichs und Gerhard Heyer. Anschliessend stellte Eckart de Castilho mit WebAnno ein tool vor, das sich besonders auch für die Annotation in den Digitalen Geisteswissenschaften eignet und eingesetzt werden kann. In den folgenden beiden Sessions, die parallel stattfanden, setzten sich die Teilnehmer mit eher sprachwissenschaftlicher Nutzung von CLARIN-D und einer eher inhaltsanalytisch orientierten Verwendung der Infrastruktur auseinander. Dass der Old-Bailey Korpus eher der Sprachwissenschaft zugeordnet wurde und PoCoTo, ein Tool zur manuellen Nachkorrektur historischer OCR erfasster Texte, sich in der Sitzung zur fachdisziplinären Verwendung befand, zeigt meiner Meinung nach, wie fliessend eingentlich die Grenzen zwischen beiden Anwendungsszenarien schon geworden sind. Das bedeutet aber zugleich nicht, dass Computerlinguisten und Historiker, um einmal ein prominent vertretenes Fach herauszugreifen, keine Verständigungsprobleme mehr hätten. Die Fragestellungen und Forschungsinteressen sind immer noch Welten voneinander entfernt und es bedarf sicher Anstrengungen auf beiden Seiten, diese Distanzen zu überwinden. Aber die zur Zeit laufenden Projekte, teilweise in den Kurationsprojekten durch CLARIN-D betreut, zeigen den enormen Mehrwert für beide Seiten. Martin Sabrow und Alexander Geyken stellten das computerlinguistisch aufbereitete DDR Pressekorpus vor, mit dem sie sich zeithistorisch-semantische Fragen beantworten lassen. Alexander Mehler, Rüdiger Gleim und Tim Gelhaar präsentierten das Frankfurter Gemeinschaftsprojekt „Computational Historical Semantics“ und den „eHumanities Desktop„, in dem ebenfalls die Historische Semantik (mittelalterlicher lateinischer) Texte im Vordergrund steht.

Datei 02.07.15 20 08 54

Viel Beachtung fand auch das schon erwähnte Tool PoCoTo, das von Florian Fink vorgestellt wurde. Die manuelle Nachkorrektur von OCR ist besonders mit Blick auf die Qualitätsanforderungen der Korpuslinguistik von großer Relevanz, wenn Texte (wie z.B. beim Deutschen Text Archiv) sowohl sprachwissenschaflich als auch mit Blick auf ihre Fächer wie Geschichts- oder Literaturwissenschaft untersucht werden sollen.

Wenig war, wen wundert es bei CLARIN-D, von Bildern oder kunsthistorischen Projekten die Rede. Auch keine Erwähnung fand, und dies finde ich schon bedenklicher, das EU Schwesterprojekt Dariah, das ja nun als Infrastruktur für eben jene inhaltlich/semantisch arbeitenden Geistes- und Sozialwissenschaftlichen Fächer gedacht ist, denen sich Clarin nun ebenfalls zuwendet. Da ist es nicht erstaunlich, dass nun Services und Infrastrukturen parallel entwickelt werden, die von allgemeiner Relevanz sind. So stellte Ingmar Schuster die OpenScience Plattform in CLARIN-D vor, in der Forschungsdaten zusammen mit Journalartikeln abgelegt werden sollen, damit eine bessere Reproduzierbarkeit der Ergebnisse ermöglicht wird. Jedes bessere Journal und viele Universitätsrepositorien stellen diesen Service inzwischen allerdings ebenfalls zur Verfügung. Noch frappanter werden Parallelentwicklungen, wenn man die Depositing Services betrachtet, die von Thorsten Trippel präsentiert wurden.

Datei 02.07.15 22 45 28

Analoge Bemühungen wie das Humanities Data Centre (HDC) und das Kölner Data Center for the Humanities (DCH) laufen seit geraumer Zeit. Nun wird es auch hier eine verteilte Struktur geben müssen, die regional und fachlich die Bedürfnisse bedient, aber um so wünschenswerter wäre es, wenn Clarin und Dariah sich hier absprechen und vielleicht auch gemeinsame Wege gehen würden, denn die Zukunft beider Infrastrukturprojekte unterliegt Förderzeiträumen und vollzieht sich in engen finanziellen Grenzen. Die Förderung von CLARIN-D z.B. läuft 2016 aus. Man bemüht sich um Verlängerung und Verstetigung und es ist nur zu hoffen, dass die verantwortlichen Geldgeber den Wert der geschaffenen Strukturen zu schätzen wissen und eine Lösung für eine Verstetigung der Dienste und Services ermöglichen werden. Aber dies sollte, so meine ich, in Abstimmung in koordiniert mit den anderen relevanten Strukturprojekten und insbesondere dariah erfolgen, damit die geschaffenen Strukturen harmonisieren und für die Forscherinnen und Forscher – sprich NutzerInnen – ein größtmöglicher Mehrwert geschaffen werden kann.

CLARIN-D jedenfalls zeigte sich auf dem Workshop gut aufgestellt in Hinblick auf eine Verlängerung. Die Webseite des Projekts wurde mit Bick auf die drei leitenden Begriffe „Auffinden – Auswerten – Aufbereiten und Aufbewahren“ neu gestaltet und während des Workshop relauncht. Das Ergebnis kann sich sehen lassen.

Einen Blick von aussen auf die deutsche Infrastrukturlandschaft warf in der Keynote des Workshops am Mittwoch Christiane Fellbaum (Princeton), die „Mutter“ des weit über die Linguistik hinaus relevanten Wordnet Projekts. Sie sprach insbesondere einige Fragen der Zusammenarbeit und Kooperation zwischen Informatik/Computerlinguistik und Geisteswissenschaften an, die auch in Europa immer noch Voraussetzung für erfolgreiche Projekte im Bereich der Digital Humanities und des Humanities Computing (denn beide Perspektiven müssen gleichberechtigt sein!) sind.

Insgesamt war es für mich ein sehr interessanter, relevanter und bereichender Workshop, der sicher zu vielfältigen Vernetzungen zwischen Geistes- und Sozialwissenschafltern auf der einen und Computerlinguisten auf der anderen Seite geführt hat. Den Veranstaltern und dem Tagungsort Villa Ida ist für die hervorragende Organisation zu danken. Weitere Tagungen aus dem CLARIN-D Umfeld sind schon für das kommende halbe Jahr angekündigt: Eine Summerschool in Leipzig zu Digital Humanities Ende Juli, ein workshop zum PoCoTo-Tool am 14. und 15. September, eine Doktorandentagung zum Thema maschinelles Lernen am 15. Oktober und schliesslich ein Call for Papers zum Abschluss der CLARIN-D Facharbeitsgruppen „Neuere Geschichte“ und „Zeitgeschichte“ und der Kurationsprojekte des Georg Eckert Instituts in Braunschweig und des Zentrums für Zeithistorische Forschung in Potsdam mit dem Titel „Digitale Geschichtswissenschaft – neue Tools für neue Fragen?“ Diese Tagung wird vom 08.02.2016-09.02.2016 an der Berlin-Brandenburgische Akademie der
Wissenschaften im dortigen Einstein-Saal stattfinden. Die Deadline für Einreichungen ist der 11.09.2015. Weitere Informationen dazu unter http://hsozkult.geschichte.hu-berlin.de/termine/id=28326.

JW