Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Print Friendly, PDF & Email

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Print Friendly, PDF & Email

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

„Data for History“ workshop at ENS, Lyon, 23.-24.11.17. CIDOC-CRM to model historical events and data

Print Friendly, PDF & Email

Die Überlegungen, die Francesco Beretta und Kollegen zu einer Ontologie für die historischen Wissenschaften auf Basis von CIDOC-CRM seit einigen Jahren anstellen, gehen in die nächste Runde. Am 23. und 24. November dieses Jahres wird ein entsprechender Workshop zu „Data for History“ (http://dataforhistory.org/) an der ENS in Lyon stattfinden. Mehr Informationen zu diesem Vorhaben finden sich auch auf den folgenden Folien: www.cidoc-crm.org/sites/default/files/intervention_FBeretta_20170403.pdf

Die Veranstalter freuen sich über Teilnehmerinnen und Teilnehmer, die ggf. auch eigene Projekte, die zu dieser Fragestellung passen, kurz (5 min.) vorstellen möchten. Übernachtungskosten für einen Teilnehmer/Projekt können voraussichtlich je nach Verfügbarkeit der Mittel übernommen werden. Eine Anmeldung sollte man am besten direkt bei Herrn Beretta oder Herrn Alamercery vornehmen. Das aktuelle Programm gibt es unter dieser Adresse. Hier der Originaltext der Ankündigung der Tagung:

We are please to announce that the founding workshop of the international consortium for the development of a CIDOC-CRM hist extension „Data for History“ will be held on 23-24 November 2017 at the École normale supérieure de Lyon (France).

The purpose of the Data for History consortium is to establish a common method for modelling, curating and managing data in historical research. Such a method would provide foundational support to historical research projects adopting a framework of collaborative, cumulative and interoperable scientific data production and investigation. The consortium aims to build up an international community of historians and computer scientists to first develop and then maintain a common ontological model that would allow for domain specific, semantically robust data integration and interoperability. The consortium aims to build this model as an extension of the CIDOC-CRM, in order to integrate to a broader cross-disciplinary modelling and data community. It begins already with the foundational modelling experience and data developed within the symogih.org project.

To support this process, the consortium has undertaken the development of an ontology management system which is designed to facilitate the understanding of different data models and ontologies related to the domain of historical research and support an open ontology development process. This platform will support a controlled development process of the ontology where the modification of the model (addition/modification/subtraction of classes and properties) will be tracked and submitted to a validation process by the expert community. This open and traceable process aims to foster the coherence and interoperability of the ontology model development in the domain of historical research. It will also allow the management of specific data models for research projects and use them for data production.

Here is the provisional programme :

  • 23 November 2017
    • 15.00 Introduction
    • 15.15 dataforhistory.org project presentation: a proposition
    • 16.00 spotlight presentation of present projects (5 minutes presentations)
    • break
    • 17.30 general discussion about the dataforhistory.org proposition
    • 19.00 dinner
  •  24 November 2017
    • 9.00 – 10.30 Activity planning (Planning of the common activity in the next months)
    • break
    • 11.00-12.30 Funding – Next project calls

To organize the workshop in the best conditions, please let us know quickly if you are going to participate.

We encourage you to present your project in the spotlight session and explain, if possible, the interest of the consortium as described above for your work. If you wish to propose a presentation, please tell us its title as soon as possible in order to establish the final programm.

Accommodation for foreign guests will be provided, travel costs remaining at their expense. Please let us know if you need a reservation for one or two nights in a hotel. If you think that other colleagues might be interested in this workshop, please do not hesitate to send them this message. For budgetary reasons, however, we are obliged to limit the cost of hosting to one representative per project.

With best regards,

Francesco Beretta, head of the digital history department (PHN)

Vincent Alamercery, coordinator of the PHN’s scientific projects

PANDORA LOD Ecosystem auf der semweb.pro Tagung in Paris am 22.11.2017

Print Friendly, PDF & Email

Das PANDORA LOD Framework von Christopher Johnson @cjohnson39, wird von Christopher und mir @joewett das nächste mal auf der SemWeb.Pro Tagung (#semwebpro) in Paris am 22. November 2017 vorgestellt. PANDORA selber sowie Infos zu dem Projekt gibt es unter https://github.com/pan-dora . Die Tagung findet im FIAP Jean Monnet, 30 rue Cabanis, 75014 Paris statt. Der Vortrag beginnt um 16:15 h und wird sportliche 15 Minuten dauern.

Workshop: Digitale Geschichtswissenschaft und Semantic Web [Journées „Histoire numérique et web sémantique“], Brest, 9-11 mai 2017

Print Friendly, PDF & Email

Ich möchte gerne auf diese Tagung in Brest in der kommenden Woche hinweisen, da sie sich thematisch genau im Zentrum dieses Blogs befindet und zudem Francesco Beretta, der auch schon einmal zu einem von mir organisierten Workshop zu diesem Thema in Göttingen war, sein Projekt einer Ontologie für die Historische Forschung dort ausführlich vorstellt. Tagungssprache ist sicherlich französisch. Hier der Ankündigungstext aus einem Post der französischen DH-Liste:
————————–
La Maison des sciences de l’Homme de Bretagne, le Centre François Viète, le Lab-STICC, le Centre européen de réalité virtuelle et le LARHRA organisent à Brest en collaboration avec la Maison des sciences de l’Homme de Bretagne du 9 au 11 mai 2017 les journées „Histoire numérique et web sémantique“.

Ces journées sont destinées aux participants du groupe de travail pour la constitution du consortium „Données pour l’histoire“. Ce groupe est ouvert à toute personne intéressée par l’histoire numérique et la modélisation des données, n’hésitez pas à nous contacter :
Aurélie Hess : aurelie.hess(at)univ-ubs.fr / Vincent Alamercery : vincent.alamercery(at)ens-lyon.fr

Programme :

Mardi 9 mai

14h-14h30 : Introduction aux journées
14h30-15h15 : Le système d’autorité IdRef – François Mistral (ABES équipe IdRef)
15h15-16h00 : La gestion des autorités aux Archives de France – Hélène Zettel (Archives de France)
16h-16h30 : pause
16h30-17h15 : Modélisation et alignement en CIDOC-CRM (présentation en anglais, discussion en français) – George Bruseker (FORTH ICS).
17h15-18h15 : Projet d’extension du CIDOC-CRM pour l’histoire – Francesco Beretta (CNRS LARHRA)
18h15-18h30 : Organisation des ateliers du lendemain

Mercredi 10 mai

9h-12h : Ateliers en parallèle
Thématiques communes (mais discussion en petits groupes) : „Quel type de données je souhaite produire ?“, „Quelle est la différence entre objets / entités temporelles ?“, „Quelles difficultés je rencontre à modéliser mes données avec le CIDOC-CRM ?“, dans le contexte de la modélisation des données en CIDOC-CRM / l’extension du CIDOC-CRM pour l’histoire / symogih.org.

14h-14h30 : Bilan rapide des ateliers
14h30-15h30 : Pause et visite du Centre européen de réalité virtuelle
15h30-16h30 : Présentation de l’ontologie MASCARET – Ronan Querrec (ENIB CERV / Lab-STICC), Sylvain Laubé (UBO Centre François Viète)
16h30-18h : Discussion, l’extension du CIDOC-CRM pour l’histoire – animation Francesco Beretta

Jeudi 11 mai

9h-11h30 : Discussion, le consortium et la plateforme en cours de développement : état d’avancement ; programmation des chantiers communs (modélisation et ontologies) ; perspectives et feuille de route ; planification d’une journée d’études en vue du lancement public du consortium.
——————————————-

PANDORA: [Presentation (of) ANnotations (in a) Digital Object Repository Architecture] – a video

Print Friendly, PDF & Email

Christopher Johnson has composed a video about the PANDORA Architecture for the SWIB2016 conference. It is now available at youtube:

Abstract from SWIB program 2016: „The IIIF Presentation API specifies a web service that returns JSON-LD structured documents that together describe the structure and layout of a digitized object or other collection of images and related content.“ IIIF website The dynamic serialization of IIIF JSON-LD structured manifests via SPARQL CONSTRUCT is an interesting possibility that has great potential for cross-domain discovery and rendering of digitized objects with variable criteria. I have explored this possibility by implementing a data model in the Fedora Commons Repository that matches the specifications of the IIIF Presentation API. Fedora has the facility to index objects via Apache Camel directly to a triplestore. With SPARQL CONSTRUCT, the triplestore can serialize normalized JSON-LD as a graph. The use of „ordered lists“ (aka collections) is a fundamental component of JSON-LD and necessary feature of the IIIF manifest sequence which is represented in a canonical RDF graph as a cascade of blank nodes. In order to dynamically create the sequence with SPARQL requires that the data is modelled identically to the IIIF specification. This gist is a representation of a compacted and framed JSON-LD graph that was serialized from a SPARQL query of Fedora metadata. The ability to assemble parts of distinct, disparate and disassociated digital objects on demand in one cohesive presentation becomes a real possibility. For example, the „range“ object is equivalent to a part of a sequence, like a chapter in a book. With SPARQL, it is possible to target ranges from different „editions“ based on a metadata specification (i.e. a person, place, or date) and unify them in a manifest object which is then rendered by a client viewer like OpenSeadragon.

Bericht von der Tagung „Digital Scholarly Editions as Interfaces“ in Graz, 23.-24.9.16

Print Friendly, PDF & Email

Graz ist immer eine Reise wert. Seit es das Zentrum für Informationsmodellierung an der dortigen Universität gibt, ist fast umungänglich geworden mindestens einmal im Jahr dort vorbei zu schauen. Eine gute Gelegenheit dazu war die Tagung „Digital Scholarly Editions as Interfaces„, die vom 23. bis 24. September 2016 in Graz direkt vor der TEI Tagung in Wien stattfand. Mit über 100 Anmeldungen war die Tagung gut besucht und vor allem auf der Seite der Redner sehr international besetzt. Tagungssprache war Englisch. Gesponsert und auch organisiert wurde die Veranstaltung von dixit, dem „Digital Scholarly Editions Initial Training Network“. Ich erlaube mir im folgenden nur meine „persönlichen“ Highlights herauszupicken und näher zu besprechen. Das Niveau der Vorträge war insgesamt hoch und die Teilnahme auf jeden Fall ein Gewinn. Ich bin schon gespannt, welche Veranstaltung mich als nächstes nach Graz lockt.

Die Tagung begann mit einer Keynote von Dot Porter (University of Pennsylvania), die sich ganz grundsätzlich mit der Frage: „What is an Edition anyway? A critical examination of Digital Editions since 2002“ beschäftigte. Im Mittelpunkt ihres Vortrags standen mehrere Umfragen, die sie seit Anfang der 2000er Jahre in der DH community durchführt und die sich mit der Verwendung von digitalen Editionen durch Wissenschaftlerinnen und Wissenschaftler beschäftigen. Zentral ist dabei die Unterscheidung zwischen digitalisierten und digitalen Editionen, also den „nur“ in digitalem Format angebotenen gedruckten Editionen und den ohne Druckvorlage, rein digital erstellen Editionen. Die neueste Umfrage unter Mediaevisten im September 2016 erbrachte die folgende, interessante Nutzerstatistik:

Repräsentativ oder nicht, die Statistik weist zumindest auf einen hohen Anteil der Nutzung von digitalisierten und gedruckten Editionen bei solchen Personen hin, die häufig oder dauernd diese Textsorte verwenden. Damit bleibt die rein digitale Edition weiterhin ein Experimentierfeld, in dem sich erst noch Standards herausbilden und etablieren müssen. Dazu trägt sicher die Zeitschrift ride (Review Journal for digital Editions and Ressources) bei, das seit einigen Jahren versucht Standards in diesem Bereich zu schaffen.

Schon in diesem ersten Beitrag wurde am Ende eine Dichotomie zwischen Interface und Text postuliert, die im Anschluss in einer Reihe von Beiträgen wieder aufgenommen wurde. Interface over Text oder Text over Interface – diese Frage nahmen einige Vorträge gerne wieder auf und gaben ihre subjektive Antwort.

In den nun folgenden Sessions des ersten Tages fielen eine Reihe von Vorträgen wg. kurzfristiger Absagen aus, so dass eine intensive Diskussion der übrigen Beiträge möglich wurde. Eugene W. Lyman (Independent Scholar) wies die Teilnehmer auf die Relevanz von Verläßlichkeit bei Editionen, seien sie digital oder analog, hin. Dies würde, bei einer Konzentration auf Interfaces, leider schnell übersehen (Digital Scholarly Editions and the Affordances of Reliability). Christopher M. Ohge (University of California, Berkeley) stellte dann die erste konkrete Edition, die Notizbücher von Mark Twain, vor (http://www.marktwainproject.org/). Sein Vortrag war mit „Navigating Readability and Reliability in Digital Documentary Editions“ überschrieben und so nahm somit die oben gestellte Frage nach Interface und Verläßlichkeit des Texts auf. Die folgenden Vorträge wandten sich Themen der Visualierung, Typhographie und des Designs von Digitalen Editionen zu und dieser Komplex wurde abgerundet durch eine Keynote von Stan Ruecker (ITT Institute of Design, Chicago), die den ersten Tag beschloss. Es ist ein Verdienst der Tagung, dass konkret Designer eingeladen wurden (auch wenn am Ende nur wenige anwesend waren) und ihre Perspektive auf Digitale Editionen mitteilen konnten. Nur allzu oft bleibt dieser Aspekt aus Kostengründen oder Ignoranz bei wissenschaftlichen Editionen unberücksichtigt – mit den uns allen bekannten Folgen und Effekten. In diesem Zusammenhang wurden auch agile Methoden bei Design und Software-Entwicklung vorgestellt – inzwischen Standards im freiberuflichen Feld, aber bei weitem noch nicht Standard in den Geisteswissenschaften und den Digital Humanities.

Der zweite Tag begann mit einer „Nerd-Session“, in der mehr technische Fragen der Programmierung und Entwicklung von Interfaces für Digitale Editionen thematisiert wurden. Hugh Cayless (Duke University Libraries) startete mit einem Vortrag über
„Critical Editions and the Data Model as Interface“, in dem er eine Edition von lateinischen Texten vorstellte, die nicht auf TEI und XSLT Transformationen beruht, sondern über Javascript verschiedene Sichten auf Text ermöglicht. Seine Slides und eine Demo sind unter https://goo.gl/q7kbY0 abrufbar. Chiara Di Pietro (University of Pisa) und Roberto Rosselli Del Turco (University of Turin) sprachen anschliessend über „Between innovation and conservation: the narrow path of UI design for the Digital Scholarly Edition“ und stellten dabei die Version 2.0. des bekannten EVT-Editionstools vor.

Der dritte talk der Session ist mein persönlicher Spitzenreiter der Tagung.
Jeffrey C. Witt (Loyola University Maryland) sprach nicht nur kompetent sondern auch sehr anschaulich über „Digital Scholarly Editions as API Consuming Applications“ und stellte verschiedene LOD-Lösungen vor, die unter Einbeziehung des IIIF Standards ganz neue Möglichkeiten der Integration und Präsentation von Daten ermöglichen. Sein Vortrag und viele Beispiele finden sich auf http://lombardpress.org/. Ich sehe hier in der Tat eine wichtige Perspektive für die Zukunft der digitalen Editionen, die ja auch im MEDEA Projekt (modelling semantically enriched editions of accounts) anklingt, das leider auf der Tagung nicht vorgestellt wurde, aber dessen Protagonisten anwesend waren.

Die weitere Talks des zweiten Tages widmeten sich theortischen Implikationen und nahmen die Frage der Dichotomie von Interface und Edition wieder auf. Peter Robinson (University of Saskatchewan) schlug sich dabei ganz auf die Seite der Editionen (Why Interfaces Do Not and Should Not Matter for Scholarly Digital Editions), während Tara Andrews (Univ. Wien) und Joris van Zundert (Huygens Institute for the History of The Netherlands) die Seite der Intefaces mit einem Beitrag über das „Interface als Integrales Elements des Arguments einer Edition“ stark machten. Der Nachmittag war den anwenderorientierten Lösungen gewidment und es wurden Themen wie user-centred design und co-creation Ansätze diskutiert. Die Liste der Beiträge und ein Abstraktheft ist auf den Seiten des Grazer Instituts für Informationsmodellierung abrufbar. Im Fazit war dies eine Tagung, die die weite Anreise gelohnt hat und, wie schon oben erwähnt, Lust auf die nächste Reise nach Graz macht, zum Beispiel zur Digital Libraries Tagung 2017, die vom 2.-3. März 2017 ebendort stattfinden wird und deren CFP just gestern abgelaufen ist.

Jörg Wettlaufer, Göttingen