Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Print Friendly, PDF & Email

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

I. Getting started: Für unser Hands on workshop wollen wir OSDS auf einem aktuellen Gastsystem installieren. Dazu nehmen wir die Version mit den Deutschen Keyboard. Das spart einige Einstellungen und Probleme mit der Einrichtung. Bevor wir starten können, benötigen wir Oracle VM mit dem Extensionpack. Die Software kann man für verschiedene Betriebsysteme auf dieser Seite herunterladen. Dann wird zuerst VB und anschliessend werden die Erweiterungen mit VB geöffnet und installiert. Virtual Box benötigt einige Virtualisierungserweiterungen der aktuellen Intel-CPUs mit der Bezeichnung VT-x und dessen AMD-Pendant AMD-V. Hierbei werden auch neuere Funktionen dieser Befehlssatzerweiterungen wie Nested Paging/Rapid Virtualization Indexing unterstützt. Was Virtual Box gar nicht mag ist, wenn man Hyper-V aktiviert hat. Das muss man dann erst im BIOS wieder ausstellen, da sich beide Virtualisierungssysteme sonst um die Ressourcen streiten würden. Da Microsofts Hyper-V gewissermaßen im Heimvorteil ist, hat Virtual Box dann keine Chance. Wenn alles korrekt eingerichtet ist, können wir einen Blick auf das Hauptmenue von Virtual Box werfen. Dort können wir unter Datei den Menuepunkt Appliance Importieren finden, der uns die Auswahl der zuvor gespeicherten oder heruntergeladenen OSDS Datei erlaubt (Achtung – bei MacOS sind die Menuepunkt ganz oben im Finder, nicht im VB Manager!) .

Wenn man auf weiter klickt, erhält man einen Überblick der Einstellungen der virutellen Maschine. Dies kann man ggf. anpassen, aber das ist auch später noch über das Menue „Ändern“ in Virtual Box möglich.

Achtung. Diese Einstellung mit 5 GB RAM wird nur funktionieren, wenn das Gastgebersystem mindestens über 8 GB verfügt! Je niedriger man hier die Einstellung wählt, je zäher läuft das System hinterher und um so länger dauert der Aufbau des Index. Zusätzliche CPUs sind übrigens der Geschwindigkeit auch sehr zuträglich. Wenn man dann auf importieren klickt, dauert es etwa 2 bis 3 Minuten, bis die virutelle Festplatte angelegt ist. Nun ist es wichtig, zumindest einen gemeinsamen Ordner anzulegen, den Host und Gast, als die gerade eingerichtete OSDS VM, gemeinsam nutzen. Dazu einfach einen beliebigen Ordner an einem beliebigen (aber besser lokalen) Ort anlegen oder einbinden.

Ich habe hier z.B. den Ordner tmp auf dem Laufwerk C: unter windows angelegt und die Häkchen bei „nur lesbar“ und „automatisch einbinden“ gesetzt. Damit kann das Gastsystem auf Dateien zurückgreifen, die in diesem Ordner abgelegt sind. Für diesen Workshop habe ich zwei PDF Dateien herausgesucht, die als Beispiel dienen und den Aufbau des Suchindex demonstrieren sollen.

Diese Dateien müssen in den angelegten geteilten Ordner heruntergeladen werden, damit sie anschliessend von OSDS indexiert werden können.

Es gibt eine spezielle Voreinstellung bei OSDS, die man kennen sollte. Wenn man auf Laufwerk C einen Ordner namens index anlegt und auf die folgende Weise einbindet, dann wird der SOLR Index nicht in der VM, sondern in diesem Ordner im Gastsystem gespeichert. Das kann verschiedene Vorteile haben (die Festplatte der VM wird nicht unmäßig groß und man kann den index Ordner einfach von einem zum anderen Rechner übertragen). Ich nutze dieses Feature gerne, da es die Anwendung noch flexibler macht.

Der Index-Ordner muss selbstverständlich auch schreibbar sein und sollte am besten auch automatisch eingebunden werden, damit OSDS beim Start gleich alle wichtigen Ressourcen beeinander hat.

Das war es eigentlich schon. Nun können wir die VM zum ersten Mal starten und OSDS laufen lassen. Nach einiger Zeit sollte zunächst Debian und dann der Firefox ESR starten und ein UI mit der Suchmaske anzeigen. Die ist momentan noch leer, da eine entscheidende Information noch fehlt: der Ort der Dateien oder Ressourcen, die Indexiert werden sollen. Dies wird im Menuepunkt Datasources -> Files and Directories (Filesystem) eingestellt.

Sobald dies gespeichert ist, kann man den entsprechenden Ordner indexieren lassen und erhält nach einem reload der Suchmaske das Ergebnis. Mit Blick auf die indexierbaren Ressourcen ist bemerkenswert, dass neben Dateien im Filesystem der VM oder des Hosts auch Webseiten (ein oder mehrmals im Intervall), Newsfeeds, Tabellen (csv) und sogar Annotationen aus hypothes.is mit in den Index aufgenommen werden können. Die Ergebnisse können als Liste, als Vorschau (des Suchergebnisses im Volltext) , als Enitäten oder auch im entsprechenden Medienformat ausgegeben werden. Eine Geovisualisierung und weitere Analysetools stehen ebenfalls zur Verfügung.

Bei der ersten Suche fällt sogleich auf, dass die Ergebnisse in der Listenansicht als KWIC (Keyword in Context) angezeigt werden, aber von dort leider kein direkter Zugriff auf die einzelnen Funstellen möglich ist. Das hängt mit der Indexierung zusammen. Hätten wir jede Seite der Dokumente einzeln indexiert, könnten wir nun auch einzeln darauf zugreifen. So erhalten wir nur eine dokumentweise Ausgabe, bei der wir dann noch per Hand zu den Fundstellen navigieren müssen. Immerhin können wir mit einem Klick das Dokument laden oder auch den Volltext (Vorschau) anzeigen lassen. Wer eine Seitenweise Indexierung (doppelte Indexgröße) bevorzugt, kann dies hier einstellen:

Damit kennen wir nun die Grundfunktionalität des OSDS und können uns dem Thema Annotation und Tagging widmen, das besonders spannend ist. Übrigens, wenn wir den erstellten Index wieder löschen wollen, dann müssen wir auf die Kommandozeile des Debian OS gehen und dort opensemanticsearch-delete –empty eingeben. Anschliessend ist der Index wieder leer wie direkt nach der Installation.

Wem das zu umständlich ist (und wer genug Platz auf seinem Speichermedium besitzt), kann natürlich auch einen Snapshot von der VM erstellen, auf die man dann bei Bedarf zurückgreifen kann.

Eine zusätzliche Steuerungsebene direkt auf OS Ebene bietet das GUI, das sich hinter dem Reiter Aktivitäten (ganz oben link) verbirgt.

Die Lupe öffnet den Browser und das Suchfenster, das Listensymbol führt zur listenbasierten Suche (ein feature, das ich mir schon länger für Digitale Bibliotheken wünsche!) . Das Buch öffnet das Thesaurus Managment für Named Entities und das Symbol des geöffneten Ordners steht schliesslich für den Start des Indexdienstes. Mit dem Extraktionstool kann man Entitäten auch noch nachträglich in vorhandenen Datensammlungen taggen und der Aktenschrank führt schliesslich auf das Dateisystem der GastVM. Es handelt sich ja um eine VM mit Gnome Desktop und allem, was so dazu gehört. Übrigens hat die VM die Nutzer root und user. Das Passwort für user ist „live“ und für root ist keins gesetzt. Das macht durchaus Sinn, wenn man in Virtual Box arbeitet und die VM vor Zugriffen von aussen geschützt ist. Wenn  man aber die Serverversion installieren und produktiv betreiben möchte, sieht die Sache schon anders aus. Spätestens dann sollte man die voreingestellten Passworte ändern und dafür sorgen, dass ein administrativer Zugriff von aussen nicht mehr ohne weiteres möglich ist.

Die ausführlichste Anleitung (auf Englisch) findet sich (natürlich) auf der Seite www.opensemanticsearch.org. Es gibt dort auch eine deutsche Version, aber meist sind nur die Überschriften übersetzt. Zusätzlich kann man bei Problemen noch auf die Github-Seite des Projekts gehen, um Lösungsvorschläge zu finden.

II. Using OSDS: Nachdem die VM läuft, möchte man natürlich ausprobieren, was OSDS alles bietet. Das ist recht viel. Durch die Integration verschiedener NLP Tools und der Bereitstellung von Schnittstellen zum Semantic Web sind die Möglichkeiten ziemlich weit gesteckt, die gesammelten und idexierten Daten anzureichern, zu analysieren und schliesslich zu finden, was man (zumindest in den Geisteswissenschaften) eigentlich sucht: nämlich eine ganz bestimmte Information zu einer sehr speziellen Fragestellung. Ich möchte im folgenden auf einige der oben schon angesprochenen Möglichkeiten zur Aufbereitung und Erschließung von Daten eingehen und werde diesen Blogeintrag kontinuierlich ergänzen, sobald ich weitere Möglichkeiten entdecke bzw. ausprobiere.

a)  Entitäten, Worte, Konzepte als Facetten zufügen. Diese Funktion erlaubt ein sehr präzise auf die Fragestellung gerichtetes Tagging der Daten. Wenn man ein neues Konzept hinzufügt, dann versucht OSDS sofort dieses in den Texten zu finden und entsprechend auszuzeichnen. Wenn man dort also etwas eingibt, was häufiger vorkommt, kann der update des Index schon einige Sekunden dauern.

Wem das zu mühselig erscheint und wenn man evtl. schon eine Liste von Namen oder Konzepten zur Verfügung hat, die im Zusammenspiel mit den Daten hilfreich ist, der kann auch ganze Listen, kontrollierte Vokabularien oder Ontologien hochladen, die dann auf die Daten angewendet werden. Das Format der Liste wird i.d.R. erkannt. So ist es zum Beispiel möglich einfache Namen bzw. Ortslisten im CSV Format in Exel abzuspeichern und zu importieren. Aber auch RDF, SKOS und OWL werden unterstützt. Je nach Umfang der Daten und Listen ist hier mit einer längeren Bearbeitungzeit zu rechnen.

In der voreingestellten Konfiguration versucht OSDS Autoren, Personen, Organisationen, Orte, Emailadressen und die Dokumentensprache zu erkennen. Dazu nutzt das Framework in der Voreinstellung das SpaCy NER tool, zur Auswahl steht aber auch Standford NER Tagger, mit dem das Taggen aber wohl erheblich länger dauert. Den Autor versucht OSDS aus den entsprechenden Metadaten der Dokumente zu extrahieren. Wenn dort also etwas nicht der Autor des Textes, sondern der Setzer der Druckerei sich verewigt hat, dann erhält man auch dieses Ergbnis in den Facetten zurück. Für Historiker (zumindest des Spätmittelalters) relativ sinnfrei ist auch das Erkennen von email-Adressen oder von Geldmengen (wenn man nicht gerade Wirtschaftshistoriker ist). Wie immer bei NER sind die automatisch gewonnenen Ergebnisse weit von perfekt und man muß relativ tolerant sein, um die generierten Facetten trotz der vielen fehlerhaften Einträge produktiv zu nutzen.

Viel präziser und effektiver ist das Tagging über die bereitgestellten Werkzeuge. Hier kann man z.B. aufgrund einer Suchabfrage ein Label vergeben, das dann unter der gewünschten Facette aufgenommen wird, obwohl der Begriff möglicherweise gar nicht im Text vorkommt. Eine genaue Anleitung zur Verwendung findet man hier. Einige mögen sich nun fragen, was genau das Semantische an Open Semantic Search sei. Mit der NER Funktionalität ist ja schon ein erster Schritt in diese Richtung getan. Aber OSDS hat diesbzüglich noch wesentlich mehr zu bieten. Neben der Bereitstellung von neo4j gibt es verschiedene Möglichkeiten, Linked (Open) Data für die Anreicherung der eigenen Daten zu importieren oder auch die eigenen Ergebnisse als RDF zu exportieren. Ich möchte hier ein Beispiel vorstellen, dass der Entwickler selber beschreibt, nämlich den Import von Entitätenlisten aus Wikidata.

Im Rahmen dieses Hands-on können nicht alle Möglichkeiten von OSDS vorgestellt werden. Ich hoffe die Beispiele haben verdeutlicht, welche Potentiale dieses Werkzeug bietet und zum selber ausprobieren und zur Weiternutzung angeregt. Viele Anregungen zum Betreiben eigener Suchmaschinen bietet Markus Mandalka auch auf seiner persönlichen Webseite https://www.mandalka.name.

 

 

„Data for History“ workshop at ENS, Lyon, 23.-24.11.17. CIDOC-CRM to model historical events and data

Print Friendly, PDF & Email

Die Überlegungen, die Francesco Beretta und Kollegen zu einer Ontologie für die historischen Wissenschaften auf Basis von CIDOC-CRM seit einigen Jahren anstellen, gehen in die nächste Runde. Am 23. und 24. November dieses Jahres wird ein entsprechender Workshop zu „Data for History“ (http://dataforhistory.org/) an der ENS in Lyon stattfinden. Mehr Informationen zu diesem Vorhaben finden sich auch auf den folgenden Folien: www.cidoc-crm.org/sites/default/files/intervention_FBeretta_20170403.pdf

Die Veranstalter freuen sich über Teilnehmerinnen und Teilnehmer, die ggf. auch eigene Projekte, die zu dieser Fragestellung passen, kurz (5 min.) vorstellen möchten. Übernachtungskosten für einen Teilnehmer/Projekt können voraussichtlich je nach Verfügbarkeit der Mittel übernommen werden. Eine Anmeldung sollte man am besten direkt bei Herrn Beretta oder Herrn Alamercery vornehmen. Das aktuelle Programm gibt es unter dieser Adresse. Hier der Originaltext der Ankündigung der Tagung:

We are please to announce that the founding workshop of the international consortium for the development of a CIDOC-CRM hist extension „Data for History“ will be held on 23-24 November 2017 at the École normale supérieure de Lyon (France).

The purpose of the Data for History consortium is to establish a common method for modelling, curating and managing data in historical research. Such a method would provide foundational support to historical research projects adopting a framework of collaborative, cumulative and interoperable scientific data production and investigation. The consortium aims to build up an international community of historians and computer scientists to first develop and then maintain a common ontological model that would allow for domain specific, semantically robust data integration and interoperability. The consortium aims to build this model as an extension of the CIDOC-CRM, in order to integrate to a broader cross-disciplinary modelling and data community. It begins already with the foundational modelling experience and data developed within the symogih.org project.

To support this process, the consortium has undertaken the development of an ontology management system which is designed to facilitate the understanding of different data models and ontologies related to the domain of historical research and support an open ontology development process. This platform will support a controlled development process of the ontology where the modification of the model (addition/modification/subtraction of classes and properties) will be tracked and submitted to a validation process by the expert community. This open and traceable process aims to foster the coherence and interoperability of the ontology model development in the domain of historical research. It will also allow the management of specific data models for research projects and use them for data production.

Here is the provisional programme :

  • 23 November 2017
    • 15.00 Introduction
    • 15.15 dataforhistory.org project presentation: a proposition
    • 16.00 spotlight presentation of present projects (5 minutes presentations)
    • break
    • 17.30 general discussion about the dataforhistory.org proposition
    • 19.00 dinner
  •  24 November 2017
    • 9.00 – 10.30 Activity planning (Planning of the common activity in the next months)
    • break
    • 11.00-12.30 Funding – Next project calls

To organize the workshop in the best conditions, please let us know quickly if you are going to participate.

We encourage you to present your project in the spotlight session and explain, if possible, the interest of the consortium as described above for your work. If you wish to propose a presentation, please tell us its title as soon as possible in order to establish the final programm.

Accommodation for foreign guests will be provided, travel costs remaining at their expense. Please let us know if you need a reservation for one or two nights in a hotel. If you think that other colleagues might be interested in this workshop, please do not hesitate to send them this message. For budgetary reasons, however, we are obliged to limit the cost of hosting to one representative per project.

With best regards,

Francesco Beretta, head of the digital history department (PHN)

Vincent Alamercery, coordinator of the PHN’s scientific projects

PANDORA LOD Ecosystem auf der semweb.pro Tagung in Paris am 22.11.2017

Print Friendly, PDF & Email

Das PANDORA LOD Framework von Christopher Johnson @cjohnson39, wird von Christopher und mir @joewett das nächste mal auf der SemWeb.Pro Tagung (#semwebpro) in Paris am 22. November 2017 vorgestellt. PANDORA selber sowie Infos zu dem Projekt gibt es unter https://github.com/pan-dora . Die Tagung findet im FIAP Jean Monnet, 30 rue Cabanis, 75014 Paris statt. Der Vortrag beginnt um 16:15 h und wird sportliche 15 Minuten dauern.

Workshop: Digitale Geschichtswissenschaft und Semantic Web [Journées „Histoire numérique et web sémantique“], Brest, 9-11 mai 2017

Print Friendly, PDF & Email

Ich möchte gerne auf diese Tagung in Brest in der kommenden Woche hinweisen, da sie sich thematisch genau im Zentrum dieses Blogs befindet und zudem Francesco Beretta, der auch schon einmal zu einem von mir organisierten Workshop zu diesem Thema in Göttingen war, sein Projekt einer Ontologie für die Historische Forschung dort ausführlich vorstellt. Tagungssprache ist sicherlich französisch. Hier der Ankündigungstext aus einem Post der französischen DH-Liste:
————————–
La Maison des sciences de l’Homme de Bretagne, le Centre François Viète, le Lab-STICC, le Centre européen de réalité virtuelle et le LARHRA organisent à Brest en collaboration avec la Maison des sciences de l’Homme de Bretagne du 9 au 11 mai 2017 les journées „Histoire numérique et web sémantique“.

Ces journées sont destinées aux participants du groupe de travail pour la constitution du consortium „Données pour l’histoire“. Ce groupe est ouvert à toute personne intéressée par l’histoire numérique et la modélisation des données, n’hésitez pas à nous contacter :
Aurélie Hess : aurelie.hess(at)univ-ubs.fr / Vincent Alamercery : vincent.alamercery(at)ens-lyon.fr

Programme :

Mardi 9 mai

14h-14h30 : Introduction aux journées
14h30-15h15 : Le système d’autorité IdRef – François Mistral (ABES équipe IdRef)
15h15-16h00 : La gestion des autorités aux Archives de France – Hélène Zettel (Archives de France)
16h-16h30 : pause
16h30-17h15 : Modélisation et alignement en CIDOC-CRM (présentation en anglais, discussion en français) – George Bruseker (FORTH ICS).
17h15-18h15 : Projet d’extension du CIDOC-CRM pour l’histoire – Francesco Beretta (CNRS LARHRA)
18h15-18h30 : Organisation des ateliers du lendemain

Mercredi 10 mai

9h-12h : Ateliers en parallèle
Thématiques communes (mais discussion en petits groupes) : „Quel type de données je souhaite produire ?“, „Quelle est la différence entre objets / entités temporelles ?“, „Quelles difficultés je rencontre à modéliser mes données avec le CIDOC-CRM ?“, dans le contexte de la modélisation des données en CIDOC-CRM / l’extension du CIDOC-CRM pour l’histoire / symogih.org.

14h-14h30 : Bilan rapide des ateliers
14h30-15h30 : Pause et visite du Centre européen de réalité virtuelle
15h30-16h30 : Présentation de l’ontologie MASCARET – Ronan Querrec (ENIB CERV / Lab-STICC), Sylvain Laubé (UBO Centre François Viète)
16h30-18h : Discussion, l’extension du CIDOC-CRM pour l’histoire – animation Francesco Beretta

Jeudi 11 mai

9h-11h30 : Discussion, le consortium et la plateforme en cours de développement : état d’avancement ; programmation des chantiers communs (modélisation et ontologies) ; perspectives et feuille de route ; planification d’une journée d’études en vue du lancement public du consortium.
——————————————-

PANDORA: [Presentation (of) ANnotations (in a) Digital Object Repository Architecture] – a video

Print Friendly, PDF & Email

Christopher Johnson has composed a video about the PANDORA Architecture for the SWIB2016 conference. It is now available at youtube:

Abstract from SWIB program 2016: „The IIIF Presentation API specifies a web service that returns JSON-LD structured documents that together describe the structure and layout of a digitized object or other collection of images and related content.“ IIIF website The dynamic serialization of IIIF JSON-LD structured manifests via SPARQL CONSTRUCT is an interesting possibility that has great potential for cross-domain discovery and rendering of digitized objects with variable criteria. I have explored this possibility by implementing a data model in the Fedora Commons Repository that matches the specifications of the IIIF Presentation API. Fedora has the facility to index objects via Apache Camel directly to a triplestore. With SPARQL CONSTRUCT, the triplestore can serialize normalized JSON-LD as a graph. The use of „ordered lists“ (aka collections) is a fundamental component of JSON-LD and necessary feature of the IIIF manifest sequence which is represented in a canonical RDF graph as a cascade of blank nodes. In order to dynamically create the sequence with SPARQL requires that the data is modelled identically to the IIIF specification. This gist is a representation of a compacted and framed JSON-LD graph that was serialized from a SPARQL query of Fedora metadata. The ability to assemble parts of distinct, disparate and disassociated digital objects on demand in one cohesive presentation becomes a real possibility. For example, the „range“ object is equivalent to a part of a sequence, like a chapter in a book. With SPARQL, it is possible to target ranges from different „editions“ based on a metadata specification (i.e. a person, place, or date) and unify them in a manifest object which is then rendered by a client viewer like OpenSeadragon.

Bericht von der Tagung „Digital Scholarly Editions as Interfaces“ in Graz, 23.-24.9.16

Print Friendly, PDF & Email

Graz ist immer eine Reise wert. Seit es das Zentrum für Informationsmodellierung an der dortigen Universität gibt, ist fast umungänglich geworden mindestens einmal im Jahr dort vorbei zu schauen. Eine gute Gelegenheit dazu war die Tagung „Digital Scholarly Editions as Interfaces„, die vom 23. bis 24. September 2016 in Graz direkt vor der TEI Tagung in Wien stattfand. Mit über 100 Anmeldungen war die Tagung gut besucht und vor allem auf der Seite der Redner sehr international besetzt. Tagungssprache war Englisch. Gesponsert und auch organisiert wurde die Veranstaltung von dixit, dem „Digital Scholarly Editions Initial Training Network“. Ich erlaube mir im folgenden nur meine „persönlichen“ Highlights herauszupicken und näher zu besprechen. Das Niveau der Vorträge war insgesamt hoch und die Teilnahme auf jeden Fall ein Gewinn. Ich bin schon gespannt, welche Veranstaltung mich als nächstes nach Graz lockt.

Die Tagung begann mit einer Keynote von Dot Porter (University of Pennsylvania), die sich ganz grundsätzlich mit der Frage: „What is an Edition anyway? A critical examination of Digital Editions since 2002“ beschäftigte. Im Mittelpunkt ihres Vortrags standen mehrere Umfragen, die sie seit Anfang der 2000er Jahre in der DH community durchführt und die sich mit der Verwendung von digitalen Editionen durch Wissenschaftlerinnen und Wissenschaftler beschäftigen. Zentral ist dabei die Unterscheidung zwischen digitalisierten und digitalen Editionen, also den „nur“ in digitalem Format angebotenen gedruckten Editionen und den ohne Druckvorlage, rein digital erstellen Editionen. Die neueste Umfrage unter Mediaevisten im September 2016 erbrachte die folgende, interessante Nutzerstatistik:

Repräsentativ oder nicht, die Statistik weist zumindest auf einen hohen Anteil der Nutzung von digitalisierten und gedruckten Editionen bei solchen Personen hin, die häufig oder dauernd diese Textsorte verwenden. Damit bleibt die rein digitale Edition weiterhin ein Experimentierfeld, in dem sich erst noch Standards herausbilden und etablieren müssen. Dazu trägt sicher die Zeitschrift ride (Review Journal for digital Editions and Ressources) bei, das seit einigen Jahren versucht Standards in diesem Bereich zu schaffen.

Schon in diesem ersten Beitrag wurde am Ende eine Dichotomie zwischen Interface und Text postuliert, die im Anschluss in einer Reihe von Beiträgen wieder aufgenommen wurde. Interface over Text oder Text over Interface – diese Frage nahmen einige Vorträge gerne wieder auf und gaben ihre subjektive Antwort.

In den nun folgenden Sessions des ersten Tages fielen eine Reihe von Vorträgen wg. kurzfristiger Absagen aus, so dass eine intensive Diskussion der übrigen Beiträge möglich wurde. Eugene W. Lyman (Independent Scholar) wies die Teilnehmer auf die Relevanz von Verläßlichkeit bei Editionen, seien sie digital oder analog, hin. Dies würde, bei einer Konzentration auf Interfaces, leider schnell übersehen (Digital Scholarly Editions and the Affordances of Reliability). Christopher M. Ohge (University of California, Berkeley) stellte dann die erste konkrete Edition, die Notizbücher von Mark Twain, vor (http://www.marktwainproject.org/). Sein Vortrag war mit „Navigating Readability and Reliability in Digital Documentary Editions“ überschrieben und so nahm somit die oben gestellte Frage nach Interface und Verläßlichkeit des Texts auf. Die folgenden Vorträge wandten sich Themen der Visualierung, Typhographie und des Designs von Digitalen Editionen zu und dieser Komplex wurde abgerundet durch eine Keynote von Stan Ruecker (ITT Institute of Design, Chicago), die den ersten Tag beschloss. Es ist ein Verdienst der Tagung, dass konkret Designer eingeladen wurden (auch wenn am Ende nur wenige anwesend waren) und ihre Perspektive auf Digitale Editionen mitteilen konnten. Nur allzu oft bleibt dieser Aspekt aus Kostengründen oder Ignoranz bei wissenschaftlichen Editionen unberücksichtigt – mit den uns allen bekannten Folgen und Effekten. In diesem Zusammenhang wurden auch agile Methoden bei Design und Software-Entwicklung vorgestellt – inzwischen Standards im freiberuflichen Feld, aber bei weitem noch nicht Standard in den Geisteswissenschaften und den Digital Humanities.

Der zweite Tag begann mit einer „Nerd-Session“, in der mehr technische Fragen der Programmierung und Entwicklung von Interfaces für Digitale Editionen thematisiert wurden. Hugh Cayless (Duke University Libraries) startete mit einem Vortrag über
„Critical Editions and the Data Model as Interface“, in dem er eine Edition von lateinischen Texten vorstellte, die nicht auf TEI und XSLT Transformationen beruht, sondern über Javascript verschiedene Sichten auf Text ermöglicht. Seine Slides und eine Demo sind unter https://goo.gl/q7kbY0 abrufbar. Chiara Di Pietro (University of Pisa) und Roberto Rosselli Del Turco (University of Turin) sprachen anschliessend über „Between innovation and conservation: the narrow path of UI design for the Digital Scholarly Edition“ und stellten dabei die Version 2.0. des bekannten EVT-Editionstools vor.

Der dritte talk der Session ist mein persönlicher Spitzenreiter der Tagung.
Jeffrey C. Witt (Loyola University Maryland) sprach nicht nur kompetent sondern auch sehr anschaulich über „Digital Scholarly Editions as API Consuming Applications“ und stellte verschiedene LOD-Lösungen vor, die unter Einbeziehung des IIIF Standards ganz neue Möglichkeiten der Integration und Präsentation von Daten ermöglichen. Sein Vortrag und viele Beispiele finden sich auf http://lombardpress.org/. Ich sehe hier in der Tat eine wichtige Perspektive für die Zukunft der digitalen Editionen, die ja auch im MEDEA Projekt (modelling semantically enriched editions of accounts) anklingt, das leider auf der Tagung nicht vorgestellt wurde, aber dessen Protagonisten anwesend waren.

Die weitere Talks des zweiten Tages widmeten sich theortischen Implikationen und nahmen die Frage der Dichotomie von Interface und Edition wieder auf. Peter Robinson (University of Saskatchewan) schlug sich dabei ganz auf die Seite der Editionen (Why Interfaces Do Not and Should Not Matter for Scholarly Digital Editions), während Tara Andrews (Univ. Wien) und Joris van Zundert (Huygens Institute for the History of The Netherlands) die Seite der Intefaces mit einem Beitrag über das „Interface als Integrales Elements des Arguments einer Edition“ stark machten. Der Nachmittag war den anwenderorientierten Lösungen gewidment und es wurden Themen wie user-centred design und co-creation Ansätze diskutiert. Die Liste der Beiträge und ein Abstraktheft ist auf den Seiten des Grazer Instituts für Informationsmodellierung abrufbar. Im Fazit war dies eine Tagung, die die weite Anreise gelohnt hat und, wie schon oben erwähnt, Lust auf die nächste Reise nach Graz macht, zum Beispiel zur Digital Libraries Tagung 2017, die vom 2.-3. März 2017 ebendort stattfinden wird und deren CFP just gestern abgelaufen ist.

Jörg Wettlaufer, Göttingen

CFP: The first Semantic Web for Cultural Heritage workshop (SW4CH’15). Poitiers, France / September 8-11, 2015

Print Friendly, PDF & Email

For more information see: http://SW4CH2015.ensma.fr/
——————————————————————————————-
IMPORTANT DATES
* Paper submission: April 24, 2015
* Paper notification: June 1, 2015
* Camera-ready paper: June 13, 2015
* Workshop: September 8, 2015

OVERVIEW
Nowadays, Cultural Heritage is gaining a lot of attention from academic and industry perspectives. Scientific researchers, organizations, associations, schools are looking for relevant technologies for accessing, integrating, sharing, annotating, visualizing, analyzing the mine of cultural collections by considering profiles and preferences of end users.
Most cultural information systems today process data based on the syntactic level without leveraging the rich semantic structures underlying the content. Moreover, they use multiple thesauri, or databases, without a formal connection between them. This situation has been identified in the 90’s when the need to build a unique interface to access huge collection of data has appeared. During the last decades, Semantic Web solutions have been proposed to explicit the semantic of data sources and make their content machine understandable and interoperable. By analyzing the most important conferences and workshops related to the Semantic Web, four main categories of topics have been identified: (i) the development of Ontologies and vocabularies dedicated to the studied domain, (ii) explicitation of collection semantics, (iii) usage of Semantic Web Cultural Heritage and (iv) applications related to Cultural Heritage.
The aim of our SW4CH Workshop is to bring together Computer Scientists, and more precisely Data Scientists, involved in Semantic Web solutions for Cultural Heritage. The goal is to exchange experiences, build a state of the art of realizations and challenges and reuse and adapt solutions that have been proposed in other domains.

RESEARCH TRACKS
We seek original and high quality submissions related to one or more of the following topics:
Development of Ontologies and Vocabularies
• User Requirements life cycle for Cultural Heritage
• Vocabularies, metadata schemas, and ontologies
• Semantic Web content creation, annotation, and extraction
• Ontology creation, extraction, and evolution
• Ontology mapping, merging, and alignment
• Use and development of standards, such as SKOS, VRA, etc.
• Developments and applications of the CIDOC Conceptual Reference Model (CRM)
• Virtual Cultural Heritage collections
• Integration of virtual and physical collections
• Use of common vocabularies for Cultural Heritage
• Ontology design patterns for Cultural Heritage

Explicitation of Semantics of Cultural Heritage
• Search, query, and visualization of the Cultural Heritage on the Semantic Web
• Search of virtual and integrated Cultural Heritage collections
• Personalized access of Cultural Heritage collections
• Contex-aware information presentation
• Navigation and browsing
• Facet browsers
• Interactive user interfaces
• Social aspects in Cultural Heritage access and presentation
• Trust and provenance issues in mixed collection and mixed vocabulary applications

Usage of Semantic Web
• Creative industries
• Municipality public services
• Tourist services
• Museums
• Digital Libraries
• Integration of virtual and physical collections
• Ambient Cultural Heritage
• Mobile museum guides
• Web-based museum guides

Applications of Semantic Web technologies in Cultural Heritage
• Domain ontologies
• User and context ontologies
• Reasoning strategies (e.g. context, temporal, spatial)
• Robust and scalable knowledge management and reasoning on the Web
• Machine learning and NLP techniques
• Applications with clear lessons learned
• Semantic Web technologies for multimedia content
• Cultural Heritage services
• Semantic Web architectures for Cultural Heritage
• Peer-to-peer Cultural Heritage architectures
• Data and Information Systems Integration and Interoperability

SUBMISSION INFORMATION
Authors are invited to submit unpublished original work. Submitted papers must use the LNCS style http://www.springer.com/series/11156 (see the link „Instructions for Authors“ in the right hand side) and may not exceed 10 pages. Papers will be submitted electronically in PDF, using this link: http://www.easychair.org/conferences/?conf=sw4ch2015.

ORGANIZATION
Program Co-Chairs: Béatrice Bouchou Markhoff, LI, Université François Rabelais de Tours, France, and Stéphane Jean, LIAS/ENSMA, France
Other members of the organization, including the Program Committee, can be found at: http://SW4CH2015.ensma.fr/

*** Proceedings to be published by Springer in the Advances in Intelligent Systems and Computing series (http://www.springer.com/series/11156) ***   *** Best papers to be published in a special issue of Information System Frontiers, Springer (Factor Impact = 0.761) ***


Béatrice Bouchou Markhoff
Maître de conférences HDR
LI & UFR Sciences et Techniques
Université François Rabelais Tours, France
Tél. +33 (0) 2 54 55 21 36
http://www.info.univ-tours.fr/~bouchou/