Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Print Friendly, PDF & Email

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Print Friendly, PDF & Email

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

„Data for History“ workshop at ENS, Lyon, 23.-24.11.17. CIDOC-CRM to model historical events and data

Print Friendly, PDF & Email

Die Überlegungen, die Francesco Beretta und Kollegen zu einer Ontologie für die historischen Wissenschaften auf Basis von CIDOC-CRM seit einigen Jahren anstellen, gehen in die nächste Runde. Am 23. und 24. November dieses Jahres wird ein entsprechender Workshop zu „Data for History“ (http://dataforhistory.org/) an der ENS in Lyon stattfinden. Mehr Informationen zu diesem Vorhaben finden sich auch auf den folgenden Folien: www.cidoc-crm.org/sites/default/files/intervention_FBeretta_20170403.pdf

Die Veranstalter freuen sich über Teilnehmerinnen und Teilnehmer, die ggf. auch eigene Projekte, die zu dieser Fragestellung passen, kurz (5 min.) vorstellen möchten. Übernachtungskosten für einen Teilnehmer/Projekt können voraussichtlich je nach Verfügbarkeit der Mittel übernommen werden. Eine Anmeldung sollte man am besten direkt bei Herrn Beretta oder Herrn Alamercery vornehmen. Das aktuelle Programm gibt es unter dieser Adresse. Hier der Originaltext der Ankündigung der Tagung:

We are please to announce that the founding workshop of the international consortium for the development of a CIDOC-CRM hist extension „Data for History“ will be held on 23-24 November 2017 at the École normale supérieure de Lyon (France).

The purpose of the Data for History consortium is to establish a common method for modelling, curating and managing data in historical research. Such a method would provide foundational support to historical research projects adopting a framework of collaborative, cumulative and interoperable scientific data production and investigation. The consortium aims to build up an international community of historians and computer scientists to first develop and then maintain a common ontological model that would allow for domain specific, semantically robust data integration and interoperability. The consortium aims to build this model as an extension of the CIDOC-CRM, in order to integrate to a broader cross-disciplinary modelling and data community. It begins already with the foundational modelling experience and data developed within the symogih.org project.

To support this process, the consortium has undertaken the development of an ontology management system which is designed to facilitate the understanding of different data models and ontologies related to the domain of historical research and support an open ontology development process. This platform will support a controlled development process of the ontology where the modification of the model (addition/modification/subtraction of classes and properties) will be tracked and submitted to a validation process by the expert community. This open and traceable process aims to foster the coherence and interoperability of the ontology model development in the domain of historical research. It will also allow the management of specific data models for research projects and use them for data production.

Here is the provisional programme :

  • 23 November 2017
    • 15.00 Introduction
    • 15.15 dataforhistory.org project presentation: a proposition
    • 16.00 spotlight presentation of present projects (5 minutes presentations)
    • break
    • 17.30 general discussion about the dataforhistory.org proposition
    • 19.00 dinner
  •  24 November 2017
    • 9.00 – 10.30 Activity planning (Planning of the common activity in the next months)
    • break
    • 11.00-12.30 Funding – Next project calls

To organize the workshop in the best conditions, please let us know quickly if you are going to participate.

We encourage you to present your project in the spotlight session and explain, if possible, the interest of the consortium as described above for your work. If you wish to propose a presentation, please tell us its title as soon as possible in order to establish the final programm.

Accommodation for foreign guests will be provided, travel costs remaining at their expense. Please let us know if you need a reservation for one or two nights in a hotel. If you think that other colleagues might be interested in this workshop, please do not hesitate to send them this message. For budgetary reasons, however, we are obliged to limit the cost of hosting to one representative per project.

With best regards,

Francesco Beretta, head of the digital history department (PHN)

Vincent Alamercery, coordinator of the PHN’s scientific projects

PANDORA LOD Ecosystem auf der semweb.pro Tagung in Paris am 22.11.2017

Print Friendly, PDF & Email

Das PANDORA LOD Framework von Christopher Johnson @cjohnson39, wird von Christopher und mir @joewett das nächste mal auf der SemWeb.Pro Tagung (#semwebpro) in Paris am 22. November 2017 vorgestellt. PANDORA selber sowie Infos zu dem Projekt gibt es unter https://github.com/pan-dora . Die Tagung findet im FIAP Jean Monnet, 30 rue Cabanis, 75014 Paris statt. Der Vortrag beginnt um 16:15 h und wird sportliche 15 Minuten dauern.

PANDORA: [Presentation (of) ANnotations (in a) Digital Object Repository Architecture] – a video

Print Friendly, PDF & Email

Christopher Johnson has composed a video about the PANDORA Architecture for the SWIB2016 conference. It is now available at youtube:

Abstract from SWIB program 2016: „The IIIF Presentation API specifies a web service that returns JSON-LD structured documents that together describe the structure and layout of a digitized object or other collection of images and related content.“ IIIF website The dynamic serialization of IIIF JSON-LD structured manifests via SPARQL CONSTRUCT is an interesting possibility that has great potential for cross-domain discovery and rendering of digitized objects with variable criteria. I have explored this possibility by implementing a data model in the Fedora Commons Repository that matches the specifications of the IIIF Presentation API. Fedora has the facility to index objects via Apache Camel directly to a triplestore. With SPARQL CONSTRUCT, the triplestore can serialize normalized JSON-LD as a graph. The use of „ordered lists“ (aka collections) is a fundamental component of JSON-LD and necessary feature of the IIIF manifest sequence which is represented in a canonical RDF graph as a cascade of blank nodes. In order to dynamically create the sequence with SPARQL requires that the data is modelled identically to the IIIF specification. This gist is a representation of a compacted and framed JSON-LD graph that was serialized from a SPARQL query of Fedora metadata. The ability to assemble parts of distinct, disparate and disassociated digital objects on demand in one cohesive presentation becomes a real possibility. For example, the „range“ object is equivalent to a part of a sequence, like a chapter in a book. With SPARQL, it is possible to target ranges from different „editions“ based on a metadata specification (i.e. a person, place, or date) and unify them in a manifest object which is then rendered by a client viewer like OpenSeadragon.

CFP: The first Semantic Web for Cultural Heritage workshop (SW4CH’15). Poitiers, France / September 8-11, 2015

Print Friendly, PDF & Email

For more information see: http://SW4CH2015.ensma.fr/
——————————————————————————————-
IMPORTANT DATES
* Paper submission: April 24, 2015
* Paper notification: June 1, 2015
* Camera-ready paper: June 13, 2015
* Workshop: September 8, 2015

OVERVIEW
Nowadays, Cultural Heritage is gaining a lot of attention from academic and industry perspectives. Scientific researchers, organizations, associations, schools are looking for relevant technologies for accessing, integrating, sharing, annotating, visualizing, analyzing the mine of cultural collections by considering profiles and preferences of end users.
Most cultural information systems today process data based on the syntactic level without leveraging the rich semantic structures underlying the content. Moreover, they use multiple thesauri, or databases, without a formal connection between them. This situation has been identified in the 90’s when the need to build a unique interface to access huge collection of data has appeared. During the last decades, Semantic Web solutions have been proposed to explicit the semantic of data sources and make their content machine understandable and interoperable. By analyzing the most important conferences and workshops related to the Semantic Web, four main categories of topics have been identified: (i) the development of Ontologies and vocabularies dedicated to the studied domain, (ii) explicitation of collection semantics, (iii) usage of Semantic Web Cultural Heritage and (iv) applications related to Cultural Heritage.
The aim of our SW4CH Workshop is to bring together Computer Scientists, and more precisely Data Scientists, involved in Semantic Web solutions for Cultural Heritage. The goal is to exchange experiences, build a state of the art of realizations and challenges and reuse and adapt solutions that have been proposed in other domains.

RESEARCH TRACKS
We seek original and high quality submissions related to one or more of the following topics:
Development of Ontologies and Vocabularies
• User Requirements life cycle for Cultural Heritage
• Vocabularies, metadata schemas, and ontologies
• Semantic Web content creation, annotation, and extraction
• Ontology creation, extraction, and evolution
• Ontology mapping, merging, and alignment
• Use and development of standards, such as SKOS, VRA, etc.
• Developments and applications of the CIDOC Conceptual Reference Model (CRM)
• Virtual Cultural Heritage collections
• Integration of virtual and physical collections
• Use of common vocabularies for Cultural Heritage
• Ontology design patterns for Cultural Heritage

Explicitation of Semantics of Cultural Heritage
• Search, query, and visualization of the Cultural Heritage on the Semantic Web
• Search of virtual and integrated Cultural Heritage collections
• Personalized access of Cultural Heritage collections
• Contex-aware information presentation
• Navigation and browsing
• Facet browsers
• Interactive user interfaces
• Social aspects in Cultural Heritage access and presentation
• Trust and provenance issues in mixed collection and mixed vocabulary applications

Usage of Semantic Web
• Creative industries
• Municipality public services
• Tourist services
• Museums
• Digital Libraries
• Integration of virtual and physical collections
• Ambient Cultural Heritage
• Mobile museum guides
• Web-based museum guides

Applications of Semantic Web technologies in Cultural Heritage
• Domain ontologies
• User and context ontologies
• Reasoning strategies (e.g. context, temporal, spatial)
• Robust and scalable knowledge management and reasoning on the Web
• Machine learning and NLP techniques
• Applications with clear lessons learned
• Semantic Web technologies for multimedia content
• Cultural Heritage services
• Semantic Web architectures for Cultural Heritage
• Peer-to-peer Cultural Heritage architectures
• Data and Information Systems Integration and Interoperability

SUBMISSION INFORMATION
Authors are invited to submit unpublished original work. Submitted papers must use the LNCS style http://www.springer.com/series/11156 (see the link „Instructions for Authors“ in the right hand side) and may not exceed 10 pages. Papers will be submitted electronically in PDF, using this link: http://www.easychair.org/conferences/?conf=sw4ch2015.

ORGANIZATION
Program Co-Chairs: Béatrice Bouchou Markhoff, LI, Université François Rabelais de Tours, France, and Stéphane Jean, LIAS/ENSMA, France
Other members of the organization, including the Program Committee, can be found at: http://SW4CH2015.ensma.fr/

*** Proceedings to be published by Springer in the Advances in Intelligent Systems and Computing series (http://www.springer.com/series/11156) ***   *** Best papers to be published in a special issue of Information System Frontiers, Springer (Factor Impact = 0.761) ***


Béatrice Bouchou Markhoff
Maître de conférences HDR
LI & UFR Sciences et Techniques
Université François Rabelais Tours, France
Tél. +33 (0) 2 54 55 21 36
http://www.info.univ-tours.fr/~bouchou/

Tagungsbericht „Semantic Web in den Geisteswissenschaften“ / Paris INHA 2014: Outils, méthodes, corpus: la modélisation des données en SHS.

Print Friendly, PDF & Email

Am 17.11.14 fand in Paris ein Studientag zum Thema „Werkzeuge, Methoden, Korpora: die Modellierung von Daten in den Geistes –und Sozialwissenschaften“ statt. Organisiert und ausgerichtet von Emmanuelle Perrin im INHA, einem Zentrum für die Kunstgeschichte im Zentrum von Paris – sehr schön gelegen in der Nähe der alten BNF (Richelieu) – präsentierten sich 6 Projekte rund um das Thema Semantic Web Technologien (SWT) und Geisteswissenschaften. Dabei ging es nicht nur um kunsthistorische Projekte im engeren Sinne, sondern vielmehr um einen Überblick zu den zentralen Konzepten der digitalen Semantisierung von Daten, also Normdaten, kontrollierte Vokabularien, Ontologien und Linked Open Data (LOD). Eine zentrale Rolle bei der Umsetzung von Projekten mit SWT spielt in Frankreich die BNF und das CNRS. Beide Institutionen waren vertreten zum einen durch Antoine Isaac, dem Leiter der Abteilung Forschung und Entwicklung des Europeana-Projekts und zum anderen durch Didier Torny, dem stellvertretenden Direktor für Wissenschaftliche Information am InSHS, einer Abteilung des CNRS zur Unterstützung von Sozial- und Geisteswissenschaftlern in informationstechnologischen Dingen. Didier Torny stellte seinem sehr allgemein gehaltenen einführenden Beitrag (Données, corpus, publications : les enjeux de l’information scientifique et technique au CNRS à l’ère numérique) die drei wichtigen Organisationen bzw. Projekte bei der Unterstützung der Forscherinnen und Forscher vor: CLEO (Centre de l’edition electronique ouverte), Persée (ein Online-Zeitschriftenarchiv) und HumaNum, das Pariser Zentrum für Digital Humanities. Emmanuelle Perrin von der InVisu Gruppe des INHA, betonte die zentrale Rolle des Semantic Web für die langfristige und vor allem auch interoperable Bereitstellung von Daten und Forschungsergebnissen in den Geisteswissenschaften und stellte das eigene Projekt (STORM), eine Topographie der Stadt Kairo anhand europäischer Quellen, vor. Der Beitrag von Anila Angjeli (BNF) war hauptsächlich dem Thema Normdaten und hier speziell dem ISO Standard ISNI gewidmet, einem Versuch der BNF und der British Library, die verschiedenen nationalen Normdaten zu harmonisieren und zu integrieren. Obwohl der Ansatz sicher sehr zu begrüßen ist und offensichtlich gute Algorithmen für die Elimination von Dubletten und die Zuordnung der versch. Datensätze eingesetzt werden, bleibt doch das alte Problem vieler derartiger Projekte bestehen, dass (projekt-)relevante Personen im Datenbestand (immerhin inzwischen 8 Mio!) fehlen und nicht ohne weiteres beigefügt werden können. Der günstigste Weg ist hier eine Mitgliedschaft im ISNI Verband, der mit 800,- Euro/Jahr zu Buche schlägt.

ISNI

Nach der Pause sprach René-Vincent Du Grandlaunay, der Direktor der Bibliothek des Dominikanerinstituts für Orientstudien in Kairo (IDEO) über das Modell FRBR (Functional Requirements for Bibliographic Records) zur Katalogisierung und seiner Anwendung auf die im Institut kuratierten Publikationen aus dem arabisch-islamischen Kulturkreis. Die detailverliebte Darlegung zeigte, wie hilfreich ein FRBR-Ansatz in einem Kontext sein kann, in dem Einzelausgaben aus vielen Jahrhunderten einem Werk zugeordnet werden müssen. Der letzte Beitrag des Vormittags von Matthieu Bonicel und Stefanie Gehrke war dem Europeana Projekt „Biblissima“ gewidmet, das sich mit der Modellierung der Überlieferungsgeschichte von Texten und Sammlungen im Mittelalter und der Renaissance beschäftigt. Die Modellierung erfolgt dort in CIDOC-CRM und FRBRoo und in der Präsentation konnten schon eine Reihe von interessanten Lösungen für die Modellierung von Sammlungen, aber auch von Inventaren und Katalogen vorgestellt werden.

Biblissima

Der Nachmittag war den Themen Linked Open Data (LOD), Ontologien für Historiker und einem Wörterbuchprojekt zum Wandel der Begrifflichkeit in der Kunstgeschichte zwischen 1600 und 1750 an der Universität von Montpellier gewidmet. Anne-Violaine Szabados (CNRS, ArScAn, UMR 7041, ESPRI-LIMC, Paris Ouest Nanterre La Défense) sprach über die Erfahrungen mit den Projekten LIMC und CLAROS, die beide dem Bereich der Archäologie zugeordnet werden können und auf die Vernetzung und Verlinkung mit LOD setzen. Francesco Beretta (CNRS, LARHRA, UMR 5190, Université de Lyon) stellte anhand des Historischen Projekts SyMoGIH (Système Modulaire de Gestion de l’Information Historique) die Probleme von Historikern bei der Suche nach einer passenden Ontologie für historische Ereignisse dar.

SyMoGIH

Das EU-geförderte Projekt LexArt, das von Flore César (CRISES, EA 4424, université Paul-Valéry, Montpellier 3) präsentiert wurde, steht noch anz am Anfang. Es versucht die Entwicklung von Kunstbegriffen in der Frühen Neuzeit anhand einer detaillierten Analyse von 300 Kunsttraktaten und Abhandlungen nachzuzeichnen, die anhand eines digitalen Werkzeugs gesammelt, analysiert und präsentiert werden sollen. Dies wird in Zusammenarbeit mit dem Trierer Zentrum für Digital Humanities realisiert werden, das entsprechend Expertise im Kontext digitalisierter Wörterbücher besitzt. Zum Abschluss fasste Mercedes Volait (InVisu, USR 3103 CNRS/INHA) die Ergebnisse des Tages noch einmal zusammen und erwähnte dabei auch einige der Themen, die nicht angesprochen werden konnten, wie z.B. die juristischen Fragen rund um LOD.

Insgesamt stellt sich für mich das Interesse an Semantic Web Technologien für geisteswissenschaftliche Projekte in Frankreich positiv da. Darauf weisen zumindest die besprochene Veranstaltung aber auch andere Aktivitäten in diese Richtung hin, die derzeit vor allem in Paris stattfinden. Am 12 Dezember wird dort z.B. eine Schulung „Einführung in das Semantic Web“ durch den früheren Leiter der Informatikabteilung der BNF, Romain Wenz, angeboten. Insbesondere die Ausrichtung von Europeana, die sich mit EDM auf ein graphenbasiertes Datenformat festgelegt hat, befördert die Akzeptanz und auch die Beschäftigung mit Semantik Web Technologien, gerade in den Geistes- und Sozialwissenschaften. Angebote wie data.bnf.fr erhöhen dabei die Sichtbarkeit und machen den konkreten Nutzen von Semantic Web Technologien evident.

Die Folien der Beiträge sind jetzt online unter: http://invisu.inha.fr/lundi-17-novembre-2014-Outils

Jörg Wettlaufer, Göttingen

Outils, méthodes, corpus : la modélisation des données en SHS.

Emmanuelle Perrin (InVisu, USR 3103 CNRS/INHA) : Présentation de la journée.

Didier Torny (directeur adjoint scientifique en charge de l’information scientifique et technique à l’InSHS) : Données, corpus, publications : les enjeux de l’information scientifique et technique au CNRS à l’ère numérique.

Première parti : Présidence de séance : Antoine Isaac (R & D manager, Europeana)

Anila Angjeli (BnF, département de l’information bibliographique et numérique) : ISNI – Les enjeux d’un identifiant international pour les personnes et les organismes.

René-Vincent Du Grandlaunay (directeur de la bibliothèque de l’Institut dominicain d’études orientales, Le Caire) : Le modèle FRBR appliqué au patrimoine arabo-musulman.

Matthieu Bonicel (BnF, coordinateur de Biblissima) et Stefanie Gehrke (coordinatrice métadonnées, Biblissima) : Biblissima et la modélisation de l’histoire de la transmission des textes et de la constitution des collections.

Seconde partie (Présidence de séance : Anila Angjeli)

Anne-Violaine Szabados (CNRS, ArScAn, UMR 7041, ESPRI-LIMC, Paris Ouest Nanterre La Défense) : L’expérience LIMC & CLAROS : pour l’élévation des données du patrimoine et de la culture dans le Linked Open Data.

Francesco Beretta (CNRS, LARHRA, UMR 5190, Université de Lyon) : Le projet SyMoGIH et le web de données.

Flore César (CRISES, EA 4424, université Paul-Valéry, Montpellier 3) : Modéliser le transfert des savoirs en Europe septentrionale aux xviie et xviiie siècles : l’exemple du projet LexArt.

Mercedes Volait (InVisu, USR 3103 CNRS/INHA) :Synthèse de la journée et discussion.