CFP: Fifth Annual Conference on Digital Humanities and Digital History at the German Historical Institute Washington DC, December 9-11, 2021 (Deadline April 1)

Print Friendly, PDF & Email

Das Thema der diesjährigen Digital HistoryTagung am GHI lautet: „Datafication in the Historical Humanities: Reconsidering Traditional Understandings of Sources and Data“. Workshop und Tagung werden vom GHI in Zusammenarbeit mit dem C2DH, dem Lehrstuhl für Digital History an der HU Berlin sowie dem NFDI Konsortium NFDI4Memory, dem Roy Rosenzweig Centre for History and New Media sowie dem Department of History an der Stanford University organisert. Damit ist so ziemlich alles genannt, was Rang und Namen in den Digitalen Geschichtswissenschaften in Deutschland, Luxemburg und den USA hat. Das erzeugt Erwartungen und weckt Vorfreude. Alle Informationen und den Call findet man unter:

https://www.ghi-dc.org/events/event/date/datafication-in-the-historical-humanities-reconsidering-traditional-understandings-of-sources-and-data

Die Tagung soll je nach Corona-Situation klassisch vor Ort (mit Reisestipendien), hybrid oder ganz virtuell stattfinden. Der Termin ist allerdings fix.

Für die Tagung wird die Spannung zwischen dem historischen Quellenbegriff und der Datenzentrierung der Digital Humanities thematisiert bzw. instrumentalisiert. Dabei wird das Fehlen eines weithin akzeptierten konzeptionellen Frameworks für die Modellierung und Kuratierung von Daten in der Digital History konstatiert. An dieser Stelle ist vielleicht ein Hinweis auf die Data for History Initiative ( http://dataforhistory.org/ ) angebracht, die seit 2017 (u.a. vorbereitet durch den Workshop „Semantic Web Applications in the Humanities“ in Göttingen 2012 und 2015) versucht, z.B. das CIDOC-CRM in eben diese Richtung zu erweitern und für die Historischen Wissenschaften nutzbar zu machen. Jedenfalls ist es zutreffend, dass eine solche Konzeptionalisierung immer kulturgebunden ist und ein generalisierendes Modell dem Rechnung tragen müsste. Insgesamt ein sehr spannendes Thema, das interessante Diskussionen erwarten läßt.

CfP: Data for History 2020: Modelling Time, Space, Agents 

Print Friendly, PDF & Email

Data for History 2020: Modelling Time, Space, Agents 

Call for papers

28-29 May 2020, Berlin (Germany)


Participants at the first Data for History workshop – Lyon, 24. November 2017.
(Thomas Hänsli, CC BY-NC-ND 4.0)

The Data for History consortium invites proposals for its first annual conference, which will be held May 28-29, 2020 at the Humboldt University of Berlin.

The effects of the growing integration of digital tools and methods in historical research make the issues of interoperability of data produced in different projects and domains (archives, museums, etc.), and their reuse in the context of open science and FAIR principles (data should be findable, accessible, interoperable and reusable) ever more pressing.

In fact, we are at a turning point in historical research: The change from a primarily analogue based to a primarily digital based working context requires a major reconsideration of the very foundations of our field. Historians have to consciously think through how this change affects their practices and determine the means to best form this new, digital working environment to facilitate the ends of historical research.

This question becomes particularly clear in the context of datafication, the conversion of analogue information into digital data. In this process, fundamental decisions are taken whose outcomes will determine not only the fidelity of the representation of the primary sources but the reusability of that data into the future. Data modelling decisions taken today will deeply shape and affect the kind of research that will or will not be feasible tomorrow. The challenge is, thus, to make modelling choices in such a way that the highest possible degree of data reusability and sustainability can be guaranteed, while respecting the particular source modelled as well as the specific nature of historical data, such as ambiguity, uncertainty, incompleteness, and change over time.

This conference will explore the process of data modelling and its implications for future research practices, focussing on three fundamental categories of historical research: time, space and agents.

In this context, time can be understood as astronomical time, as socially constructed or measured, but also as expressed in the form of temporal relations, events, durations and rhythms, synchronous or asynchronous, etc. The category of space may include concrete physical places, territories and their borders as well as spatial relations and arrangements but also conceptual or imaginary places and mental maps. The concept of agents, meanwhile, may refer to persons, but also groups of persons like families, officeholders or informal communities, as well as institutions and other entities that produce changes over time by taking action.

We are looking for different approaches on how to model these historical fundamentals. We will analyse in depth the use of more or less established models and standards like CIDOC CRM and EDTF, but also want to explore new models, ideas and methods. Moreover, it will be essential to include critical accounts from concrete projects, focussing on the possibilities and limitations of these different methods and approaches.

Overall, the conference aims to build a better insight into current ideas and practices in modelling time, space and agents as historical data and to assess the implications of these choices on the process of historical research and analysis.

We invite historians, computer scientists, data and information specialists, as well as research software engineers, designers and cultural heritage experts working on data modelling for historical sources to present their work at the conference. We welcome presentations regarding theoretical considerations concerning these or related questions, introducing methodologies or presenting case studies on the application of those approaches to concrete research projects and sharing their experiences and challenges.

The conference will be followed by the annual meeting of the Data for History consortium (http://dataforhistory.org/), an international community aiming to establish a common method for modelling, curating and managing data in historical research.

The publication of selected papers is intended.

Submissions

Submissions may include:

  • Papers: 15-minute presentations followed by discussion (abstract 750-1000 words)
  • Posters: Call with selection. Posters already submitted in other conferences (please mention it in the summary) are admitted (abstract 250-500 words)

All proposals should include relevant citations to sources in the appropriate literature. Citations are not to be included in the word count.

Submit a Proposal: https://d4h2020.sciencesconf.org/

Bursaries

The conference organiser will offer a limited number of bursaries for PhD students and early-career scholars presenting at the conference.

Scientific committee

  • Francesco Beretta (CNRS/Université de Lyon)
  • George Bruseker (Takin.solutions)
  • Arianna Ciula (King’s College London)
  • Sebastiaan Derks (Huygens Institute for the History of the Netherlands)
  • Antske Fokkens (VU Amsterdam)
  • Charles van den Heuvel (University of Amsterdam)
  • Solenn Huitric (Université de Lyon)
  • Georg Vogeler (Universität Graz)
  • Torsten Hiltmann (Humboldt-Universität zu Berlin)

 

Important dates

Deadline for submissions: 1 March 2020
Notification of acceptance: 31 March
Camera-ready for the summary: 1 May

Conference: 28/29 May

Conference Venue

Humboldt University of Berlin
Banquet Hall
Luisenstraße 56
10115 Berlin

 

Organisation

Torsten Hiltmann
Professor of Digital History
Institut für Geschichtswissenschaften
Humboldt University of Berlin
Unter den Linden 6
D – 10099 Berlin

 

Francesco Beretta
Head of Digital History Research Team
LARHRA UMR CNRS 5190,
14, Avenue Berthelot
F – 69363 Lyon CEDEX 07

contact: d4h2020@sciencesconf.org

Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Print Friendly, PDF & Email

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Print Friendly, PDF & Email

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

„Data for History“ workshop at ENS, Lyon, 23.-24.11.17. CIDOC-CRM to model historical events and data

Print Friendly, PDF & Email

Die Überlegungen, die Francesco Beretta und Kollegen zu einer Ontologie für die historischen Wissenschaften auf Basis von CIDOC-CRM seit einigen Jahren anstellen, gehen in die nächste Runde. Am 23. und 24. November dieses Jahres wird ein entsprechender Workshop zu „Data for History“ (http://dataforhistory.org/) an der ENS in Lyon stattfinden. Mehr Informationen zu diesem Vorhaben finden sich auch auf den folgenden Folien: www.cidoc-crm.org/sites/default/files/intervention_FBeretta_20170403.pdf

Die Veranstalter freuen sich über Teilnehmerinnen und Teilnehmer, die ggf. auch eigene Projekte, die zu dieser Fragestellung passen, kurz (5 min.) vorstellen möchten. Übernachtungskosten für einen Teilnehmer/Projekt können voraussichtlich je nach Verfügbarkeit der Mittel übernommen werden. Eine Anmeldung sollte man am besten direkt bei Herrn Beretta oder Herrn Alamercery vornehmen. Das aktuelle Programm gibt es unter dieser Adresse. Hier der Originaltext der Ankündigung der Tagung:

We are please to announce that the founding workshop of the international consortium for the development of a CIDOC-CRM hist extension „Data for History“ will be held on 23-24 November 2017 at the École normale supérieure de Lyon (France).

The purpose of the Data for History consortium is to establish a common method for modelling, curating and managing data in historical research. Such a method would provide foundational support to historical research projects adopting a framework of collaborative, cumulative and interoperable scientific data production and investigation. The consortium aims to build up an international community of historians and computer scientists to first develop and then maintain a common ontological model that would allow for domain specific, semantically robust data integration and interoperability. The consortium aims to build this model as an extension of the CIDOC-CRM, in order to integrate to a broader cross-disciplinary modelling and data community. It begins already with the foundational modelling experience and data developed within the symogih.org project.

To support this process, the consortium has undertaken the development of an ontology management system which is designed to facilitate the understanding of different data models and ontologies related to the domain of historical research and support an open ontology development process. This platform will support a controlled development process of the ontology where the modification of the model (addition/modification/subtraction of classes and properties) will be tracked and submitted to a validation process by the expert community. This open and traceable process aims to foster the coherence and interoperability of the ontology model development in the domain of historical research. It will also allow the management of specific data models for research projects and use them for data production.

Here is the provisional programme :

  • 23 November 2017
    • 15.00 Introduction
    • 15.15 dataforhistory.org project presentation: a proposition
    • 16.00 spotlight presentation of present projects (5 minutes presentations)
    • break
    • 17.30 general discussion about the dataforhistory.org proposition
    • 19.00 dinner
  •  24 November 2017
    • 9.00 – 10.30 Activity planning (Planning of the common activity in the next months)
    • break
    • 11.00-12.30 Funding – Next project calls

To organize the workshop in the best conditions, please let us know quickly if you are going to participate.

We encourage you to present your project in the spotlight session and explain, if possible, the interest of the consortium as described above for your work. If you wish to propose a presentation, please tell us its title as soon as possible in order to establish the final programm.

Accommodation for foreign guests will be provided, travel costs remaining at their expense. Please let us know if you need a reservation for one or two nights in a hotel. If you think that other colleagues might be interested in this workshop, please do not hesitate to send them this message. For budgetary reasons, however, we are obliged to limit the cost of hosting to one representative per project.

With best regards,

Francesco Beretta, head of the digital history department (PHN)

Vincent Alamercery, coordinator of the PHN’s scientific projects

PANDORA LOD Ecosystem auf der semweb.pro Tagung in Paris am 22.11.2017

Print Friendly, PDF & Email

Das PANDORA LOD Framework von Christopher Johnson @cjohnson39, wird von Christopher und mir @joewett das nächste mal auf der SemWeb.Pro Tagung (#semwebpro) in Paris am 22. November 2017 vorgestellt. PANDORA selber sowie Infos zu dem Projekt gibt es unter https://github.com/pan-dora . Die Tagung findet im FIAP Jean Monnet, 30 rue Cabanis, 75014 Paris statt. Der Vortrag beginnt um 16:15 h und wird sportliche 15 Minuten dauern.

Workshop: Digitale Geschichtswissenschaft und Semantic Web [Journées „Histoire numérique et web sémantique“], Brest, 9-11 mai 2017

Print Friendly, PDF & Email

Ich möchte gerne auf diese Tagung in Brest in der kommenden Woche hinweisen, da sie sich thematisch genau im Zentrum dieses Blogs befindet und zudem Francesco Beretta, der auch schon einmal zu einem von mir organisierten Workshop zu diesem Thema in Göttingen war, sein Projekt einer Ontologie für die Historische Forschung dort ausführlich vorstellt. Tagungssprache ist sicherlich französisch. Hier der Ankündigungstext aus einem Post der französischen DH-Liste:
————————–
La Maison des sciences de l’Homme de Bretagne, le Centre François Viète, le Lab-STICC, le Centre européen de réalité virtuelle et le LARHRA organisent à Brest en collaboration avec la Maison des sciences de l’Homme de Bretagne du 9 au 11 mai 2017 les journées „Histoire numérique et web sémantique“.

Ces journées sont destinées aux participants du groupe de travail pour la constitution du consortium „Données pour l’histoire“. Ce groupe est ouvert à toute personne intéressée par l’histoire numérique et la modélisation des données, n’hésitez pas à nous contacter :
Aurélie Hess : aurelie.hess(at)univ-ubs.fr / Vincent Alamercery : vincent.alamercery(at)ens-lyon.fr

Programme :

Mardi 9 mai

14h-14h30 : Introduction aux journées
14h30-15h15 : Le système d’autorité IdRef – François Mistral (ABES équipe IdRef)
15h15-16h00 : La gestion des autorités aux Archives de France – Hélène Zettel (Archives de France)
16h-16h30 : pause
16h30-17h15 : Modélisation et alignement en CIDOC-CRM (présentation en anglais, discussion en français) – George Bruseker (FORTH ICS).
17h15-18h15 : Projet d’extension du CIDOC-CRM pour l’histoire – Francesco Beretta (CNRS LARHRA)
18h15-18h30 : Organisation des ateliers du lendemain

Mercredi 10 mai

9h-12h : Ateliers en parallèle
Thématiques communes (mais discussion en petits groupes) : „Quel type de données je souhaite produire ?“, „Quelle est la différence entre objets / entités temporelles ?“, „Quelles difficultés je rencontre à modéliser mes données avec le CIDOC-CRM ?“, dans le contexte de la modélisation des données en CIDOC-CRM / l’extension du CIDOC-CRM pour l’histoire / symogih.org.

14h-14h30 : Bilan rapide des ateliers
14h30-15h30 : Pause et visite du Centre européen de réalité virtuelle
15h30-16h30 : Présentation de l’ontologie MASCARET – Ronan Querrec (ENIB CERV / Lab-STICC), Sylvain Laubé (UBO Centre François Viète)
16h30-18h : Discussion, l’extension du CIDOC-CRM pour l’histoire – animation Francesco Beretta

Jeudi 11 mai

9h-11h30 : Discussion, le consortium et la plateforme en cours de développement : état d’avancement ; programmation des chantiers communs (modélisation et ontologies) ; perspectives et feuille de route ; planification d’une journée d’études en vue du lancement public du consortium.
——————————————-

PANDORA: [Presentation (of) ANnotations (in a) Digital Object Repository Architecture] – a video

Print Friendly, PDF & Email

Christopher Johnson has composed a video about the PANDORA Architecture for the SWIB2016 conference. It is now available at youtube:

Abstract from SWIB program 2016: „The IIIF Presentation API specifies a web service that returns JSON-LD structured documents that together describe the structure and layout of a digitized object or other collection of images and related content.“ IIIF website The dynamic serialization of IIIF JSON-LD structured manifests via SPARQL CONSTRUCT is an interesting possibility that has great potential for cross-domain discovery and rendering of digitized objects with variable criteria. I have explored this possibility by implementing a data model in the Fedora Commons Repository that matches the specifications of the IIIF Presentation API. Fedora has the facility to index objects via Apache Camel directly to a triplestore. With SPARQL CONSTRUCT, the triplestore can serialize normalized JSON-LD as a graph. The use of „ordered lists“ (aka collections) is a fundamental component of JSON-LD and necessary feature of the IIIF manifest sequence which is represented in a canonical RDF graph as a cascade of blank nodes. In order to dynamically create the sequence with SPARQL requires that the data is modelled identically to the IIIF specification. This gist is a representation of a compacted and framed JSON-LD graph that was serialized from a SPARQL query of Fedora metadata. The ability to assemble parts of distinct, disparate and disassociated digital objects on demand in one cohesive presentation becomes a real possibility. For example, the „range“ object is equivalent to a part of a sequence, like a chapter in a book. With SPARQL, it is possible to target ranges from different „editions“ based on a metadata specification (i.e. a person, place, or date) and unify them in a manifest object which is then rendered by a client viewer like OpenSeadragon.