Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

Bericht DHd 2018 Köln „Kritik der digitalen Vernunft“, 26.2.-2.3. #dhd2018

Print Friendly, PDF & Email

Köln ist eine schöne Stadt! Und wenn die Jahrestagung des Vereins Digital Humanities im deutschsprachigen Raum dort stattfindet, ist sie noch schöner! Eine Woche lange stand die Kölner Universität im Zeichen des Themas „Kritik der Digitalen Vernunft„. Über 600 Teilnehmerinnen und Teilnehmer aus der Schweiz, Österreich und Deutschland waren zusammengekommen. Viele ließen sich auch von der grassierenden Grippewelle nicht abhalten… und wurden mit einer insgesamt perfekt organisierten Tagung belohnt, die nicht nur bei der Teilnehmerzahl sondern auch im Abendprogramm neue Maßstäbe setzte. Aber dazu später.

http://dhd2018.uni-koeln.de/wp-content/uploads/dhd2018_logo.png

Der DHd Verein ist noch verhältnismäßig jung. Um so bemerkenswerter ist der stete Zuspruch, den die Digital Humanities bislang erhalten. Die Mitgliederzahl des Vereins ist inzwischen auf über 300 Personen gestiegen und es gibt eine Vielzahl von Arbeitsgruppen, die tatsächlich auch etwas arbeiten. In wiss. Vereinen ist das nicht immer selbstverständlich. Die Tagung begann am Montag Mittag mit Workshops. Am Dienstag abend begann mit einem Vortrag von Sybille Krämer (Berlin) das Hauptprogramm. Sie sprach über den „Stachel des Digitalenein Anreiz zur Selbstreflektion in den Geisteswissenschaften?“. Generalthema und Keynotes der Tagung waren nicht zufällig philosophisch angehaucht: Lokaler Organisator war Andreas Speer, seit 2004 Professor der Philosophie an der Universität zu Köln und Direktor des dortigen Thomas-Instituts. Tatkräftig unterstützt wurde er von Patrick Sahle und dem gesamten Team des CCeH. Auch die Abschlußkeynote am Freitagnachmittag von Michael Sperberg-McQueen, einem Urgestein der digitalen Geisteswissenschaften, stieß mit „Kritik der digitalen Vernunft“ in das selbe kantianische Horn. Dazwischen lagen drei ereignisreiche Tage, deren über 60 Vorträge sich in vier parallelen Sessions über die Zuhörer ergossen.

Man kann nur berichten, was man gehört und gesehen hat, also beschränke ich mich schon aus praktischen Gründen darauf. Verschweigen will ich aber auch nicht, was ich gefühlt habe (tagsüber, in den Hörsälen): nämlich Kälte! Nun wird es am Niederrhein bekanntlich nie wirklich kalt (ausser in dieser Woche eben), aber falls es zutreffen sollte, dass das Hörsaalgebäude tatsächlich nicht über eine Heizungsanlage verfügt, dann kann daran nur der Kölner Klüngel Schuld sein, denn ansonsten machten mir die Kölner insgesamt einen recht vernünftigen, ja lebensfrohen Eindruck. Unerklärlich hingegen bleibt die wohl absichtliche Verweigerung von Strom und Steckdosen bei den vorgeschalteten Workshops. Ich selber musste einen sehr spannenden (und leider etwas zu klein geplanten, da sehr nachgefragten) Workshop zu wikidata im Übungsteil abbrechen, da meinem inzwischen betagten Notebook der Saft ausging. Und es ging mir nicht alleine so! Am bemerkenswertesten war aber die Begründung, die uns im ersten Workshop am Montag „Suche und Visualisierung von Annotationen historischer Korpora mit ANNIS“ mit Carolin Odebrecht und KollegInnen mitgeteilt wurde: die Universität zu Köln wolle keine Stromanschlüsse zur Verfügung stellen, da dies den Stromverbrauch ungebührlich erhöhen würde…. Wenn die Univerwaltung tatsächlich so argumentierte, dann würde sich hier doch in einzigartiger Weise ein für die Region Niederrhein untypischer Geiz mit Unvernunft paaren (denn ökologische Argumente können wir wohl ausschließen). Der Tagungsleitung und dem Organisationsteam ist dieser Schildbürgerstreich nicht anzulasten – vielmehr liegt hier das Problem wie so häufig bei der Verwaltung der Universitäten, und zwar vermutlich (hoffentlich) in den unteren Etagen…

Nun zum Inhalt. Der dritte Workshop, den ich besuchte, war dem Thema „Research Software Engineering und Digital Humanities“ gewidmet. Mit über hundert TeilnehmerInnen war das schon eine größere Veranstaltung und es war sicher klug, sich für die Diskussionen in Untergruppen aufzuteilen. Erst kürzlich hat sich eine Gruppe fächerübergreifend zu diesem Thema gegründet: de-RSE.org, die von Stefan Janosch (MPI-CBG) vorgestellt wurde. Insgesamt ist eine Diskussion über die Professionalisierung  der Softwareentwicklung in den DH sehr zu begrüßen, eben weil dies nicht zur originären Ausbildung von GeisteswissenschaftlerInnen gehört. Bei den Vorträgen und Panels gab es wie immer Licht und Schatten, obwohl mir das Niveau insgesamt diesmal erfreulich hoch erschien. Ich wende mich mal dem überwiegenden Licht zu. Da sind zunächst die Tracks, die sich durch das Programm zogen und strukturierten: Sitzungen zu Visualisierung, Theorie der digitalen Geisteswissenschaften, Textmining, Sammlungsdigitalisierung, Digitale Literaturwissenschaft, Computer Vision, Digitale Rekonstruktion, Sentimentanalyse, Softwareentwicklung, Annotation, Semantische Analyse sowie Panels zu Historischen Grundwissenschaften, Sprachanalyse, Wissenschaftsorganisation und Forschungsdaten. Zusammen boten sie ein breites Bild der aktuellen Forschungslandschaft und ermöglichten, sich spezifischen Interessengebieten zuzuwenden. Besonders am Herzen lagen mir die Panels zu Forschungsdaten. Das eine von DARIAH/CLARIN , das andere von der AG Datenzentren ausgerichtet. Beide fanden nacheinander am Donnerstagnachmittag statt und waren gute besucht. DARIAH/CLARIN hatte sich als Thema „Gute Forschungsdaten, bessere Forschung: wie Forschung durch
Forschungsdatenmanagement  unterstützt wird“ gewählt und das Datenzentrumspanel, organisiert von Katrin Moeller (Halle-Wittenberg) stand ganz im Zeichen der Frage nach den Standards und ihrer Einbettung in die Fachwissenschaften „Die Summe geisteswissenschaftlicher Methoden? Fachspezifisches Datenmanagement als Voraussetzung zukunftsorientierten Forschens“. Im Zuge des NFDI Prozesses zur Schaffung einer Nationalen Forschungsdateninfrastruktur legen sich alle Beteiligten zurzeit mächtig ins Zeug, um Teil einer föderierten Struktur zu werden. Die Forschungsinfrastrukturen und Datenzentren zeigen sich dazu gut gerüstet.

Besonders spannend fand ich persönlich den Vortrag „Das neue ‚Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft‘ und seine Auswirkungen für Digital Humanities“ am Donnerstag Vormittag. Just am 1.3. trat das neue Gesetz in Kraft und so war dieser Beitrag zum einen hochaktuell und zugleich sehr informativ.

Vielleicht hätte es gelohnt, etwas ausführlicher zu diskutieren, wie sich die Politik eine digitale Nutzung von Werken (keine Veröffentlichung!) für die eigene! wissenschaftliche Forschung im Umfang von bis zu 75% vorstellt. Sollen wir in Zukunft die letzten 25% eines Werkes einfach nicht mehr rezipieren? Oder vielleicht am Ende eines Textes nur noch Lore ipsum Seiten drucken, um diese unsinnige Bestimmung auszuhebeln? Insgesamt sind das Gesetz und die Wissenschaftsschranke sicher ein Schritt in die richtige Richtung, aber gut gemeint ist bekanntlich nicht immer ausreichend. So wird es jedenfalls nichts mit der exzellenten Forschung im internationalen Vergleich in Deutschland. Da schaffen wir maximal 75% Exzellenz!

„Data Models for Digital Editions: Complex XML versus Graph Structures“, so lautete ein Vortrag von Daniel Bruder und Simone Teufel, der ein wichtiges Problem in den DH adressierte, dem meiner Meinung nach zu wenig Aufmerksamkeit geschenkt wird. XML aus Auszeichnungssprache mit ihrem streng hierarchischen Baum wird in manchen Fällen der Komplexität geisteswissenschaftlicher Beschreibungstiefe nicht gerecht. Andere, z.B. Graph- bzw. RDF basierte Formen könnten langfristig besser geeignet sein, tiefe Annotation – vielleicht ja sogar über eine gemeinsame ontologische Basis(?) – zu repräsentieren. Posterslam und Postersession sind inzwischen etablierte Präsentationsformen auch in den Geisteswissenschaften. Ihnen war der Donnerstagnachmittag gewidmet, der mit einem Empfang schloss, bei dem man die Poster anschauen und diskutieren konnte. Kulturelles Highlight war aber sicher der für Mittwochabend angesetzte Fightclub, in dem vier prominente „KontrahentInnen“ (Henning Lobin, Heike Zinsmeister, Hubertus Kohle, Mareike König) mit Gedichten und coolen Sprüchen gegeneinander antraten und für eine gelungene Mischung aus Unterhaltung und Reflektion über das eigene Tun sorgten. Anschliessend wurde bis tief in die Nacht getanzt… Mehr dazu auf Twitter, immer unter dem Hashtag #dhd2018.

Bleibt der Blick in die Zukunft. Die nächste DHd  findet 2019 in Mainz und Frankfurt statt, also gar nicht so weit vom diesjährigen Austragungsort. Die Latte hängt hoch, aber die  nächsten Gastgeber sind gut gerüstet für diese Aufgabe und haben schon ein Boot organisiert, um die TeilnehmerInnen sicher und stilvoll von einem Ort an den anderen zu bringen….

Bericht von der Tagung #dhnord2017 in Lille, 27.-29.11.2017 über #digitalhistory

Print Friendly, PDF & Email

Im Rahmen einer „Tournée“ von drei Tagungen/workshops in Frankreich habe ich am 27. November am ersten Tag der #dhnord Tagung in Lille teilgenommen. Diese Tagung wurde vom MESHS organisiert und beschäftigte sich mit dem Thema „Digitale Geschichte“: (De)constructing Digital History. (Programm als PDF)

In Kooperation mit dem Luxembourg Centre for Contemporary and Digital History (C2DH) und durchaus international ausgerichtet bot sich an diesem ersten Tag die Möglichkeit, etwas genauer über den aktuellen Ort der Digitalen Geschichtswissenschaft zwischen Digital Humanities und der Fachdisziplin Geschichtswissenschaft nachzudenken. Andreas Fickers vom C2DH führte in das Thema der Tagung mit einem Vortrag zu „Digital History: On the heuristic potential of thinkering“ ein. Zunächst stellte er fest, dass Geschichtswissenschaft heute schon digital sei, wir also nur noch über Grad und hermeneutische Konsequenzen dieser Digitalisierung sprechen müssen. Er forderte explizit die Einführung von „digital hermeneutics“ in die Geschichtswissenschaft als Teil der Ausbildung. Unter digital hermeneutics versteht er dabei „the critical and self reflexive use of digital tools and technologies for the development of new research questions“. Er forderte zur Dekonstruktion des Wahrheitsbegriffs in der Geschichtswissenschaft auf und wies auf die Fiktion von Neutralität beim Schreiben von Geschichte hin. Weitere relevante Begriffspaar in diesem Zusammenhang waren für ihn „statistical evidence and historical relevance“ sowie die Spannung zwischen Verstehen und Erklären. Von digital arbeitenden HistorikerInnen forderte er Interdisziplinarität und „multimodal literacy“ sowie die Fähigkeit zur Kritik von Algorithmen, Werkzeugen, Schnittstellen und digitalen Quellen. Methodisch sprach er sich für einen spielerischen Ansatz im Umgang mit den Werkzeugen und Methoden der DH aus: Thinkering (Erkki Huhtamo) sei die passende Herangehensweise, die auch in Luxemburg unter Einsatz von lab diaries, reflexive reports sowie Audio- und Video Essays erprobt werde. Am Ende seines Beitrags fragte er nach „De-constructing oder Re-coding“ und stellte eine Reihe von kritischen Fragen hinsichtlich der heutigen Praxis in der digitalen Geschichtswissenschaft und in den DH:

Zudem benannte er zwei Hauptprobleme bei der Verwendung von digitalen Werkzeugen oder Methoden in der historischen Forschung:

1. Die Gefahr des Fehlens von Originalität bei der Forschungsfrage (danger of lack of originality in questioning the past)

2. Die Gefahr der Unterkomplexität bei der Problematisierung von vergangenen Realitäten (danger of lack of complexity in problematizing past realities)

Schliesslich wies er auf das vor kurzem veröffentlichte White Paper „Digital History and Argument“ hin, dass aus einer Tagung am Roy Rosenzweig Centre for History and New Media (kollaborativ) entstanden ist und einen Dialog zwischen digitaler und konventioneller Geschichtswissenschaft bzw. Methodik versucht. Der dort formulierte Eindruck „…there is a widespread sense that digital history has over-promised and under-delivered in terms of its interpretative contribution back to the discipline.“ (S. 2) ist sicher auch in Europa zutreffend und sollte in Zukunft stärker thematisiert werden.

Im Programm der Tagung wurde anschliessend die Keynote von Manfred Thaller „Distrustful Brothers 2.0 – On the relationship of quantitative history and ‚digital‘ history“ vorgezogen, in der es um die Beziehung zwischen der quantitativen Methode, wie sie in den 70er Jahren z.B. von der Bielefelder Schule praktiziert wurde, und digitaler Geistes- bzw. Geschichtswissenschaft ging. Wer Thallers Sicht der auf diese Beziehung und die Entwicklung dieses gesamten Felds in den letzten 40 Jahren nachlesen will, kann dies inzwischen in seiner Autobiographie tun, die vor kurzem in einem Sonderheft von Historical Social Research (HSR) erschien. Das ironische, zuweilen auch sarkastische Moment dieses Rückblicks war auch im Vortrag zu spüren, als er zusammenfassend seine Sicht auf diese Zeitspanne mit einem Vergleich zu dem bekannten Film „Und täglich grüßt das Murmeltier“ umschrieb. Immerhin sagte er mir im persönlichen Gespräch, dass es sich womöglich doch um eine Spirale und keinen Kreis handele, in dem sich die Entwicklung der „Digital Humanities“ seit ihrer institutionellen Begründung in den 60er Jahren bewege. In diesem Zusammenhang räumte er in seinem Vortrag auch gründlich mit dem Gründungsmythos auf, die Digital Humanities seien erst Anfang der 2000er Jahre entstanden und versuchte eine längere Traditionslinie bis hin zu dem vielzitierten Pater Busa zu etablieren, die auch die Entwicklungen ab den 60er Jahren stärker berücksichtigt.

Sein Fazit zur heutigen Situation der Digital Humanities fiel dagegen weniger kontrovers und fast zuversichtlich aus, obwohl er sich inzwischen selber nicht mehr den digitalen Geisteswissenschaften in ihrer heutigen Ausprägung zurechnen würde. Er betonte vielmehr die finaziellen Interessen und Ressourcen, die bei der Entwicklung des gesamten Bereichs und auch der Digitalen Geschichtswissenschaft heute eine Rolle spielen. Also eigentlich keine schlechten Voraussetzungen für die weitere Entwicklung…

Über die vier folgenden Beiträge in zwei Sitzungen (geleitet von Mareike König und Andreas Fickers) zu „Digital History in Context“ und „Time and Space of Digital History“, die teilweise die schon angedeutete Situation in den USA expemplifizierten (Mokhiber) oder ein interessantes Projekt der digitalen Kunstgeschichte (van den Heuvel) vorstellten, gehe ich in der Hoffnung, dass die entsprechenden Slides bald online gestellt werden, etwas weniger ausführlich hinweg. Erwähnen zum Schluss möchte ich nur kurz die zweite Keynote des Tages von Bertrand Jouve zu einem Thema der angewandten Netzwerkanalyse in der Mediävistik: „Modelisation of hierarchical organization of rural medieval society“.

Jouve war als Mathematiker sichtlich bemüht, dem Publikum das Projekt von seiner netzwerktheoretischen Seite Nahe zu bringen. Allein es waren mehr HistorikerInnen als MathematikerInnen im Raum, so dass sich mir der Eindruck aufdrängte, dass wir es hier mit einem Problem von „technical solutionism“ zu tun hatten, wie er kurz zuvor von Andreas Fickers beschrieben worden war. Das Thema und die Methodik liegen unbestreitbar im Zentrum der Digitalen Geschichtswissenschaft. Aber es stellt sich wie so oft bei gleichberechtigt interdisziplinären Kooperationen oder Themen die Frage, welches Zielpublikum am Ende angesprochen werden soll bzw. kann. Vielleicht hätte das Thema nicht nur gemeinsam erforscht, sondern auch gemeinsam präsentiert werden sollen? So war zumindest mein Eindruck zu diesem Projekt, dass ich sehr spannend finde und von dem ich auch aus historischer Perspektive gerne noch mehr erfahren würde.

Leider musste ich diesen Vortrag kurz vor Ende aus Termingründen verlassen, so dass ich über die folgende Diskussion und die Präsentation der Doktorandenausbildung am Luxemburger C2DH nicht berichten kann. Das mögen andere, die der gesamten Tagung und evtl. auch dem Nodegoat workshop am Mittwoch folgen konnten, vielleicht an anderer Stelle nachholen.

 

 

„Data for History“ workshop at ENS, Lyon, 23.-24.11.17. CIDOC-CRM to model historical events and data

Print Friendly, PDF & Email

Die Überlegungen, die Francesco Beretta und Kollegen zu einer Ontologie für die historischen Wissenschaften auf Basis von CIDOC-CRM seit einigen Jahren anstellen, gehen in die nächste Runde. Am 23. und 24. November dieses Jahres wird ein entsprechender Workshop zu „Data for History“ (http://dataforhistory.org/) an der ENS in Lyon stattfinden. Mehr Informationen zu diesem Vorhaben finden sich auch auf den folgenden Folien: www.cidoc-crm.org/sites/default/files/intervention_FBeretta_20170403.pdf

Die Veranstalter freuen sich über Teilnehmerinnen und Teilnehmer, die ggf. auch eigene Projekte, die zu dieser Fragestellung passen, kurz (5 min.) vorstellen möchten. Übernachtungskosten für einen Teilnehmer/Projekt können voraussichtlich je nach Verfügbarkeit der Mittel übernommen werden. Eine Anmeldung sollte man am besten direkt bei Herrn Beretta oder Herrn Alamercery vornehmen. Das aktuelle Programm gibt es unter dieser Adresse. Hier der Originaltext der Ankündigung der Tagung:

We are please to announce that the founding workshop of the international consortium for the development of a CIDOC-CRM hist extension „Data for History“ will be held on 23-24 November 2017 at the École normale supérieure de Lyon (France).

The purpose of the Data for History consortium is to establish a common method for modelling, curating and managing data in historical research. Such a method would provide foundational support to historical research projects adopting a framework of collaborative, cumulative and interoperable scientific data production and investigation. The consortium aims to build up an international community of historians and computer scientists to first develop and then maintain a common ontological model that would allow for domain specific, semantically robust data integration and interoperability. The consortium aims to build this model as an extension of the CIDOC-CRM, in order to integrate to a broader cross-disciplinary modelling and data community. It begins already with the foundational modelling experience and data developed within the symogih.org project.

To support this process, the consortium has undertaken the development of an ontology management system which is designed to facilitate the understanding of different data models and ontologies related to the domain of historical research and support an open ontology development process. This platform will support a controlled development process of the ontology where the modification of the model (addition/modification/subtraction of classes and properties) will be tracked and submitted to a validation process by the expert community. This open and traceable process aims to foster the coherence and interoperability of the ontology model development in the domain of historical research. It will also allow the management of specific data models for research projects and use them for data production.

Here is the provisional programme :

  • 23 November 2017
    • 15.00 Introduction
    • 15.15 dataforhistory.org project presentation: a proposition
    • 16.00 spotlight presentation of present projects (5 minutes presentations)
    • break
    • 17.30 general discussion about the dataforhistory.org proposition
    • 19.00 dinner
  •  24 November 2017
    • 9.00 – 10.30 Activity planning (Planning of the common activity in the next months)
    • break
    • 11.00-12.30 Funding – Next project calls

To organize the workshop in the best conditions, please let us know quickly if you are going to participate.

We encourage you to present your project in the spotlight session and explain, if possible, the interest of the consortium as described above for your work. If you wish to propose a presentation, please tell us its title as soon as possible in order to establish the final programm.

Accommodation for foreign guests will be provided, travel costs remaining at their expense. Please let us know if you need a reservation for one or two nights in a hotel. If you think that other colleagues might be interested in this workshop, please do not hesitate to send them this message. For budgetary reasons, however, we are obliged to limit the cost of hosting to one representative per project.

With best regards,

Francesco Beretta, head of the digital history department (PHN)

Vincent Alamercery, coordinator of the PHN’s scientific projects

Workshop: Digitale Geschichtswissenschaft und Semantic Web [Journées „Histoire numérique et web sémantique“], Brest, 9-11 mai 2017

Print Friendly, PDF & Email

Ich möchte gerne auf diese Tagung in Brest in der kommenden Woche hinweisen, da sie sich thematisch genau im Zentrum dieses Blogs befindet und zudem Francesco Beretta, der auch schon einmal zu einem von mir organisierten Workshop zu diesem Thema in Göttingen war, sein Projekt einer Ontologie für die Historische Forschung dort ausführlich vorstellt. Tagungssprache ist sicherlich französisch. Hier der Ankündigungstext aus einem Post der französischen DH-Liste:
————————–
La Maison des sciences de l’Homme de Bretagne, le Centre François Viète, le Lab-STICC, le Centre européen de réalité virtuelle et le LARHRA organisent à Brest en collaboration avec la Maison des sciences de l’Homme de Bretagne du 9 au 11 mai 2017 les journées „Histoire numérique et web sémantique“.

Ces journées sont destinées aux participants du groupe de travail pour la constitution du consortium „Données pour l’histoire“. Ce groupe est ouvert à toute personne intéressée par l’histoire numérique et la modélisation des données, n’hésitez pas à nous contacter :
Aurélie Hess : aurelie.hess(at)univ-ubs.fr / Vincent Alamercery : vincent.alamercery(at)ens-lyon.fr

Programme :

Mardi 9 mai

14h-14h30 : Introduction aux journées
14h30-15h15 : Le système d’autorité IdRef – François Mistral (ABES équipe IdRef)
15h15-16h00 : La gestion des autorités aux Archives de France – Hélène Zettel (Archives de France)
16h-16h30 : pause
16h30-17h15 : Modélisation et alignement en CIDOC-CRM (présentation en anglais, discussion en français) – George Bruseker (FORTH ICS).
17h15-18h15 : Projet d’extension du CIDOC-CRM pour l’histoire – Francesco Beretta (CNRS LARHRA)
18h15-18h30 : Organisation des ateliers du lendemain

Mercredi 10 mai

9h-12h : Ateliers en parallèle
Thématiques communes (mais discussion en petits groupes) : „Quel type de données je souhaite produire ?“, „Quelle est la différence entre objets / entités temporelles ?“, „Quelles difficultés je rencontre à modéliser mes données avec le CIDOC-CRM ?“, dans le contexte de la modélisation des données en CIDOC-CRM / l’extension du CIDOC-CRM pour l’histoire / symogih.org.

14h-14h30 : Bilan rapide des ateliers
14h30-15h30 : Pause et visite du Centre européen de réalité virtuelle
15h30-16h30 : Présentation de l’ontologie MASCARET – Ronan Querrec (ENIB CERV / Lab-STICC), Sylvain Laubé (UBO Centre François Viète)
16h30-18h : Discussion, l’extension du CIDOC-CRM pour l’histoire – animation Francesco Beretta

Jeudi 11 mai

9h-11h30 : Discussion, le consortium et la plateforme en cours de développement : état d’avancement ; programmation des chantiers communs (modélisation et ontologies) ; perspectives et feuille de route ; planification d’une journée d’études en vue du lancement public du consortium.
——————————————-

PANDORA: [Presentation (of) ANnotations (in a) Digital Object Repository Architecture] – a video

Print Friendly, PDF & Email

Christopher Johnson has composed a video about the PANDORA Architecture for the SWIB2016 conference. It is now available at youtube:

Abstract from SWIB program 2016: „The IIIF Presentation API specifies a web service that returns JSON-LD structured documents that together describe the structure and layout of a digitized object or other collection of images and related content.“ IIIF website The dynamic serialization of IIIF JSON-LD structured manifests via SPARQL CONSTRUCT is an interesting possibility that has great potential for cross-domain discovery and rendering of digitized objects with variable criteria. I have explored this possibility by implementing a data model in the Fedora Commons Repository that matches the specifications of the IIIF Presentation API. Fedora has the facility to index objects via Apache Camel directly to a triplestore. With SPARQL CONSTRUCT, the triplestore can serialize normalized JSON-LD as a graph. The use of „ordered lists“ (aka collections) is a fundamental component of JSON-LD and necessary feature of the IIIF manifest sequence which is represented in a canonical RDF graph as a cascade of blank nodes. In order to dynamically create the sequence with SPARQL requires that the data is modelled identically to the IIIF specification. This gist is a representation of a compacted and framed JSON-LD graph that was serialized from a SPARQL query of Fedora metadata. The ability to assemble parts of distinct, disparate and disassociated digital objects on demand in one cohesive presentation becomes a real possibility. For example, the „range“ object is equivalent to a part of a sequence, like a chapter in a book. With SPARQL, it is possible to target ranges from different „editions“ based on a metadata specification (i.e. a person, place, or date) and unify them in a manifest object which is then rendered by a client viewer like OpenSeadragon.

Workshop: Digital Humanities and Social Media. @ „The Maghreb in Transition“, Tunis, 18.-19.11.2016

Print Friendly, PDF & Email

Digital Humanities have developed over the last 10 years to a major methodological approach in the humanities. Building on humanities computing, DH has built an independent infrastructure within the humanities and now reaches back into several disciplines, including literature, history, history of art and social and political sciences. By stressing the quantitative approach to data and using statistical methods DH has contributed in various ways to bring up new hypothesis for old questions and revived the discussion about the place of humanities in science and
society. This workshop gives and introduction into the aims and methods of
digital humanities and addresses questions of power shifts during the digital
transition of the humanities as well as the role of social media in that
process.

Some impressions from the workshop:

_dsc5269

_dsc5011

For the pics thanks to Driss!

For more information see:

https://maghrebitransition.wordpress.com/2016/11/04/announcement-of-our-workshop-digital-humanities/

CFP: 3rd Workshop on Computational History (HistoInformatics 2016) – 11th July, Krakow, Poland

Print Friendly, PDF & Email

Crossposted from http://histoinformatics.org/

dh_2016_logo

**Objectives**
HistoInformatics2016 – the 3rd International Workshop on Computational History will be held on July 11th in Krakow, Poland in conjunction with the 2016 Digital Humanities conference. The HistoInformatics workshop series brings together researchers in the historical disciplines, computer science and associated disciplines as well as the cultural heritage sector. Historians, like other humanists show keen interests in computational approaches to the study and processing of digitized sources (usually text, images, audio). In computer science, experimental tools and methods stand the challenge to be validated regarding their relevance for real-world questions and applications. The HistoInformatics workshop series is designed to bring researchers in both fields together, to discuss best practices as well as possible future collaborations. Traditionally, historical research is based on the hermeneutic investigation of preserved records and artifacts to provide a reliable account of the past and to discuss different hypotheses. Alongside this hermeneutic approach historians have always been interested to translate primary sources into data and used methods, often borrowed from the social sciences, to analyze them. A new wealth of digitized historical documents have however opened up completely new challenges for the computer-assisted analysis of e.g. large text or image corpora. Historians can greatly benefit from the advances of computer and information sciences which are dedicated to the processing, organization and analysis of such data. New computational techniques can be applied to help verify and validate historical assumptions. We call this approach HistoInformatics, analogous to Bioinformatics and ChemoInformatics which have respectively proposed new research trends in biology and chemistry. The main topics of the workshop are: (1) support for historical research and analysis in general through the application of computer science theories or technologies, (2) analysis and re-use of historical texts, (3) visualisations of historical data, (4) provision of access to historical knowledge. HistoInformatics workshops took place twice in the past. The first one, HistoInformatics2013, was held in conjunction with the 5th International Conference on Social Informatics in Kyoto, Japan in 2013. The second workshop, HistoInformatics2014, took place at the same conference in the following year in Barcelona.

Our objective is to provide for the two different research communities a place to meet and exchange ideas and to facilitate discussion. We hope the workshop will result in a survey of current problems and potential solutions, with particular focus on exploring opportunities for collaboration and interaction of researchers working on various subareas within Computer Science and History Sciences.

For our workshop at DH2016 we invite papers from a wide range of topics which are of relevance for history, the cultural heritage sector and the humanities in general. The workshop targets researchers who work on the intersections of history and computer science. We invite papers on the following and related topics:

• Natural language processing and text analytics applied to historical documents
• Analysis of longitudinal document collections
• Search and retrieval in document archives and historical collections, associative search
• Causal relationship discovery based on historical resources
• Named entity recognition and disambiguation in historical texts
• Entity relationship extraction, detecting and resolving historical references in text
• Finding analogical entities over time
• Analysis of language change over time
• Modeling evolution of entities and relationships over time
• Network Analysis
• Automatic multimedia document dating
• Simulating and recreating the past course of actions, social relations, motivations, figurations
• Handling uncertain and fragmentary text and image data
• Mining Wikipedia for historical data
• OCR and transcription old texts
• Effective interfaces for searching, browsing or visualizing historical data collections
• Studies on collective memory
• Studying and modeling forgetting and remembering processes
• Estimating credibility of historical findings
• Epistemologies in the Humanities and computer science

**Practical matters**

Submission deadline: 9th May 2016
Notification deadline: 31st May 2016
Camera ready copy deadline: 7th June 2016

Submissions need to be:

• formatted according to Easychair paper formatting guidelines (http://www.easychair.org/publications/?page=1594225690).
• original and have not been submitted for publication elsewhere.
• submitted in English in PDF format
• at the workshop’s Easychair page: https://easychair.org/conferences/?conf=histoinformatics2016.

Full paper submissions are limited to 10 pages, while short paper submissions should be less than 5 pages. Submissions will be evaluated by at least three different reviewers who come from Computer Science and History backgrounds. The accepted papers will be published on CEUR Workshop Proceedings (http://ceur-ws.org/).

Presenters and participants are expected to cover their travel and accommodation costs.

For any inquiries, please contact the organising committee at histoinformatics2016@easychair.org

**Organising committee**

• Marten Düring (CVCE Luxembourg)
• Adam Jatowt (Kyoto University)
• Antal van den Bosch (Radboud University Nijmegen)
• Johannes Preiser-Kappeller (Austrian Academy of Sciences)

**Programme committee**

• Adam Kosto (Columbia University, USA)
• Andrea Nanetti (Nanyang Technological University, Singapore)
• Catherine Jones (Centre Virtuel de la Connaissance sur l’Europe (CVCE), Luxemburg)
• Ching-man Au Yeung (Huawei Noah’s Ark Lab, Hong Kong)
• Christian Gudehus (University of Bochum, Germany)
• Daan Odijk (University of Amsterdam, The Netherlands)
• Frederick Clavert (Paris Sorbonne University, France)
• Günter Mühlberger (University of Innsbruck, Austria)
• Lars Wieneke (Centre Virtuel de la Connaissance sur l’Europe (CVCE), Luxemburg)
• Marc Spaniol (Max Planck Institute for Informatics, Germany)
• Mike Kestemont (University of Antwerp, Belgium)
• Nattiya Kanhabua (LS3 Research Center, Germany)
• Nina Tahmasebi (University of Gothenburg, Sweden)
• Pim Huijnen (Utrecht University, The Netherlands)
• Robert Allen (Yonsei University, South Korea)
• Roger Evans (University of Brighton, United Kingdom)
• Tom Kenter (University of Amsterdam, The Netherlands)

Workshop „Wissenschaftsgeschichte und Digital Humanities in Forschung und Lehre“ – 07.04. bis 09.04.2016 in Göttingen

Print Friendly, PDF & Email

Programm

Zeit: Donnerstag (07.04.2016) bis Samstag (09.04.2016)
Ort: Göttingen, Tagungszentrum an der Historischen Sternwarte), Geismar Landstrasse 11, 37083 Göttingen. Unkostenbeitrag für die Kaffeepausen: 15 Euro.

Donnerstag, 7. April 2016

13:00 Begrüßung durch den Fachverband Wissenschaftsgeschichte (FVWG) und dem Göttingen Centre for Digital Humanities (GCDH)
Klaus Hentschel (FVWG)
Gerhard Lauer (GCDH)

13:15-15:55: Hinleitungen zum Thema
Chair: Gerhard Lauer (Göttingen)
(13:15) Marcus Schröter (Freiburg/Br.): Teaching Libraries zwischen der Vermittlung traditioneller Information Literacy und der Unterstützung des wissenschaftlichen Nachwuchses in den Digital Humanities
(13.55) Adrian Wüthrich (Berlin): Digitale Wissenschaftsgeschichte: Workflow, Projekte und Reflexion
(14:35) Christian Lehmann (Stuttgart): Der digitale Werkzeugkoffer des Historikers
(15:15) Annette van Dyck-Hemming / Melanie Wald-Fuhrmann (Frankfurt/Main): Fachge¬schichte der deutschsprachigen Musikwissenschaft zwischen ca. 1819 und ca. 1990
15:55-16:25: Kaffeepause

16:25-20:00: Objekt- und Personenorientierte Projekte
Chair: Heiko Weber (Göttingen)
(16:25) Frank Dührkohp (Göttingen): Das DFG-Projekt KENOM – Bereitstellung einer Infrastruktur zur Kooperativen Erschließung und Nutzung der Objektdaten von Münzsammlungen
(17:05) Sarah Bärtschi (Bern): Datenvisualisierungen als Forschungsinstrument: Distant reading am Beispiel der verstreuten Schriften Alexander von Humboldts
(17:45) Christian Thomas; Marius Hug (Berlin) Den Kosmos sondieren. Das Thermometer und andere Instrumente der Wissenschafts- und Technikgeschichte in A. v. Humboldts ‚Kosmos-Vorträgen‘
18:25-18:40 Kurze Kaffeepause
(18:40) Jörg Wettlaufer; Christopher H. Johnson (Göttingen): Semantic Blumenbach: Verknüpfungen von Texten und Objekten für die Beantwortung wissenschaftshisto-rischer Fragestellungen
(19:20) Maik Fiedler / Christian Scheel / Andreas Weiß / Ernesto William De Luca (Braunschweig): Welt der Kinder. Semantisches Information Retrieval als Zugang zu Wissensbeständen des 19. Jahrhunderts
20:00-20:15: Kurze Kaffeepause
20:15-21:15: Öffentlicher Abendvortrag (Einführung von Heiko Weber)
Andreas Christoph (Jena): … for the Masses. Virtuelle Potenziale der Wissenschaftsgeschichte in Forschung und Lehre
21:30 Gemeinsames Abendessen im „Nudelhaus“ Göttingen

Freitag, 8. April 2016

9:00-12:00 Netzwerke
Chair: Klaus Hentschel (Stuttgart)
(9:00) Dagmar Mrozik (Wuppertal): The Jesuit Science Network. Ein wissenschaftshistorisches Datenbankprojekt
(9:40) Matteo Valleriani / Dirk Wintergrün (Berlin): Das Netzwerk der Traktate De sphaera von Sacrobosco in der Frühen Neuzeit und das Subnetzwerk der Traktaten Sphaera Ioannis de Sacrobosco von Christophorus Clavius
10:20-10:40 Kurze Kaffeepause
(10:40) Andreas Haka (Stuttgart): Historische Netzwerkanalyse am Beispiel von Forschungsvorhaben aus dem Bereich der technischen Thermodynamik im 20. Jahrhundert
(11:20) Andreas Jüttemann (Berlin): Die preußischen Lungenheilstätten 1863-1964
12:00-13:00 Mittagspause (Rathauskantine Göttingen)

13:00-15:40 Prosopographische Datenbanken / Editionen
Chair: Heiko Weber (Göttingen)
(13:00) Bärbel Kröger / Christian Popp (Göttingen): Forschung und Lehre im Wandel – Die Germania Sacra in der digitalen Welt
(13:40) Torsten Himmel / Klaus Hentschel (Stuttgart): Database of Scientific Illustrators 1450–1950 (DSI)
(14:20) Michael W. Leonow (Moskau): Erfahrungen bei der Digitalisierung des Archivs der ältesten wissenschaftlichen Gesellschaft Russlands
(15:00) Vera Faßhauer (Frankfurt/Main): Digitale Edition der Tagebücher Johann Christian Senckenbergs
15:40-16.10 Kaffeepause

16:10-19:00 Wissenschaftsgeschichte und Digital Humanities
Chair: Klaus Hentschel (Stuttgart)
(16:10) Toni Bernhart (Stuttgart): 200 Jahre Digital Humanities? Vorläufer, Ausläufer und Irrläufer aus vergangenen Jahrhunderten
(16:50) Marco Büchler (Göttingen): Semantische Erschließung in Big Humanities Data
(17:30-19:00) Round-table (Podiumsdiskussion) zu Perspektiven der Wissenschaftsgeschichte und der Digital Humanities
Heiko Weber (Göttingen) – Moderation
Caroline Sporleder (Göttingen)
Andreas Haka (Stuttgart)
Rudolf Seising (Jena)
Dirk Wintergrün (Berlin)
Gerhard Lauer (Göttingen)
19.30 Gemeinsames Abendessen im „Kartoffelhaus“ Göttingen

Samstag, 9. April 2016

9:00-11:00 Briefeditionen
Chair: Caroline Sporleder (Göttingen)
(9:00) Stefan Dumont (Berlin): correspSearch ? Briefeditionen vernetzen
(9:40) Fritz Nagel (Basel): Die Basler Edition der Bernoulli-Briefwechsel. Vom Nutzen und Nachteil einer Online-Edition
(10:20) Roman Göbel (Jena): Editionsalltag im digitalen Zeitalter – ein Zwischenbericht aus der Edition der Briefe Ernst Haeckels
11:00-11:30 Kaffeepause

11:30-12:00 Digitale Informations- und Wissenssysteme
Chair: Caroline Sporleder (Göttingen)
(12:00) Tobias Winnerling (Düsseldorf): Chambers‘ „Cyclopedia“ als Informationsnetzwerk – und Fallbeispiel für die Lehre
(12.40) Henning Wolf (Göttingen): Die Onlineversion des Frühneuhochdeutschen Wörterbuchs – Grundlagen, Konzeption und Umsetzung
(13:20) Nathalie Mederake / Wiebke Blank / Hans-Joachim Patricke (Göttingen): Das Deutsche Wörterbuch und seine digitalen Hilfsmittel: Hintergründe, Umsetzung und Perspektiven der Nutzbarmachung für die Öffentlichkeit
14:00:-14:15: Schlussworte der Organisatoren
14:15 ENDE DES WORKSHOPS