Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

CfP: Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften, Göttingen, 16.-18. März 2020

Veranstaltet von der AG Digitale Geschichtswissenschaft im VHD
Organisiert von: Karoline Döring, (München); Stefan Haas (Göttingen); Mareike König (Paris), Jörg Wettlaufer (Göttingen)
Wissenschaftlicher Beirat: Andreas Fickers, Gudrun Gersmann, Simone Lässig,  Malte Rehbein, Patrick Sahle, Charlotte Schubert, Georg Vogeler

Deadline: für die Einreichung von Vorschlägen (eine PDF-Datei) 15.4.2019
Mailadresse: digihist@digihum.de
Termin der Tagung: 16.-18. März 2020
Ort: Göttingen, SUB Historisches Gebäude, Papendiek 14, Alfred-Hessel Saal.

Die historische Forschung und Lehre haben sich in den letzten Jahren durch die Digitalisierung von Quellen, Methoden und Forschungsumgebungen, innerhalb derer Geschichtswissenschaft durchgeführt, produziert, diskutiert und verbreitet wird, tiefgreifend verändert. Massendigitalisierungsprojekte ermöglichen einen zeit- und ortsunabhängigen Zugang zu Quellen und Literatur. Kommerzielle und OpenSource-Programme stehen bereit, um mittels qualitativer und/oder quantitativer Datenanalyse verschiedene methodische Verfahren zur Analyse und Interpretation dieser Quellen anzuwenden. Die Fachinformation hat sich überwiegend ins Netz verlagert und schließt partizipative Medien ein. Die Bandbreite an digitalen Lehrmethoden hat stark zugenommen, während die Online-Präsentation von Forschungsergebnissen und Citizen-Science-Projekten den Dialog und das aktive Einbinden der breiten Öffentlichkeit in den Forschungsprozess ermöglichen. Lehrstühle zur Digital History werden eingerichtet, die Historikertage haben selbstverständlich digitale Sektionen und fast jedes neue Forschungsprojekt hat einen (wenn auch manchmal kleinen) digitalen Anteil.

By Martin Grandjean – Grandjean, Martin (2014). „La connaissance est un réseau“. Les Cahiers du Numérique 10 (3): 37-54. DOI:10.3166/LCN.10.3.37-54., CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=293646

Doch auch wenn sich die Digital History einen zunehmend respektablen Platz im Fach erworben hat, bleibt sie in den Augen vieler ein “ewiges Versprechen” (Cameron Blevins 2016). Hier möchte die Tagung “Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften” ansetzen und eine Bilanz ziehen, indem sie  Veränderungen in der Art und Weise, wie die Geschichtsforschung durchgeführt und kommuniziert wird, auf der einen Seite und neue Objekte, Methoden und Werkzeuge der Analyse und ihre Auswirkungen auf der anderen Seite thematisiert. Die Tagung ist themen- und epochenübergreifend. Drei große Themenbereiche werden dabei diskutiert:

  • Zum ersten soll anhand von Forschungsprojekten das Potential digitaler Methoden ausgelotet und kritisch beleuchtet werden. Der Fokus liegt dabei auf dem Beitrag, den digitale Methoden für die Entwicklung von historischen Argumenten und Interpretationen leisten können.
  • Zum zweiten wird danach gefragt, wie sich geschichtswissenschaftliche Forschung, ihre Themen, Praktiken sowie Kommunikations- und Publikationskulturen im digitalen Zeitalter verändern und wie das Verhältnis von digitalen und klassisch hermeneutischen Methoden neu zu bestimmen ist.
  • Und zum dritten werden Auswirkungen des digitalen Wandels für den wissenschaftlichen Nachwuchs, für die Lehre und für die Forschungsförderung in den Geschichtswissenschaften thematisiert.

Damit sollen Konzepte zum Umgang mit Digitalität und der digitalen Transformation aufgezeigt, der Ort digitaler Methoden innerhalb der Geschichtswissenschaften neu bestimmt und aktuelle wie zukünftige Arbeitsfelder digitaler Geschichte erkundet werden. Wir streben einen kritischen Dialog von digital arbeitenden und nicht-digital arbeitenden Wissenschaftlerinnen und Wissenschaftlern an, die zum selben Thema forschen. Um Potentiale und Grenzen der digitalen Methoden zu entdecken, sehen wir insbesondere zu den methodischen Vorträgen Respondenten vor, die die Vorträge kritisch kommentieren.

Die Tagung ist auf zweieinhalb Tage angelegt und beginnt am Montag, den 16.3.2020 Nachmittags. Der Tagung vorgeschaltet ist ein halbtägiger Hands-On-Workshop, der sich der Anwendung einer digitalen Methode und Basis-Programmierkenntnisse für die geschichtswissenschaftliche Forschung widmet. Ein halber Tag wird als BarCamp veranstaltet, bei dem Teilnehmerinnen und Teilnehmer vor Ort selbst über zu diskutierende Themen entscheiden.

Weiterlesen