The Reshuffling of Middle Eastern Identities in the Age of Nationalism: Insights from 19th-Century Travelogues, by Deniz Kilincoglu & Jörg Wettlaufer @Vienna

Deniz Kilincoglu und ich haben gerade unser Projekt „Travels in the 19th century Ottoman Empire“ auf der Tagung  „On the Way into the Unknown? Comparative Perspectives on the ‚Orient‘ in (Early) Modern Travelogues“ in Wien, die vom 28.-30.11.2019 am Institut für Neuzeit und Zeitgeschichtsforschung der Österreichischen Akademie der Wissenschaften stattfindet, vorgestellt. Hier sind die Folien des zweiten Teil unseres Vortrags, der sich mit den Tools und den Plänen für ein Text Mining Portal für Reiseberichte ins Osmanische Reich im langen 19. Jahrhundert beschäftigt.

Stellenangebote am Institut für Digital Humanities in Göttingen

Ich möchte auf zwei Stellenangebote am Institut für Digital Humanties in Göttingen hinweisen, für die man sich ab sofort und bis spätestens 17.09.2019 bewerben kann:

1. 

wissenschaftliche_r Mitarbeiter_in (w/m/d)

mit 100 % der regelmäßigen wöchentlichen Arbeitszeit (zzt. 39,5 Stunden/Woche) befristet für die Dauer von zunächst drei Jahren zu besetzen. Die Entgeltzahlung erfolgt nach Entgeltgruppe 13 TV-L.

Ihre Aufgaben
– Mitwirkung am Forschungsprojekt „EGRAPHSEN“ (s. https://www.uni-goettingen.de/de/598165.html)
– Mitwirkung an den Lehrveranstaltungen gem. § 31 NHG und bei der Studienberatung
– Mitarbeit bei der Verwaltung der Studiengänge sowie von Bibliothek und e-Learning-Angeboten
– Eigene Forschung

Ihr Profil
– abgeschlossenes wissenschaftliches Hochschulstudium in Klassischer Archäologie, bevorzugt mit Promotion
– Bereitschaft, eine Qualifikationsarbeit mit einem Thema aus dem Bereich der Digitalen Vasenforschung anzufertigen
– einschlägige Sprachkenntnisse in Englisch

Vollständige Ausschreibung unter: https://www.uni-goettingen.de/de/305402.html?cid=14556

2.

wissenschaftliche_r Mitarbeiter_in (w/m/d)

mit 65 % der regelmäßigen wöchentlichen Arbeitszeit (zzt. 25,87 Stunden/Woche) befristet für die Dauer von zunächst drei Jahren zu besetzen. Die Entgeltzahlung erfolgt nach Entgeltgruppe 13 TV-L.

Ihre Aufgaben
– Mitwirkung an den Lehrveranstaltungen gem. § 31 NHG und bei der Studienberatung
– Mitarbeit bei der Verwaltung der Studiengänge sowie von Bibliothek und e-Learning-Angeboten
– Unterstützung bei den anfallenden IT-Aufgaben
– Mitarbeit an Forschungsprojekten der Abteilung „Bild und Objekt“
– Eigene Forschung zur Anfertigung einer Dissertation

Ihr Profil
– abgeschlossenes wissenschaftliches Hochschulstudium in Informatik oder in einer Bildwissenschaft (Klassische Archäologie, Kunstgeschichte, etc.)
– Erfahrungen im Bereich der Digital Humanities
– Bereitschaft, eine Qualifikationsarbeit in einem Thema aus dem Bereich der Digitalen Bild- und Objektwissenschaft anzufertigen
– einschlägige Sprachkenntnisse in Englisch

Vollständige Ausschreibung unter: https://www.uni-goettingen.de/de/305402.html?cid=14555

“Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften”, Göttingen, 16.-18.3.2020. Vorläufiges Tagungsprogramm #digihist2020.

Göttingen, 16.-18.3.2020
SUB Historisches Gebäude, Papendiek 14,
Alfred-Hessel Saal.

Veranstaltet von der AG Digitale Geschichtswissenschaft im VHD; Organisiert von: Karoline Döring, (München); Stefan Haas (Göttingen); Mareike König (Paris), Jörg Wettlaufer (Göttingen); Wissenschaftlicher Beirat: Andreas Fickers, Gudrun Gersmann, Simone Lässig, Malte Rehbein, Patrick Sahle, Charlotte Schubert, Georg Vogeler.

Webseite: https://digitalhist.hypotheses.org/category/programm

Programm (vorläufig)                                                         Stand: 8.6.19

Montag, 16.3.2020

9h00-13h00 Pre-Conference „Hands-On-Programmier-Workshop”

Martin Dröge (Paderborn), Ramon Voges (Leipzig):
Python: Web scraping und Natural Language Processing

13h00-14h00 Mittagspause (Selbstzahler)

14h00 Einleitung und Eröffnung der Tagung

Karoline Döring (München), Stefan Haas (Göttingen), Mareike König (Paris), Jörg Wettlaufer (Göttingen)

14h30-15h30 Eröffnungsvortrag (Keynote)
Thorsten Hiltmann (Münster): Vom Medienwandel zum Methodenwandel. Die Digitalisierung der Geschichtswissenschaft in historischer Perspektive

15h30-16h00 Kaffeepause

16h00-17h30 Panel 1 “Neue Methoden der Digital History I”

Katrin Moeller (Halle-Wittenberg): Die Modellierung des zeitlichen Vergleichs als Kernkompetenz von Digital History im digitalen Methodenturn (Vom vormodernen Stand zum modernen Beruf?)

Leif Scheuermann (Graz): Simulation als historische Methode

Tobias Hodel (Zürich): Die Maschine und die Geschichtswissenschaft:

Einfluss des maschinellen Lernens auf eine Disziplin

17h30-18h00 Pause

18h00 Abendvortrag (Keynote)
Andreas Fickers (Luxembourg): Digitale Hermeneutik und Geschichtswissenschaft

20h00 Empfang

Dienstag, 17.3.2020

9h00-10h30 Panel 2 “Digitale Praktiken in der Reflexion”

Silke Schwandt (Heidelberg): Digital History – Digital Practices. Digitale Praktiken als Selbstreflexion in der Geschichtswissenschaft

Moritz Feichtinger (Zürich): Daten und ihre Basis: Chancen und Probleme beim Umgang mit originär digitalen Quellen

Anna Aschauer/Monika Barget/aap Geraerts/Demival Vasques Filho (Mainz): Datenambiguität und Ergebnistransparenz in historischen Visualisierungsverfahren

10h30-11h00 Kaffeepause

11h00-12h30 Panel 3 “Lehre und Public History”

Lara Mührenberg/Ute Verstegen (Erlangen-Nürnberg): Christliche Archäologie im „inverted classroom“ – Innovative Lehre für die Generation Z

Dr. Hendrikje Carius/Christiane Kuller/Patrick Rössler/René Smolarski, (Erfurt): Aufbau einer projektübergreifenden Citizen-Science-Plattform für die Geisteswissenschaften

Dr. Doris Tausendfreund (Berlin): Narratologie im digitalen Zeitalter, neue Publikationsformen, Public History

12h30-13h30 Mittagspause / Lunch

13h30-15h00 Panel 4 “Neue Methoden der Digital History II”

Christopher Banditt (Potsdam): Die Rekonstruktion der materiellen Ausstattung von Haushalten in Ostdeutschland 1980–2000. Ein Beispiel für quantitative und digitale Methoden in den Geschichtswissenschaften

Florian Windhager/Eva Mayr (Krems)/Matthias Schlögl/Maximilian Kaiser (Wien): Visuelle Analyse und Kuratierung von Biographiedaten

Robert Gramsch-Stehfest/Clemens Beck/Clemens Beckstein/Christian Knüpfer (Jena): Digitale Prosopographie. Automatisierte Auswertung und Netzwerkanalyse eines Quellenkorpus zur Geschichte gelehrter deutscher Eliten des 15. Jahrhunderts

15h00-15h30 Kaffeepause

15h30-16h30 Panel 5 “Digitale Editionen”

Roman Bleier/Christopher Pollin/Georg Vogeler (Graz): „Ich glaube, Fakt ist…“: der geschichtswissenschaftliche Zugang zum Edieren

Tobias Simon/Sven Pagel/Anna-Lena Körfer (Mainz): Modellierung und Vergleich des klassischen und digitalen Editionsprozesses – Ergebnisse aus sechs internationalen Workshops

16h30-17h30 Keynote 3

N.N.: Keynote Digitale Lehre

19:00 Uhr (Abendessen – Selbstzahler)

Mittwoch, 18.3.2020

9h00-10h30 Panel 6 “Geschichtswissenschaft online: Praktiken und Inhaltsanalyse”

Melanie Althage (Münster): Trends und Entwicklungen der historischen Fachkommunikation im Spiegel von H-Soz-Kult

Mareike König (Paris): Die twitternde Zunft: Analyse von Twitterverhalten und Tweets bei den Historikertagen 2012 bis 2018

Oliver Kiechle (Düsseldorf): “One person’s data is another person’s noise.” Flame Wars, SPAM und Bots in Born Digital Sources

10h30-11h00 Kaffeepause

11h00-12h30 Panel 7 “Theorie und Praxis der Visualisierungen und Narrative”

Sarah-Mai Dang (Marburg): Digitale Datenbanken und Narrative in der Filmgeschichtsschreibung

Gerben Zaagsma (Luxembourg): Visualising early music recording landscapes and networks: the case of the Berlin Phonogramm-Archiv

Stefan Haas/Christian Wachter (Göttingen): Visual Heuristics. Mit Datenvisualisierungen das Close Reading vorstrukturieren

12h30-13h30 Mittagspause (Selbstzahler)

13h30-16h30 Barcamp Digital History

13h30-13h45 Begrüßung und Erklärung

13h45-14h00 Vorstellungsrunde

14h00-14h15 Sessionplanung

14h15-15h00 Sessionrunde I

15h00-15h15 Pause

15h15-16h00 Sessionrunde II

16h00-16h45 Sessionrunde III

16h45-17h30 Abschlussdiskussion

Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

CfP: Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften, Göttingen, 16.-18. März 2020

Veranstaltet von der AG Digitale Geschichtswissenschaft im VHD
Organisiert von: Karoline Döring, (München); Stefan Haas (Göttingen); Mareike König (Paris), Jörg Wettlaufer (Göttingen)
Wissenschaftlicher Beirat: Andreas Fickers, Gudrun Gersmann, Simone Lässig,  Malte Rehbein, Patrick Sahle, Charlotte Schubert, Georg Vogeler

Deadline: für die Einreichung von Vorschlägen (eine PDF-Datei) 15.4.2019
Mailadresse: digihist@digihum.de
Termin der Tagung: 16.-18. März 2020
Ort: Göttingen, SUB Historisches Gebäude, Papendiek 14, Alfred-Hessel Saal.

Die historische Forschung und Lehre haben sich in den letzten Jahren durch die Digitalisierung von Quellen, Methoden und Forschungsumgebungen, innerhalb derer Geschichtswissenschaft durchgeführt, produziert, diskutiert und verbreitet wird, tiefgreifend verändert. Massendigitalisierungsprojekte ermöglichen einen zeit- und ortsunabhängigen Zugang zu Quellen und Literatur. Kommerzielle und OpenSource-Programme stehen bereit, um mittels qualitativer und/oder quantitativer Datenanalyse verschiedene methodische Verfahren zur Analyse und Interpretation dieser Quellen anzuwenden. Die Fachinformation hat sich überwiegend ins Netz verlagert und schließt partizipative Medien ein. Die Bandbreite an digitalen Lehrmethoden hat stark zugenommen, während die Online-Präsentation von Forschungsergebnissen und Citizen-Science-Projekten den Dialog und das aktive Einbinden der breiten Öffentlichkeit in den Forschungsprozess ermöglichen. Lehrstühle zur Digital History werden eingerichtet, die Historikertage haben selbstverständlich digitale Sektionen und fast jedes neue Forschungsprojekt hat einen (wenn auch manchmal kleinen) digitalen Anteil.

By Martin Grandjean – Grandjean, Martin (2014). „La connaissance est un réseau“. Les Cahiers du Numérique 10 (3): 37-54. DOI:10.3166/LCN.10.3.37-54., CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=293646

Doch auch wenn sich die Digital History einen zunehmend respektablen Platz im Fach erworben hat, bleibt sie in den Augen vieler ein “ewiges Versprechen” (Cameron Blevins 2016). Hier möchte die Tagung “Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften” ansetzen und eine Bilanz ziehen, indem sie  Veränderungen in der Art und Weise, wie die Geschichtsforschung durchgeführt und kommuniziert wird, auf der einen Seite und neue Objekte, Methoden und Werkzeuge der Analyse und ihre Auswirkungen auf der anderen Seite thematisiert. Die Tagung ist themen- und epochenübergreifend. Drei große Themenbereiche werden dabei diskutiert:

  • Zum ersten soll anhand von Forschungsprojekten das Potential digitaler Methoden ausgelotet und kritisch beleuchtet werden. Der Fokus liegt dabei auf dem Beitrag, den digitale Methoden für die Entwicklung von historischen Argumenten und Interpretationen leisten können.
  • Zum zweiten wird danach gefragt, wie sich geschichtswissenschaftliche Forschung, ihre Themen, Praktiken sowie Kommunikations- und Publikationskulturen im digitalen Zeitalter verändern und wie das Verhältnis von digitalen und klassisch hermeneutischen Methoden neu zu bestimmen ist.
  • Und zum dritten werden Auswirkungen des digitalen Wandels für den wissenschaftlichen Nachwuchs, für die Lehre und für die Forschungsförderung in den Geschichtswissenschaften thematisiert.

Damit sollen Konzepte zum Umgang mit Digitalität und der digitalen Transformation aufgezeigt, der Ort digitaler Methoden innerhalb der Geschichtswissenschaften neu bestimmt und aktuelle wie zukünftige Arbeitsfelder digitaler Geschichte erkundet werden. Wir streben einen kritischen Dialog von digital arbeitenden und nicht-digital arbeitenden Wissenschaftlerinnen und Wissenschaftlern an, die zum selben Thema forschen. Um Potentiale und Grenzen der digitalen Methoden zu entdecken, sehen wir insbesondere zu den methodischen Vorträgen Respondenten vor, die die Vorträge kritisch kommentieren.

Die Tagung ist auf zweieinhalb Tage angelegt und beginnt am Montag, den 16.3.2020 Nachmittags. Der Tagung vorgeschaltet ist ein halbtägiger Hands-On-Workshop, der sich der Anwendung einer digitalen Methode und Basis-Programmierkenntnisse für die geschichtswissenschaftliche Forschung widmet. Ein halber Tag wird als BarCamp veranstaltet, bei dem Teilnehmerinnen und Teilnehmer vor Ort selbst über zu diskutierende Themen entscheiden.

Weiterlesen

CfP: Doctoral Symposium on Research on Online Databases in History (RODBH 2019), April 4th.-5th. 2019 at Leipzig

https://pcp-on-web.htwk-leipzig.de/project/page.php?goto=RODBH2019#en

The doctoral symposium deals with research on online databases in the academic field of history. It gathers Ph.D. students from the Humanities, Computer Science and Digital Humanities who are using Semantic Web technologies and are concerned with Ontology building in their projects. The Doctoral Symposium will provide students with:

– a scientific environment within an interdisciplinary and international forum to present their research;
– a discussion platform concerning research and methodologies; and further issues
– an overview of the breadth and depth of Data for History;
– feedback and suggestions from peers and experienced faculty;
– the opportunity to obtain insight into directions for research on online databases in History taken by other doctoral candidates;
– an opportunity to network with peers and future colleagues

The doctoral symposium is hosted by the Leipzig University of Applied Science, Faculty of Informatics and Media (HTWK) as part of the research project “Early Modern Professorial Career Patterns – Methodological research on online databases of academic history”[1], in cooperation with the European Consortium on “Data for History”[2]. A general meeting of the DfH Consortium is part of the workshop and includes the application of “OntoMe – Ontology Management Environment”[3], a platform to design vocabularies using ontologies contributed by the participating Ph.D. students.

Submission, Eligibility and Review Criteria
The paper submission to the doctoral symposium is open only to Doctoral or Ph.D. Students. Accepted papers for the Doctoral Symposium must be presented by the student, for which accommodation and participation are funded by the German Science Foundation (DFG). Travel expenses are reimbursed pro rata.
Submissions will be judged mainly on relevance, originality, technical quality and clarity. Papers must be written in English and be between 4 and 8 pages in length, following the LNI (“Lecture Notes in Informatics”[4]) templates in Word or LaTeX provided by the Gesellschaft für Informatik e.V. . It is planned to publish the peer-reviewed papers.
The contributions may include a vocabulary of the applied research vocabulary under Creative Commons Attribution 4.0 International Public License („Public License“), if available in RDF format. All papers should be submitted using “EasyChair”[5].

Important Dates

  • Paper Submission Deadline: February 15, 2019
  • Notification of acceptance: March 1st, 2019
  • Doctoral Symposium: April 4th to April 5th, 2019

PC-Chair

  • Thomas Riechert (Leipzig University of Applied Sciences, Germany, thomas.riechert@htwk-leipzig.de)
  • Francesco Beretta (CNRS, Le Laboratoire de Recherche Historique Rhône-Alpes, France)
  • George Bruseker (Foundation for Research and Technology – Hellas, Institute of Computer Science, CCI, Greece)

Organizing Committee

  • Edgard Marx (Leipzig University of Applied Sciences, Germany, edgard.marx@htwk-leipzig.de)
  • Jennifer Blanke (Herzog-August Library, Wolfenbüttel, Germany, blanke@hab.de)
  • Vincent Alamercery (École normale supérieure de Lyon, France, vincent.alamercery@ens-lyon.fr)
[1] https://pcp-on-web.htwk-leipzig.de/project/
[2] http://dataforhistory.org/
[3] http://ontologies.dataforhistory.org/
[4] https://gi.de/service/publikationen/lni/
[5] https://easychair.org/cfp/RODBH2019

Digital Humanities Studiengänge in Frankreich…

Eine schöne Liste von Studiengängen aus dem Bereich der DH und vor allem auch der Digitalen Geschichtswissenschaft in Frankreich kam gerade über die französische DH mailing Liste „Humanistica“ (die übrigens viel aktiver ist als unsere deutsche DHd Liste!). Gesendet und vermutlich auch zusammengestellt von <s3r3nd1p1t@gmail.com> (= Pierre Bellet). Eine gute Übersicht zu Kursen in ganz Europa bietet auch die Digital Humanities CourseRegistry von DARIAH / CLARIN.

Formations

Ecole nationale des chartes 

Ecole nationale supérieure des sciences de l’information et des bibliothèques 

Ecole normale supérieure de Lyon 

Faculté des lettres et civilisations, Université Jean Moulin – Lyon 3 

Institut de la communication, Université Lumière – Lyon 2 

Institut des Technosciences de l’Information et de la Communication, Université Paul Valéry Montpellier 3 

UFR centre d’études supérieures de la Renaissance, Université de Tours 

UFR de lettres et sciences humaines, Université de Rouen Normandie 

  • Humanités et Mondes numériques

http://lsh.univ-rouen.fr/master-humanites-numeriques-humanites-et-monde-numerique-543132.kjsp

UFR Mathématiques, informatique, technologies, sciences de l’information et de la communication, Université Vincennes-Saint-Denis 

UFR 10 Philosophie, Université Panthéon-Sorbonne 

  • Mégadonnées et analyse sociale (medas)

https://www.pantheonsorbonne.fr/fileadmin/UFR10/master_2_Recherche/MEDAS.pdf

UFR sciences des territoires et de la communication, Université Bordeaux Montaigne 

  • Dispositifs numériques éducatifs
  • Conception de projets numériques et multiplateformes
  • Document numérique et humanités digitales

http://www.u-bordeaux-montaigne.fr/_resources/ODF-Documents/Plaquettes-com/2016-2021/STC/STC_Masters/master-humanites-numeriques-u-bordeaux-montaigne.pdf?download=true

UFR Sciences sociales, Université Rennes 2 

Master en bi-diplomation :

  • Master « Arts plastiques »
  • Master « Design »
  • Master « Histoire, sciences sociales »
  • Master « Littérature Générale et Comparée »
  • Master « Linguistique et didactique des langues »

https://sites-formations.univ-rennes2.fr/master-humanitesnumeriques/wp-content/uploads/2017/03/Humanit%C3%A9s_num%C3%A9riques-V1-2.pdf
https://sites-formations.univ-rennes2.fr/master-humanitesnumeriques/presentation/

Université Paris Sciences et Lettres, Université Paris Sciences et Lettres 

  • Master « Humanités Numériques »

Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen