Digital History 2020 in Göttingen muss leider abgesagt werden. Die Tagung wird voraussichtlich um ein Jahr verschoben! Neuer Termin: 1.-3.3.2021

Print Friendly, PDF & Email
Die Tagung “Digital History. Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften” kann leider aufgrund der aktuellen COVID19 Pandemie nicht wie geplant vom 16.-18.3.2020 stattfinden. Der Krisenstab der Universität Göttingen hat daher die Tagung zu diesem Termin abgesagt. Auch die vorgesehenen Workshops und das Barcamp sind betroffen. Die Veranstalter planen eine Verschiebung, voraussichtlich um etwa 1 Jahr. Wir bedauern diese Entwicklung sehr, aber die aktuelle Situation läßt uns keine andere Wahl.Neuer Termin: 1.-3. März 2021! Save the Date!

Weitere Informationen dann auf der Tagungswebseite: https://digitalhist.hypotheses.org/

CfP: Data for History 2020: Modelling Time, Space, Agents 

Print Friendly, PDF & Email

Data for History 2020: Modelling Time, Space, Agents 

Call for papers

28-29 May 2020, Berlin (Germany)


Participants at the first Data for History workshop – Lyon, 24. November 2017.
(Thomas Hänsli, CC BY-NC-ND 4.0)

The Data for History consortium invites proposals for its first annual conference, which will be held May 28-29, 2020 at the Humboldt University of Berlin.

The effects of the growing integration of digital tools and methods in historical research make the issues of interoperability of data produced in different projects and domains (archives, museums, etc.), and their reuse in the context of open science and FAIR principles (data should be findable, accessible, interoperable and reusable) ever more pressing.

In fact, we are at a turning point in historical research: The change from a primarily analogue based to a primarily digital based working context requires a major reconsideration of the very foundations of our field. Historians have to consciously think through how this change affects their practices and determine the means to best form this new, digital working environment to facilitate the ends of historical research.

This question becomes particularly clear in the context of datafication, the conversion of analogue information into digital data. In this process, fundamental decisions are taken whose outcomes will determine not only the fidelity of the representation of the primary sources but the reusability of that data into the future. Data modelling decisions taken today will deeply shape and affect the kind of research that will or will not be feasible tomorrow. The challenge is, thus, to make modelling choices in such a way that the highest possible degree of data reusability and sustainability can be guaranteed, while respecting the particular source modelled as well as the specific nature of historical data, such as ambiguity, uncertainty, incompleteness, and change over time.

This conference will explore the process of data modelling and its implications for future research practices, focussing on three fundamental categories of historical research: time, space and agents.

In this context, time can be understood as astronomical time, as socially constructed or measured, but also as expressed in the form of temporal relations, events, durations and rhythms, synchronous or asynchronous, etc. The category of space may include concrete physical places, territories and their borders as well as spatial relations and arrangements but also conceptual or imaginary places and mental maps. The concept of agents, meanwhile, may refer to persons, but also groups of persons like families, officeholders or informal communities, as well as institutions and other entities that produce changes over time by taking action.

We are looking for different approaches on how to model these historical fundamentals. We will analyse in depth the use of more or less established models and standards like CIDOC CRM and EDTF, but also want to explore new models, ideas and methods. Moreover, it will be essential to include critical accounts from concrete projects, focussing on the possibilities and limitations of these different methods and approaches.

Overall, the conference aims to build a better insight into current ideas and practices in modelling time, space and agents as historical data and to assess the implications of these choices on the process of historical research and analysis.

We invite historians, computer scientists, data and information specialists, as well as research software engineers, designers and cultural heritage experts working on data modelling for historical sources to present their work at the conference. We welcome presentations regarding theoretical considerations concerning these or related questions, introducing methodologies or presenting case studies on the application of those approaches to concrete research projects and sharing their experiences and challenges.

The conference will be followed by the annual meeting of the Data for History consortium (http://dataforhistory.org/), an international community aiming to establish a common method for modelling, curating and managing data in historical research.

The publication of selected papers is intended.

Submissions

Submissions may include:

  • Papers: 15-minute presentations followed by discussion (abstract 750-1000 words)
  • Posters: Call with selection. Posters already submitted in other conferences (please mention it in the summary) are admitted (abstract 250-500 words)

All proposals should include relevant citations to sources in the appropriate literature. Citations are not to be included in the word count.

Submit a Proposal: https://d4h2020.sciencesconf.org/

Bursaries

The conference organiser will offer a limited number of bursaries for PhD students and early-career scholars presenting at the conference.

Scientific committee

  • Francesco Beretta (CNRS/Université de Lyon)
  • George Bruseker (Takin.solutions)
  • Arianna Ciula (King’s College London)
  • Sebastiaan Derks (Huygens Institute for the History of the Netherlands)
  • Antske Fokkens (VU Amsterdam)
  • Charles van den Heuvel (University of Amsterdam)
  • Solenn Huitric (Université de Lyon)
  • Georg Vogeler (Universität Graz)
  • Torsten Hiltmann (Humboldt-Universität zu Berlin)

 

Important dates

Deadline for submissions: 1 March 2020
Notification of acceptance: 31 March
Camera-ready for the summary: 1 May

Conference: 28/29 May

Conference Venue

Humboldt University of Berlin
Banquet Hall
Luisenstraße 56
10115 Berlin

 

Organisation

Torsten Hiltmann
Professor of Digital History
Institut für Geschichtswissenschaften
Humboldt University of Berlin
Unter den Linden 6
D – 10099 Berlin

 

Francesco Beretta
Head of Digital History Research Team
LARHRA UMR CNRS 5190,
14, Avenue Berthelot
F – 69363 Lyon CEDEX 07

contact: d4h2020@sciencesconf.org

The Reshuffling of Middle Eastern Identities in the Age of Nationalism: Insights from 19th-Century Travelogues, by Deniz Kilincoglu & Jörg Wettlaufer @Vienna

Print Friendly, PDF & Email

Deniz Kilincoglu und ich haben gerade unser Projekt „Travels in the 19th century Ottoman Empire“ auf der Tagung  „On the Way into the Unknown? Comparative Perspectives on the ‚Orient‘ in (Early) Modern Travelogues“ in Wien, die vom 28.-30.11.2019 am Institut für Neuzeit und Zeitgeschichtsforschung der Österreichischen Akademie der Wissenschaften stattfindet, vorgestellt. Hier sind die Folien des zweiten Teil unseres Vortrags, der sich mit den Tools und den Plänen für ein Text Mining Portal für Reiseberichte ins Osmanische Reich im langen 19. Jahrhundert beschäftigt.

“Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften”, Göttingen, 16.-18.3.2020. Vorläufiges Tagungsprogramm #digihist2020.

Print Friendly, PDF & Email

Göttingen, 16.-18.3.2020
SUB Historisches Gebäude, Papendiek 14,
Alfred-Hessel Saal.

Veranstaltet von der AG Digitale Geschichtswissenschaft im VHD; Organisiert von: Karoline Döring, (München); Stefan Haas (Göttingen); Mareike König (Paris), Jörg Wettlaufer (Göttingen); Wissenschaftlicher Beirat: Andreas Fickers, Gudrun Gersmann, Simone Lässig, Malte Rehbein, Patrick Sahle, Charlotte Schubert, Georg Vogeler.

Webseite: https://digitalhist.hypotheses.org/category/programm

Programm (vorläufig)                                                         Stand: 8.6.19

Montag, 16.3.2020

9h00-13h00 Pre-Conference „Hands-On-Programmier-Workshop”

Martin Dröge (Paderborn), Ramon Voges (Leipzig):
Python: Web scraping und Natural Language Processing

13h00-14h00 Mittagspause (Selbstzahler)

14h00 Einleitung und Eröffnung der Tagung

Karoline Döring (München), Stefan Haas (Göttingen), Mareike König (Paris), Jörg Wettlaufer (Göttingen)

14h30-15h30 Eröffnungsvortrag (Keynote)
Thorsten Hiltmann (Münster): Vom Medienwandel zum Methodenwandel. Die Digitalisierung der Geschichtswissenschaft in historischer Perspektive

15h30-16h00 Kaffeepause

16h00-17h30 Panel 1 “Neue Methoden der Digital History I”

Katrin Moeller (Halle-Wittenberg): Die Modellierung des zeitlichen Vergleichs als Kernkompetenz von Digital History im digitalen Methodenturn (Vom vormodernen Stand zum modernen Beruf?)

Leif Scheuermann (Graz): Simulation als historische Methode

Tobias Hodel (Zürich): Die Maschine und die Geschichtswissenschaft:

Einfluss des maschinellen Lernens auf eine Disziplin

17h30-18h00 Pause

18h00 Abendvortrag (Keynote)
Andreas Fickers (Luxembourg): Digitale Hermeneutik und Geschichtswissenschaft

20h00 Empfang

Dienstag, 17.3.2020

9h00-10h30 Panel 2 “Digitale Praktiken in der Reflexion”

Silke Schwandt (Heidelberg): Digital History – Digital Practices. Digitale Praktiken als Selbstreflexion in der Geschichtswissenschaft

Moritz Feichtinger (Zürich): Daten und ihre Basis: Chancen und Probleme beim Umgang mit originär digitalen Quellen

Anna Aschauer/Monika Barget/aap Geraerts/Demival Vasques Filho (Mainz): Datenambiguität und Ergebnistransparenz in historischen Visualisierungsverfahren

10h30-11h00 Kaffeepause

11h00-12h30 Panel 3 “Lehre und Public History”

Lara Mührenberg/Ute Verstegen (Erlangen-Nürnberg): Christliche Archäologie im „inverted classroom“ – Innovative Lehre für die Generation Z

Dr. Hendrikje Carius/Christiane Kuller/Patrick Rössler/René Smolarski, (Erfurt): Aufbau einer projektübergreifenden Citizen-Science-Plattform für die Geisteswissenschaften

Dr. Doris Tausendfreund (Berlin): Narratologie im digitalen Zeitalter, neue Publikationsformen, Public History

12h30-13h30 Mittagspause / Lunch

13h30-15h00 Panel 4 “Neue Methoden der Digital History II”

Christopher Banditt (Potsdam): Die Rekonstruktion der materiellen Ausstattung von Haushalten in Ostdeutschland 1980–2000. Ein Beispiel für quantitative und digitale Methoden in den Geschichtswissenschaften

Florian Windhager/Eva Mayr (Krems)/Matthias Schlögl/Maximilian Kaiser (Wien): Visuelle Analyse und Kuratierung von Biographiedaten

Robert Gramsch-Stehfest/Clemens Beck/Clemens Beckstein/Christian Knüpfer (Jena): Digitale Prosopographie. Automatisierte Auswertung und Netzwerkanalyse eines Quellenkorpus zur Geschichte gelehrter deutscher Eliten des 15. Jahrhunderts

15h00-15h30 Kaffeepause

15h30-16h30 Panel 5 “Digitale Editionen”

Roman Bleier/Christopher Pollin/Georg Vogeler (Graz): „Ich glaube, Fakt ist…“: der geschichtswissenschaftliche Zugang zum Edieren

Tobias Simon/Sven Pagel/Anna-Lena Körfer (Mainz): Modellierung und Vergleich des klassischen und digitalen Editionsprozesses – Ergebnisse aus sechs internationalen Workshops

16h30-17h30 Keynote 3

N.N.: Keynote Digitale Lehre

19:00 Uhr (Abendessen – Selbstzahler)

Mittwoch, 18.3.2020

9h00-10h30 Panel 6 “Geschichtswissenschaft online: Praktiken und Inhaltsanalyse”

Melanie Althage (Münster): Trends und Entwicklungen der historischen Fachkommunikation im Spiegel von H-Soz-Kult

Mareike König (Paris): Die twitternde Zunft: Analyse von Twitterverhalten und Tweets bei den Historikertagen 2012 bis 2018

Oliver Kiechle (Düsseldorf): “One person’s data is another person’s noise.” Flame Wars, SPAM und Bots in Born Digital Sources

10h30-11h00 Kaffeepause

11h00-12h30 Panel 7 “Theorie und Praxis der Visualisierungen und Narrative”

Sarah-Mai Dang (Marburg): Digitale Datenbanken und Narrative in der Filmgeschichtsschreibung

Gerben Zaagsma (Luxembourg): Visualising early music recording landscapes and networks: the case of the Berlin Phonogramm-Archiv

Stefan Haas/Christian Wachter (Göttingen): Visual Heuristics. Mit Datenvisualisierungen das Close Reading vorstrukturieren

12h30-13h30 Mittagspause (Selbstzahler)

13h30-16h30 Barcamp Digital History

13h30-13h45 Begrüßung und Erklärung

13h45-14h00 Vorstellungsrunde

14h00-14h15 Sessionplanung

14h15-15h00 Sessionrunde I

15h00-15h15 Pause

15h15-16h00 Sessionrunde II

16h00-16h45 Sessionrunde III

16h45-17h30 Abschlussdiskussion

Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Print Friendly, PDF & Email

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

CfP: Doctoral Symposium on Research on Online Databases in History (RODBH 2019), April 4th.-5th. 2019 at Leipzig

Print Friendly, PDF & Email

https://pcp-on-web.htwk-leipzig.de/project/page.php?goto=RODBH2019#en

The doctoral symposium deals with research on online databases in the academic field of history. It gathers Ph.D. students from the Humanities, Computer Science and Digital Humanities who are using Semantic Web technologies and are concerned with Ontology building in their projects. The Doctoral Symposium will provide students with:

– a scientific environment within an interdisciplinary and international forum to present their research;
– a discussion platform concerning research and methodologies; and further issues
– an overview of the breadth and depth of Data for History;
– feedback and suggestions from peers and experienced faculty;
– the opportunity to obtain insight into directions for research on online databases in History taken by other doctoral candidates;
– an opportunity to network with peers and future colleagues

The doctoral symposium is hosted by the Leipzig University of Applied Science, Faculty of Informatics and Media (HTWK) as part of the research project “Early Modern Professorial Career Patterns – Methodological research on online databases of academic history”[1], in cooperation with the European Consortium on “Data for History”[2]. A general meeting of the DfH Consortium is part of the workshop and includes the application of “OntoMe – Ontology Management Environment”[3], a platform to design vocabularies using ontologies contributed by the participating Ph.D. students.

Submission, Eligibility and Review Criteria
The paper submission to the doctoral symposium is open only to Doctoral or Ph.D. Students. Accepted papers for the Doctoral Symposium must be presented by the student, for which accommodation and participation are funded by the German Science Foundation (DFG). Travel expenses are reimbursed pro rata.
Submissions will be judged mainly on relevance, originality, technical quality and clarity. Papers must be written in English and be between 4 and 8 pages in length, following the LNI (“Lecture Notes in Informatics”[4]) templates in Word or LaTeX provided by the Gesellschaft für Informatik e.V. . It is planned to publish the peer-reviewed papers.
The contributions may include a vocabulary of the applied research vocabulary under Creative Commons Attribution 4.0 International Public License („Public License“), if available in RDF format. All papers should be submitted using “EasyChair”[5].

Important Dates

  • Paper Submission Deadline: February 15, 2019
  • Notification of acceptance: March 1st, 2019
  • Doctoral Symposium: April 4th to April 5th, 2019

PC-Chair

  • Thomas Riechert (Leipzig University of Applied Sciences, Germany, thomas.riechert@htwk-leipzig.de)
  • Francesco Beretta (CNRS, Le Laboratoire de Recherche Historique Rhône-Alpes, France)
  • George Bruseker (Foundation for Research and Technology – Hellas, Institute of Computer Science, CCI, Greece)

Organizing Committee

  • Edgard Marx (Leipzig University of Applied Sciences, Germany, edgard.marx@htwk-leipzig.de)
  • Jennifer Blanke (Herzog-August Library, Wolfenbüttel, Germany, blanke@hab.de)
  • Vincent Alamercery (École normale supérieure de Lyon, France, vincent.alamercery@ens-lyon.fr)
[1] https://pcp-on-web.htwk-leipzig.de/project/
[2] http://dataforhistory.org/
[3] http://ontologies.dataforhistory.org/
[4] https://gi.de/service/publikationen/lni/
[5] https://easychair.org/cfp/RODBH2019

Digital Humanities Studiengänge in Frankreich…

Print Friendly, PDF & Email

Eine schöne Liste von Studiengängen aus dem Bereich der DH und vor allem auch der Digitalen Geschichtswissenschaft in Frankreich kam gerade über die französische DH mailing Liste „Humanistica“ (die übrigens viel aktiver ist als unsere deutsche DHd Liste!). Gesendet und vermutlich auch zusammengestellt von <s3r3nd1p1t@gmail.com> (= Pierre Bellet). Eine gute Übersicht zu Kursen in ganz Europa bietet auch die Digital Humanities CourseRegistry von DARIAH / CLARIN.

Formations

Ecole nationale des chartes 

Ecole nationale supérieure des sciences de l’information et des bibliothèques 

Ecole normale supérieure de Lyon 

Faculté des lettres et civilisations, Université Jean Moulin – Lyon 3 

Institut de la communication, Université Lumière – Lyon 2 

Institut des Technosciences de l’Information et de la Communication, Université Paul Valéry Montpellier 3 

UFR centre d’études supérieures de la Renaissance, Université de Tours 

UFR de lettres et sciences humaines, Université de Rouen Normandie 

  • Humanités et Mondes numériques

http://lsh.univ-rouen.fr/master-humanites-numeriques-humanites-et-monde-numerique-543132.kjsp

UFR Mathématiques, informatique, technologies, sciences de l’information et de la communication, Université Vincennes-Saint-Denis 

UFR 10 Philosophie, Université Panthéon-Sorbonne 

  • Mégadonnées et analyse sociale (medas)

https://www.pantheonsorbonne.fr/fileadmin/UFR10/master_2_Recherche/MEDAS.pdf

UFR sciences des territoires et de la communication, Université Bordeaux Montaigne 

  • Dispositifs numériques éducatifs
  • Conception de projets numériques et multiplateformes
  • Document numérique et humanités digitales

http://www.u-bordeaux-montaigne.fr/_resources/ODF-Documents/Plaquettes-com/2016-2021/STC/STC_Masters/master-humanites-numeriques-u-bordeaux-montaigne.pdf?download=true

UFR Sciences sociales, Université Rennes 2 

Master en bi-diplomation :

  • Master « Arts plastiques »
  • Master « Design »
  • Master « Histoire, sciences sociales »
  • Master « Littérature Générale et Comparée »
  • Master « Linguistique et didactique des langues »

https://sites-formations.univ-rennes2.fr/master-humanitesnumeriques/wp-content/uploads/2017/03/Humanit%C3%A9s_num%C3%A9riques-V1-2.pdf
https://sites-formations.univ-rennes2.fr/master-humanitesnumeriques/presentation/

Université Paris Sciences et Lettres, Université Paris Sciences et Lettres 

  • Master « Humanités Numériques »

Tagung: „Histoire, langues et textométrie“, 16.-18. Januar 2019, Paris

Print Friendly, PDF & Email

Ich möchte auf diese interessante Tagung, die im Januar in Paris an der Sorbonne I stattfindet, hinweisen, die eine äußerst spannende Thematik an der Schnittstelle zwischen Geschichtswissenschaft, Sprache und text mining bespielt. Mehr Informationen gibt es unter dem folgenden Link:

„On January 16-18 2019, the Pireh (Pôle informatique de Recherche et d’Enseignement en Histoire – Université Paris 1) is organizing at the Sorbonne a conference on the relationships between History, language and text analysis.

The goal of this conference is to explore the present uses of statistical and computational analysis of texts in history. Recent intellectual and technical developments invite us to rethink and redefine the way these tools can be used by historians, whether for combining history and linguistics, exploring or mining massive textual sources, or for enriching more traditional historical methods.

We hope the conference will lead to fruitful discussions between historians of all periods, and more broadly between the disciplines interested in text analysis (linguistics, sociology, literary studies, mathematics, computer sciences, etc.).“

Hands on „Open Semantic (Desktop) Search“

Print Friendly, PDF & Email

Seit einigen Monaten beschäftige ich mich im Kontext der Digitalen Geschichtswissenschaft intensiver mit einem Softwarebundle mit dem Namen Open Semantic (Desktop) Search (OSDS) und möchte meine Erfahrungen gerne teilen. Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß.

Der Entwickler hinter OSDS ist Markus Mandalka, der sich selber als Journalist und Informatiker bezeichnet. Auf seiner Homepage stellt er sich als politisch eher links orientiert dar – ein Detail, das mir sein Softwarebundle noch sympathischer macht. Zwar bin ich als Historiker mit Spezialisierung auf das späte Mittelalter nicht so auf Datenschutz, Privatheit und Anonymität aus, wie das im investigativen Journalismus der Fall sein mag, aber es schadet natürlich auch nicht, dass Markus Mandalka sein Softwarebundle auch als verschlüsseltes und auf USB-Stick betreibbares Livesystem unter dem Namen InvestigateIX anbietet. Ich beschäftige mich im folgenden aber nur mit den drei! anderen Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Beide Varianten sind relativ aktuell (Juli bzw. August 2018). Das Projekt selber scheint seit drei oder vier Jahren zu bestehen. Das alleine ist schon eine Leistung für ein Softwarepaket des Umfangs und der Leistensfähigkeit von OSDS, das von nur einer Person gepflegt und weiterentwickelt wird.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine (manuelle) Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres habe ich bislang noch nicht ausprobiert – ich beschränke meinen Bericht daher auf die ersten beiden Varianten, die komfortabel in Virtual Box laufen.

Bevor wir zur eigentlichen Installation kommen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem sehr viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Auf einem immerhin mit 8GB ausgstatteten Notebook mit Doppelkernprozessor der Core Duo Reihe ist es mir nicht mehr gelungen, in vertretbaren Zeiten einen Index zu produzieren. Allerdings waren meine Testdaten auch recht umfangreich (25 GB PDF Dateien mit zehntausenden von Seiten). Alternativ kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage durchrödeln lassen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

Bericht DHd 2018 Köln „Kritik der digitalen Vernunft“, 26.2.-2.3. #dhd2018

Print Friendly, PDF & Email

Köln ist eine schöne Stadt! Und wenn die Jahrestagung des Vereins Digital Humanities im deutschsprachigen Raum dort stattfindet, ist sie noch schöner! Eine Woche lange stand die Kölner Universität im Zeichen des Themas „Kritik der Digitalen Vernunft„. Über 600 Teilnehmerinnen und Teilnehmer aus der Schweiz, Österreich und Deutschland waren zusammengekommen. Viele ließen sich auch von der grassierenden Grippewelle nicht abhalten… und wurden mit einer insgesamt perfekt organisierten Tagung belohnt, die nicht nur bei der Teilnehmerzahl sondern auch im Abendprogramm neue Maßstäbe setzte. Aber dazu später.

http://dhd2018.uni-koeln.de/wp-content/uploads/dhd2018_logo.png

Der DHd Verein ist noch verhältnismäßig jung. Um so bemerkenswerter ist der stete Zuspruch, den die Digital Humanities bislang erhalten. Die Mitgliederzahl des Vereins ist inzwischen auf über 300 Personen gestiegen und es gibt eine Vielzahl von Arbeitsgruppen, die tatsächlich auch etwas arbeiten. In wiss. Vereinen ist das nicht immer selbstverständlich. Die Tagung begann am Montag Mittag mit Workshops. Am Dienstag abend begann mit einem Vortrag von Sybille Krämer (Berlin) das Hauptprogramm. Sie sprach über den „Stachel des Digitalenein Anreiz zur Selbstreflektion in den Geisteswissenschaften?“. Generalthema und Keynotes der Tagung waren nicht zufällig philosophisch angehaucht: Lokaler Organisator war Andreas Speer, seit 2004 Professor der Philosophie an der Universität zu Köln und Direktor des dortigen Thomas-Instituts. Tatkräftig unterstützt wurde er von Patrick Sahle und dem gesamten Team des CCeH. Auch die Abschlußkeynote am Freitagnachmittag von Michael Sperberg-McQueen, einem Urgestein der digitalen Geisteswissenschaften, stieß mit „Kritik der digitalen Vernunft“ in das selbe kantianische Horn. Dazwischen lagen drei ereignisreiche Tage, deren über 60 Vorträge sich in vier parallelen Sessions über die Zuhörer ergossen.

Man kann nur berichten, was man gehört und gesehen hat, also beschränke ich mich schon aus praktischen Gründen darauf. Verschweigen will ich aber auch nicht, was ich gefühlt habe (tagsüber, in den Hörsälen): nämlich Kälte! Nun wird es am Niederrhein bekanntlich nie wirklich kalt (ausser in dieser Woche eben), aber falls es zutreffen sollte, dass das Hörsaalgebäude tatsächlich nicht über eine Heizungsanlage verfügt, dann kann daran nur der Kölner Klüngel Schuld sein, denn ansonsten machten mir die Kölner insgesamt einen recht vernünftigen, ja lebensfrohen Eindruck. Unerklärlich hingegen bleibt die wohl absichtliche Verweigerung von Strom und Steckdosen bei den vorgeschalteten Workshops. Ich selber musste einen sehr spannenden (und leider etwas zu klein geplanten, da sehr nachgefragten) Workshop zu wikidata im Übungsteil abbrechen, da meinem inzwischen betagten Notebook der Saft ausging. Und es ging mir nicht alleine so! Am bemerkenswertesten war aber die Begründung, die uns im ersten Workshop am Montag „Suche und Visualisierung von Annotationen historischer Korpora mit ANNIS“ mit Carolin Odebrecht und KollegInnen mitgeteilt wurde: die Universität zu Köln wolle keine Stromanschlüsse zur Verfügung stellen, da dies den Stromverbrauch ungebührlich erhöhen würde…. Wenn die Univerwaltung tatsächlich so argumentierte, dann würde sich hier doch in einzigartiger Weise ein für die Region Niederrhein untypischer Geiz mit Unvernunft paaren (denn ökologische Argumente können wir wohl ausschließen). Der Tagungsleitung und dem Organisationsteam ist dieser Schildbürgerstreich nicht anzulasten – vielmehr liegt hier das Problem wie so häufig bei der Verwaltung der Universitäten, und zwar vermutlich (hoffentlich) in den unteren Etagen…

Nun zum Inhalt. Der dritte Workshop, den ich besuchte, war dem Thema „Research Software Engineering und Digital Humanities“ gewidmet. Mit über hundert TeilnehmerInnen war das schon eine größere Veranstaltung und es war sicher klug, sich für die Diskussionen in Untergruppen aufzuteilen. Erst kürzlich hat sich eine Gruppe fächerübergreifend zu diesem Thema gegründet: de-RSE.org, die von Stefan Janosch (MPI-CBG) vorgestellt wurde. Insgesamt ist eine Diskussion über die Professionalisierung  der Softwareentwicklung in den DH sehr zu begrüßen, eben weil dies nicht zur originären Ausbildung von GeisteswissenschaftlerInnen gehört. Bei den Vorträgen und Panels gab es wie immer Licht und Schatten, obwohl mir das Niveau insgesamt diesmal erfreulich hoch erschien. Ich wende mich mal dem überwiegenden Licht zu. Da sind zunächst die Tracks, die sich durch das Programm zogen und strukturierten: Sitzungen zu Visualisierung, Theorie der digitalen Geisteswissenschaften, Textmining, Sammlungsdigitalisierung, Digitale Literaturwissenschaft, Computer Vision, Digitale Rekonstruktion, Sentimentanalyse, Softwareentwicklung, Annotation, Semantische Analyse sowie Panels zu Historischen Grundwissenschaften, Sprachanalyse, Wissenschaftsorganisation und Forschungsdaten. Zusammen boten sie ein breites Bild der aktuellen Forschungslandschaft und ermöglichten, sich spezifischen Interessengebieten zuzuwenden. Besonders am Herzen lagen mir die Panels zu Forschungsdaten. Das eine von DARIAH/CLARIN , das andere von der AG Datenzentren ausgerichtet. Beide fanden nacheinander am Donnerstagnachmittag statt und waren gute besucht. DARIAH/CLARIN hatte sich als Thema „Gute Forschungsdaten, bessere Forschung: wie Forschung durch
Forschungsdatenmanagement  unterstützt wird“ gewählt und das Datenzentrumspanel, organisiert von Katrin Moeller (Halle-Wittenberg) stand ganz im Zeichen der Frage nach den Standards und ihrer Einbettung in die Fachwissenschaften „Die Summe geisteswissenschaftlicher Methoden? Fachspezifisches Datenmanagement als Voraussetzung zukunftsorientierten Forschens“. Im Zuge des NFDI Prozesses zur Schaffung einer Nationalen Forschungsdateninfrastruktur legen sich alle Beteiligten zurzeit mächtig ins Zeug, um Teil einer föderierten Struktur zu werden. Die Forschungsinfrastrukturen und Datenzentren zeigen sich dazu gut gerüstet.

Besonders spannend fand ich persönlich den Vortrag „Das neue ‚Gesetz zur Angleichung des Urheberrechts an die aktuellen Erfordernisse der Wissensgesellschaft‘ und seine Auswirkungen für Digital Humanities“ am Donnerstag Vormittag. Just am 1.3. trat das neue Gesetz in Kraft und so war dieser Beitrag zum einen hochaktuell und zugleich sehr informativ.

Vielleicht hätte es gelohnt, etwas ausführlicher zu diskutieren, wie sich die Politik eine digitale Nutzung von Werken (keine Veröffentlichung!) für die eigene! wissenschaftliche Forschung im Umfang von bis zu 75% vorstellt. Sollen wir in Zukunft die letzten 25% eines Werkes einfach nicht mehr rezipieren? Oder vielleicht am Ende eines Textes nur noch Lore ipsum Seiten drucken, um diese unsinnige Bestimmung auszuhebeln? Insgesamt sind das Gesetz und die Wissenschaftsschranke sicher ein Schritt in die richtige Richtung, aber gut gemeint ist bekanntlich nicht immer ausreichend. So wird es jedenfalls nichts mit der exzellenten Forschung im internationalen Vergleich in Deutschland. Da schaffen wir maximal 75% Exzellenz!

„Data Models for Digital Editions: Complex XML versus Graph Structures“, so lautete ein Vortrag von Daniel Bruder und Simone Teufel, der ein wichtiges Problem in den DH adressierte, dem meiner Meinung nach zu wenig Aufmerksamkeit geschenkt wird. XML aus Auszeichnungssprache mit ihrem streng hierarchischen Baum wird in manchen Fällen der Komplexität geisteswissenschaftlicher Beschreibungstiefe nicht gerecht. Andere, z.B. Graph- bzw. RDF basierte Formen könnten langfristig besser geeignet sein, tiefe Annotation – vielleicht ja sogar über eine gemeinsame ontologische Basis(?) – zu repräsentieren. Posterslam und Postersession sind inzwischen etablierte Präsentationsformen auch in den Geisteswissenschaften. Ihnen war der Donnerstagnachmittag gewidmet, der mit einem Empfang schloss, bei dem man die Poster anschauen und diskutieren konnte. Kulturelles Highlight war aber sicher der für Mittwochabend angesetzte Fightclub, in dem vier prominente „KontrahentInnen“ (Henning Lobin, Heike Zinsmeister, Hubertus Kohle, Mareike König) mit Gedichten und coolen Sprüchen gegeneinander antraten und für eine gelungene Mischung aus Unterhaltung und Reflektion über das eigene Tun sorgten. Anschliessend wurde bis tief in die Nacht getanzt… Mehr dazu auf Twitter, immer unter dem Hashtag #dhd2018.

Bleibt der Blick in die Zukunft. Die nächste DHd  findet 2019 in Mainz und Frankfurt statt, also gar nicht so weit vom diesjährigen Austragungsort. Die Latte hängt hoch, aber die  nächsten Gastgeber sind gut gerüstet für diese Aufgabe und haben schon ein Boot organisiert, um die TeilnehmerInnen sicher und stilvoll von einem Ort an den anderen zu bringen….