„Digital History“ 2021 #digigw21 und Start der Workshop-Reihe „Digitales Praxislabor Geschichtswissenschaft“ #digigprx21

Print Friendly, PDF & Email

Am Donnerstag, dem 25.2.2021, ist im Rahmen der gerade laufenden Tagung Digital History 2021 eine Reihe von Workshops gestartet, die uns nun bis zum Sommer trägt. Marina Lemaire und Katrin Moeller aus der AG Digitale Geschichtswissenschaft im VHD haben die Reihe zusammen mit NFDI4memory organisiert und alle Informationen dazu finden sich auf der Seite:

Workshopreihe „Digitales Praxislabor Geschichtswissenschaft“ #digigprx21

Hier ein kurzer Blick auf das spannende Programm:

Weiterlesen

CFP: Fifth Annual Conference on Digital Humanities and Digital History at the German Historical Institute Washington DC, December 9-11, 2021 (Deadline April 1)

Print Friendly, PDF & Email

Das Thema der diesjährigen Digital HistoryTagung am GHI lautet: „Datafication in the Historical Humanities: Reconsidering Traditional Understandings of Sources and Data“. Workshop und Tagung werden vom GHI in Zusammenarbeit mit dem C2DH, dem Lehrstuhl für Digital History an der HU Berlin sowie dem NFDI Konsortium NFDI4Memory, dem Roy Rosenzweig Centre for History and New Media sowie dem Department of History an der Stanford University organisert. Damit ist so ziemlich alles genannt, was Rang und Namen in den Digitalen Geschichtswissenschaften in Deutschland, Luxemburg und den USA hat. Das erzeugt Erwartungen und weckt Vorfreude. Alle Informationen und den Call findet man unter:

https://www.ghi-dc.org/events/event/date/datafication-in-the-historical-humanities-reconsidering-traditional-understandings-of-sources-and-data

Die Tagung soll je nach Corona-Situation klassisch vor Ort (mit Reisestipendien), hybrid oder ganz virtuell stattfinden. Der Termin ist allerdings fix.

Für die Tagung wird die Spannung zwischen dem historischen Quellenbegriff und der Datenzentrierung der Digital Humanities thematisiert bzw. instrumentalisiert. Dabei wird das Fehlen eines weithin akzeptierten konzeptionellen Frameworks für die Modellierung und Kuratierung von Daten in der Digital History konstatiert. An dieser Stelle ist vielleicht ein Hinweis auf die Data for History Initiative ( http://dataforhistory.org/ ) angebracht, die seit 2017 (u.a. vorbereitet durch den Workshop „Semantic Web Applications in the Humanities“ in Göttingen 2012 und 2015) versucht, z.B. das CIDOC-CRM in eben diese Richtung zu erweitern und für die Historischen Wissenschaften nutzbar zu machen. Jedenfalls ist es zutreffend, dass eine solche Konzeptionalisierung immer kulturgebunden ist und ein generalisierendes Modell dem Rechnung tragen müsste. Insgesamt ein sehr spannendes Thema, das interessante Diskussionen erwarten läßt.

Virtuelle Konferenz „nachhaltig digital – digital nachhaltig“ mit Panel „Nachhaltige Digitale (Geistes)Wissenschaft“ am 4.12.20 um 16:00-17:30 Uhr!

Print Friendly, PDF & Email

 

Virtuelle Konferenz mit 10 Webinaren in Kooperation von Universität Göttingen, Vereinigung Deutscher Wissenschaftler e.V. (VDW) und Stiftung Adam von Trott.

Es ist höchste Zeit, Digitalisierung und Nachhaltigkeit im Zusammenhang zu betrachten und ihr spannungsreiches Verhältnis mit Wissenschaft und Öffentlichkeit gemeinsam zu diskutieren. Die interdisziplinäre virtuelle Konferenz „nachhaltig digital – digital nachhaltig“ am 4./5. Dezember 2020 in der Reihe „Wissenschaft für Frieden und Nachhaltigkeit“ von Universität Göttingen, Vereinigung Deutscher Wissenschaftler e.V. (VDW) und Stiftung Adam von Trott lädt dazu ein.

Den Einführungsvortrag hält der Techniksoziologe Felix Sühlmann-Faul. Mitdiskutieren kann man in zehn virtuellen Workshops (Webinare). Thematisiert werden aktuelle Entdeckungen und neu entstehende Potenziale in Wissenschaft und Technologie für eine nachhaltige Entwicklung in den Bereichen Mobilität, Energie, Landwirtschaft, Forst, Künstliche Intelligenz und den Geisteswissenschaften. Ein weiterer Schwerpunkt liegt auf gesellschaftlichen Prozessen, die durch die Digitalisierung ganz wesentlich verändert werden. Die Themen reichen hier von der Veränderung der Arbeitswelt, Demokratisierungsprozessen und dem massiven wirtschaftlichen Strukturwandel bis hin zum neuen Digital Education Action Plan der EU und Gamification.

Am 4. Dezember startet um 16:00 Uhr das Panel „Nachhaltige Digitale (Geistes)Wissenschaft„. Die Geisteswissenschaften nehmen seit geraumer Zeit an der digitalen Transformation von Wissenschaft und Gesellschaft teil. Mit großen Erwartungen und auch finanziellem Aufwand werden Forschungsumgebungen und Repositorien gefördert, die die Arbeit in den Geisteswissenschaften teilweise eine neue Qualität verleihen. Aber wie steht es mit der Nachhaltigkeit dieser Forschungsinfrastrukturen? Führen die Projektförderungen im Zusammenhang mit rasant schnellen Entwicklungen in der angewandten Informatik und die dem Digitalen immanente Immaterialität zu einer Situation, in der viele Ressourcen schneller wieder verschwinden als sie entstehen? Welche Rolle spielt die Nationale Forschungsdaten Infrastruktur (NFDI) in diesem Zusammenhang und welche Konzepte haben ihre Konsortien, um eine nachhaltige Bereitstellung der Forschungsdaten und digitalen Ressourcen zu gewährleisten? Diese und weitere Fragen sollen im Rahmen des Workshops diskutiert und erörtert werden.

Moderation
Dr. Jörg Wettlaufer, Akademie der Wissenschaften zu Göttingen

Impulse
Prof. Dr. York Sure-Vetter, Direktor Nationale Forschungsdaten Infrastruktur (NFDI) / Karlsruher Institut für Technologie

Dr. Christian Hänger, Bundesarchiv

Dr. Klaus Schindel, Bundesministerium für Bildung und Forschung

Prof. Dr. Patrick Sahle, Bergische Universität Wuppertal

Die gesamte Veranstaltung findet als Videokonferenz (Zoom) statt und steht allen Interessierten ohne Teilnahmegebühr offen. Mehr Informationen zum Programm und zur Anmeldung auch für einzelene Workshops auf
www.uni-goettingen.de/nachhaltigkeitskonferenz.

 

Kontakt

Georg-August-Universität Göttingen | Abteilung Öffentlichkeitsarbeit | Benjamin Bühring | Wilhelmsplatz 1 | D-37073 Göttingen | benjamin.buehring@zvw.uni-goettingen.de
www.uni-goettingen.de/nachhaltigkeitskonferenz

Die Konferenzreihe „Wissenschaft für Frieden und Nachhaltigkeit“ wird von der Universität Göttingen seit 2012 in Kooperation mit der Vereinigung Deutscher Wissenschaflter e.V. (VDW) und der Stiftung Adam von Trott, Imshausen e.V. organisiert. Sie hat zum Ziel einen Dialog zwischen Wissenschaft und allgemeiner Öffentlichkeit über gesellschaftlich relevante Themen zu ermöglichen.

Conference: Virtual Research Environments and Ancient Manuscripts 10-11 September 2020

Print Friendly, PDF & Email

A conference on Virtual Research Environments and Ancient Manuscripts is held virtually on September 10th and 11th 2020. The conference focus is on Virtual Research Environments (VRE), especially in Early Jewish and Christian Literature, New Testament, and Classical Studies. Participation is possible through writing an Email to Claire Clivaz, one of the organizers. Here is a link with a brief description of the aims and  the program. See https://claireclivaz.hypotheses.org/930

 

Digital History 2020 in Göttingen muss leider abgesagt werden. Die Tagung wird voraussichtlich um ein Jahr verschoben! Neuer Termin: 1.-3.3.2021

Print Friendly, PDF & Email
Die Tagung “Digital History. Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften” kann leider aufgrund der aktuellen COVID19 Pandemie nicht wie geplant vom 16.-18.3.2020 stattfinden. Der Krisenstab der Universität Göttingen hat daher die Tagung zu diesem Termin abgesagt. Auch die vorgesehenen Workshops und das Barcamp sind betroffen. Die Veranstalter planen eine Verschiebung, voraussichtlich um etwa 1 Jahr. Wir bedauern diese Entwicklung sehr, aber die aktuelle Situation läßt uns keine andere Wahl.Neuer Termin: 1.-3. März 2021! Save the Date!

Weitere Informationen dann auf der Tagungswebseite: https://digitalhist.hypotheses.org/

CfP: Data for History 2020: Modelling Time, Space, Agents 

Print Friendly, PDF & Email

Data for History 2020: Modelling Time, Space, Agents 

Call for papers

28-29 May 2020, Berlin (Germany)


Participants at the first Data for History workshop – Lyon, 24. November 2017.
(Thomas Hänsli, CC BY-NC-ND 4.0)

The Data for History consortium invites proposals for its first annual conference, which will be held May 28-29, 2020 at the Humboldt University of Berlin.

The effects of the growing integration of digital tools and methods in historical research make the issues of interoperability of data produced in different projects and domains (archives, museums, etc.), and their reuse in the context of open science and FAIR principles (data should be findable, accessible, interoperable and reusable) ever more pressing.

In fact, we are at a turning point in historical research: The change from a primarily analogue based to a primarily digital based working context requires a major reconsideration of the very foundations of our field. Historians have to consciously think through how this change affects their practices and determine the means to best form this new, digital working environment to facilitate the ends of historical research.

This question becomes particularly clear in the context of datafication, the conversion of analogue information into digital data. In this process, fundamental decisions are taken whose outcomes will determine not only the fidelity of the representation of the primary sources but the reusability of that data into the future. Data modelling decisions taken today will deeply shape and affect the kind of research that will or will not be feasible tomorrow. The challenge is, thus, to make modelling choices in such a way that the highest possible degree of data reusability and sustainability can be guaranteed, while respecting the particular source modelled as well as the specific nature of historical data, such as ambiguity, uncertainty, incompleteness, and change over time.

This conference will explore the process of data modelling and its implications for future research practices, focussing on three fundamental categories of historical research: time, space and agents.

In this context, time can be understood as astronomical time, as socially constructed or measured, but also as expressed in the form of temporal relations, events, durations and rhythms, synchronous or asynchronous, etc. The category of space may include concrete physical places, territories and their borders as well as spatial relations and arrangements but also conceptual or imaginary places and mental maps. The concept of agents, meanwhile, may refer to persons, but also groups of persons like families, officeholders or informal communities, as well as institutions and other entities that produce changes over time by taking action.

We are looking for different approaches on how to model these historical fundamentals. We will analyse in depth the use of more or less established models and standards like CIDOC CRM and EDTF, but also want to explore new models, ideas and methods. Moreover, it will be essential to include critical accounts from concrete projects, focussing on the possibilities and limitations of these different methods and approaches.

Overall, the conference aims to build a better insight into current ideas and practices in modelling time, space and agents as historical data and to assess the implications of these choices on the process of historical research and analysis.

We invite historians, computer scientists, data and information specialists, as well as research software engineers, designers and cultural heritage experts working on data modelling for historical sources to present their work at the conference. We welcome presentations regarding theoretical considerations concerning these or related questions, introducing methodologies or presenting case studies on the application of those approaches to concrete research projects and sharing their experiences and challenges.

The conference will be followed by the annual meeting of the Data for History consortium (http://dataforhistory.org/), an international community aiming to establish a common method for modelling, curating and managing data in historical research.

The publication of selected papers is intended.

Submissions

Submissions may include:

  • Papers: 15-minute presentations followed by discussion (abstract 750-1000 words)
  • Posters: Call with selection. Posters already submitted in other conferences (please mention it in the summary) are admitted (abstract 250-500 words)

All proposals should include relevant citations to sources in the appropriate literature. Citations are not to be included in the word count.

Submit a Proposal: https://d4h2020.sciencesconf.org/

Bursaries

The conference organiser will offer a limited number of bursaries for PhD students and early-career scholars presenting at the conference.

Scientific committee

  • Francesco Beretta (CNRS/Université de Lyon)
  • George Bruseker (Takin.solutions)
  • Arianna Ciula (King’s College London)
  • Sebastiaan Derks (Huygens Institute for the History of the Netherlands)
  • Antske Fokkens (VU Amsterdam)
  • Charles van den Heuvel (University of Amsterdam)
  • Solenn Huitric (Université de Lyon)
  • Georg Vogeler (Universität Graz)
  • Torsten Hiltmann (Humboldt-Universität zu Berlin)

 

Important dates

Deadline for submissions: 1 March 2020
Notification of acceptance: 31 March
Camera-ready for the summary: 1 May

Conference: 28/29 May

Conference Venue

Humboldt University of Berlin
Banquet Hall
Luisenstraße 56
10115 Berlin

 

Organisation

Torsten Hiltmann
Professor of Digital History
Institut für Geschichtswissenschaften
Humboldt University of Berlin
Unter den Linden 6
D – 10099 Berlin

 

Francesco Beretta
Head of Digital History Research Team
LARHRA UMR CNRS 5190,
14, Avenue Berthelot
F – 69363 Lyon CEDEX 07

contact: d4h2020@sciencesconf.org

The Reshuffling of Middle Eastern Identities in the Age of Nationalism: Insights from 19th-Century Travelogues, by Deniz Kilincoglu & Jörg Wettlaufer @Vienna

Print Friendly, PDF & Email

Deniz Kilincoglu und ich haben gerade unser Projekt „Travels in the 19th century Ottoman Empire“ auf der Tagung  „On the Way into the Unknown? Comparative Perspectives on the ‚Orient‘ in (Early) Modern Travelogues“ in Wien, die vom 28.-30.11.2019 am Institut für Neuzeit und Zeitgeschichtsforschung der Österreichischen Akademie der Wissenschaften stattfindet, vorgestellt. Hier sind die Folien des zweiten Teil unseres Vortrags, der sich mit den Tools und den Plänen für ein Text Mining Portal für Reiseberichte ins Osmanische Reich im langen 19. Jahrhundert beschäftigt.

“Digital History: Konzepte, Methoden und Kritiken digitaler Geschichtswissenschaften”, Göttingen, 16.-18.3.2020. Vorläufiges Tagungsprogramm #digihist2020.

Print Friendly, PDF & Email

Göttingen, 16.-18.3.2020
SUB Historisches Gebäude, Papendiek 14,
Alfred-Hessel Saal.

Veranstaltet von der AG Digitale Geschichtswissenschaft im VHD; Organisiert von: Karoline Döring, (München); Stefan Haas (Göttingen); Mareike König (Paris), Jörg Wettlaufer (Göttingen); Wissenschaftlicher Beirat: Andreas Fickers, Gudrun Gersmann, Simone Lässig, Malte Rehbein, Patrick Sahle, Charlotte Schubert, Georg Vogeler.

Webseite: https://digitalhist.hypotheses.org/category/programm

Programm (vorläufig)                                                         Stand: 8.6.19

Montag, 16.3.2020

9h00-13h00 Pre-Conference „Hands-On-Programmier-Workshop”

Martin Dröge (Paderborn), Ramon Voges (Leipzig):
Python: Web scraping und Natural Language Processing

13h00-14h00 Mittagspause (Selbstzahler)

14h00 Einleitung und Eröffnung der Tagung

Karoline Döring (München), Stefan Haas (Göttingen), Mareike König (Paris), Jörg Wettlaufer (Göttingen)

14h30-15h30 Eröffnungsvortrag (Keynote)
Thorsten Hiltmann (Münster): Vom Medienwandel zum Methodenwandel. Die Digitalisierung der Geschichtswissenschaft in historischer Perspektive

15h30-16h00 Kaffeepause

16h00-17h30 Panel 1 “Neue Methoden der Digital History I”

Katrin Moeller (Halle-Wittenberg): Die Modellierung des zeitlichen Vergleichs als Kernkompetenz von Digital History im digitalen Methodenturn (Vom vormodernen Stand zum modernen Beruf?)

Leif Scheuermann (Graz): Simulation als historische Methode

Tobias Hodel (Zürich): Die Maschine und die Geschichtswissenschaft:

Einfluss des maschinellen Lernens auf eine Disziplin

17h30-18h00 Pause

18h00 Abendvortrag (Keynote)
Andreas Fickers (Luxembourg): Digitale Hermeneutik und Geschichtswissenschaft

20h00 Empfang

Dienstag, 17.3.2020

9h00-10h30 Panel 2 “Digitale Praktiken in der Reflexion”

Silke Schwandt (Heidelberg): Digital History – Digital Practices. Digitale Praktiken als Selbstreflexion in der Geschichtswissenschaft

Moritz Feichtinger (Zürich): Daten und ihre Basis: Chancen und Probleme beim Umgang mit originär digitalen Quellen

Anna Aschauer/Monika Barget/aap Geraerts/Demival Vasques Filho (Mainz): Datenambiguität und Ergebnistransparenz in historischen Visualisierungsverfahren

10h30-11h00 Kaffeepause

11h00-12h30 Panel 3 “Lehre und Public History”

Lara Mührenberg/Ute Verstegen (Erlangen-Nürnberg): Christliche Archäologie im „inverted classroom“ – Innovative Lehre für die Generation Z

Dr. Hendrikje Carius/Christiane Kuller/Patrick Rössler/René Smolarski, (Erfurt): Aufbau einer projektübergreifenden Citizen-Science-Plattform für die Geisteswissenschaften

Dr. Doris Tausendfreund (Berlin): Narratologie im digitalen Zeitalter, neue Publikationsformen, Public History

12h30-13h30 Mittagspause / Lunch

13h30-15h00 Panel 4 “Neue Methoden der Digital History II”

Christopher Banditt (Potsdam): Die Rekonstruktion der materiellen Ausstattung von Haushalten in Ostdeutschland 1980–2000. Ein Beispiel für quantitative und digitale Methoden in den Geschichtswissenschaften

Florian Windhager/Eva Mayr (Krems)/Matthias Schlögl/Maximilian Kaiser (Wien): Visuelle Analyse und Kuratierung von Biographiedaten

Robert Gramsch-Stehfest/Clemens Beck/Clemens Beckstein/Christian Knüpfer (Jena): Digitale Prosopographie. Automatisierte Auswertung und Netzwerkanalyse eines Quellenkorpus zur Geschichte gelehrter deutscher Eliten des 15. Jahrhunderts

15h00-15h30 Kaffeepause

15h30-16h30 Panel 5 “Digitale Editionen”

Roman Bleier/Christopher Pollin/Georg Vogeler (Graz): „Ich glaube, Fakt ist…“: der geschichtswissenschaftliche Zugang zum Edieren

Tobias Simon/Sven Pagel/Anna-Lena Körfer (Mainz): Modellierung und Vergleich des klassischen und digitalen Editionsprozesses – Ergebnisse aus sechs internationalen Workshops

16h30-17h30 Keynote 3

N.N.: Keynote Digitale Lehre

19:00 Uhr (Abendessen – Selbstzahler)

Mittwoch, 18.3.2020

9h00-10h30 Panel 6 “Geschichtswissenschaft online: Praktiken und Inhaltsanalyse”

Melanie Althage (Münster): Trends und Entwicklungen der historischen Fachkommunikation im Spiegel von H-Soz-Kult

Mareike König (Paris): Die twitternde Zunft: Analyse von Twitterverhalten und Tweets bei den Historikertagen 2012 bis 2018

Oliver Kiechle (Düsseldorf): “One person’s data is another person’s noise.” Flame Wars, SPAM und Bots in Born Digital Sources

10h30-11h00 Kaffeepause

11h00-12h30 Panel 7 “Theorie und Praxis der Visualisierungen und Narrative”

Sarah-Mai Dang (Marburg): Digitale Datenbanken und Narrative in der Filmgeschichtsschreibung

Gerben Zaagsma (Luxembourg): Visualising early music recording landscapes and networks: the case of the Berlin Phonogramm-Archiv

Stefan Haas/Christian Wachter (Göttingen): Visual Heuristics. Mit Datenvisualisierungen das Close Reading vorstrukturieren

12h30-13h30 Mittagspause (Selbstzahler)

13h30-16h30 Barcamp Digital History

13h30-13h45 Begrüßung und Erklärung

13h45-14h00 Vorstellungsrunde

14h00-14h15 Sessionplanung

14h15-15h00 Sessionrunde I

15h00-15h15 Pause

15h15-16h00 Sessionrunde II

16h00-16h45 Sessionrunde III

16h45-17h30 Abschlussdiskussion

Workshop: Text Mining mit Open Semantic (Desktop) Search – eine digitale Such- und Annotationsumgebung für informationsgetriebene Fragestellungen in den Geisteswissenschaften. DHd 2019, Mainz, 25.3.19.

Print Friendly, PDF & Email

Am 25.3.19  findet ein Workshop zu Open Semantic (Desktop) Search (OSDS) auf der DHd in Mainz statt. We are so exited :-). Er basiert auf dem Hands On, der auf dem Historikertag 2018 in Münster durchgeführt wurde. Dieser Blogbeitrag leitet durch die Installation von OSDS und stellt Nutzungsbeispiele vor.

Die zugehörigen Slides für den Workshop finden Sie hier.

Zunächst einmal – worum handelt es sich? OSDS ist eine freie Software, die nur aus Open Source Bestandteilen zusammengestellt wurde und auf dieser Grundlage als Donationware weiter entwickelt wird. Das Projekt stammt aus dem Journalismus und spezieller aus dem Bereich des investigativen Journalismus, der sich heutzutage mit teilweise riesigen Datenmengen (Stichwort: Panama Papers) auseinander setzen muß/möchte.

Der Entwickler hinter OSDS ist Markus Mandalka, der den Workshop mit ausrichtet und in den letzten Tagen auch ein neues Release von OSDS vorbereitet hatte. Open Semantic Search kann man auf der oben verlinkten Seite von Markus Mandalka in drei Varianten, die er über die Webseite www.opensemanticssearch.org und ein dazugehöriges github-repository anbietet, herunterladen:

1. Open Semantic Desktop Search

2. Open Semantic Search Appliance

3. Open Semantic Search Server (Package)

Paket 1 ist eine VM Appliance, die man mit Oracle Virtual Box laden und lokal auf einem Rechner betreiben kann. Für den Workshop wurde die VM auf den aktuellen Stand von Virtual Box (6.0.4.) angepaßt. Die Appliance wird in zwei Varianten zum Download angeboten: einmal mit englischen und einmal mit deutschen Keyboard Settings. Die deutsche Version wurde vor kurzem aktualisiert (08.04.19). Die anderen Versionen sind teilweise noch auf dem Stand von Dezember 2018. Für den workshop nutzen wir die aktuelle deutsche Version.

Die zweite Variante ist ebenfalls eine Appliance, die ebenfalls unter Oracle Virtual Box läuft, aber nur einen Server als localhost bereit stellt. Dort fehlt der „Desktop“ im Debian Linux, auf dem beide Distributionen aufsetzen. Wie das so bei virutuellen Maschinen für Virtual Box üblich sind, bringen die Appliances ein gewisses Gewicht auf die Waage. Die OSDS Version schlägt mit etwa 3GB zu Buche, die Servervariante OSS mit (nur) 1.8 GB. Das dritte Paket (OSSS) ist mit etwa 300 MB am Leichtgewichtigsten, aber erwartet natürlich auch eine Installation und vor allem Konfiguration auf einem Debian oder Ubuntu basierten System. Letzteres haben wir inzwischen ausprobiert und es hat auch gut funktioniert: https://teaching.gcdh.de/search/ .

Bevor wir zur mit der Installation von OSDS beginnen, vorab noch einige Informationen zum Leistungsumfang des Pakets und warum es sich überhaupt lohnt, sich damit zu beschäftigen. Kernstück der Enterprise Suchmaschine ist ein Lucene SOLR Indexer (Elastic Search ist ebenfalls verwendbar), mit dem recht beliebige Dokumente indexiert werden können. Die enthaltenen Informationen werden damit als Keyword im Kontext findbar und referenzierbar. Aber OSDS ist noch wesentlich mehr. In dem Paket ist auch ein sogenanntes Open Semantic ETL (Extract-Transform-Load) Framework integriert, in dem die Texte für die Extraktion, Integration, die Analyse und die Anreicherung vorbereitet werden. Es handelt sich um eine Pipeline, die einem sehr viel von Arbeit hinsichtlich der Bereitstellung der Texte für den Indexer abnimmt. Wer mit Lucene/Solr arbeitet weiß, wie viel Zeit die Aufbereitung der Daten in der Regel beansprucht. OSDS nimmt einem viel davon ab und kümmert sich nach dem Prinzip eines überwachten Ordners um sämtliche Schritte, die von der Extraktion über die linguistische Analyse bis zur Anreicherung mit weiteren Metadaten notwendig sind. Schliesslich stellt das Paket auch einen Webservice (Rest-API) für die maschinelle Kommunikation sowie ein durchdachtes User Interface zur Verfügung, mit dem die Suchmaschine bedient, konfiguriert und natürlich auch durchsucht werden kann. Die facettierte Suche spielt dabei eine besondere Rolle, da die Facetten mehr oder weniger automatisch aus der linguistischen Analyse der Texte und auf der Grundlage von  (konfigurierbaren) Namen Entities (Personen, Orte, Organisationen etc.) gebildet werden. Entsprechend sind auch die Hauptfunktionen des Softwarepakets angelegt: Sucheninterface, ein Thesaurus für Named Entities, Extraktion von Entitäten in neu zugefügten Texten, eine listenbasierte Suche sowie eine Indexfunktion, die den Aufbau des Suchindex neu anstößt. Und das alles in einem einfach zu bedienden Userinterface, das mit der Maus bedient werden kann.

Wer nun neugierig oder enthusiastisch geworden ist, dem sei gesagt, dass es wie meist im Leben einen Wermutstropfen gibt: insbesondere OSDS aber auch OSS brauchen gewisse Ressourcen, um ihre Arbeit effizient verrichten zu können. Als Mindestausstattung für einen Betrieb unter Orcale Virtual Box gebe ich 8 GB RAM und (der Größe des Projekts entsprechend) ausreichend Speicherplatz auf einer SSD an. Eventuell kann man sich, bei schwacher Hardware, eines Tricks bedienen und den Index auf einer schnellen Maschine (aktueller Mehrkernprozessor mit möglichst üppigem RAM) erstellen lassen und dann beides (Appliance und Solr-Index) auf das betreffende Gerät zurückspielen. Meist reicht dann die Performance, um zumindest die Suchfunktionalität auch auf schwächerer Hardware zu ermöglichen. Ein weiterer Ressourcenfresser beim Anlegen des Index ist OCR. OSDS hat Tesseract als eigene OCR Egine inkl. (hört hört) Frakturerkennung! integriert. Wenn man seine PDF Dokumente aber vor der Indexierung erst noch mit der OCR behandelt, kann man den Rechner bei entsprechender Materialfülle gerne mal ein oder zwei Tage beschäftigen, bevor sich (hoffentlich) ein brauchbares Ergebnis zeigt. Daher rate ich (ebenso wie der Entwickler es tut) dazu, OCR erst mal abzustellen, wenn man es nicht unbedingt braucht (geht im Konfigurationsmenue) und den Index zunächst mal nur mit schon vorhandenen Textlayern oder am besten mit Dokumenten zu füttern, die eh nur aus Text bestehen. Dabei ist die Suchmaschine recht offen für Formate und bringt eine Menge Filter mit, die den Text extrahieren können (hier mal die Liste von der Webseite kopiert: text files, Word and other Microsoft Office documents or OpenOffice documents, Excel or LibreOffice Calc tables, PDF, E-Mail, CSV, doc, images, photos, pictures, JPG, TIFF, videos and many other file formats). Im Hintergrund werkelt hier natürlich Apache Tika.

Weiterlesen

CfP: Doctoral Symposium on Research on Online Databases in History (RODBH 2019), April 4th.-5th. 2019 at Leipzig

Print Friendly, PDF & Email

https://pcp-on-web.htwk-leipzig.de/project/page.php?goto=RODBH2019#en

The doctoral symposium deals with research on online databases in the academic field of history. It gathers Ph.D. students from the Humanities, Computer Science and Digital Humanities who are using Semantic Web technologies and are concerned with Ontology building in their projects. The Doctoral Symposium will provide students with:

– a scientific environment within an interdisciplinary and international forum to present their research;
– a discussion platform concerning research and methodologies; and further issues
– an overview of the breadth and depth of Data for History;
– feedback and suggestions from peers and experienced faculty;
– the opportunity to obtain insight into directions for research on online databases in History taken by other doctoral candidates;
– an opportunity to network with peers and future colleagues

The doctoral symposium is hosted by the Leipzig University of Applied Science, Faculty of Informatics and Media (HTWK) as part of the research project “Early Modern Professorial Career Patterns – Methodological research on online databases of academic history”[1], in cooperation with the European Consortium on “Data for History”[2]. A general meeting of the DfH Consortium is part of the workshop and includes the application of “OntoMe – Ontology Management Environment”[3], a platform to design vocabularies using ontologies contributed by the participating Ph.D. students.

Submission, Eligibility and Review Criteria
The paper submission to the doctoral symposium is open only to Doctoral or Ph.D. Students. Accepted papers for the Doctoral Symposium must be presented by the student, for which accommodation and participation are funded by the German Science Foundation (DFG). Travel expenses are reimbursed pro rata.
Submissions will be judged mainly on relevance, originality, technical quality and clarity. Papers must be written in English and be between 4 and 8 pages in length, following the LNI (“Lecture Notes in Informatics”[4]) templates in Word or LaTeX provided by the Gesellschaft für Informatik e.V. . It is planned to publish the peer-reviewed papers.
The contributions may include a vocabulary of the applied research vocabulary under Creative Commons Attribution 4.0 International Public License („Public License“), if available in RDF format. All papers should be submitted using “EasyChair”[5].

Important Dates

  • Paper Submission Deadline: February 15, 2019
  • Notification of acceptance: March 1st, 2019
  • Doctoral Symposium: April 4th to April 5th, 2019

PC-Chair

  • Thomas Riechert (Leipzig University of Applied Sciences, Germany, thomas.riechert@htwk-leipzig.de)
  • Francesco Beretta (CNRS, Le Laboratoire de Recherche Historique Rhône-Alpes, France)
  • George Bruseker (Foundation for Research and Technology – Hellas, Institute of Computer Science, CCI, Greece)

Organizing Committee

  • Edgard Marx (Leipzig University of Applied Sciences, Germany, edgard.marx@htwk-leipzig.de)
  • Jennifer Blanke (Herzog-August Library, Wolfenbüttel, Germany, blanke@hab.de)
  • Vincent Alamercery (École normale supérieure de Lyon, France, vincent.alamercery@ens-lyon.fr)
[1] https://pcp-on-web.htwk-leipzig.de/project/
[2] http://dataforhistory.org/
[3] http://ontologies.dataforhistory.org/
[4] https://gi.de/service/publikationen/lni/
[5] https://easychair.org/cfp/RODBH2019