Abstracts

Making notes, reading annotations: Thoughts on a coupling, with examples

Willard McCarty

In Marking the Mind: A History of Memory, historian of psychology Kurt Danziger shows in great detail how persistent the ancient Greek metaphor of the storehouse of memory has been, from the dusty repository of fragmentary recollections, through the public speaker’s projection of reminders into the external setting of his performance, to notes on screen and, yes, Powerpoint slides. Based on very good neurophysiological research, we now think rather differently. In the early 20th Century, Sir Frederick Bartlett presciently insisted that we speak of remembering, not memory, anticipating the current idea that memories are assembled, revised and enriched from traces in the brain. The importance of all this for our subject, annotation, is the implication that in marking the world with our thoughts (on scraps of paper, an app on a mobile phone etc.) we are thinking with whatever affordances the world provides. For our subject the challenging word there, in italics, is ‘whatever’. Annotating is a humble subject because it is marginal, dependent on or preliminary to that which is being annotated; for that reason it has tended to be overlooked. It is humbling to the designer of tools because its forms, to be good designs, must fit the often unfavourable situations, variable and fluctuating practices and never quite satisfactory affordances for note-taking – and these are indefinitely many. Simplicity is strongly recommended but very hard to achieve.

Annotations are not just for writing

Mark Hall

The Text Encoding Initiative's (TEI) primary focus is defined in its name and tools created around TEI focus on creating, encoding, annotating, and processing text. This implies that after the text has been encoded and annotated, the work with it is complete. Unfortunately this largely ignores the long-term goal of annotations, which is to transfer knowledge attached to an existing text, a process that historically has been called reading. Not distant or close reading, just reading for pleasure, to pass the time, or perhaps to learn something interesting in an area one does not know so much about. This part of the encoding and annotation life-cycle is not very well supported by current tools and thus in this talk I would like to present the Digital Edition Reader, a data-agnostic JavaScript component, which provides a digital reading environment that is pleasurable to use and still provides the full experience of reading an annotated text.
In the physical world, the interaction with annotated text is well standardised. The text is printed in a book and annotations are provided either as footnotes or in a separate volume. To navigate the text, the book provides a table of contents and maybe also an index. It is these three aspects (navigation, text, annotations) that have been transferred into the digital world of the Reader. Unlike in the physical world, in the digital context the system has no control over the format of the device the user is using to read the text. The design for the Reader takes this into acount, by having separate interaction patterns to support reading on screens large enough to contain all three aspects and those where at most two can be shown.
For both contexts, the text is the central element around which everything is organised. In the first context this is done via a three-panel layout with the text in the centre, navigation (table of content, index, search box) on the left, and the annotation view on the right. In the main text the annotated text passages are visually highlighted either using standard web-links or by adding footnote markers to the end of the passage, depending on edition design preferences. Clicking on these displays the linked annotation on the right-hand side. The annotation view also displays all other annotations that are linked to the text passage currently in view, but these are shown as abbreviated titles, in order to support very densly annotated texts or long annotations. In the second context, screen space is reduced to a large degree and the focus of the interaction is on reading the text. To access an individual annotation, the user still clicks on the marker in the main text, but now the annotation is shown in a block area at the bottom of the screen, to a certain degree simulating a book's footnote experience.
In both contexts the aim is to recreate the experience of reading, not creating a perfect digital copy of a book.

«Aha!» – Wissenstheoretische Perspektiven auf Stiftspuren in Privatbibliotheken

Manuel Bamert

«Aha!» notiert sich Thomas Mann neben einen Abschnitt in Hans Heinrich Schaeders ‹Goethes Erlebnis des Ostens› – und lässt uns fragend zurück. Was hat diese Interjekti- on zu bedeuten? Wozu dienen solche handschriftlichen Annotationen?

Anders als diejenigen Elemente, die die Informatik oder die Linguistik fachtermino- logisch Annotationen nennen, lassen sich handschriftliche Annotationen in Privatbiblio- theken des 19. und 20. Jahrhunderts nicht über eine spezifische Funktionalität definie- ren. Das herausragende Charakteristikum dieser Phänomene ist vielmehr ihre materielle Machart: Es sind Stiftspuren, die während einer Lektüre neben und in gedruckten Tex- ten hinterlassen werden. Gleichzeitig bezeichnet die Begriffsschöpfung Stiftspur mehr als nur handschriftliche Annotationen, denn sie umfasst etwa auch von Hand angefertig- te Unter-, An- und Durchstreichungen – Phänomene also, die selbst nicht als Schrift zu bezeichnen sind.

Diesen Stiftspuren widmet sich derzeit das vom Schweizerischen Nationalfonds ge- förderte Forschungsprojekt ‹Produktive Lektüre› an der ETH Zürich. Dabei wird erst- mals systematisch der gesamte Bestand von Thomas Manns Privatbibliothek auf Stiftspuren untersucht, woraufhin alle Einheiten mit solchen Phänomenen vollständig digitalisiert werden. Das Ziel dieses Forschungsprojekts ist die Erstellung eines digita- len Recherchetools, mit dem man gezielt nach den Stiftspuren suchen kann.

Die erweiterten technologischen Möglichkeiten eröffnen auch neue Perspektiven auf die Entstehung dieser Spuren. Movens des Stifts beim Lesen sind – so meine These – verschiedene Wissensformen: Einerseits wirkt sich das in den gelesenen Texten vorge- fundene Wissen, andererseits auch das durch die Lektüre angeregte Wissen der Lesen- den auf die Entstehung von Stiftspuren aus und wird in diesen erkennbar. Zugleich ist der Gebrauch eines Stifts während der Lektüre selbst bereits Ausdruck eines Praxiswis- sens. Der Vortrag spürt diesen Wissensformen am Beispiel der Stiftspuren in Thomas Manns Nachlassbibliothek nach und konzeptualisiert die vorgebrachten Phänomene als Spuren epistemischer Praktiken.

Footnotes in Historical Context, Their Usefulness for Multiple Narratives, and their Sometimes Contested Use into the 21st Century

Joseph S. Freedman

Information from the obscure, unstudied, and distant past can sometimes help us acquire useful insight and knowledge in our time. From the mid-17th century onwards some Central European authors (and especially those who taught philosophy and the arts) began to utilize footnotes (sometimes combined with other annotations) in their published writings. During the late 17th century, the use of footnotes was novel. They were used by individual authors in various and innovative ways, some of which might have possible applications in the present.[1]

The first use of footnotes known to date was by Johannes Theill, Rector of a Gymansium in Bautzen from 1642 until his death in 1679. During his tenure he was the author (often with input by named students) of publications (numbered 1 through 367) that mostly highlighted (then-) current subject matters taught there. His use of footnotes (placed at the bottom of each page of text) began with publication number 25 in April 1649.[2]

Theill usually used the Greek alphabet to sequence his footnotes, sometimes covering
the Greek alphabet more than once. But sometimes he also sequenced them numerically.
His footnotes often contained annotated text in addition to citations. Occasionally he used other variations, including sequenced (numbers and/or Greek letters) and marginalia instead of (or together with) footnotes. In some publications he used neither footnotes nor marginalia.

Beginning in the second half of the 17th century in Central Europe disputations
began to be published on an increasingly wide range of topics, many of which were interdisciplinary. They became a medium of the transmission of new scholarship beyond their own institutions; the use of footnotes helped to document their results; when annotated, footnotes could be used to elaborate on those results.[3] One of the first authors to do so was Adam Rechenberg, who taught philosophy at the University of Leipzig from 1666 to 1699.

Beginning in 1667 he used footnotes (some of which included narrative text) in many of the disputations over which he presided there.[4] His footnotes were sequenced in Latin letters, in Greek letters, in numbers, or in some combination thereof. He also occasionally used individual symbols (including *, †, and others) in the midst of a number or letter sequence. Among his other innovations was the use of parentheses (left, right, or both) to enclose his footnotes (sequenced in Greek letters, Latin letters, numbers, or in some combination thereof).

Footnotes (especially those with text) contribute to the ability to present multiple narratives in humanities scholarship. But is this always wanted? For example, some Anglo-American academic publishers to this day require endnotes in lieu of footnotes. What are the effects thereof for the use of annotations, and what are some possible reasons for this? These questions (and possible additional ones that might be raised at the conference itself) will be discussed.

[1] I would be able to show some digitized examples of these early footnotes via a projector screen at the conference.

[2] (Johannes Theill): Memoria testimonii publici ... quatuor orationum scholasticarum recitatione 9/19 Aprilis Anno 1649. Gorlicii. [Bautzen, Stadtbibliothek] A digital catalog record for this publication is not yet available.

[3] Footnotes were not the only such medium. Other such media included diagrams and drawings in discussions of experiments held or planned in the context of the academic disciplines of mathematics, medicine, and physics published during the second half of the 17th century.

[4] Refer the discussion of Rechenberg's use of footnotes in Joseph S. Freedman: Introduction. The Period Around 1670. Some Questions to Consider, in: Joseph S. Freedman, ed. Die Zeit um 1670: Eine Wende in der europäischen Geschichte und Kultur? Wolfenbüttler Forschungen 142, Wiesbaden 2016, pp. 7-73 (14-20, 39, 45-47, 66-70).

Observations on Annotations – From Computational Linguistics and the World Wide Web to Artificial Intelligence and back again

Georg Rehm

Annotations have played an important role in Computational Linguistics research and related fields for decades. In this talk, I’ll provide a number of interconnected observations on annotations as a scientific method and technical tool along several different dimensions and characteristics. These relate, first, to the balancing act between basic research and applied technology development. They also relate to the scale of the approach, i.e., annotations by a small number of highly specialised researchers vs. web-scale annotations, to be potentially used or made by millions of users, which immediately takes us to the challenge of standardising annotations – either annotation approaches or annotation schemas. Another important dimension is the evaluation and replicability of annotations, especially with regard to Open Science scenarios, in which transparency, data sharing and documenting research – ideally, with standards – play a crucial role. Finally, I’ll examine the complexity, meaning and impact of annotations in today’s digital world, which is increasingly driven by ubiquitous tools and technologies that make use of machine learning Artificial Intelligence-approaches (AI). In the last part of the talk I’ll combine many of the observations made to describe how web-scale annotations could potentially be employed to restore trust in today’s online media.

Geisteswissenschaftliche Forschungspraxis – Empirische Nutzerstudie zum Annotationsverhalten bei analogen und digitalen Textmaterialien

Patrick Helling, Brigitte Mathiak, Jason Steinkühler

Geisteswissenschaftler*innen benutzen für ihre Arbeit zunehmend digitale Werkzeuge, allerdings nicht in allen Bereichen und für alle Aufgaben (Porter 2016). Entsprechend der Anzahl an Tools für das digitale Annotieren1 und der Tradierung des Annotierens innerhalb der Geisteswissenschaften (Lordick et. al. 2016) nehmen wir an, dass auch das digitale Annotieren von digitalem Text eine wachsende Relevanz für Forscher*innen erfährt. In dieser Studie untersuchen wir im speziellen die Rolle von Annotationen, sowohl bei digitalem als auch analogem Textmaterial.

Unsere Nutzerstudie besteht aus 35 Fragen. Den Kern der Umfrage bildeten jeweils ein Fragenblock zur Arbeit mit analogen bzw. digitalen textbasierten Materialien und entsprechendem Annotationsverhalten. Die komplette Umfrage sowie die Umfrageergebnisse stehen auf figshare bereit.2 Insgesamt nahmen 125 Personen an der Umfrage teil, 90 schlossen den Fragebogen auswertbar ab (n=90).

Die Studie ist vor allem an (Porter 2002) angelehnt, welche die Nutzung von elektronischen Ressourcen in der Mediävistik evaluiert hat. Die der Studie zugrunde liegende Definition von Annotation beruht auf den Ausführungen von (Marshall 1997 / 2010). Der Studienaufbau orientiert sich auch an den Beschreibungen von (Agosti et. al. 2007) zur Rolle und Funktion von Annotationen.

Annotationen im Schreibprozess: Ein Beitrag zu einer empirisch fundierten Spezifikation für digitale Annotationsumgebungen in den Geisteswissenschaften

Felix Lange

Annotationen, hier definiert als Hinzufügungen von Informationen zu einer vorgefundenen Annotationsbasis (vgl. Fogli et al. 2004), lassen sich in den Geisteswissenschaften sinnvoll nach ihrem jeweiligen Arbeitskontext kategorisieren. Damit ergeben sich drei recht trennscharfe Klassen:

1) Editorische Auszeichnungen
2) Serielle Auszeichnungen für die Datenanalyse, beispielsweise in korpuslinguistischen Untersuchungen
3) Individuelle Hinzufügungen durch Leser_innen im Prozess des Lesens und der Vorbereitung einer Publikation.

Die letzte Kategorie wird im Folgenden „Notiz-Annotation“ genannt. Gegenstand des Beitrags ist ein empirisch fundiertes Software-Konzept zu ihrer Abbildung im digitalen Raum. Dabei werden in weitaus größerem Umfang als in vergleichbaren Arbeiten die Ergebnisse aus empirische Nutzerstudien berücksichtigt.
Viele Konzeptionen zu geisteswissenschaftlichen Annotationen (z. B. Nucci et al. 2012, Lordick et al. 2016) führen zur Vision eines „Scholarly Web“ (Perkel 2015), welches auch die genannten Notiz-Annotationen umfassen soll und daher viele Entsprechungen zu den W3C- Empfehlungen zu Web-Annotationen aufweist (s. https://www.w3.org/annotation/). Die Verwirklichung dieser Vision in den Geisteswissenschaften setzt allerdings voraus, dass eine kritische Menge von Forscher_innen eines Forschungsgebiets in beträchtlichem Umfang Ressourcen online rezipieren und auch online Annotationen vornehmen, die zu teilen sie motiviert sind.

Ob diese Prämissen erfüllt sind, lässt sich anhand einer großen Zahl vorliegender empirischer Studien aus der Informations- und Bibliothekswissenschaft sowie den Kognitionswissenschaften überprüfen. Aus ihnen leitet der Beitrag ein idealtypisches Bild der Rolle von Notiz-Annotationen im geisteswissenschaftlichen Forschungs- und Publikationsprozess ab. Danach sind diese in die frühen Phasen der Forschungs- und Publikationsarbeit und in den Prozess der Kompilation und Synthese von internen und externen Wissensrepräsentationen (O’Hara 2002: 298) einzuordnen. Diese Arbeitsschritte finden selten kollaborativ statt (Toms / O'Brien 2008). Dementsprechend ist auch der Text der Annotation möglicherweise nur für ihre/-n Autor/-in und auch nur während des aktuellen Arbeitsprozesses interpretierbar und relevant (Marshall 2000: 98). Notiz- Annotationen dienen dabei v.a. der Strukturierung des Materials und der kognitiven Entlastung im Arbeitsprozess (O’Hara 2002: 298). Die Annotationspraxis steht im Kontext eines personal information management (PIM), das von der Nutzung individuell verwalteter und lokal gespeicherter Dateien und Büro-Standardsoftware gekennzeichnet ist (Müller-Birn et al. 2016).

Dieser hier grob umrissene empirische Befund führt zu einer Softwarespezifikation mit den folgenden wesentlichen Merkmalen:
- Produktion und Weiterverarbeitung von Annotationen mit Büro-Standardsoftware
- Kompatibilität mit individuellen PIM-Techniken der Dateiablage (z.B. Benennung, Ordnerstruktur)
- W3C-standardkonforme (Web Annotation Data Model, Sanderson, Robert et al.: 23. Feb. 2017) Annotationsmetadaten werden automatisch in separaten Dateien gespeichert

- Zentralisiertes Speichern und Veröffentlichen in einem nachgelagerten Arbeitsschritt

Die Spezifikation wird im Vortrag mit einer prototypischen Implementierung und anhand eines beispielhaften Forschungs- und Publikationsprozesses im Kontext des Forschungsprogramms „Geschichte der Max-Planck-Gesellschaft“ (gmpg.mpiwg-berlin.mpg.de) näher erläutert. Dabei werden auch Potentiale der Weiterverbreitung und Integration von Notiz-Annotationen mit anderen Annotationstypen aufgezeigt. So können kuratierte und gezielt geteilte Informationen in Projektkontexten Doppelarbeiten vermeiden. Weitere Synergieeffekte lassen sich erzielen, wenn Notiz-Annotationen mit (semi-)automatischen Annotationen sowie mit editorischem Markup verknüpft werden.

Undogmatisches literaturwissenschaftliches Annotieren mit CATMA: manuell, halb-automatisch und automatisiert

Jan Horstmann

Wie können traditioneller arbeitende Literaturwissenschaftler*innen an digitale Methoden herangeführt werden? Und wie kann die Entwicklung von Annotationstools durch die Geisteswissenschaften beeinflusst werden? Die manuelle Annotation bietet hierbei den günstigsten Einstieg: Das Hinzufügen von Kommentaren, Markierungen, Unterstreichungen und Verknüpfungen im Zuge eines close readingkann im digitalen Umfeld eine Entsprechung erfahren, und bringt zudem eine Reihe von Vorteilen mit sich, wie z.B. die kollaborative Arbeit oder die Nachhaltigkeit des Annotierens.

Das in Hamburg seit 10 Jahren entwickelte Annotations- und Analysetool CATMA (http://catma.de) ist für hermeneutisch ausgerichtete geisteswissenschaftliche Textarbeit konzeptioniert und bietet mit seinem „undogmatischen” Ansatz alle Freiheiten einer manuell-analogen Annotation. Das Standoff-Markup erlaubt mehrfache, überlappende und sogar taxonomisch widersprüchliche Annotation durch eine*n oder mehrerer Nutzer*innen am gleichen Text. Die Erstellung der Taxonomien (d.h. Tagsets) ist nicht auf eine binäre ja/nein-, richtig/falsch-Opposition beschränkt, sondern erlaubt ebenfalls die Operationalisierung semantisch anspruchsvoller literarischer Konzepte wie bspw. Entsagung und Ironie bei Goethe. Das Tool ermöglicht einen iterativen Workflow von Textannotation und -analyse und bildet damit den hermeneutischen Zirkel traditionellerer Texterforschung ab. Nach dem leichten Einstieg über die manuelle Annotation, sind die Nutzer*innen bereits an die digitale Umgebung gewöhnt und können ihre Annotationen halb-automatisch anreichern, indem alle Vorkommnisse eines Keywords insgesamt annotiert werden, wodurch sie größere Textmengen in kürzerer Zeit annotieren und die Annotationen anschließend analysieren und visualisieren können.

Durch Guidelines gestütztes und an Taxonomien mit verbindlichen Definitionen ausgerichtetes Annotieren kann schließlich als Grundlage für ein Machine Learning genutzt werden – wie es im heureCLÉA-Projekt beispielsweise für die Genette’schen Zeitordnungskategorien geschah. Der aus einem solchen formalisierten Annotationsprozess gewonnene Algorithmus kann wiederum in CATMA eingespeist und zur automatischen Generierung von Annotationsvorschlägen verwendet werden.

Die Weiterentwicklung des Tools orientiert sich an konkreten geisteswissenschaftlichen Anforderungen. So wird es in der 6. Version (voraussichtlich ab Ende März/Anfang April 2019) beispielsweise eine Kommentarfunktion und die Möglichkeit einer kategoriefreien Annotation geben, wodurch das unsystematisierte Annotieren ermöglicht wird, das häufig bei der ersten Lektüre eines Textes geschieht. Die Orientierung an geisteswissenschaftlichen Fragestellungen und Workflows ermöglicht den fruchtbaren Einsatz sowohl in der DH- als auch der literaturwissenschaftlichen Lehre. Die Studierenden lernen so nicht nur die Methode des digitalen Annotierens praktisch kennen, sondern kommen auch in einen Austausch über die Konzepte und Taxonomien, die der literaturwissenschaftlichen Arbeit an sich oder ihrer jeweiligen konkreten Fragestellung zugrunde liegen. Der Vortrag wird vor dem theoretischen Hintergrund der „undogmatischen” Annotation mit Bezug auf konkrete Projekte die genuine Zusammenführung von Annotation und Analyse in CATMA (der aktuellen wie der im Projekt forTEXT entwickelten sechsten Version) demonstrieren und das Potential von Annotation als Einstieg traditioneller arbeitenden Geisteswissenschaftler*innen in digitale Methoden beleuchten.

Die Allegoriae, mit welchen die Sapientes das Mysterium unserer secretae Philosophiae occultirt haben / werden uns als den offenbar / und nit mehr verborgen seyn. Zu Herausforderungen und Nutzen der digitalen Annotation alchemischer Decknamen

Sarah Lang

Der Sprache der Alchemie haftet der Ruf an, voller Geheimnisse, Mehrdeutigkeiten und rätselhafter Symbole zu sein, deren Bedeutung sich nur Eingeweihten erschließt. Die Alchemie gilt mitunter als esoterische Proto-Chemie. Dies vor allem, da sie eine “poetische Wissenschaft” (scientia poetica) ist, deren Sprache fortwährend mit Abstrakta und Konkreta spielt. Der öffentliche Austausch wissenschaftlicher Information gehorchte stillschweigenden Regeln sprachlicher Kommunikation. Diese ungeschriebenen Regeln setzen implizites Wissen voraus. Der Kommunikationsmodus ist durch Symbollastigkeit und poetische Vermittlung naturwissenschaftlicher Inhalte charakterisiert. Poesie und Chemie verbinden sich hier zu einer organischen Einheit, deren rätselhafte Formulierungen nur für Eingeweihte zugänglich sind.

Die Geheimnisse, Mehrdeutigkeiten, rätselhaften Symbole - kurz: die Arcana alchemischer Sprache stellen eine Herausforderung an die Digital Humanities dar. Können digitale Methoden helfen, die Brücke zwischen poetischer Symbolsprache und tatsächlicher Chemie wiederherzustellen? Mithilfe eines SKOS-Thesaurus alchemischer Konzepte können vorkommende “dunkle” Wörter (obscurum vocabulum) per Annotation “erhellt” werden. Da die Verbindung der Symbole zur “echten” Chemie in gemeinsamen sinnlich wahrnehmbaren Eigenschaften liegt, könnte Annotation helfen, alchemisches implizites Wissen wieder explizit zu machen. Der Beitrag erörtert die digitale Möglichkeiten und Herausforderungen, implizites Wissen, das zum Verständnis alchemischer Sprache notwendig ist, explizit zu machen. Dies soll am Beispiel der Werke des alchemo-hermetischen Iatrochemikers Michael Maiers (1568-1622) diskutiert werden, dessen Emblemwerk Atalanta Fugiens (1617) sich in der Alchemieforschung größter Beliebtheit erfreut.

Hierbei wird versucht den geisteswissenschaftlichen Aspekt der kontextualisierenden, erklärenden Hinzufügung mit den Nutzen der Maschinenlesbarkeit zu kombinieren. Die Annotation von implizitem Wissen soll als explizierende Hinzufügung dienen. Inwieweit lässt sich die Interpretation davon trennen? Wie kann diese Annotation möglichst “objektiv” bleiben, gleichzeitig aber auch technisch formalisierbar und “lebenspraktisch nützlich”? Annotation mithilfe von Natural Language Processing und Wissensrepräsentation mithilfe eines in SKOS kodierten Thesaurus als Knowledge Organization System sollen Licht in das “dunkle Vokabular” (obscurum vocabulum) der Alchemie werfen, um implizites Wissen dieser Epoche heutigen Leserinnen und Lesern wieder besser zugänglich zu machen.

Die Annotation soll für den menschlichen Leser nützlich, aber auch für maschinelle Analyse effektiv verwendbar sein. Sie soll so gut als möglich automatisierbar, auf ein größeres Corpus alchemischer Literatur anwendbar sein und trotzdem geisteswissenschaftlichen Qualitätsansprüchen genügen. Doch der ‘Gegenstandsbezug’ im Falle der Annotation impliziten Wissens ist eben kein uns greifbarer Gegenstand, sondern ein historischer “Wissenshorizont”, den wir bestenfalls rekonstruieren können und wahrscheinlich im Prozess

der Annotation auch zum Teil konstruieren müssen. Eine weitere Herausforderung im Fall der Annotation impliziten Wissens stellt die Tatsache dar, dass das implizite Wissen in Konzepten (SKOS concepts) besteht, er im Text allerdings nur als Wörter (SKOS labels) vorliegt. Wie und inwieweit kann Annotation diese Differenz sinnvoll oder überhaupt überbrücken? Diese Fragen sollen an konkreten Beispielen alchemischer Symbole und Decknamen bei Michael Maier diskutiert werden.

Annotationen als Instrument der Strukturierung

Lina Franken, Evelyn Gius, Gertraud Koch, Heike Zinsmeister

In hermeneutischen Erkenntnisprozesse können Annotationen an verschiedenen Stellen im Forschungsprozess genutzt werden. Sie dienen dabei stets der Strukturierung und dem Ordnen sowie der Verknüpfung mit bestehendem Wissen zur Erzeugung von Erkenntnissen. Ein grundsätzlicher Unterschied beim Einsatz von Annotationen als Instrument der Strukturierung besteht in der Ausformung des Forschungsprozesses als deduktives, induktives oder abduktives Vorgehen, so die Grundannahme im Verbundforschungsprojekt hermA, in dem die hier vorgeschlagenen Perspektiven erarbeitet wurden. Während in deduktiver Forschung bereits bekannte Kategorien im Forschungsverlauf auf einen Gegenstand angewendet werden, um Texte zu analysieren, wird bei induktiven Vorhaben ein Kategoriensystem aus dem Forschungsgegenstand herausgearbeitet, die Annotationen dienen damit der Etablierung der Analysekategorien. In abduktiven Forschungsprozessen werden hingegen Kategorien fortlaufend weiterentwickelt, während zeitgleich die Materialgrundlage erweitert wird, um aus beidem ein Analyseschema zu entwickeln. Die Zugänge unterscheiden sich also vor allem hinsichtlich des theoretischen Neuigkeitswerts der Hypothesen: a) Überprüfung von bestehenden Hypothesen bei deduktiven Ansätzen, b) Gewinnung von neuen Hypothesen im Rahmen bestehender theoretischer Vorannahmen bei induktiven Ansätzen und c) Generierung von gegenstandsbezogenen Theorien in abduktiven Ansätzen.

Im Verbundforschungsprojekt „Automatisierte Modellierung hermeneutischer Prozesse – Der Einsatz von Annotationen für sozial- und geisteswissenschaftliche Analysen im Gesundheitsbereich“ (hermA) wird anhand unterschiedlicher hermeneutischer Zugänge der Einsatz von Annotationen in geisteswissenschaftlichen Analyseprozessen betrachtet. Am Beispiel eines kulturanthropologischen und eines literaturwissenschaftlichen Zugangs aus dem Projekt soll im Vortrag exemplarisch aufgezeigt werden, welche Funktionen Annotationen bei der geisteswissenschaftlichen Textanalyse zukommen können.

Kulturanthropologische Zugänge verstehen sich als induktiv oder abduktiv. Am Beispiel einer laufenden Diskursethnografie zu Akzeptanzproblematiken der Telemedizin wird im Vortrag vorgestellt, wie Annotationsschemata aus dem Material heraus entstehen und sich im Laufe der Analyse weiterentwickeln. Mit einem zirkulären Erheben und Bearbeiten von heterogenem Quellenmaterial wird abduktiv immer wieder überprüft, ob die vorhandenen Kategorien auf die neuen Daten anwendbar sind, um diese bei Bedarf anzupassen. Erst mit zunehmendem Wissen, das sich aus der Strukturierung des Phänomens anhand von Annotationen, der Verbindung mit bestehenden Erkenntnissen und fachspezifischem theoretischem Wissen speist, entwickeln sich Kategorien. Es werden im Laufe des Erkenntnisprozesses verschiedene Annotationspraxen eingesetzt, die mit zunehmendem Strukturierungsgrad immer stärker induktive und letztlich deduktive Qualitäten annehmen.

Literaturwissenschaftliche Textanalyse geht im weitesten Sinne hermeneutisch vor, wobei anhand bestimmter Analysekategorien ein Textverständnis aus dem Text und – je nach Zugang unterschiedlichen – Kontexten entwickelt wird. Literaturwissenschaftliche Zugänge sind häufig vorwiegend induktiv und enthalten deduktive Komponenten sowie auch abduktive Aspekte, jedoch wird die Art des Forschungsprozesses im Normalfall nicht bezüglich der genannten drei Zugänge expliziert. Am Beispiel der Frage von genderspezifischer Darstellung von Krankheit in literarischen Texten wird im Vortrag gezeigt werden, wie Annotation in der literaturwissenschaftlichen Textanalyse genutzt wird, um sowohl festgelegte Kategorien zur Figurenbeschreibung zu analysieren als auch im Text realisierte Phänomene zu Gender und Krankheit herauszuarbeiten.

Vor dem Hintergrund der dargestellten Zugänge werden im Vortrag Unterschiede und Gemeinsamkeiten der Annotationen als geisteswissenschaftliches Instrument der Strukturierung diskutiert. Damit soll die Bedeutung des Forschungsansatzes als Ausgangspunkt für den Einsatz von Annotationen verdeutlicht und die davon abhängigen Möglichkeiten und Herausforderungen bei Automatisierung von Annotationen gezeigt werden.

Makrogenetisches Mark-up für Musil

Katharina Godler, Walter Fanta

Der vorgeschlagene Beitrag möchte zur Diskussion über ein Schema für das Schreiben - die Auszeichnung makrogenetischer Beziehungen - anregen. Den Ausgangspunkt für die Überlegungen bildet das gerade im Werden begriffene Annotationsschema für den Nachlass Robert Musils.

Das sich in Entwicklung befindende Application Profile der TEI für genetisches Edieren „An Encoding Model for Genetic Editions“[1] bietet zum einen ein Tagset für die Beschreibung von Revisionsphänomenen (Additions, Deletions, Alternative Readings, etc.) an. Zum anderen soll das Annotationsmodell textgenetische Dossiers zur Repräsentation unterschiedlicher Stadien eines Texts integrieren können. Die Working Group TEI MS SIG betont, dass es sich bei dem anvisierten Modell noch um einen Entwurf[2] handelt. Hans Walter Gabler bestätigt im Band Text Genetics in Literary Modernism and Other Essays (2018)[3]:

„Only very recently has the encoding repertoire of the TEI acquired the added dimension of guidelines and rules for genetic mark-up—a reorientation that finally acknowledges the essentially diachronic nature of writing and text.“ (Gabler 2018: 217)

Wichtige Aspekte der genetischen Textauszeichnung sind in der Auszeichnungssprache XML/TEI noch nicht ausführlich genug diskutiert und geregelt. Erweiterungsbedarf besteht für ein Annotationsschema, das der Problematik von Textfassungen, Textstufen, Makro-Varianz Rechnung trägt und dabei nicht auf den edierten Text eines Werks zielt, sondern den Veränderungsprozess des Textes im Schreibprozess fokussiert.

Zwar setzte sich bereits der Beißner-Schüler Wilhelm Bausinger in seinen Studien zu einer historisch- kritischen Ausgabe von Robert-Musils Roman „Der Mann ohne Eigenschaften“ (1964) mit textgenetischen Fragen auseinander, aber noch dem Ziel der editorischen Werkrekonstruktion untergeordnet. Erst Walter Fanta zeichnete Die Entstehungsgeschichte des „Mann ohne Eigenschaften“ von Robert Musil (2000) als Schreibprozess nach. Die bisherige Forschung hat zwar editionsorientiert gewirkt, die Leistungen reichen aber nicht für eine adäquate Realisierung eines digitalen Auszeichnungsmodells aus. Darauf aufbauend wäre der nächste Schritt ein makrogenetisches Mark-Up, das nicht nur der Textanreicherung in Form von erläuternden Ergänzungen dient, sondern Informationen zur Beschreibung der Textgenese hinzufügt. Es bringt darüber hinaus Erkenntnisgewinn für die Schreibprozessforschung[4].

Mit der makrogenetischen Textauszeichnung von Robert Musils literarischen Nachlass sollen folgende Ziele erreicht werden: (1) die Dokumentation der Textstufen; (2) die Beschreibung der Beziehungen zwischen den Manuskripten; (3) die Wachstumsbewegungen von Entwurf zu Entwurf; (4) die Anreicherung des Corpus mit Informationen für eine automatisierte Analyse aller Manuskripte. Muster und Tendenzen des dynamischen Schreibprozesses können so erforscht werden, um sie zukünftig mit anderen literarischen und philosophischen Nachlässen zu vergleichen.

[1] Teil der TEI Manuscripts Special Interest Group (TEI MS SIG), siehe auch Application Profile
[2] Die Beteiligten beschreiben es als „a draft encoding model“, siehe About this Document im Application Profile
[3] Hans Walter Gabler, Text Genetics in Literary Modernism and Other Essays. Cambridge, UK: Open Book Publishers, 2018. https://doi.org/10.11647/OBP.0120
[4] Forschungsschwerpunkt im Robert-Musil-Insitut / Kärntner Literaturarchiv der Universität Klagenfurt (AAU).

Grenzen/Herausforderungen der Automatisierung: Einige theoretische Überlegungen zur erklärenden Annotation aus literaturwissenschaftlicher Perspektive

Matthias Bauer, Angelika Zirker

Die hermeneutische Annotation, also „kontextualisierende, erklärende Hinzufügungen zu einem bestehenden Text“ (vgl. CfP „Annotationen in Edition und Forschung“) im Sinne einer Anreicherung durch Informationen, die das Verstehen eines Textes beeinflussen, ist in jüngster Zeit zunehmend in den Fokus der Digital Humanities geraten. Ausgehend von einem innerhalb der Tübinger Anglistik/Literaturwissenschaft entwickelten Annotationsprojekt (TEASys – Tübingen Explanatory Annotation System; Bauer/Zirker 2015 und 2017) wollen wir hier einige theoretische Überlegungen anstellen, inwieweit „explanatory annotations“ automatisiert werden können. Dabei sollen exemplarisch drei Bereiche angesprochen werden, die Herausforde- rungen und ggf. Grenzen der Automatisierung darstellen: (1) Ambiguität in Texten (lexikalisch, syntaktisch etc.), (2) Verankerung von Annotationen im Verhältnis von Textteil(en) und -Ganzem, (3) individuelle Leserbedürfnisse.

Ambiguitäten können durch Annotationen entweder entstehen, indem der Annotator/die Annotatorin (in strategischer Weise) eine Mehrdeutigkeit wahrnimmt; sie können disambiguiert werden, wodurch etwa die besondere Qualität literarischer Werke außer Acht gelassen wird; oder in der Annotation werden distinkte Denotationen aufgeführt (s. Zirker 2018). Alle drei Möglichkeiten sind generell, insbesondere aber in der Automatisierung insofern problematisch, als es erforderlich ist, dass die Semantik bzw. der Kontext richtig interpretiert werden müssen (dabei handelt es sich um das generelle Problem der automatischen Ambiguitätserkennung). Diese Schwierigkeit wird beispielsweise deutlich, wenn man automatisierte Annotationen in amazon x-ray betrachtet. Ambiguitäten stellen aber auch darüber hinaus ein hermeneutisches Problem dar, denn häufig sind sie von einer Gesamtinterpretation des Textes abhängig bzw. interagieren mit dieser. Dies führt zur zweiten Herausforderung, der Verankerung von Annotationen im Text (s. dazu Bauer/Viehhauser/Zirker im Ersch.). Das hermeneutische Problem von Teil und Ganzem stellt sich generell für erklärende Annotationen, wird aber virulent, wenn es z.B. darum geht, Bedeutungen automatisch zu annotieren, die lokal im Wechselspiel mit dem Gesamttext entstehen. Erscheint es etwa möglich, die symbolische Bedeutung der Themse in Charles Dickensʼ Roman Our Mutual Friend automatisch zu annotieren? Und wo würde eine solche Annotation vorgenommen? Ein weiteres Beispiel bilden formale Aspekte, etwa Reimschemata: Diese erscheinen gerade dann erläuterungsbedürftig, wenn sie nicht einem regulären Muster entsprechen, sind dann aber eine Herausforderung für die automatische Annotation. Auch hier stellt sich die Frage nach der Verankerung: am Gedichtanfang, am Ort der Abweichung oder bezogen auf eine Strophe oder gar den Gesamttext? Und drittens kommt hier die Frage nach den individuellen Leserbedürfnissen ins Spiel: für wen werden die jeweiligen Annotationen verfasst (s. dazu Bauer/Zirker 2017)? In TEASys wurden hierfür verschiedene Komplexitätsebenen eingeführt: auf Ebene 1 findet der Nutzer/die Nutzerin Basisinformationen für das Verstehen des Textes, etwa Vokabelerklärungen; auf zwei weiteren Ebenen steigert sich die Komplexität der Informationen bis hin zu Diskussionen der Sekundärliteratur. Lassen sich allgemeine Richtlinien für eine Unterscheidung von Komplexitätsebenen finden, die diese Unterscheidung automatisierbar machen? Gleiches gilt für die Automatisierung der Zuordnung von Annotationen zu Kategorien der Information, z.B. Kontext im Unterschied zu intertextuellen Verweisen (s. Bauer/Zirker 2015). Welche Anforderungen würde dies an ein computerphilologisches Modell stellen?

Wir möchten diese und weitere Überlegungen jeweils anhand eines konkreten literarischen Beispiels präsentieren und zur Diskussion stellen, um somit eine theoretische Basis für Modellieungen zur Automatisierung erklärender Annotationen zu schaffen.

The Multimodal Annotation of TV Series. Combining qualitative questions and quantitative results

Tamara Drummond, Janina Wildfeuer

This presentation will build a bridge between qualitative and quantitative approaches to the analysis of audio-visual artefacts (in this case TV series) and demonstrate how a well-developed ELAN annotation scheme supports the semantic analysis for higher-level interpretations (in this case the multimodal representation of gender differences). Therefore, it will present theoretical and methodological questions regarding the multimodal analysis and annotation of TV extracts as well as a project report and results from an empirical Master’s thesis project working on a small corpus of the beginnings of contemporary TV series.

Many crime and mystery TV series feature teams of female and male main characters who, as integral parts of the show’s narrative, are often already complexly introduced in the pilot. The hypothesis of the conducted project is that this character introduction constructs certain gender differences which are multimodally represented and can therefore be analysed with a multimodal framework.

For this, we use a systemic-functional approach to the analysis of filmic cohesion (Tseng 2013) which allows to compare the types of interaction the female and male main characters have with other participants during their introduction into the story-world and to the viewers as well as to compare the findings across genres. While the qualitative analysis works with cohesive chains that are vertically constructed, we use ELAN for the multimodal annotation of the audio-visual texts and set up a template with separate tiers that substitute the chains and, additionally, allow us to construct different relationships between them, i.e. enable further results on multiple levels of the annotation. In order to systematize the findings as well as compare them across genres, controlled vocabularies which include the possible choices for each tier and the individual occurrences of the elements annotated on these tiers are set up and applied to the annotations.

On the basis of some initial theoretical and methodological thoughts about the need for and advantages of multilevel annotation schemes (cf. Bateman et al. 2016), the presentation will show which analytical units are selected (e.g. shots and events, sound, camera features, etc.) why ELAN patterns are particularly helpful for such a comprehensive annotation and which new and innovative results can be found with the help of such a bridge-building approach.

Beispiele annotieren: Manuelle Annotationen im Spannungsfeld zwischen Interpretation, formalem Schema und maschineller Auswertung

Christian Lück

Die Digitalisierung lässt Forschungsfragen entstehen, die einer empirischen Revision klassischer Forschungsthemen das Wort reden und bisweilen sogar neue Perspektiven eröffnen. Technisch getragen werden solche Vorhaben oft von Annotationen. Berichten möchte ich von der Annotationspraxis im DFG-Projekt Das Beispiel im Wissen der Ästhetik (1750-1850). Erforschung und Archivierung einer diskursiven Praxis, das von der Hypothese ausgeht, dass die Beispiele einen wesentlichen Bestandteil des Wissens der philosophischen Ästhetik ausmachen und dass man eine Wissensgeschichte nicht nur der abstrakten Begriffe und Ideen (etwa Schönheiten der Natur), sondern auch der Beispiele (z.B. eine Rose) schreiben muss. Dazu müssen die Beispiele auch erfasst werden, und zwar vorzüglich in Annotationen.

Das Beispiel ist eine semantische Struktur; zudem gibt es mit »e.g.« bzw. »z.B.« (in älteren Varianten »z.E.«) eine schon alte Standardabkürzung, die es auf der Textoberfläche markieren kann, aber nicht muss; auch syntaktisch Merkmale lassen sich beschreiben, sind aber so vielfältig wie die Semantik, die sich längst nicht auf das Verhältnis von Besonderem zu Allgemeinem beschränkt.

Zunächst steht zur Erfassung von Beispielen die ›manuelle‹ Annotation zur Verfügung. Wünschenswert ist die technische Realisation der Annotationen als externes Markup zu einem Quell-Dokument, welches in einem Standard-Format, etwa TEI-XML vorliegt. So lassen sich Annotationen kollaborativ herstellen und Kontrollannotationen desselben Texts durch eine weitere Annotatorin werden realisierbar. Dadurch dass das externe Markup wieder ins TEI- Markup integriert werden kann, wird der ›Doppelgesichtigkeit‹ digital edierter Texte Rechnung getragen. Das Auszeichnen im plain text, welches technisch viel einfacher wäre, kommt hingegen nicht in Frage.

Das ›manuelle‹ Auszeichnen semantischer Strukturen ist aufwendig (und die Arbeit der Hand ist dabei das Geringste). Eine automatisiertes Information Retrieval, ein maschinelles Annotieren von Beispielen wäre wünschenswert. Allerdings ist diese Aufgabe komplex. Man wird computerlinguistisch erzeugte Daten (Segmentierungen in Tokens und Sentences, grammatische Grundformen, Part-Of-Speech-Tags, Tree-Banks), wie sie vom WebLicht-Service (oder von NLP-Bibliotheken) für Eingabe-Dokumente zurückgeliefert werden, auswerten müssen. Wie jedoch bezieht man die unterschiedlichen Typen von Markup – editorisches XML/TEI, das ›manuell‹ erstellte semantische Markup und dann das WebLicht-Standoff- Markup – aufeinander? Es stellen sich erst einmal rein technische Probleme, die noch nicht gelöst sind. . .

Die Aussicht, die Auszeichnung von Beispielen zu automatisieren hat über das Technische hinaus wiederum Rückwirkungen auf die ›manuelle‹ Annotationspraxis. So führen prognostische Überlegungen, welche Art von Beispielen überhaupt durch einen Algorithmus erfasst werden können (zunächst nur solche, die auf der Textoberfläche mit »z.B.« markiert sind) zu einer Auswahl ›manuell‹ annotierter Beispiele; auch versucht man womöglich, die oft recht komplexen semantischen Verhältnisse in ihrer Komplexität zu reduzieren. Natürlich ergeben sich bereits ohne Rücksicht auf eine zukünftige maschinelle Annotation Spannungen zwischen der vielfältigen Wirklichkeit der Beispiele und dem, was in einem Annotationsschema (unseres ist in OWL realisiert) bzw. nach den Annotationsrichtlinien ausdrückbar ist. So ergeben sich Spannungen in einem Dreieck aus interpretativer Arbeit am philosophischem Text, Ausdrucksmächtigkeit des Annotationsschemas und künftigem Algorithmus. Von diesem Spannungen möchte ich im Vortrag berichten und sie nach Möglichkeit systematisieren.

Facilitating reusable third-party annotations in the digital edition

Marijn Koolen, Peter Boot

In the conference on 'Annotation in Scholarly Editions and Research', we would like to discuss our work to facilitate third-party annotations in the digital edition: annotations on an edition made by researchers unaffiliated to the edition project, as a contribution to the explanatory material already present on the site, for purposes of private study or for publication in conjunction with a scholarly article.

The more specific question that we want to explore is how to facilitate anchoring the annotation to a specific location in the digital edition. We need to make sure that (1) the annotation addresses a component in the logical information structure that defines the edition (and not a location in an HTML page which is merely one representation of an edited text), and (2) the information structure is described in sufficient detail to distinguish the edited text or document (the object of editing) from its (multiple) representation(s) in the edition. It should be possible to annotate (parts of) the document or work being edited (e.g. a manuscript page or a canonical location in a work) as well as its transcription, its translation or a page image. In the work, we might want to explain an obscure sentence; in the transcription, we might want to discuss an incorrect reading; in the translation we might want to point out a translation error.

This paper continues our earlier work on the subject. In Boot, Haentjens Dekker, Koolen and Melgar (2017) we argued RDFa provides a suitable technology for embedding the required information in the edition's HTML pages. In Boot and Koolen (2018) we discuss an FRBROO- based ontology of the editorial domain, capable of describing both the objects of editing (Text and Document) and their representation in the edition. We have a fully functional and open source prototype of an annotation tool that over the coming years will be actively developed, for use in multiple disciplines, in the Dutch CLARIAH (= CLARIN + DARIAH) infrastructure.

In the Wuppertal conference we would like to show how an ontology-aware annotation tool can use the ontology in the context of an edition of the letters of Vincent van Gogh. In that edition, four representations of the letter are available: a line-by-line (diplomatic) transcription, a running (critical) text, a translation into English and a page image. We will show how annotations made in the context of one such representation can be made to address either that specific representation or the underlying abstract text, and thus be displayed either in one representation only, or in all representations.

Being able to accomplish this on a technical level is neat, but only a first step. We will also discuss the potential impact on humanities research practice: the possibility to (collaboratively) create, organize and share annotations of different types offers researchers access to layers of interpretation made by others. This could have fundamental implications for the transmission of knowledge in the humanities.

Shared Tasks zur Entwicklung von Annotationsrichtlinien in den Digital Humanities

Evelyn Gius, Nils Reiter, Marcus Willand

In dem Vortrag möchten wir den ersten Shared Task (ST) zur Annotation literarischer Phänomene als fruchtbares Format für die Digital Humanities vorstellen. Bei einem ST bewerben sich Teams mit einem Vorschlag für die Lösung eines durch die Organisatoren ausgeschriebenen Problems, den Task. STs sind kompetitive Verfahren, da die Lösungsvorschläge vergleichend evaluiert und gemäß einer definierten Metrik in eine Rangfolge gebracht werden. Vor allem in der Sprachverarbeitung (NLP, natural language processing) sind diese Arbeitszusammenhänge weit verbreitet und ein wesentlicher Antrieb für die Fortschritte bei wichtigen Aufgaben, etwa des syntaktischen Parsings. Wir haben dieses kompetitive Verfahren für literaturwissenschaftliche Problemstellungen durch kooperative Aspekte modifiziert und gehen davon aus, dass durch solch adaptierte STs sehr viele andere Problemstellungen der Geisteswissenschaften adressiert werden können, wodurch sich STs als Verfahren für die Digital Humanities natürlicherweise anbieten. Dies ist insbesondere der Fall, wenn computationelle Verfahren auf geisteswissenschaftliche Konzepte treffen und diese in einem intersubjektiven Aushandlungsprozess operationalisiert werden sollen.

Der von uns durchgeführte shared task läuft in zwei Phasen ab. Die erste Phase – „SANTA“ genannt: Systematic Analysis of Narrative Texts through Annotation – widmet sich der Erstellung von Annotationsrichtlinien für das Phänomen narrativer Ebenen. Die von den acht teilnehmenden Teams eingereichten und auf dem Workshop diskutierten Richtlinien bilden die Grundlage für den Task der geplanten zweiten Phase: die automatisierte Identifikation von Erzählebenen auf Basis von Daten, die nach den Richtlinien annotiert wurden (wird vsl. 2019 ausgeschrieben).

Der Vortrag wird insbesondere diese erste Phase des Projekts in den Blick nehmen, und sowohl den angepassten Workflow als auch zentrale Einsichten vorstellen, die wir durch einen Workshop generieren konnten, der einen wichtigen Meilenstein der ersten Phase bildete. Dazu werden im Vortrag die eingereichten Guidelines resümierend vorgestellt, ein 3-Dimensionenmodell als Vorschlag für deren Evaluation präsentiert und zuletzt das Verfahren als solches in seinen Potentialen für die digitalen Geisteswissenschaften kritisch hinterfragt, insbesondere auch im Hinblick auf die kompetitiven Aspekte.