Post on 05-Apr-2015
transcript
TEI
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIKonsortium
• „Text Encoding Initiative“ seit 1987 mit Teilnehmern aus Industrie, Bildungsinstitutionen u.v.m., inzwischen TEI-Konsortium
• TEI bezeichnet sowohl das Konsortium, als auch einen Standard zur Kodierung und zum Austausch von Textdokumenten
• TEI P5 Guidelines veröffentlicht 2007
• TEI-Lite -> abgespeckte Version
• mehr unter www.tei-c.org
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIBenutzer
• Benutzer gleich Entwickler: Textwissenschaftler, z.B. Literaturwissenschaftler und Linguisten
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIZweck
• Unabhängig von Betriebssystemen und Anwendungssoftware elektronisch Texte zu kodieren
-> dauerhaftere elektronische Texteditionen
-> Loslösung von proprietären Systemen der Textspeicherung wie MS-Word und auf andere Ziele ausgelegte Standards wie HTML
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIZweck
• „Text als abstrakte Entität [ist das] Produkt und muss in einem portablen Format vorliegen, aus dem sich die möglichen Publikationsformen ohne großen Aufwand generieren lassen“
(http://computerphilologie.uni-muenchen.de/praxis/teiprax.html)
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI und SGML
• TEI ist SGML-konform (genau wie HTML) -> verarbeitbar von jeder SGML Software
• TEI besteht wie alle SGML-konformen Systeme aus drei Teilen:
1. Die Deklaration mit Grundeinstellungen (TEI.DCL)
2. Die Document Typ Definition (TEI-DTD, die bei Tei aus mehreren Teilen besteht, die je nach Bedürfnis aktiviert oder deaktiviert werden können
3. Eine oder mehrere Dateiinstanzen, ausgezeichnet entsprechend den Regeln der DTD
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-Guidelines P5
• P1 erschien 1990
• P4 (2002) erste XML-Version der Guidelines
• P5 ist seit 2007 die neueste Version der Guidelines, Anpassung an XML wurde z.B. noch verstärkt, außerdem textinterne Verlinkung, Multimediakompatibilität und Schriftverarbetiung verbessert
• Möglichkeit der Übertragung von P4 zu P5
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIAufbau
• verschiedene Module mit Elementen
• beispielsweise Elemente für Dokumentenstruktur, Auszeichnung von Gedichten und Dramen, Markierung einzelner Zeilen und Seiten, Tabellen, textkritische Anmerkungen, Terminologien, Wörterbücher
-> Strukturelle Teile eines Textes
-> Typographische Elemente
-> andere Textfeatures (wie Orte von Illustrationen)
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIAufbau
• Kern von Modulen enthält allgemeine Elemente wie <p/> für Absätze
• Kern kann erweitert werden um weitere Module -> differenzierte Auszeichnung von Textmerkmalen
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIGrundstruktur der Dokumente
• Jedes TEI-Dokument hat einen Kopf <TEIHEADER> und einen Textkörper <TEXT>
• Der Inhalt des Textelements kann vielfach gegliedert werden, bspw. durch <FRONT>, <BODY> und <BACK> für Bücher
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIEin Minimalheader sieht so aus:
<TEIHEADER>
<FILEDESC>
<TITLESTMT>
<TITLE>Titel des Werks: elektronische Edition</TITLE>
<AUTHOR>Autor des Werks</AUTHOR>
<RESPSTMT><RESP>erstellt von</RESP>
<NAME>Name des Editors</NAME>
</RESPSTMT>
</TITLESTMT>
<PUBLICATIONSTMT><PUBLISHER> Vertrieb des Textes durch XXX</PUBLISHER>
</PUBLICATIONSTMT>
<SOURCEDESC>
<BIBL>Bibliographische Angaben zur Vorlage</BIBL>
</SOURCEDESC>
</FILEDESC>
</TEIHEADER>
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIBeispiele für TEI-Elemente
• <P></P> Absatz
• <EMPH></EMPH> Betonung
• <NOTE></NOTE> „Fussnote“, Anmerkung
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI„customizing“
• Das TEI Schema kann aufgrund seines Umfangs einfacher verwendet werden wenn man es „customized“
• Dazu wird das ODD und das Roma-Tool verwendet
• über das Internet wird in Roma customized und das Ergebnis als ODD-Datei abgespeichert
• TEI Lite ist beispielsweise so eine customization
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIODD - „One Document Does It All“
• Quellformat in Metasprache in dem die TEI geschrieben ist
• enthält Fragmente des Schemas, „prose documentation“ und „reference documentation“
• daraus können formale Schemata generiert werden wie DTD oder XML Schema, außerdem die TEI Guidelines
• ODD Spezifikation ist normalesTEI XML Dokument, das das tagdocs Modul verwendet
• mit ODD kann die P5 Version des TEI XML an die eigenen Bedürfnisse angepasst (“customized“) werden
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIRoma-Tool
• webbasierte Anwendung
• ein System von XSLT Stylesheets das ODD-Files manipuliert
• Erstellung P5 kompatibler Schemas und Dokumentationen wie DTD aus einem XML Dokument, das das TEI ODD Markup benutzt
- nötiges Programm um die in einem ODD Markups verwendenden TEI XML Dokument customized TEI in eine DTD oder ein anderes Schema zu kompilieren
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-DTD
• idealerweise so angebeben, dass mehrere Dokumente darauf zugreifen können:
<!DOCTYPE TEI.2 PUBLIC „-//TEI//TEI P3 //EN“>
• PUBLIC legt fest, dass die Zeichenkette „-//...“ die DTD identifiziert
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-DTD
• weiterhin muss in einer Datei namens „catalog“ die >Zuordnung von public identifiern und systemdateien geschehen, z.B.
PUBLIC „-//TEI//TEI P3 //EN“> „c:\tei\dtd\tei2.dtd“
• weil TEI mehrere DTD verwendet, muss zum Element DOCTYPE hinzugefügt werden, welche, z.B.
<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [
<!ENTITY % TEI.prose 'INCLUDE'>
<!ENTITY % TEI.textcrit 'INCLUDE'> ]>
• Diese Ergänzung der DOCTYPE-Angabe ist faktisch eine Ergänzung der DTD
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-Tag Sets
• zwei Klassen: Base Tag Sets und Additional Tag Sets, außerdem Core Tag Set (eh vorhanden, muss nicht ausgewählt werden)
• es kann nur ein Base Tag Set gewählt werden, aber beliebig viele Additional Tag Sets
• die Zusammensetzbarkeit der Tag Sets wurde als Pizza Concept bezeichnet das mit dem Pizza Chef geregelt wurde, heute Roma Tool
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-Tag Sets - Beispiele für Base Tag Sets
• TEI.prose -> Auszeichnung von Prosa
• TEI.verse -> ...von Lyrik
• TEI.drama -> ...von Dramen
• TEI.spoken -> ...von Transkriptionen gesprochener Sprache
• TEI.dictionaries -> ...von Wörterbüchern
• TEI.terminology -> ...von terminologischen Datenbanken
• TEI.mixed -> ...von Texten, die Tags aus mehreren der anderen Kategorien benötigen
• TEI.general -> wie mixed aber nur ein Base Tag set pro Korpuseinheit
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-Tag Sets - Beispiele für Additional Tag Sets
• TEI.linking -> Auszeichnungselemente, um Texte mit Hyperlinks zu verbinden und zu segmentieren
• TEI.textcrit -> ... für textkritischen Apparat
• TEI.transcr -> ... für Transkription von Primärquellen
• TEI.figures -> ... für Grafiken, Illsutrationen, Formeln
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI-Tag Sets - Beispiel
• Verstexte einschließlich einiger Handschriftenproduktionen und eines kritischen Apparats sollen ausgezeichnet und mittels Hyperlink miteinander verbunden werden:
<!DOCTYPE TEI.2 SYSTEM "tei2.dtd" [
<!ENTITY % TEI.verse 'INCLUDE'>
<!ENTITY % TEI.textcrit 'INCLUDE'>
<!ENTITY % TEI.transcr 'INCLUDE'>
<!ENTITY % TEI.linking 'INCLUDE'>
<!ENTITY % TEI.figures 'INCLUDE'>
<!ENTITY % isolat1 PUBLIC "ISO 8879-1986//ENTITIES Added Latin 1//EN">
%isolat1; ]>
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI Praxisanwendung...
1. Dokumentenanalyse
2. Digitalisierung
3. Textauszeichnung
4. Publikation
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI Praxisanwendung...
1. Dokumentenanalyse und Auswahl von Tag Sets
• Sichtung des Materials, theoretische Vorentscheidung
-> was ist der Verwendungszweck einer Edition?
-> welche Textmerkmale sollen durch Kodierung erfasst werden?
-> welche sollen dem Benutzer zugänglich sein? Wie?
(Bsp. Kapitel, direkte Rede bei Roman)
• kann unabhängig von TEI geschehen, aber auch mit Hilfe von TEI Handbüchern
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI Praxisanwendung...
2. Digitalisierung
Erstellen elektronischer Bilder, Textgewinnung durch manuelle Eingabe oder Texterkennung
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI Praxisanwendung...
3. Textauszeichnung
Versehen des gewonnen Textes mit den notwendigen Auszeichnungen, um die Elemente in TEI zu kodieren, die aufgrund der Dokumentenanalyse als bewahrenswert gelten
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEITEI Praxisanwendung...
4. Publikation
Anpassung an zur Publikation gewählte Medien (Browser, Buchdruck...)
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEI• TEI ist ein defacto standard in „humanities
computing“ Projekten, vor allem zum Austausch von Texten zwischen verschiedenen Projekten und Archiven.
• Fragen?
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09
TEIQuellen
• http://www.tei-c.org
• http://computerphilologie.uni-muenchen.de/praxis/teiprax.html
• http://de.wikipedia.org/wiki/Text_Encoding_Initiative
•http://en.wikipedia.org/wiki/ODD_(One_Document_Does_it_all)
• http://www.tei-c.org/Support/Learn/tutorials.xml
• http://www.tei-c.org/Talks/MITH/index.xml
(alle Internetquellen zuletzt eingesehen am 08.01.09 10:00 cet)
Philosophische Fakultät • IT-Zertifikat • Datenstandards • Johanna Bächer • 09.01.09