Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian.

transcript

Web-Assisted Annotation, Semantic Indexing and Search of Television and

Radio News

Armin Doroudian

Einführung

Medienunternehmen produzieren eine gewaltige Anzahl an Nachrichten- und Dokumentationssendungen

Diese müssen zeitnah erfasst und für eine Suche zugänglich gemacht werden

Eine detaillierte Suche wird durch Hilfe von Metadaten im Katalogsystem ermöglicht

Hierzu wird eine automatische Lösung gesucht für die inhaltliche Zusammenfassung der Sendungen

sowie die semantische Beschreibung der Sendungen

The Rich News System

Dieses System bietet zusammengefasst Techniken für die Informations-Extraktion

Ergänzung von Web-basierten Inhalten

Semantische Beschreibung

Für den Suchenden entsteht hieraus eine Mixform der Zusammenfassung der Sendung bestehend aus Inhaltsangabe

Verlinkungen zu zusätzlichem Material

Architektur des Rich News Annotator

Unterteilt in sieben Modulen die sequenziell ausgeführt werden

Speech Recogniser

Topical Segmenter

TF.IDF

Key Phrase Extraction

Web-Search and

Document Matching

Manual Annotation

(Optional)

Index Document Creation

Semantic Annotation

Spracherkennung (Automatic Speech Recognition) THISL Spracherkennungssystem

ABBOT Zusammenhangs-Spracherkenner Wortschatz umfasst 64.000 Wörter

tri-gram Sprachmodel

Wahrscheinlich eher vorkommenden Formulierungen „…Tür ist offen…“ 40%

„…Tür ist Ofen…“ >1%

Wurde speziell für Nachrichtensendungen angepasst:

- 50 Stunden Nachrichtensendungen

- 130 Millionen Wörter aus Zeitungen

Spracherkennung

Satzzeichen können nicht berücksichtigt werden

Komplette Erkennungs-Abschrift in Kleinbuchstaben

Kurze Pausen werden mit <s> markiert

Große Pausen werden mit <SIL> markiert

Auszug:<s> thousands of local people have been protesting at the way theauthorities handle the operation <SIL> can marshal reports from thecoastal village of mitch a <SIL> crash patches of oil has started toperk up and dalglish encased <SIL> are the main body of the thickblue is several miles offshore <s> dozens of volunteers working on abeach in which at <SIL> having to use a blade to carve up the thick

Inhaltliche Gliederung (Topical Segmenter)

Interesse besteht nur an einem bestimmten Teil der Sendung

Mögliche Ansätze für die Bestimmung von Grenzen:Audio/Visuelle Hinweise

Änderung von Farbschema

Gesichtern

Untertitel

Musik/Geräuschen

Nachteil: Nur möglich bei Fernseh-

sendungen

Einfache Texthinweise

Formulierungen an Textgrenzen „… [reportername] thank

you!“

„…back to the Studio!“

Nachteil: Nicht zuverlässig

C99 Segmenter - Algorithmus

Basiert auf der Grundidee der lexikalischen Verkettung

Algorithmus: Vorverarbeitung

Stopwörter entfernen

Übriggebliebene Wörter auf die Stammform bringen

Hauptphase

Segmente aus ASR als Eingabe verwenden

Lexikalische Ketten identifizieren

Bereiche mit hohem lexikalischen Zusammenhang als thematisch gleich bewerten

Lexikalische Ketten

Basiert auf Lexical Cohesion “…is the cohesion that arises from semantic relationships

between words” (Morris, Hirst 1991)

Beispiele

Synonyme: Auto, Karre

Spezialisierung / Generalisierung: Pferd, Hengst

Teil – Ganzes / Ganzes – Teil: Politiker, Regierung

Statistisches Co-Vorkommen: Al Kaida, World Trade Center

Lexikalische Ketten

Lexical Chains Guppen gebildet aus semantisch, verbundenen Wörtern

Bilden lexikalisch, zusammenhängenden Struktur im Text

Beispiel:

{Blume, Rasen, Rose, Garten, Baum}

Hauptthemen Erkennung (Key-phrase Extraction) Ziel ist die Erkennung von Schlüsselwörter oder –Sätzen

Diese dienen später zur Suche im Web

Suche nach häufig auftretende Schlüsselwörter außerhalb des gewöhnlichen Sprachgebrauchs:

Dokumentaktuellen im Begriffs des Anzahl Segment-Topical im Begriffs des Häufigkeit

vorkommtBegriffder demin Dokumenteder Anzahl sTranscript-atenTrainingsdder Anzahl

1log Score TF.IDF

Hauptthemen Erkennung - Algorithmus

Vorbedingungen Nur Verwendung von Stammformen Nur die Verwendung von Sätzen mit mind. 6 Wörtern

Ausgenommen solche die mit Stopwörtern anfangen / enden

Vorverarbeitung Berechnung der Häufigkeit aller Sätze Übersteigt die Anzahl der Sätze die Höhe von 300.000, werden

nur die 100.000 Häufigsten weiterverwendet

Hauptphase Falls ein Wort mind. zwei mal vorkommt, wird TF.IDF Wert

berechnet Es werden die vier Wörter mit den höchsten Wert als

Schlüsselwörter verwendet

Websuche (Web-Search and Document Matching) Verwendung der Google-API zur Suche

Eingabe: site:news.bbc.co.uk zur Begrenzung auf BBC-Inhalten Tag und Vortag der Ausstrahlung der Sendung Vier TF.IDF Hauptsätze

Erste Suche mit den ersten und zweiten gefundenen Phrasen

Weitere Suche mit je einem der vier Phrasen

Ausgabe: Es wurden jeweils nur die ersten drei gefundenen

URLs verwendet max. 15 URLs

Websuche

Welche der 15 URLs soll genommen werden?

Diese 15 Seiten wurden mit dem Ausgangssegment verglichen Hier wurde auch C99 zur Ermittlung der Ähnlichkeit

genutzt

Häufig ist die erste URL der ersten beiden Phrasen ein Treffer Wichtig: Es wurden aber auch die anderen Suchen

berücksichtigt!

Manuelle Kommentierung (Manual Annotation) Meisten BBC Webseiten enthalten Meta-Informationen

Schlagzeile

Eine kurze Zusammenfassung

Klassifikation der Geschichte

Diese können entnommen und dem Transkript automatisch hinzugefügt werden

Ab diesem Punkt können die Daten für das Format des „ELAN Linguistic annotator“ aufbereitet werden

ELAN (Manuelle Nachbearbeitung des Transkripts)

Erstellung des Index-Dokuments

Für jede Geschichte mit gefundener URL wird ein GATE Dokument erstellt und enthält: Text der übereinstimmenden Webseite

Schlagzeile, kurze Zusammenfassung und Bereich

URL der Media-Datei der Originalsendung

Zeitinformation des Start- und Endpunkts in der Sendung

Kanal, Ausstrahlungsdatum und Programmname

Diese Daten bilden die Basis für eine Katalogeintrag

Semantische Information (Semantic Annotation) Bis hierhin erzeugte Metadaten sind im Textformat

Für die Erzeugung von Semantischen Informationen wird die „Knowledge and Information Management“ Plattform KIM verwendet: Identifiziert automatisch Entitäten (Personen, Länder…)

Verbindet diese Entität mit einer URI

URIs können innerhalb von 250 Klassen und 100 Properties organisiert werden

Suche von Sendungen

KIM Web UI ermöglicht Einfache Textsuche sowie Semantisch unterstützte Suche

Evaluation

Performance des Systems wird anhand dessen gemessen, wie erfolgreich Index Dokumente erzeugt werden

Dies hängt wiederum davon ab, ob Webseiten zu den Geschichten gefunden werden

Evaluation: Grundlage war BBC Radiosender The World at One

Neun Sendungen à 30 Minuten wurden verwendet

Vorbereitend wurden die Geschichten händisch notiert

Evaluation - Ergebnisse

Jedes Index Dokument wurde darauf untersucht, Ob es der Geschichte in der entsprechenden Sendung entsprach

(Strict)

Ob es ähnlich aber nicht genau der gezeigten Sendung entsprach (Lenient)

Ob es keinen Zusammenhang mit der Sendung gab

Die neun Sendungen enthielten insgesamt 66 GeschichtenCorrect Incorrect

Precision

Recall

Strict 25 2 92.6 37.9 53.8

Lenient 27 0 100 40.1 57.2

Aussicht

Die Spracherkennung stellt noch eine Hürde dar Reportagen außerhalb des Studios, beinhalten zuviel

Störgeräuche

Hier würde eine Verbesserung erheblich die Performance steigern

Bei dem Document Matcher könnten in Zukunft neue Quellen hinzugezogen werden

Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande

Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und beweist so die Zuverlässigkeit

So kann ein großer Teil von der mühsame Arbeit abgenommen werden

Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande

Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und das beweist die Zuverlässigkeit

So kann ein großer Teil von der mühsame Arbeit abgenommen werden

Danke für die Aufmerksamkeit!

Web-Assisted Annotation, Semantic Indexing and Search of Television and Radio News Armin Doroudian.

Documents