Post on 05-Apr-2015
transcript
Web-Assisted Annotation, Semantic Indexing and Search of Television and
Radio News
Armin Doroudian
2
Einführung
Medienunternehmen produzieren eine gewaltige Anzahl an Nachrichten- und Dokumentationssendungen
Diese müssen zeitnah erfasst und für eine Suche zugänglich gemacht werden
Eine detaillierte Suche wird durch Hilfe von Metadaten im Katalogsystem ermöglicht
Hierzu wird eine automatische Lösung gesucht für die inhaltliche Zusammenfassung der Sendungen
sowie die semantische Beschreibung der Sendungen
3
The Rich News System
Dieses System bietet zusammengefasst Techniken für die Informations-Extraktion
Ergänzung von Web-basierten Inhalten
Semantische Beschreibung
Für den Suchenden entsteht hieraus eine Mixform der Zusammenfassung der Sendung bestehend aus Inhaltsangabe
Verlinkungen zu zusätzlichem Material
4
Architektur des Rich News Annotator
Unterteilt in sieben Modulen die sequenziell ausgeführt werden
THISL
Speech Recogniser
C99
Topical Segmenter
TF.IDF
Key Phrase Extraction
Web-Search and
Document Matching
Manual Annotation
(Optional)
Index Document Creation
KIM
Semantic Annotation
5
Spracherkennung (Automatic Speech Recognition) THISL Spracherkennungssystem
ABBOT Zusammenhangs-Spracherkenner Wortschatz umfasst 64.000 Wörter
tri-gram Sprachmodel
Wahrscheinlich eher vorkommenden Formulierungen „…Tür ist offen…“ 40%
„…Tür ist Ofen…“ >1%
Wurde speziell für Nachrichtensendungen angepasst:
- 50 Stunden Nachrichtensendungen
- 130 Millionen Wörter aus Zeitungen
6
Spracherkennung
Satzzeichen können nicht berücksichtigt werden
Komplette Erkennungs-Abschrift in Kleinbuchstaben
Kurze Pausen werden mit <s> markiert
Große Pausen werden mit <SIL> markiert
Auszug:<s> thousands of local people have been protesting at the way theauthorities handle the operation <SIL> can marshal reports from thecoastal village of mitch a <SIL> crash patches of oil has started toperk up and dalglish encased <SIL> are the main body of the thickblue is several miles offshore <s> dozens of volunteers working on abeach in which at <SIL> having to use a blade to carve up the thick
7
Inhaltliche Gliederung (Topical Segmenter)
Interesse besteht nur an einem bestimmten Teil der Sendung
Mögliche Ansätze für die Bestimmung von Grenzen:Audio/Visuelle Hinweise
Änderung von Farbschema
Gesichtern
Untertitel
Musik/Geräuschen
Nachteil: Nur möglich bei Fernseh-
sendungen
Einfache Texthinweise
Formulierungen an Textgrenzen „… [reportername] thank
you!“
„…back to the Studio!“
Nachteil: Nicht zuverlässig
8
C99 Segmenter - Algorithmus
Basiert auf der Grundidee der lexikalischen Verkettung
Algorithmus: Vorverarbeitung
Stopwörter entfernen
Übriggebliebene Wörter auf die Stammform bringen
Hauptphase
Segmente aus ASR als Eingabe verwenden
Lexikalische Ketten identifizieren
Bereiche mit hohem lexikalischen Zusammenhang als thematisch gleich bewerten
9
Lexikalische Ketten
Basiert auf Lexical Cohesion “…is the cohesion that arises from semantic relationships
between words” (Morris, Hirst 1991)
Beispiele
Synonyme: Auto, Karre
Spezialisierung / Generalisierung: Pferd, Hengst
Teil – Ganzes / Ganzes – Teil: Politiker, Regierung
Statistisches Co-Vorkommen: Al Kaida, World Trade Center
10
Lexikalische Ketten
Lexical Chains Guppen gebildet aus semantisch, verbundenen Wörtern
Bilden lexikalisch, zusammenhängenden Struktur im Text
Beispiel:
{Blume, Rasen, Rose, Garten, Baum}
11
Hauptthemen Erkennung (Key-phrase Extraction) Ziel ist die Erkennung von Schlüsselwörter oder –Sätzen
Diese dienen später zur Suche im Web
Suche nach häufig auftretende Schlüsselwörter außerhalb des gewöhnlichen Sprachgebrauchs:
Dokumentaktuellen im Begriffs des Anzahl Segment-Topical im Begriffs des Häufigkeit
vorkommtBegriffder demin Dokumenteder Anzahl sTranscript-atenTrainingsdder Anzahl
1log Score TF.IDF
ptnN
p
t
n
N
12
Hauptthemen Erkennung - Algorithmus
Vorbedingungen Nur Verwendung von Stammformen Nur die Verwendung von Sätzen mit mind. 6 Wörtern
Ausgenommen solche die mit Stopwörtern anfangen / enden
Vorverarbeitung Berechnung der Häufigkeit aller Sätze Übersteigt die Anzahl der Sätze die Höhe von 300.000, werden
nur die 100.000 Häufigsten weiterverwendet
Hauptphase Falls ein Wort mind. zwei mal vorkommt, wird TF.IDF Wert
berechnet Es werden die vier Wörter mit den höchsten Wert als
Schlüsselwörter verwendet
13
Websuche (Web-Search and Document Matching) Verwendung der Google-API zur Suche
Eingabe: site:news.bbc.co.uk zur Begrenzung auf BBC-Inhalten Tag und Vortag der Ausstrahlung der Sendung Vier TF.IDF Hauptsätze
Erste Suche mit den ersten und zweiten gefundenen Phrasen
Weitere Suche mit je einem der vier Phrasen
Ausgabe: Es wurden jeweils nur die ersten drei gefundenen
URLs verwendet max. 15 URLs
14
Websuche
Welche der 15 URLs soll genommen werden?
Diese 15 Seiten wurden mit dem Ausgangssegment verglichen Hier wurde auch C99 zur Ermittlung der Ähnlichkeit
genutzt
Häufig ist die erste URL der ersten beiden Phrasen ein Treffer Wichtig: Es wurden aber auch die anderen Suchen
berücksichtigt!
15
Manuelle Kommentierung (Manual Annotation) Meisten BBC Webseiten enthalten Meta-Informationen
Schlagzeile
Eine kurze Zusammenfassung
Klassifikation der Geschichte
Diese können entnommen und dem Transkript automatisch hinzugefügt werden
Ab diesem Punkt können die Daten für das Format des „ELAN Linguistic annotator“ aufbereitet werden
16
ELAN (Manuelle Nachbearbeitung des Transkripts)
17
Erstellung des Index-Dokuments
Für jede Geschichte mit gefundener URL wird ein GATE Dokument erstellt und enthält: Text der übereinstimmenden Webseite
Schlagzeile, kurze Zusammenfassung und Bereich
URL der Media-Datei der Originalsendung
Zeitinformation des Start- und Endpunkts in der Sendung
Kanal, Ausstrahlungsdatum und Programmname
Diese Daten bilden die Basis für eine Katalogeintrag
18
Semantische Information (Semantic Annotation) Bis hierhin erzeugte Metadaten sind im Textformat
Für die Erzeugung von Semantischen Informationen wird die „Knowledge and Information Management“ Plattform KIM verwendet: Identifiziert automatisch Entitäten (Personen, Länder…)
Verbindet diese Entität mit einer URI
URIs können innerhalb von 250 Klassen und 100 Properties organisiert werden
19
KIM
20
Suche von Sendungen
KIM Web UI ermöglicht Einfache Textsuche sowie Semantisch unterstützte Suche
21
Evaluation
Performance des Systems wird anhand dessen gemessen, wie erfolgreich Index Dokumente erzeugt werden
Dies hängt wiederum davon ab, ob Webseiten zu den Geschichten gefunden werden
Evaluation: Grundlage war BBC Radiosender The World at One
Neun Sendungen à 30 Minuten wurden verwendet
Vorbereitend wurden die Geschichten händisch notiert
22
Evaluation - Ergebnisse
Jedes Index Dokument wurde darauf untersucht, Ob es der Geschichte in der entsprechenden Sendung entsprach
(Strict)
Ob es ähnlich aber nicht genau der gezeigten Sendung entsprach (Lenient)
Ob es keinen Zusammenhang mit der Sendung gab
Die neun Sendungen enthielten insgesamt 66 GeschichtenCorrect Incorrect
Precision
(%)
Recall
(%)
F1
Strict 25 2 92.6 37.9 53.8
Lenient 27 0 100 40.1 57.2
23
Aussicht
Die Spracherkennung stellt noch eine Hürde dar Reportagen außerhalb des Studios, beinhalten zuviel
Störgeräuche
Hier würde eine Verbesserung erheblich die Performance steigern
Bei dem Document Matcher könnten in Zukunft neue Quellen hinzugezogen werden
24
Fazit
Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande
Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und beweist so die Zuverlässigkeit
So kann ein großer Teil von der mühsame Arbeit abgenommen werden
25
Fazit
Aufgrund der Schwächen bei der ASR kam kein hoher Recall zustande
Dennoch wurden die Index Dokumente mit einer hohen Precision erstellt und das beweist die Zuverlässigkeit
So kann ein großer Teil von der mühsame Arbeit abgenommen werden
Danke für die Aufmerksamkeit!