Date post: | 06-Apr-2016 |
Category: |
Documents |
Upload: | waldemar-sachs |
View: | 213 times |
Download: | 0 times |
Universität Bremen FB3 AG-Digitale Medien
DiplomarbeitAbschlussvortrag
A Social Tagging Environment forWeb Information Extraction
Diplomand: Wenyu CaiMatrikelnummer: 1621677E-Mail: [email protected]: Prof. Dr. Rainer MalakaZweitgutachter: Prof. Dr. Martin Gogolla
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 2
Einleitung
Motivation: Die relevanten strukturellen Daten einfach und
effektiv aus semi-strukturierten und unstrukturierten Web Dokumenten zu identifizieren, annotieren und extrahieren.
Fragestellung: Wie kann man mittels Social Tagging, Tag-
Empfehlungen und modernen Webtechniken eine Social Tagging Umgebung zu Unterstützung von Web Informationsextraktion aufbauen.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 3
Einleitung
Ergebnis: Ein Social Tagging Umgebung wurde für Web
Information Extraction entworfen und implementiert und evaluiert.
Aufbau der Arbeit: Stand der Forschung Konzeption Umsetzung eines Tagging Systems für Web
Information Extraction Evaluation
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 4
Stand der Forschung
1. Social Software und Kollektive Intelligenz
2. Social/Collaborative Tagging
3. Semantische Annotation
4. Web Informationsextraktion
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 5
Social Software und Kollektive Intelligenz
Social Software„Internetbasierte Anwendungen, die Informations-, Identitäts- und Beziehungsmanagement in den (Teil-)Ö entlichkeiten ffhypertextueller und sozialer Netzwerke unterstützen“1.
Kollektive Intelligenz „Das Ganze ist mehr als die Summe seiner Teile“2.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 6
Social/Collaborative Tagging
Social Tagging
• R = (r1,...,rl): Menge der verschlagworteten
Ressource.• T = (t1,...,tm): Menge der vergebenen Schlagwörter.• U = (u1,...,un) Menge der Nutzer.
FolksonomyDie Menge aller Tags, die einer bestimmten Ressource von allen Nutzers zugewiesen wurden.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 7
Social/Collaborative Tagging
Folksonomy• „folk“ (Volk) und „taxonomy“ (Taxonomie, Klassifikation).• die Ordnung ist nicht vornher festgelegt.• keine formellen Beziehungen in einer Folksonomie.
• Vier zentrale Merkmale3:1. Tagging is done independently;2. Tags are aggregated.3. Relationships are inferred.4. Any inference methode is valid. (Tag-Zähler, Co-occurence, Clustering)
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 8
Social/Collaborative Tagging
Tag-Empfehlung
Algorithmus von Yahoo!4 Auffindung und Wiederfindung von Ressourcen Popularität, Co-ocurrence und Normalisierung von Tags
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 9
Social/Collaborative Tagging
Einsatzgebiete und Systembeispiele1. Managing Personal Information, z.B „Labels“ in Google Mail;2. Social Bookmarking, z.B del.icio.us;3. Collecting and Sharing Digital Objects, z.B YouTube, Flickr,
LibraryThing;4. E-Commerce, z.B Etsy, Buzzillions;5. Other Uses, z.B ESP Game, Diigo.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 10
Social/Collaborative Tagging
Wesentliche Vorteile1. Erleichterung der Zusammenarbeit;2. Gewinnung von deskriptiven Metadaten;3. Verbesserung der Au ndbarkeitffi ;4. Erhöhung der Beteiligung;5. Erkennung der „Patterns“;6. Erweiterung existierender Klassifikation;7. Chance für Innovation.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 11
Semantische Annotation
Professionelle Annotation manuell von von Experten; sehr teuer (zeit-/arbeitsintensiv).
Automatische Annotation automatisch durch computerlinguistische Methoden; nicht immer zutre end und oft nicht ausreichend.ff
Soziale Annotation Kollektive Intelligenz Vorteile von Social Tagging
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 12
Semantische Annotation
Taxonomie Hierarchie von Begri en (Über/Unterordnung);ff keine Beziehungen zwischen Elementen; aufwendig und wenig fexibel.
Ontologie formale Spezifikation einer Konzeptualisierung; ein Netz von Hierarchien mit logischer Beziehungen; teuer und wenig fexibel.
Folksonomie freies Tagging und kollektive Intelligenz; jedes Schlussfolgerungsverfahren ist zulässig.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 13
Semantische Annotation
Web Annotation Inhaltsbezogene bzw, textuelle Annotation Strukturelle Annotation
Abbildung 2.9: Text-Markierung und Kontext-Menü in Thresher
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 14
Web Informationsextraktion
Informationsextraktion versucht nicht, die Input-Texte bzw. Quellen zu verstehen; analysiert Teilbereiche von jedem Dokument, welche
relevante Informationen enthalten
Wrapper eine Reihe von Extraktionsregeln und Code; manuell, überwacht (semi-automatischer) oder automatisch
generieren
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 15
Web Informationsextraktion
Klassifikationen
1. Sprachbasiert:• Programmiersprachen unterstützen Wrapper Generierung;• guten Programmierkenntnis notwendig;• sehr hohen manuellen Arbeitsaufwand.
2. HTML-basiert:• Analyse von HTML Dokumenten anhand der HTML-Struktur-
Eigenschaften;• unstrukturiert und semi-strukturiert; • täglich neu und ständig Veränderung.
3. NLP-basiert:• für freie, natürlichsprachliche Texte;• vollgrammatikalische Sätze erfordert;• nicht sehr gut für Web IE.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 16
Web Informationsextraktion
Klassifikationen
4. Wrapper-Induction-basiert:• Extraktionsregeln werden von einer Reihe von
Trainingsbeispielen abgeleitet;• große Menge von Trainingsbeispieln erfordert.
5. Modell-basiert:• die Struktur von den Zielobjekten ist gegeben;• versucht Seiten zu finden, die eine absolut konforme
Teilstruktur dazu aufweisen;• große Menge von strukturierter Daten notwendig;
6. Ontologie-basiert:• die Techniken des Semantic Webs noch nicht sehr verbreitet;• zum aktuellen Zeitpunkt noch une zient.ffi
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 17
Web Informationsextraktion
Problemklassen Au nden der Webseiten durch das Verfolgen von Hyperlinks;ffi Unsaubere HTML-Struktur; Das Hyperlink Dilemma; Struktur Synthese Problem; Data Mapping und Data Integration Problem
Das „Deep Web“; Die Flexibilität des Webs.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 18
Web Informationsextraktion
Nutzung visueller Information
Abbildung: Visuelle Extraktion Umgebung von Lixto
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 19
Zusammenfassung
manuelle und überwachte Bearbeitungen kostet sehr hohen Arbeitsaufwand
große Menge von Bespieldaten für verschiedene Informationsquellen sind notwendig;
häufige Veränderung von Webseiten erhöhtet Arbeitsaufwand.
Social Tagging als Hilfsmittel; Relevante Webinhalte werden durch kollektive menschliche
Intelligenz klassifiziert; immer aktuellen Metadaten werden von sozialer Annotation
erstellt.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 20
Konzeption
Grundidee
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 21
Konzeption
Systemübersicht
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 22
Umsetzung
Analyse
Systementwurf
Implementierung
Nutzung des Tagging Systems
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 23
Analyse
Client-Server Architektur
Funktionale Anforderungen
Interaktionen und die strukturellen Informationen
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 24
Systementwurf
Systemarchithektur
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 25
Systementwurf
Clientseitige Interaktionen
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 26
Systementwurf
Serverseitige Funktionalitäten
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 27
Systementwurf
Datenmodelle
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 28
Implementierung
Technologieentscheidung
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 29
Implementierung
Klassenstruktur
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 30
Nutzung des Tagging Systems
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 31
Evaluation
Nutzungssituation
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 32
Evaluation
Empfehlungsanalyse
Schritte/Tags Preisinfo Computernetzwerke Buch PreisSchritt 1 1,0 0,33 0,60 5,0Schritt 2 0,5 0,33 0,10Schritt 3 0,41 0,51Schritt 4 0,18
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 33
Evaluation
Empfehlungsanalyse
Webseite Die empfohlenen Tags
W1(Fußball)
fussball, belgien, ergebnis, privatliga, tabelle
W2(Wettervorhersagen) wetter, bremen, temperatur, vorsage, wetterbericht
W3(Personendarstellung)
gernot (Personname), lebenslauf, adresse, telefon, karriere
W4(Bücher) preis, buch, computernetzwerke, preisinfo, wesley
W5(Filme)
007, schauspieler, film, superstar, connery
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 34
Fazit und Ausblick
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 35
Quelle
1. Jan Schmidt: Social Software: Onlinegestütztes Informations-, Identitäts- und Beziehungsmanagement. In: Forschungsjournal Neue Soziale Bewegungen, Nr 2/2006
2. von Aristoteles (384 - 322 v. Chr.), er war der erste große Systematiker unter den Philosophen und gilt als Begründer der abendländischen Wissenschaft.
3. Smith, G. (2008). Tagging: People-powered Metadata for the Social Web (1ed.). New Riders Press.
4. Xu, Z., Y. Fu, J. Mao, and D. Su (2006). Towards the semantic web: Collaborative tag suggestions. WWW 2006 Tagging Workshop Proceedings.
Universität BremenFB3 AG-Digitale MedienProf. Dr. Rainer Malaka
DiplomarbeitAbschlussvortrag 36
Vielen Dank!