Date post: | 17-Sep-2018 |
Category: |
Documents |
Upload: | nguyendiep |
View: | 219 times |
Download: | 0 times |
Einsatz und Nutzen semantischer
Technologien im WDB Suchportal
für Weiterbildung in Berlin und
Brandenburg
Dr. Thomas Hoppe
Data Science für Unternehmen
Datenanalyse
• Aufbereitung
• Statistische Analyse
• Modellierung
• Visualisierung
• Präsentation
Modellierung
• Mining von
• Daten
• Texten
• Themen
• Modellierung von
• Taxonomien
• Thesauri
• Ontologien
Qualitätssicherung
• Nicht-deterministischer Verfahren & Lösungen
• heuristische
• semantische
• probabilistische
• Analyse
• Validierung
• Evaluation
• Zertifizierung
Menschen erfinden Synonyme
8
BMW
Russfilter
Rußfilter
Dieselfilter
Russpartikelfilter
Dieselrußfilter
Dieselpartikelfilter
Marktforschung
Fernsehgerät
TV-Gerät
Fernsehempfänger
Farbfernseher
Fernseher
Werbung
Werbetext
Copy
Copytext
Weiterbildungs-DB
Fachkraft für Arbeitssicherheit
FaSi
FAS
SiFa
Div. Jobportale
Vertriebsleiter
Leiter Vertrieb
Verkaufsleiter
Sales Director
Sales Manager
VDI-Verlag
Diplom-Ingenieur
Diplom-Ing.
Dipl.-Ingenieur
Dipl.-Ing., Dipl-Ing,
Dipl Ing
WDR Intranet
Kostenerstattung
Aufwandsentschädigung
Aufwendungserstattung
Aufwandserstattung
BMW
Russfilter
Rußfilter
Dieselfilter
Russpartikelfilter
Dieselrußfilter
Dieselpartikelfilter
Weiterbildungs-DB
Fachkraft für Arbeitssicherheit
FaSi
FAS
SiFa
Anfragen an die Weiterbildungs-DB
Triebfahrzeugführer
Eisenbahnfahrzeugführer
Triebfahrzeugfahrer
Triebfahrzeugführende (CH)
Lokomotivführer (vera./umg.)
Lokführer (vera./umg.)
Triebwagenfahrzeugführer
• Triebwagenfahrer
• Triebwagenführer
Zahnmedizinischer Fachangestellter
ZFA
Zahnmedizinischer Fachhelfer
Zahnarzthelfer
ZAH
Dental-Assistent (CH)
Stomatologische Schwester (DDR)
Zahnarztgehilfe
Stuhlassistenz
Dental-Fachkraft
Zahnarzthelfer (vera.)
Zahnärztlicher Helfer
Zahnarztfachhelfer
Anfragen an die Weiterbildungs-DB
10-Finger-Tastschreiben
Zehn-Finger-Tastschreiben
10-Finger-Schreiben
Zehnfingerschreiben
Blindschreiben
Tastschreiben
Computerschreiben
Zonenschmelzverfahren
Zonenziehen
Zonenschmelzen
Float-Zone-Verfahren
Fließzonenverfahren
Zonenreinigung
Zonenrandschmelzverfahren
Zonenfloating
Deutsche Sprache –
Schwere Sprache
Gabelfahrer
Krakenpflegehelfer
Verkäferin
Krankführer
Scheißerschein
Hautechniker
Steuerbratung
CC-BY-NC Daniele Civello Flickr
CC-NC-SA Johnny Peacock Flickr
Unterschiedliche Sprachräume
Interessent
Windkraftkonverter Windenergieanlage Weiterbildungs-DB
Anbieter
“Die Grenzen meiner Sprache
bedeuten die Grenzen meiner Welt.”
Tractatus logico-philosophicus, Ludwig Wittgenstein
CC-NC-SA Johnny Peacock Flickr
Übersetzung zw. Sprachräumen
Vokabular Interessent
Windkraftkonverter Windenergieanlage Archiv
Anbieter
HR Thesaurus ~ 12.800 Begriffe ~ 19.500 Bezeichnungen ~ 26.200 Oberklassenbez. ~ 4.700 Beziehungen ~ 3,25 PM netto
0
100000
200000
300000
400000
500000
600000
700000
800000
2014 2015
An
frag
en
Semantisch ausgewertete Suchen Volltextsuchen (Fallback)
Verteilung der Suchanfragen
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1
56
1
11
16
6
22
1
27
6
33
1
38
6
44
1
49
6
55
1
60
6
66
1
71
6
77
1
82
6
88
1
93
6
99
1
10
46
1
10
1
11
56
12
11
1
26
6
13
21
1
37
6
14
31
14
86
15
41
1
59
6
16
51
1
70
6
17
61
18
16
1
87
1
19
26
19
81
20
36
20
91
2
14
6
22
01
2
25
6
23
11
2
36
6
24
21
24
76
mo
de
llie
rte
Su
chb
egr
iffe
Rang der Anfrage
2014 I/2015 II/2015
Sinkende Wartungsaufwände
Erste 3 SERPs Über alle Ergebnisse
Zeitersparnis durch weniger Treffer 10% 13%
Zeitersparnis durch besseres Ranking** 10% (gewichtet) 37%
Anzahl Treffer der Volltextsuche 27,7 475
Anzahl Treffer der semantischen Suche 24,5 346
Anzahl möglicher falscher Treffer der Volltextsuche
15,2 258
Anzahl zusätzlicher Treffer der semantischen Suche
12,1 129
Quantitativer Vergleich* über 7.200 (205k) Anfragen
Weiterbildungs-DB Berlin-Brandenburg
* gerundet; 25 Treffer pro Search Engine Result Pages ** bezogen auf die Treffermenge pro Anfrage die von Beiden gefunden werden
* im Vergleich zu Volltextsuche
Hinweise auf passende und spezifischere Begriffe
Information über geschätzte Trefferzahl
Formulierung fehlerfreier Anfragen
Rechtschreibkorrektur-vorschläge
Sortierung nach Passgenauigkeit, Entfernung und Aktualität
Zeitersparnis zw. 10-35%*
~ 55% weniger Fehltreffer*
~ 44% zusätzliche relevante Treffer*
Nutzen semantischer Techniken
Anfrageformulierung Treffersichtung