Post on 05-Apr-2015
transcript
(c) 2008 Prof. Dr. Michael M. RichterGöttingenDezember 2008
Der Ähnlichkeitsbegriffund
die Suche nach Information
Michael M. Richter
Department of Computer Science
University of Calgary
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Warum sind wir an Informationen interessiert?
• Informationen haben einen Zweck ist: Handlungen – überhaupt auszuführen– besser auszuführen.
• Der Handlungsbegriff wird sehr allgemein gefasst:– Handlungen verändern etwas:– Die Umwelt– Das Bewusstsein– etc.
Es bleibt die Frage: Was heisst besser?
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Was heisst „Besser“?
• Handlungen und Prozesse haben ein Ziel, das mehr oder weniger erreicht werden kann.
• Ökonomisch-Mathematische Theorie: Nutzentheorie.• Historische Wurzeln:
– Daniel Bernoulli (1730, erste Begriffe)– v.Neumann – Morgenstern (1944, mathematische Theorie)– Savage, Aumann (nach 1950, Formalisierung subjektiver
Sichtweisen.
• Ein Ziel heisst besser erreicht, wenn der Nutzen steigt.
• Informationen sind dazu da, Handlungen so auszuführen dass der Nutzen steigt.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Kontext
• Der Kontext ist im Prinzip alles das was für den Prozess relevant sein kann und ist deshalb oft subjektiv.
• Der Kontext definiert das Ziel und die Nützlichkeit einer Ressource.
• Der Kontext ist oft nur ungenau bekannt:• Man erhält also kein klares mathematisch definiertes
Problem.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Nutzenoptimierung
• v.Neumann-Morgenstern: Optimiere den erwarteten Nutzen!
• Voraussetzung:• Die Nutzenfunktion liegt präzise vor• Das ist ein Problem bei
– subjektiven – teilweise unbekannten– vagen Nutzenfunktionen
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Wissen und Nutzen
• Wissen hat deshalb einen Wert, wir können es– kaufen– verkaufen
• Das ist keine Erkenntnis unserer Zeit!• Wir kennen das seit Jahrhunderten, z.B. die
britische Regierung verhielt sich zur Kolonialzeit so.
• Konsequenz: Wissensmanagement!
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Das Retrievalproblem
• Informationen sammeln kann jeder• Aber wenige können benötigte Informationen finden.• Situation:
– Ich möchte eine Aktion ausführen– Ich frage also: Bitte helfen Sie mir mit den nötigen
Informationen! – Da machen wir uns mal auf die Suche! – Aber wie?
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Zwei Arten von Suche
• Logik orientierte Suche: Wir suchen die home page einer bestimmten Konferenz
• Das ist ein 0-1 Problem, entweder erhalten wir die home page oder nicht. Die Antwort muss exakt sein.
• Approximation orientierte Suche: Wir suchen die Telefonnummer einer Person welche gut über das Physikstudium in der Schweiz Bescheid weis.
• Hier ist die Antwort weniger klar. Auch mag eine ideale Person gar nicht existieren.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Approximation, Abstand und Ähnlichkeit
• Approximation benötigt Abstandsfunktionen.• Dual dazu: Ähnlichkeitsmasse.• Traditionell:
– Numerik
• Heute auch:– Symbolische Bereiche
• Das erlaubt die Anwendung der Methode des nächsten Nachbarn
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Was heisst “ähnlich”? (1)
• Es gibt kaum einen Begriff über den so unterschiedliche Meinungen bestehen.
• In der Umgangssprache meint man meist “ähnlich aussehen”.
• Aber der Begriff wird auch in vielen Disziplinen verwendet:– Philosophie– Kunst, Design– Machinelles Lernen– Pattern Recognition– Fallbasiertes und analoges Schließen– E- commerce
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Was heisst “ähnlich”?(2)
• Ähnlichkeit hat mit der Gleichheit gemeinsam, dass es sich auf unterschiedliche Aspekte beziehen kann: – Größe, Form, Farbe– Herkunft, etc.
• Ähnlichkeit ist oft subjektiv:– Eine Person mag zwei Autos ähnlich finden, eine andere
nicht.– Das liegt an den unterschiedlichen Interessen und ist oft
auch durch Emotionen beeinflusst.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Ähnlichkeit als eine Relation
• Drei Möglichkeiten:
i) binäres Prädikat:“x und y sind ähnlich”
ii) binäres Unterschiedsprädikat:
“x und y sind unähnlich”
iii) Ordnungsrelation:
“x ist mindestens so ähnlich zu y wie zu z”
Optimalität: Wenn y am ähnlichsten zu x heisst es nächster Nachbar von x.
Notation : NN(x,y)
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Ähnlichkeitsmaße
• Ein Ähnlichkeitsmaß bringt einen quantitativen Aspekt.
• In seiner abstrakten Form hat das Maß zwei Argumente von zwei beliebigen Mengen
• F (genannt Fragen) • A (Genannt Antworten):
• Ein Ähnlichkeitsmaß ist eine Abbildung• sim: F x A [0,1] (reelles Intervall)• .
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Ein allgemeines Ähnlichkeitsmaß
• Gegeben: Zwei Objektbeschreibungen C1, C2 mit p Attributen A1, ..., Ap
• Intention:
• simj : Ähnlichkeit für Attribut j (lokales Maß)
j : beschreibt die Relevanz von Attribut j für das Problem
Lokal – Global Prinzip
p
1jjj (C1,C2)simSIM(C1,C2) ω
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Beispiele
Frage
benötigte Information
Erwünschtes Produkt
Intendierte Funktionalität
Symptome
Antwort
Dokument
Erhältliches Produkt
geeignetes Produkt
Therapie, Reparatur
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Semantik, Spezifikation, Korrektheit
• Die Semantik der Ähnlichkeit ist der Nutzen der Antwort.
• Die Nutzenfunktion dient als Spezifikation für das Maß.
• Korrektheit:
Nutzen der Antwort = Spezifizierter Nutzen
Nutzenprinzip:
Maximum des (erwarteten) Nutzens• Ähnlichkeitsprinzip:
Nächster Nachbar
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Dokument und Inhalt Orientierung
• Dokumentorientierung : Man ist nur am Titel und Schlüsselwörtern interessiert.
• Das reicht of aus:– Lufthansafahrplan– Leipziger Veranstaltungskalender Juli 2009.
• Inhaltsorientierung: Die Nützlichkeit ergibt sich erst durch ansehen des Inhaltes:– Ein Buch über grundlegende Probleme der
Klassenkörpertheorie.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Wissenscontainer - Wo ist das Wissen repräsentiert?
• Das Wissen ist über die Container verteilt• Das Wissen kann zwischen den Containern verschoben werden
Fall BasisProduktbasis
Fall BasisProduktbasis
Ähnlichkeits-
Maß
Ähnlichkeits-
MaßLösungs-
Transformation
Lösungs-
Transformation
VokabularVokabular
- 17 -
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
CBR-Works
• Wir verwenden das Werkzeug CBR-Works um einen Internetladen für den Verkaufsprozeß zu bauen.
• CBR-Works ist – Ein Modellierungswerkzeug– Ein Tool um den Verkauf durchzuführen
• Der Kunde– hat Wünsche, Präferenzen und Verhalten– sucht Informationen um das best möglichste Produkt zu finden
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Ein Beispiel: Hauskauf
• Wir wollen ein Haus kaufen.• Vokabular: Woran sind wir interessiert, wonach
fragen wir?• Produktbasis: Was ist erhältlich?• Ähnlichkeitsmaß: Welches bevorzugen wir?• Transformation: Welche Veränderungen sind
erlaubt?
• Das ist ein dynamischer Prozeß, ein Dialog, der effizient gestaltet werden muss.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Wünsche ...
• Wir wollen ein traditionelles Haus!• Aber etwas modern wäre auch ganz schön!• Die Energiefrage bedenken!• Und wir wollen auch die Sommerabende
genießen!
• Wie repräsentieren wir so etwas?• Das ist direkt nicht möglich. Jede formale
Repräsentation muss sich aber daran messen.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Fragen und Antworten :“CBR Answers System”
• Query: On my PC entering long street names causes a Crash with the message “storage error”.
• Case1:Under Windows XP there is not enough storage allocated for the name of the street. Can possible cause that the system shuts down.
• Case2:The PC-Version does not store the street names correctly.
• Case3: On the Sun entering Umlauts causes a crash.
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
SIMATIC Knowledge Manager
www.ad.siemens.de
CBR-Server
Structure
Information about the
Structure of the
SIMATIC Information
System
Order No.
Relation
order numbers
-productnames
Dictionary
InformationEntities
Similarities
Similarity model
Documents in the Customer SupportInformation System
SearchResults
View Document
Calgary 2005 (c) 2005 Prof. Dr. Michael M. RichterKnowledge Managemnentfor E-Commerce
Vielen Dank für Ihre
Aufmerksamkeit !