Knowledge Discovery Erzeugung künstlicher Telekommunikationsdaten Markus Höchstötter Michael...

Post on 06-Apr-2015

105 views 1 download

transcript

Knowledge DiscoveryErzeugung künstlicher Telekommunikationsdaten

Markus Höchstötter

Michael Wenzelburger

Agenda

Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Künstliche Telko-Daten

Warum künstlich? Wissenschaftliche Zwecke Datenschutz von „echten“ Daten

Wie erzeugt man Telko-Daten? Aggregierte Daten erhältlich Kundenklassen, Cluster Wahrscheinlichkeitsverteilungen

Künstliche Telko-Daten

Kundencluster mit ähnlichen Eigenschaften

Aggregierte Info über Kundencluster

Wahrscheinlichkeitsmodell und ZZ-Generator

Telko-Mikrodaten(Gesprächsspezifisch)

Agenda

Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Generierung von Daten

Monte-Carlo-Methode Milligan Algorithmus Promatis

Monte-Carlo-Methode

Definition: „Ein Verfahren, die Lösung eines Problems als Parameter einer hypothetischen Grundgesamtheit darzustellen und eine Folge von Zufallszahlen zu benutzen, um eine Stichprobe der Gesamtheit zu konstruieren, aus der dann statistische Schätzungen des Parameters gewonnen werden.“

Norbert Schmitz et al 1974

Monte-Carlo-Methode

Festlegung von Wahrscheinlichkeiten auf bestimmten Dimensionen

Erzeugung von Zufallszahlen Ablesen der Ausprägung der

Dimensionen

Monte-Carlo-Methode

Beispiel:

Zufallszahlen:

Ausprägung kurz mittel langP(x) absolut 22 15 18P(x) relativ 0,4 0,27 0,33P(x) kumuliert 0,4 0,67 1

0,44 => mittel

0,76 => lang

0,54 => mittel

0,01 => kurz

Milligan Algorythmus

Definition: „An algorythem for generating artificial data sets which contain distinct nonoverlapping clusters“

Glenn W. Milligan 1985

Milligan Algorithmus

Algorithmus: Festlegung der Cluster in den

Verschiedenen Dimensionen Erzeugung von Datensätzen

innerhalb der Clustergrenzen (3fache Standart Abweichung)

Erzeugung von „Ausreisern“ außerhalb der Clustergrenzen (15% - 30% der gesamten Daten)

Promatis

Software zur Erzeugung von mehrdimensionalen Datensätzen

Jede Dimension hat eigene Verteilung

Werden einzeln erzeugt und überlagert

Promatis

Promatis

Agenda

Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Telko-Datenstruktur

Gesprächsdauer/ Belegungsdauer

Zahl der Gespräche Einfallsabstand Verkehrswert

Gesprächs-/Belegungsdauer Gespräch vs Belegung ln-normalverteilt mit xm als

Lage und Qx als Steigung

2exp

2

1)(

2uxfy

) ln(

) ln( ) ln(

x

m

Q

x xu

Gesprächs-/Belegungsdauer

Zahl der Gespräche

Diskrete Wahrscheinlichkeitsverteilung

Kann durch ln-normalverteilte Verteilung dargestellt werden

duu

xFxu

y

)( 2

2exp

2

1)(

mit x=0,1,2,...,n

Zahl der Gespräche

Einfallabstand

Kann indirekt aus Zahl der Gespräche bestimmt werden

Somit auch ln-normalverteilt Problem: Bei Transformation

geht Info verloren Lediglich „mittlere“

Einfallabstände

Verkehrswert

Definition: „Summe der Belegungsdauern eines Kollektivs von Belegungen innerhalb eins Zeitraums bezogen auf diesen Zeitraum“ Robert Jäger 1990

Zwischen 0 und 1 Gemessen in Erlang ln-normalverteilt Kann aus anderen Daten ermittelt

werden

Telko-Datenstruktur

Alle annähernd ln-normalverteilt

Somit alle durch zwei Parameter darstellbar

Bei manchen Größen systematische Einflussgrößen zu bereinigen

Agenda

Künstliche Telko-Daten Generierung von Daten Telko-Datenstruktur Spezielle Lösungsansätze

Spezielle Lösungsansätze Erzeugung von einzelnen

Kunden Erzeugung von einzelnen

Gesprächsdaten mit Zeitstrahlmodell

Erzeugung von Kunden

Kundengruppen unterteilt nach Telefonierverhalten

Ziehung der kundenspezifischen Parameter mit ZV aus Kundengruppen

Erzeugung von Gesprächsdaten Generierung für einzelnen

Kunden Beginn bei Null Fortlaufende Ziehung von

Gesprächsdauer und Zwischengesprächsabstand

Ermittlung der Tarifstruktur vor jeder Ziehung

Zeitenstrahl

t=0

}Zwischenzeit 1

t1

Gespräch 1

t2

Ziehung:•Tarifzone (Ort, Nah, Fern)•Gesprächsdauer

} Abhängig vom

Startzeitpunkt

t3

}Zwischenzeit 2

...

Fragen