Algorithmus, Good School, Camp Digital

Post on 27-Jun-2015

386 views 1 download

transcript

Algorithmus

Torben Brodtplista GmbH

23. Januar 2013Camp Digital, Good School

Inhalt Algorithmus

1. Vorstellung

2. Das Spiel

3. Definition Algorithmus

4. Welche Aufgaben?

5. Welche Daten?

6. Welche Konzepte?

7. Grenzen?

8. Fragen

Vorstellung

● plista GmbH○ Empfehlungs- & Werbenetzwerk○ 2008 Gründung, Sitz in Berlin○ ~3k Recommendations/Sekunde

● Torben Brodt, Head of Data Engineering○ 2003 Black Hat SEO○ 2004 Programmier Forum○ 2005 Studium Informatik○ 2008 plista○ 2010 Buch „Collaborative Filtering“○ TV + Radio „Macht der Algorithmen“

Algorithmus das Spiel

● Es gibt 18 Streichhölzer● Der erste Spieler nimmt 1, 2 oder 3, der auf

dem Tisch liegenden Streichhölzer● Danach nimmt der zweite Spieler entweder

1, 2 oder 3 der verbleibenden Hölzer... usw.● Verloren hat der Spieler, der das letzte

Streichholz vom Tisch nimmt● Bitte jetzt Paare bilden für Runde 1,

danach treten die Gewinner gegeneinander an

Algorithmus das Spiel

● Wie lautet die Gewinnformel?● Intuition?

Algorithmus das Spiel

● Wie lautet die Gewinnformel?● Intuition? Logik?

Quelle: http://www-i1.informatik.rwth-aachen.de/~algorithmus/algo14.phpAlgorithmus der Woche, Jochen Könemann, University of Waterloo

i 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

G N J J J N J J J N J J J N J J J N J

i Streichhölzer

G Gewinn möglich

Sequenz wiederholt sich

Definition Algorithmus

● Wortherkunft: arabisches Lehrbuch, lateinisch übersetzt: „dixit Algorismi“

● Schritt für Schritt Abfolge zur Lösung eines Problems

● Algorithmus = Gewinnformel● Simples Beispiel: „Kochrezept“● „Big Data“: komplexe Probleme mit

großen Datenmengen

Algorithmus

Big Data: Welche Aufgaben?

● Bekannte Nutzer von Big Data Algorithmen○ Google○ Facebook○ Amazon○ ... uvm

● Konfrontiert mit gigantischer Datenmenge● Berechnung nach individuellen Bedürfnissen

Big Data: Welche Daten?

● Was wissen "die" eigentlich über euch?● Context der Anfrage / Parameter der Anfrage● CRM: Demographie, Kaufkraft, uvm.● Anonyme Daten: URL, Geolocation, Uhrzeit,

Wochentag, Suchanfrage, Gerät, Betriebssystem, uvm

● Social Daten: Alter, Geschlecht, Hobbies, etc○ z.B. „Nach Facebook Login“

● Alle diese Daten werden gesammelt

Big Data: Welche Konzepte?

● Modelle und Herangehensweisen um Daten nutzbar zu machena) Logikb) Clusteringc) Neighborhoodd) Ausprobierene) Mittelwerte

● Das sind Grundlagen, aber es gibt noch konkretere Algorithmen

Konzept a) Logik & Mathematik

● Wir verlassen uns auf Zahlen, wir nutzen unser Wissen○ Welche Relevanz hat eine Website bei Google?○ 75% 3 von 4 Wörter Suchanfrage zu Text○ 50% Pagerank 5 von 10

Konzept a) Logik & Mathematik

● Wissensdatenbank○ Matching zwischen Person und Gegenstand○ "Frauen besuchen Brigitte.de"

● Parameter berechnen○ Kreditvergabe:

■ Höhe des Kredits■ Höhe des Einkommens■ ...

○ Suchmaschinen Ergebnis○ Herzinfarkt-Risiko○ ...

Konzept b) Clustering

● Alle Möglichkeiten abzuwägen wäre kompliziert

● also fassen wir "Dinge" zu "Clustern" zusammen

● Vorteil 1: Weniger Komplexität bei Entscheidungen!

● Vorteil 2: Mehr Datendichte

Konzept b) Clustering

A B

C D

Konzept c) Neighborhood

Konzept c) Neighborhood

Konzept c) Neighborhood

● Gemeinsamkeiten suchen (ähnlich Clustering)● Bekanntes auf Unbekanntes übertragen● Allgemeiner Ansatz für Finanz-

Entscheidung, Werbe-Empfehlung, Herzinfarkt-Risiko

● "Kollektive Intelligenz" - Mit neuen Daten werden die Empfehlungen automatisch besser

Konzept d) Ausprobieren

● "Trial and Error"○ ausprobieren, scheitern, verbessern

● Man sollte fortlaufend beobachten○ „Live Training“, denn alles ändert sich○ Dazu technisches System um Erfolge zu

kontrollieren● A/B Testing

○ Beispiel Telefonmarketing○ Variable: Ruft eine Frau oder ein Mann an?

● Multivariante A/B Tests○ Mehr als eine Variable

Konzept e) Mittelwert

Konzept e) Mittelwert

● Wir haben Statistiken für alle Eingabe-Parameter○ Wir orientieren uns am Durchschnittswert○ Wir empfehlen das, was der Mainstream mag

● Kombination verschiedener Mittelwerte je nach Eingabeparameter

● Welcher Wert für Gender=Frau● Welche Empfehlung für Publisher=fussball.

de

Wo sind die Grenzen?

● Es gibt keine Grenzen● Datenmengen bis in Petabyte Dimensionen

○ Das sind viele Otto-Normal-Festplatten ;)● Auswertungen in Echtzeit

○ Keine Lochkarten Maschinen mehr● Integration überall dort wo man es braucht

○ Keine Blackboxen mehr, der Mensch will verstehen● Mehr im "Data Unser"

Fazit

● „Das Spiel“ hat gezeigt, dass Algorithmen auch mit Intuition gestützt werden können

● Es gibt verschiedene Konzepte, diese sind auch intuitiv

● Konzepte lassen sich miteinander kombinieren

● Es gibt viele Daten und alle Daten bieten Mehrwert,

● Eure Daten sind wertvollMehr Informationen: http://cra.org/ccc/docs/init/bigdatawhitepaper.pdfChallenges and Opportunities with Big Data, From leading researchers across the United States