Post on 30-Apr-2020
transcript
Torben Schrader
Fernuniversität in HagenSeminar 01912
im Sommersemester 2005„Datenströme und kontinuierliche Anfragen:
Einführung"
Motivation für Stromverarbeitung: Analyse von Netzwerkverkehr
Torben Schrader
EinführungWas sind stromorientierte Datenbanken?
•Neueres Forschungsgebiet der klassischen Datenbanken•Spezialanwendung für besondere Anwendungsfälle•Analog zu klassischen DBs, aber mit speziellem Fokus
Torben Schrader
Datenströme
Was charakterisiert Datenströme?•Insgesamt hohes und kontinuierliches Datenvolumen•Temporär sprunghafter Wechsel in der Intensität des Datenaufkommens
•Geringe Aussagekraft eines einzelnen Datensatzes –Gesamtheit aller Datensätze zählt
Torben Schrader
Stromorientierte DatenbanksystemeVerarbeiteem eingehende Datenströme direkt
•Höhere Aufnahmekapazität•Schnellere Auswertung und Darstellung•Gleichzeitig Vorteile konventioneller DB-Systeme
Torben Schrader
These
Kollege: Was machst Du da?Ich: Eine Ausarbeitung über stromverarbeitende Datenbanken und deren Einsatzmöglichkeiten im Netzwerk.Kollege : Aha -
Dinge, die die Welt nicht braucht!
(Dialog zwischen zwei Netzwerkadministratoren im Mai 2005)
Torben Schrader
Einsatzgebiete
•Medizintechnik : Patientendaten (z.B. EKG)•Warenwirtschaft : RFID – Tracking von einzelnen Objekten•Miltitärtechnik : Gefechtsfelddaten•Online Medien : Liveticker Börsendaten•Telekommunikation : Abrechnungsdaten •Strassenverkehr : Analyse des Verkehrsaufkommens•Naturschutz : Verfolgen von Tierbewegungen•Internet : Web-Server Statistiken
Torben Schrader
Datenströme + NetzwerkanalyseDatenströme in der Netzwerkanalyse
•Intrusion Detection•Auslastungsdaten (Performance-Management)•Detaillierte Analyse von Netzwerkverkehr•Netzwerkplanung •Fehlerüberwachung (Network-Health)
Torben Schrader
Bevor es DSMS gab
Wie wurde Netzwerkanalyse (vorher) durchgeführt?•Mitschneiden von Datenverkehr & nachträgliche Analyse•Auswertung von dezentral verteilten Daten von Hand•Nutzung aggregierender Verfahren (z.B. Netflow, SNMP)•Einsatz handgeschriebener Tools (z.B. C-Programme)•Einsatz verschiedener proprietärer Anwendungen•Schätzungen / Erfahrungswerte
Torben Schrader
Beispiele Netzwerkanalyse (Szenarien)Rechenzentrumentfernter Standort
Provider
WAN
Netzwerk-Management /Netflow Server
Sniffertransportabel
Sniffertransportabel
Syslog/SNMPCollector
Syslog/SNMPServer
Provider
Torben Schrader
Beispiele Netzwerkanalyse (Vorbemerkung)Datenformat z.B. IP über ATM:
112121ATM Zellenmit VCI
9180 byte9180 byte AAL-5
Aufteilung IP Paket auf ATM Zelle gem. RFC1626
IP-PaketFragment 1Fragment 0
Unfragmentiert
Torben Schrader
Beispiele Netzwerkanalyse (Konventionell)Problem : Datenimport in eine SQL Datenbank
• De-Facto Standard Ethereal unterstütztkeine direkte Datenübernahme in Datenbank
• Alternative: Kommerzielle Programme, Einzelfallentscheidung• Eigenentwicklung: Datenübernahme=Unterbrechung der Datenaufnahme
• Der Lohn: SQL Abfragen bieten erhöhte Flexibilität
Torben Schrader
Beispiele Netzwerkanalyse (SQL)
1. Filtern von ICMP Datenverkehr aus mehreren ATM Verbindungen
2. Fragmentierte IP-Pakete dürfen nur einmal gezählt werden
SELECT ATM.VCI, COUNT(ATM.IP_Identifier), ATM.ICMP FROM ATMGROUP BY ATM.VCI, ATM.IP_IdentifierHAVING (((ATM.VCI)<>42) AND (ATM.ICMP)=True));
Annahme: AAL-5 Rahmen eindeutig unterscheidbar & bereits zusammengesetzt
Torben Schrader
Beispiel Netzwerkanalyse Tribeca
TapeAtm Trace
F ileres1
F ileRes2
stream_qual {{NOT s1.vci.eq 42}} p1stream_demux {p1.atm.vci} p2stream_proj {{p2.assemble ip}} p3stream_mux p3 p4stream window w1 on p4defined by {p4.ts.interval 0.005} is fixedstream_agg{w1.count w1.length.mean} r2
Abfrage filtert durchschnittliche IP-Paketlänge aus einem ATM-Datenstrom:
entnommen aus[1]
Torben Schrader
Beispiel Netzwerkanalyse Gigascope
Skizze angelehnt an [2] S. 15
LFTA
LFTA
HFTA
Anwendung
DB
HFTA
HFTA
Vorverarbeitung /Abfrage
Vorverarbeitung /Abfrage
Eingangsdatenströme
gefilterterDatenstrom
komplexe Abfrage
komplexe Abfrage
Nutzungsmöglichkeitender Abfragen
Torben Schrader
Beispiel Netzwerkanalyse Gigascope
Abfrage : Toptalker (mögliche Aufteilung durch Gigascope):
LFTA (gelb gefärbter Bereich):DEFINE {query name IPDurchsatz}Select SourceIP, sum(totalLength) as Durchsatz, tb from eth0.TCP Group by time/60 as tb;
HFTA (blau gefärbter Bereich), Abfrage ermittelt die top 20% der Toptalker
DEFINE {query name topTalker;}SELECT *FROM IPDurchsatzWHERE ((Select Count(*) From IPDurchsatz as IP_durchsatz_1
WHERE IP durchsatz 1.durchsatz < IP durchsatz.durchsatz) >= (SELECT 0.80*Count(*) FROM IPDurchsatz));
Torben Schrader
Vergleich Tribeca / Gigascope
Geringe Verbreitung; (Experimentell)
Eingeschränkt –Experimentell
Verbreitung
OC48(2,45Gb/s)OC3 (155Mb/s)Eingabevolumen
Deklarativ – GSQL (Untermenge v. SQL)
Prozedural Abfragesprache
durchgängig stromorientiertdurchgängig stromorientiertCharakteristika
2002; AT&T1997; Bell LabsEntstehung
GigascopeTribeca
Torben Schrader
Vergleich Tribeca / Gigascope (Fortsetzung)
I/O –Zugriffe & Zwischenergebnisgröße:Frühe Selektion; Aufsplittung der Abfragen; Ordnungsattributen; Keine unnötigen Funktionen
I/O Zugriffe & Zwischenergebnisgröße: Einschränkung „gefährlicher“ Operatoren; Keine unnötigen Funktionen
Optimierungen
nur zwei Ströme, „variables“ Fenster = Ordered-Attribute
nur zwei Ströme, festes oder gleitendes Fenster
Besonderheiten Join
Selektion, Projektion,Aggregation, Group-By,Merge, [Join]
Selektion, Projektion,Aggregation,Demultiplex, Multiplex, [Join]
Abfrageoperatoren
GigascopeTribeca
Torben Schrader
Nutzen - ErgebnisseDatenbankentwicklung (Erkenntnisgewinn):
- Optimierungen durch Vereinfachung (keine persistente Speicherung, keine Transaktionaktionskontrolle / Konsistenzprüfung...)
- Aufteilung der Abfrage in Ebenen (Gigascope) = frühzeitige Optimierungen +Angepasste Operatoren, Implementierung für One-Pass Abfragen +Kontinuierliche Abfrageoptimierung <->einmaliger Optimierung /
Batchverarbeitung+ Verzicht auf Genauigkeit
Aber : Kontinuierliches, exponentielles Datenwachstum Tragfähigkeit des Konzeptes? Vergleich L7-Load-Balancer
Torben Schrader
Nutzen - ErgebnisseAnwendungsbezogen (Netzwerkadministrator):
+ Einsparung an Hardware und gute Performanz+ Flexibilisierung der Abfragemöglichkeiten+ Standardisierte und robuste Plattform für Abfrage- Genaue Definition der Daten weiterhin notwendig- Fehlende Standardisierung der Eingabeschnittstelle (LFTA)
? Notwendigkeit? Anwendungsbezogen zu definieren! Medizin - Medici
Torben Schrader
Fragen?
Torben Schrader
Quellenverzeichniss[1] M.Sullivan, A.Heybey:"Tribeca: A System für Managing Large Databases of Network Traffic" in Proceedings of the Usenix Annual Annual Technical Conference, New Orleans 1998