Post on 05-Apr-2015
transcript
Hybride P2P-Netze - Jan Ritzenhoff
Hybride P2P-Netze
Hybride P2P-Netze - Jan Ritzenhoff
Inhalt:1. Einleitung und Motivation
2. Konzept des Hybriden P2P
3. Kosten und Parameter
4. Performance
5. Zusammenfassung
Einleitung und Motivation Hybride P2P-Netze - Jan
Ritzenhoff
Einleitung und Motivation
P2P als Grundgedanke des Internets
• Die Ursprüngliche Konzipierung des Internets der späten 60er Jahre war ein Peer-To-Peer-System
• Sinn des ARPANETS war die gemeinsame Nutzung von Computern in einem USA weiten Netzwerk
• Jeder Host war gleichberechtigt
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P als Grundgedanke des Internets
• Die Ursprüngliche Konzipierung des Internets der späten 60er Jahre war ein Peer-To-Peer-System
• Sinn des ARPANETS war die gemeinsame Nutzung von Computern in einem USA weiten Netzwerk
• Jeder Host war gleichberechtigt
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P wandelt sich zu einem Client/Server System
• Mit zunehmender Verbreitung wuchs das Internet stark an und es gab immer mehr Nutzer, die jedoch nur Informationen konsumierten.
• Die Zahl der Netzteilnehmer, die Ressourcen bereitstellten wurde immer geringer
• Das Internet kippte um zu einem CS-System
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P wandelt sich zu einem Client/Server System
• Für die meisten neuen Netzteilnehmern war es unmöglich mit ihrer geringen Bandbreite (meist Modemanschluss) Daten dem Netz bereitzustellen.
• Somit beherrschte die C/S-Struktur immer mehr das Internet und P2P wurde zunächst in den Hintergrund gedrängt.
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P wird wieder interessant
• Mitte der 90er Jahre rückte der Wunsch der Clients, Daten untereinander auszutauschen wieder mehr in den Vordergrund, auch wenn der Inhalt nun nicht mehr zu wissenschaftlichen Zwecken diente.
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P wird wieder interessant
• Nachdem zunächst nur Instant Messaging (ICQ) betrieben wurde stieg mit zunehmender Leistungsfähigkeit der Clients der Wunsch Musik und Bilder untereinander, eben P2P zu tauschen.
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P wird wieder interessant
• Die meisten Knoten heutiger P2P-Systeme befinden sich meist am „Rande„ des Netzwerks und sind zudem von dem DNS-System ausgeschlossen, da sie keine fixen IP-Adressen haben.
• Diese Knoten besitzen wertvolle meist brachliegende Speicherressourcen.
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
P2P Systeme kommen zurück
• P2P-Systeme machen sich diese Ressourcen zu Nutze, um das Bedürfnis der Nutzer nach Kommunikation und Datentausch zu befriedigen.
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
Formen eines P2P-Systems
• P2P-Applikationen müssen dezentralisierte Ressourcen finden und verwalten können
• Es gibt grundsätzlich zwei verschiedene Formen eines P2P-Netzwerks:
Einleitung und Motivation Hybride P2P-Netze - Jan Ritzenhoff
hybrides P2P „reines“ P2P
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Konzept des Hybriden P2P
Generelles Konzept eines hybriden P2P-Systems
• Hybride P2P-Netze haben einen oder meist mehrere zentrale Server, die das Netzwerk koordinieren. Das eigentliche Konzept besteht aus drei Schritten:
Login
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
1
2
3
4
1234
Anfrage Download
Login Policys
• Es gibt zwei verschiedenene Login-Methoden auch Login Policys genannt
Batch Policy
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Incremental Policy
Bei jedem Login wird dem Server eine Liste des gesamten Datenbestandes übergeben.
Der Server nimmt diese Liste in seinen Index auf.
Loggt sich der User aus, wird seine gesamte Liste aus dem Index des Servers gelöscht.
Nur beim alleeersten Login wird dem Server eine Liste des gesamten Datenbestandes übergeben.
Der Server nimmt diese Liste in seinen Index auf.
Loggt der User sich aus, behält der Server die Liste seiner Daten
Bei jedem erneuten Login wird nur eine Liste der offline neu hinzugekommenen bzw. gelöschten Daten übergeben.
Der Server aktualisiert seinen Index.
Server-Architekturen
• Chained Architecture
• Full Replication Architecture
• Hash Architecture
• Unchained Architecture
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Chained Architecture
• Prinzip: Kann der lokale Server die Anfrage nicht “befriedigen“, wird sie zum nächsten sog. Remoteserver weitergereicht bis genügend Einträge gefunden sind.
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Full Replication Architecture
• Prinzip: Jeder Server ist zu jedem Zeitpunkt im Besitz einer globalen Liste, mit den Daten aller User.
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Hash Architecture
• Prinzip: Hier werden jedem Server bestimmte Wörter zugewiesen. Jedes Suchwort wird also von einem anderen Server bearbeitet und die Ergebnisse am Ende zu einer Liste zusammengefasst dem User übergeben.
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Unchained Architecture
• Prinzip: Server sind nicht miteinander verbunden und unabhängig voneinander. Der User kann also nur auf die Daten jeweils eines Servers zugreifen.
Konzept des Hybriden P2P Hybride P2P-Netze - Jan Ritzenhoff
Kosten und Parameter
Kosten und Parameter Hybride P2P-Netze - Jan Ritzenhoff
Kosten
• Bei jedem Login/Anfrage, die von einem Client gestellt wird, entstehen Kosten.
• Für jede Implementation eines Hybriden P2P-Systems muss individuell festgestellt werden, welche Serverarchitektur in Verbindung mit welcher Login-Policy gewählt wird, um die anfallenden Kosten so gering wie eben möglich zu halten.
• Es gibt 3 grundlegende Bereiche in denen Kosten anfallen:
CPU SpeicherNetzwerk
Kosten und Parameter Hybride P2P-Netze - Jan Ritzenhoff
Parameter
Parameter Name Standard-Wert Beschreibung
FilesPerUser 168 Durchschnittliche Anzahl der Dateien pro User
FracChange 0.1 Durchschnittliche Anzahl der Dateien pro User, die offline geändert werden
WordsPerFile 10 Durchschnittliche Wörter pro Dateiname
WordsPerQuery 2.4 Durchschnittliche Anzahl Keywords pro Anfrage
CharPerWord 5 Durchschnittliche Anzahl der Buchstaben pro Wort
QueryPerUserSec 0.000833 Durchschnittliche Anzahl Anfagen pro Sekunde pro User
QueryLoginRatio 0.45 Verhältnis von Anfragen zu Logins pro Sekunde pro User
QueryDownloadRatio 0.5 Verhältnis von Anfragen zu Downloads pro Sekunde pro User
ActiveFrac 0.05 Prozent der totalen Userpopulation di e zu jeder Zeit aktiv sind.
x 100 Jede 100. Anfrage ist eine Anfrage mit bester „SelectionPower“
r 4 Jede 400. Anfrage ist eine Anfrage mit bester Popularität
User:
Kosten und Parameter Hybride P2P-Netze - Jan Ritzenhoff
Parameter
Parameter Name Standard-Wert Beschreibung
LAN Bandbreite 80 Mb/s Bandbreite der LAN-Verbindung in Mb/s
WAN Bandbreite 8 Mb/s Bandbreite der WAN-Verbindung in Mb/s
CPU Speed 800 MHz Geschwindigkeit des Prozessors in MHz
NumServers 5 Anzahl der Server im System
MaxResults 100 Maximalanzahl der Ergebnisse einer Anfrage
User-Server-Network WAN Netzwerktyp zwischen User und Server
Server-server-Net. LAN Netzwerktyp zwischen Server und Server
System:
Kosten und Parameter Hybride P2P-Netze - Jan Ritzenhoff
Parameter
Parameter Name Beschreibung
ExServ Erwartete Anzahl der Server, die benötigt werden, um eine Anfrage zu befriedigen
ExTotalResults Erwartete Anzahl der Ergebnisse die von allen Servern zurückgegeben werden
ExLocalResults Erwartete Anzahl der Ergebnisse die vom Lokalen Server zurückgegeben werden
ExRemoteResults Erwartete Anzahl der Ergebnisse die von allen RemoteSevern zurückgegeben werden
UsersPerServer Anzahl der eingeloggten User pro Server
Abgeleitete Parameter:
Kosten und Parameter Hybride P2P-Netze - Jan Ritzenhoff
Performance Hybride P2P-Netze - Jan Ritzenhoff
Performance
Performance Hybride P2P-Netze - Jan Ritzenhoff
Verhältnis: Erfüllung Anfrage zu Anzahl Dateien
MaxResults = 100
x = 1000
Performance Hybride P2P-Netze - Jan Ritzenhoff
Verhältnis: beteiligte Server zu Anzahl Dateien/Server
MaxResults = 100
x = 1000
Performance Hybride P2P-Netze - Jan Ritzenhoff
Verhältnis: Unterstützte User zu QueryLoginRatio
Performance Hybride P2P-Netze - Jan Ritzenhoff
Limitierende Faktoren
Server Architektur LoginPolicy Limitierender Faktor
Unchained incremental User-Server Verbindung über WAN
Unchained batch User-Server Verbindung über WAN
Chained incremental User-Server Verbindung über WAN
Chained batch User-Server Verbindung über WAN
Hash incremental Server-Server Verbindung über LAN
Hash batch Server-Server Verbindung über LAN
FR incremental CPU / später WAN
FR batch CPU / später WAN
Zusammenfassung
Zusammenfassung Hybride P2P-Netze - Jan Ritzenhoff
Zusammenfassung Hybride P2P-Netze - Jan Ritzenhoff
Zusammenfassung
• Es gibt zwei verschiedenene Login-Methoden: Batch und Incremental
• Es gibt vier verschiedene Server-Architekturen: Chained, FullReplication, Hash und Unchained Architecture
= 8 verschiedene Kombinationsmöglichkeiten
Doch welche ist nun die beste?
Batch vs. Incremental
• IncrementalLogin Strategien übertreffen ihr BatchLogin Gegenststück
• In einem Netzwerk, welches eine obere Schranke durch eine Netzauslastung erfährt ist die IncrementalLoginPolicy stets überlegen, da bei gleichen Anfragekosten die Netzwerkkosten fürs Login bedeutend geringer ist.
• Beide LoginPolicies sind äußerst sensitiv, was eine Veränderung des Parameters QueryLoginRatio anbelangt.
Zusammenfassung Hybride P2P-Netze - Jan Ritzenhoff
Zusammenfassung Hybride P2P-Netze - Jan Ritzenhoff
Server-Architekturen
• Heutzutage ist der klare Sieger die Chained-Architecture, solange nicht die Bandbreite der WAN Netze stark ansteigt oder aber die Interessen der User sich stark differenzieren werden. Die Performance sinkt jedoch, wenn viele Server an der Bearbeitung einer Anfrage beteiligt sind.
• Die Hash-Architecture benötigt sehr hohe Server-Server Bandbreiten. Diese Architektur ist nur eine gute Wahl, wenn:
• Die Bandbreite der LAN-Netze stark anstiege.
• Der Einsatz in Systemen erfolgt, in denen mit Ids bzw 1-Wort-Anfragen gearbeitet wird.
• Die Full-Replication-Architecture hat vor allem in Sytemen einen klaren Vorteil, in denen sich das Interesse der User stark differenziert, oder aber MaxResults relativ hoch gesetzt ist.
• Die Unchained-Architecture ist eher nicht zu empfehlen, da sie relativ wenige Ergebnisse pro Anfrage liefert. Sie ist nur zu empfehlen, wenn entweder die Menge der Ergebnisse nicht von Interesse ist, oder aber keine Serverkommunikation vorhanden ist.