Aus Datenbergen entscheidungsrelevantes Wissen gewinnen · 2013-03-15 · Partnern wie Pentaho,...

Aus Datenbergen entscheidungsrelevantes Wissen gewinnenDie richtigen Informationen zur richtigen Zeit am richtigen Ort bereitstellen: Dies ist einer der Schlüsselfaktoren für den Unternehmenserfolg. Dell bietet zur Bewältigung der Datenflut zwei Lösungen: Erstens eine zertifizierte HadoopReferenzarchitektur auf Basis von Intelbasierten DellPowerEdgeServern, um sehr große Daten mengen für Businessentscheidungen aufzubereiten, und zweitens die Dell FluidDataArchitektur zur effizienten Speicherung und Verwaltung von Informationen.

Autoren: Hans Schramm*/Michael Holzerland*

Lösungen für das Managementgroßer Datenmengen

Big DataInformationen aus Daten

Ähnlich wie im 19. Jahrhundert scheint heute wieder ein neuer Goldrausch ausgebrochen zu sein. Allerdings werden keine Flussland-schaften umgepflügt, sondern es wird in digitalen Datenbergen nach wertvollen Informationen geforscht. Marktforscher IDC schätzt, „dass sich die Datenmen-gen, die innerhalb eines Jahres er-stellt, vervielfältigt und konsumiert werden, bis 2020 alle zwei Jahre verdoppeln.“ Es werde aber nur ein halbes Prozent der weltweiten Da-tenbestände analysiert, der Rest lediglich archiviert und vieles bald wieder gelöscht, so IDC.Die riesigen Datenmengen entste-hen durch eine Reihe neuer Tech-nologien, die Unternehmen dabei unterstützen, agiler und innovati-ver zu werden. Im Wesentlichen sind es drei große Bereiche, die für das enorme Datenwachstum ver-antwortlich zeichnen: erstens Bilddaten wie Grafiken, Bilder und Videos, zweitens Daten, die auf den unterschiedlichsten Social-Media-Plattformen erzeugt wer-den, und drittens durch Maschinen generierte Daten im „Internet der Dinge“. Durch die rasche, manch-mal sogar in Echtzeit erfolgende Auswertung großer Datenmengen wird eine Grundlage für wichtige Businessentscheidungen geschaf-fen oder erweitert. Wer jetzt be-

ginnt, sehr große Datenmengen zu analysieren, verbessert seine Entscheidungsprozesse. Unter-nehmen aus dem Konsumgüter-sektor können zum Beispiel schneller und effizienter auf ein verändertes Kundenverhalten reagieren und damit Wettbewerbs-vorteile erzielen. Produzierende Unternehmen können beispiels-weise auf Basis maschinell erzeug-ter Daten (Sensordaten) ihre Ferti-gungsprozesse optimieren.Auf den ersten Blick handelt es sich um große Datenmengen, und in Zukunft wird es um noch deut-lich größere Volumina gehen. Aber die Bedeutung des Themas ist weitaus komplexer. Die Daten-menge ist nur einer von drei zentralen Aspekten. Der zweite ist die enorme Vielfalt an struktu-rierten, semistrukturierten und unstrukturierten Informationen (Bilder, Blogs, Chats, Dokumente, Videos etc.), die das Datenwachs-tum massiv antreiben. Der dritte schließlich betrifft die schnelle Entstehung und Veränderung dieser Daten. Entscheidungs-relevante Erkenntnisse aus der Datenflut zu gewinnen, ist eines der Kernthemen, um einen Vor-sprung gegenüber dem Wett-bewerber zu haben oder schneller auf unvorhergesehene Business-ereignisse reagieren zu können.

Aus Sicht der IT bringen große Datenmengen vor allem vier neue Herausforderungen: die Verarbei-tung, Analyse, Speicherung und Bereitstellung rasant wachsender Datenmengen. Aus Sicht der Fach-abteilungen stellt sich die Frage: In welcher Weise kann ich meinem Business einen Vorteil verschaffen? Je nach Herausforderung bieten sich dabei unterschiedliche Lösungsansätze an. Im Kern geht es darum: Wie können die Daten ermittelt und aufbereitet werden, damit sie für Big-Data-Analysen schnell und umfassend zur Ver-fügung stehen? Sehr große Datenmengenerfassen und verarbeiten„Big Data bezeichnet die wirt-schaftlich sinnvolle Gewinnung und Nutzung entscheidungsrele-vanter Erkenntnisse aus qualitativ vielfältigen und unterschiedlich strukturierten Informationen, die einem schnellen Wandel unterlie-gen und in bisher ungekanntem Umfang anfallen“, schreibt BIT-KOM in einem aktuellen Leitfaden zu Big Data¹.Klar ist: Big Data erfordert einen neuen Umgang mit Informationen. Es geht immer darum, sehr große Datenmengen zu speichern und die aus Businessicht relevanten Daten möglichst effizient zu

durchsuchen; das gilt für struktu-rierte, semistrukturierte und un-strukturierte Daten. Gemeinsam mit Partnern hat Dell Lösungs-pakete geschnürt, um riesige Datenberge effizienter erfassen, verarbeiten, analysieren und auf-bereiten zu können. Bald unter-stützt Dell auch die neue Intel® Distribution for Apache Hadoop Software (Intel® Distribution). Einer der Kernbestandteile von Hadoop ist das Hadoop Distribut-ed File System (HDFS), ein leis-tungsfähiges, hochverfügbares Dateisys-tem, mit dem sehr große Datenmengen verteilt auf mehre-ren Serverknoten (Nodes) gespei-chert werden. Zum Einsatz kommt Hadoop etwa auf dem Dell-PowerEdge-Server R720xd (einem 2-HE-Rack-Server mit zwei Sockeln und Intel® Xeon® E5-2600-Prozessoren), dem C6220 (bis zu vier unabhängige, Hot-Swap-fähige 2-Sockel-Server-knoten in einem 2-HE-Gehäuse mit Intel® Xeon® E5-2600-Prozes-soren) oder dem C8000. Der Po-werEdge C8000 (ebenfalls mit In-tel® Xeon® E5-2600 Prozessoren) bietet eine Shared-Infrastructure-Lösung, mit der sich unterschiedli-che CPU-, GPU/Coprozessor- und Storage-Einschübe in einem 4 HE hohen Gehäuse verbinden lassen.

Bestandsaufnahme aktueller SpeicherstrategienRiesige Datenmengen zu erfassen, sie zu verarbeiten und aufzuberei-ten ist ein zentraler Baustein bei Big Data. Mindestens ebenso wichtig ist die Frage einer intelli-genten Speicherung. In Anbetracht des rasant steigenden Datenvolu-mens in nahezu allen Segmenten müssen die IT-Verantwortlichen auch ihre bisherigen Speicherstra-tegien auf den Prüfstand stellen. Alles zu speichern, ohne den Busi-nesswert der jeweiligen Informati-on zu berücksichtigen, ist ange-sichts der Menge wirtschaftlich unsinnig. Die Datenflut lässt sich in zwei große Bereiche untergliedern. Bei dem „kleineren“ Segment handelt es sich um sogenannte struktu-rierte Daten, beispielsweise die

Applikationsszenarien anzupassen. Zur Datenauswertung dient die MapReduce-Funktion von Hadoop. Der von Google entwi-ckelte MapReduce-Algorithmus basiert auf einer automatisierten Parallelisierung von Arbeitsaufträ-gen. Im Bereich der Datenaufbe-reitung hat Dell ein Ecosystem mit Partnern wie Pentaho, Datameer, Paraccel und Katinga aufgebaut. Während die BI-Plattform von Da-tameer (DAS, Datameer Analytics Solution) mit einer tabellarischen Darstellung arbeitet, verwendet beispielsweise Pentaho eine grafi-sche ETL (Extract, Transform and Load)-Umgebung, um Hadoop-MapReduce-Aufgaben auszufüh-ren und zu verwalten.

Über Infrastruktur-Pools ist eine gemeinsame Nutzung von Ressourcen für Rechenleistung, Storage, Stromversorgung und Kühlung möglich. Das flexible und innovative Konzept des PowerEdge C8000 erlaubt, den Server flexibel an unterschiedliche

Datenbanken, wie sie von den betriebswirtschaftlichen Standard-applikationen genutzt werden. Hier ist über die Jahre hinweg ein stetiges Wachstum zu verzeich-nen. Die echten Herausforderun-gen ergeben sich jedoch erst bei den unstrukturierten Daten, und hier sehen sich die IT-Abteilungen mit einem immensen Wachstum und einer enormen Vielfalt kon-frontiert. Das Spektrum reicht von E-Mails und Instant Messages über PDFs und Officedokumenten jeder Art bis zu Audio- und Videofiles.

FluidDataLösungen von DellDell bietet mit seinem Storage-Konzept Fluid Data für all diese Themen einen umfassenden An-satz. Der erste Eckpfeiler ist das automatische, dynamische Tiering. Erfahrungen aus Storage-Assess-ments zeigen, dass Unternehmen bis zu 90 Prozent der gespeicher-ten Daten nie wieder benötigen. Von den verbleibenden zehnProzent werden dann etwa zwei Drittel nur noch ein Mal aufgeru-fen. Es liegt also nahe, sich mit der Datenklassifizierung zu befassen – einem der Kernelemente von Fluid Data. Demnach werden Daten ihrer Bedeutung nach an der effektivsten Stelle eines Systems gespeichert. Informationen, auf die häufig zugegriffen wird, liegen auf schnellen und kleinen Medien (zum Beispiel 15k-SAS-Platten oder SSD-Laufwerken). Daten, die selten benötigt werden, speichert das System auf großen und kosten-günstigen Medien (beispielsweise Nearline-SAS-Platten). Dieser Vor-gang geschieht dynamisch und automatisch: Die Informationen werden zunächst schnell ge-schrieben, werden sie nicht benö-tigt, verlagert das System sie auto-matisch auf langsamere Medien. Ein zweiter Eckpfeiler ist die effizi-ente Speicherauslastung mit Thin Provisioning, denn das dynamische Tiering ist nicht die einzige Mög-lichkeit, eine Storage-Lösung effi-zienter und flexibler zu gestalten.

Wenn Sie mehr erfahren wollen,dell.de/datenberge

Bei Thin Provisioning geht es vor allem um die Bereiche in einem System, die zwar allokiert, aber noch nicht mit Daten „gefüllt“ be-ziehungsweise beschrieben wur-den. Solche Speichermedien lie-gen brach. Thin Provisioning schafft hier Abhilfe. Die Effizienz der Storage-Infrastruktur steigt dadurch weiter. Der dritte Eckpfeiler ist die Skalier-barkeit. Fluid-Data-Lösungen von Dell vermeiden kostspielige Hard-ware-Upgrades. Dell-Lösungen lassen sich durch den flexiblen, modularen Aufbau nicht nur kapa-zitätsmäßig, sondern auch tech-nologisch leicht an neue Bedürf-nisse anpassen (Scale Out).So bilden beispielsweise die Com-pellent-Storage-Arrays von Dell ein skalierbares, hochperforman-tes Storage-System, das sich belie-big um neue Arrays erweitern lässt. Die leistungsfähigen Intel-basier-ten Controller können die oben genannten Eckpfeiler nahezu in Echtzeit umsetzen. Unternehmen können so ihren Speicherplatz fle-xibel und einfach erweitern. Für unstrukturierte Daten, die den größten Anteil des Wachstums bil-den, bietet Dell speziell das ska-lierbare Fluid-File-System an, das auf den bekannten Array-Familien PowerVault, EqualLogic und Com-pellent aufsetzt und vielfältige Möglichkeiten für intelligentes Da-tenmanagement bietet.

Intelligentes DatenmanagementWie intelligentes Datenmanage-ment und eine Fluid-Data-Lösung dazu beitragen, möglichst effizient ein riesiges Datenvolumen zu speichern und damit Geschäfts-

prozesse zu steuern und zu opti-mieren, zeigt das Beispiel eines Windparkbetreibers. Was mit we-nigen Windrädern anfing, entwi-ckelte sich in den letzten Jahren rasch weiter. Pro Monat fallen in dem Anwendungsszenario ein TB neue Daten an. Sie stammen von Messwerten, die in Echtzeit an den Windrädern ermittelt werden. Direkt nach der dezentralen Erfas-sung der Messwerte werden diese an eine Leitwarte übermittelt, von der aus der gesamte Windpark ge-steuert wird. Allein hier entsteht bereits ein beachtliches Datenvo-lumen, das für einen reibungslo-sen Betrieb ausgewertet werden muss. Das enorme Datenwachs-tum ließ sich mit herkömmlichen Speichermethoden nicht bewälti-gen, und daher entschied sich das Unternehmen für die Einführung von Dell Compellent Storage Ar-rays mit einem virtualisierten und hochskalierbaren Speicherpool. Die Dell-Lösung verfügt, wie be-reits erwähnt, über intelligente und automatisch arbeitende Funktionen zur Bewertung der tatsächlichen Datennutzung. Sie verschiebt aktuell benötigte Mess-werte auf sehr schnelle SSD-Fest-platten, während Daten, auf die nicht mehr zugegriffen wird, auf kostengünstigere Festplatten ver-schoben werden. Zeigen sich im laufenden Betrieb Unregelmäßig-keiten bei den Windrädern, kön-nen Daten, die bereits inaktiv wa-ren, jederzeit wieder aktiviert und auf schnelle Medien verlagert werden. Kern dieses Anwendungs-szenarios ist eine selbstoptimie-rende, intelligente Speicherung sehr großer Datenmengen, die

eine entscheidende Rolle für einen ausfallsicheren Betrieb der Anlage spielt. Mit der End-to-End-Spei-cherlösung wird die Datenflut be-herrschbar und die Daten stehen jederzeit für weitergehende Big-Data-Analysen zur Verfügung.

Passgenaue BigDataLösungen schaffen Raum für InnovationUnternehmen verschaffen sich durch zwei zentrale Lösungsansät-ze die notwendigen Freiräume für Innovationen und Aktivitäten, die einen entscheidenden Wettbe-werbsvorteil bringen: Erstens, in-dem sie riesige Datenmengen mit Hadoop verarbeiten und für Busi-nessentscheidungen aufbereiten. Und zweitens, indem sie ein auto-matisiertes, intelligentes Datenma-nagement implementieren, wie es die Fluid-Data-Lösungen von Dell bieten. Abhängig davon, wo der Schwerpunkt jeweils liegt, sind Unternehmen damit bestens für Big Data gerüstet. Dell und Intel arbeiten hierbei eng zusammen, um eine konsistente und perfor-mante Infrastruktur über Server, Storage- und Netzwerksysteme bereitzustellen. Dell bietet für alle Big-Data-Herausforderungen eine passende Lösung – angefangen von Consulting und Planung über das Design und die Implementie-rung bis hin zur Wartung komple-xer Server- und Storage-Umge-bungen.

Ultrabook, Celeron, Celeron Inside, Core Inside, Intel, Intel Logo, Intel Atom, Intel Atom Inside, Intel Core, Intel Inside, Intel Inside Logo, Intel vPro, Itanium, Itanium Inside, Pentium, Pentium Inside, vPro Inside, Xeon, Xeon Phi und Xeon Inside sind eingetragene Marken der Intel Corporation in den USA und anderen Ländern.

* Hans Schramm ist Field Product Manager Enterprise bei Dell in Frankfurt am Main.

* Michael Holzerland ist System Engineer Datacenter and Cloud bei Dell in Frankfurt am Main.

¹ BITKOM: Leitfaden Big Data im Praxiseinsatz – Szenarien, Beispiele, Effekte. Berlin 2012.

Date post:	06-Jul-2020
Category:	Documents
Upload:	others
View:	0 times
Download:	0 times

Aus Datenbergen entscheidungsrelevantes Wissen gewinnen · 2013-03-15 · Partnern wie Pentaho,...

Documents