Apache Hadoop Dienste für Windows Azure (Developer Preview)

Azure Hadoop LogoEine weitere NoSQL Implementierung für die Windows Azure Plattform kündigt sich an:
Zum bisherigen Key-Value-Pair Speicher, dem Windows Azure Table Storage, wird in Zukunft ein weiterer Speicher für große Datenmengen (Big Data, Petabyte-Bereich) hinzukommen.
Dieser Speicherdienst baut auf dem Apache™ Hadoop™ Framework auf.

Diese Meldung erreichte mich Ende Letzten Jahres und erweckte mein Interesse.
Doch was ist eigentlich Hadoop?

 

Apache™ Hadoop™

Apache™ Hadoop™ ist ein freies, in Java geschriebenes Framework für skalierbare, verteilt arbeitende Software. Es basiert auf dem bekannten MapReduce-Algorithmus von Google Inc., sowie auf Vorschlägen des Google-Dateisystems. Hadoop wurde ursprünglich durch den Lucene-Erfinder Doug Cutting initiiert.
Am 23. Januar 2008 wurde es zum Top-Level-Projekt der Apache Software Foundation.
Quelle: http://de.wikipedia.org/wiki/Hadoop

 

Anmelden zur Developer Preview

Mitte Dezember war es dann soweit.
Die Apache™ Hadoop™-based Services for Windows Azure standen als Developer Preview zur Verfügung.

Um einen der begehrten Zugänge zu bekommen, musste man sich unter folgendem Link bewerben:
Microsoft Connect: Apache Hadoop for Azure & Windows Server

Gesagt – Getan!

Einige Tage später traf dann auch die Willkommens-Email ein.

 

Erstellen eines Hadoop Clusters

Um die Hadoop Dienste für Windows Azure dann auch testen zu können, muss man zuerst ein Cluster anfordern:

Apache Hadoop für Windows Azure - Neues Cluster anfordern

Hierzu müssen ein DNS Name, eine Cluster Größe und ein Benutzerkonto für das Cluster angegeben werden.

Anschließend dauert es einige Minuten bis die einzelnen Clusterknoten …

Apache Hadoop für Windows Azure - Clusterknoten werden erzeugt

… und Netzwerkeinstellungen erstellt wurden.

Apache Hadoop für Windows Azure - DNS-Einstellungen für das Cluster werden erzeugt

Während dieses Erstellungsprozesses, kann der Browser zwischenzeitlich geschlossen werden.

Nachdem das Cluster erstellt wurde, kann dieses für 2 Tage genutzt werden, bevor es automatisch gelöscht wird:

Apache Hadoop für Windows Azure - Clusterverwaltung

 

Wie geht es weiter?

In den nächsten Wochen werde ich mich mit diesen neuen Diensten für Azure beschäftigen.
Besonders die MapReduce Implementierung und das verteilte Dateisystem (HDFS) stehen im Fokus.

Gibt es noch weitere Themen, die ich mir in diesem Zusammenhang ansehen sollte?
Wenn ja, können diese gerne als Kommentar, am Ende dieses Artikels, hinterlassen werden.

Check Also

Time Machine Backups nach Microsoft Azure

Seit einigen Jahren verwende ich eine Apple Time Capsule, um meine Time Machine Backups an einem zentralen Ort speichern zu können. Bislang hatte das für mich auch vollkommen ausgereicht. Seitdem ich jedoch immer mehr unterwegs bin, habe ich nach einer Lösung gesucht, die ich auch von unterwegs nutzen kann. In diesem Blog Post zeige ich deshalb, wie man Time Machine Backups nach Microsoft Azure machen kann.