Elemente im Hadoop Ökosystem

Das Hadoop Ökosystem wächst unermüdlich. Schon längere Zeit verfolge ich diese Entwicklungen und tauche immer wieder tief in ausgewählte Tools ein, gerade wenn ich einen neuen Kurs vorbereite.

Längst ist es nicht mehr möglich, eine übersichtliche Tool-Landschaft des Hadoop-Ökosystems zu zeichnen. In meinem heutigen Blog-Post auf tirsus.com zeige ich das Hadoop Ökosystem in Kategorien.

Big-Data-Training Band 1 nimmt Gestalt an

Aus dem Big Data Labor entsteht ein erstes Buch aus der Reihe Big-Data-Trainings.

Wer mit dem Big-Data-Labor starten will, braucht passende Infrastruktur auf. Die Varianten mit VirtualBox und AWS wurden bereits in Blog-Posts erläutert. Der Hauptteil in Band 1 des Big-Data-Training setzt Infrastruktur mit Bare-Metal, nämlich mit Raspberry-Pi auf. Das Buch braucht noch eine letzte Überarbeitung, Ilir Fetai ist am Korrekturlesen. Ud das Buch kann bald erscheinen.

Big Data Labor: Virtuelle Maschinen mit AWS

Die Cloud bietet Alternativen zum Aufbau von virtuellen Maschinen. Dadurch wird der Laptop entlastet. AWS bietet ein interessantes Einsteigerangebot zum Kennenlernen.

Im 5. Teil der Serie „Big Data Labor: Cluster aufsetzen“ konfigurieren wir einen kleinen Cluster bei AWS.

Und obwohl der Cloud-Anbieter alle Tools, die wir im Big Data Labor kennen lernen, Out of The Box per Knopfdruck zur Verfügung stellt, werden wir anschließend von Hand die Installationen vornehmen. Es gibt keinen besseren Weg, Funktionalitäten und Zusammenhänge kennen zu lernen.

Big Data Labor: Virtuelle Maschinen vernetzen

Teil 4 des Big Data Labors ist bereit. In den ersten Teilen habe ich gezeigt, wie man mit VirtualBox eine Reihe von virtuellen Maschinen aufbaut und klont.

Damit ein Big Data Labor entsteht, vernetzen wir jetzt diese virtuellen Maschinen zu einem kleinen Cluster. Hier gehts zum Artikel.

Big Data Labor: Virtual Box einrichten und klonen

Im dritten Beitrag in der Serie Big Data Labor: Virtual Machine Cluster zeige ich, wie mit Hilfe von Virtual Boxes ein kleiner Cluster errichtet werden kann.

Im dritten Beitrag in der Serie Big Data Labor: Virtual Machine Cluster zeige ich, wie mit Hilfe von Virtual Boxes ein kleiner Cluster errichtet werden kann. Natürlich könnte man auch eine andere Virtualisierungstechnologie verwenden. Für Virtual Box sprechen zwei Gründe:

  1. Virtual Boxes sind beliebt im Ausbildungskontext.
  2. Alle für das Big Data Labor notwendigen Features sind in der kostenlosen Version inbegriffen.

Letztendlich sind die virtuellen Maschinen nur Mittel zum Zweck: Für das Big Data Labor brauchen wir eine Spielwiese und virtuelle Maschinen sind gut geeignet für die ersten Schritte in Richtung Big-Data-Technologien.

Ich bin auch gerade dabei, ein E-Book zu verfassen: Ein Schritt-Für-Schritt Tutorial zum Aufbau eines Clusters aus Raspberry Pi. Eine weitere Möglichkeit, eine Laborumgebung für Big-Data Technologien zu schaffen.

Hier gehts zum Artikel: Virtual Box einrichten und klonen.

Big Data Labor: Virtuelle Maschinen oder doch Container?

Noch vor einem oder zwei Jahren musste ich in Workshops und Kursen detailliert erläutern, wie man eine einzelne virtuelle Maschine aufsetzt. Mittlerweile ist dieser Teil des Workshops jeweils relativ schnell erledigt – virtuelle Maschinen sind allgegenwärtig.

Immer häufiger höre ich von meinen Kursteilnehmern, dass sie Container, beispielsweise Docker, den virtuellen Maschinen vorziehen. Sie sind leichtgewichtiger, schneller, einfacher zu handhaben.

In meinem neuesten Blog-Artikel stelle ich zuerst die beiden Technologien kurz vor und erläutere dann deren Vor-und Nachteile in Bezug auf eine Big-Data-Laborumgebung.

Big Data Labor: Voraussetzungen schaffen mit einem Virtual Machine Cluster

In einer Artikel Serie werden die Voraussetzungen geschaffen für einen Big-Data-Kurs mit vielen Hands-On-Übungen.

Big Data Technologien erobern hartnäckig die IT-Welt. Gleichzeitig entwickeln sich rasend schnell und gewinnen an Maturität. Wer sich mit Big-Data-Technologien befassen will, merkt rasch, dass dazu eine geeignete Test-und Übungsumgebung notwendig ist.

In einer ersten Artikel-Serie stelle ich verschiedene Möglichkeiten vor, wie man kostengünstig eine solche Umgebung aufbaut.

Die erste Serie habe ich fertiggestellt und beginne heute mit der Veröffentlichung. Es ist eine Schritt-für-Schritt-Anleitung, die zeigt, wie man virtuelle Maschinen aufsetzt und zu einem Cluster vernetzt.

In einer zweiten Serie werde ich zeigen, wie man einen Cluster mit Raspberry-Pi aufsetzt.

Später werde ich auch die Möglichkeiten mit Docker und in der Cloud zeigen.

Damit werden die Voraussetzungen geschaffen, für eine Reihe von Artikeln und Kursen, in denen ich die verschiedenen Big-Data-Technologien vorstelle und mit vielen Hands-On-Übungen illustriere. Zu Beginn natürlich das Hadoop Distributed File System mit seinem Ökosystem und später weitere Ökosysteme wie Spark und Kafka.