Hadoop

Hadoop (oft auch: "Apache Hadoop") ist ein Software Framework, das mit Java als Programmiersprache arbeitet. Es hat die Aufgabe, große Datenmengen auf verteilten Systemen (d.h. auf Systemen mit unterschiedlicher Hardware) möglichst schnell verarbeiten zu können.

Hadoop verhält sich dabei wie eine Art Ökosystem: Dies bedeutet, es kann unterschiedliche Hardware-Lösungen sowie verschiedene Software-Architekturen zeitgleich einsetzen und miteinander nahtlos kommunizieren lassen. Dabei werden einzelne Rechenaufgaben gezielt auf unterschiedliche Server und Systeme ausgelagert und verteilt. Dies kommt insbesondere durch Cloud-Services zum Tragen, wenn kurzfristig hohe Rechen- und Speicherkapazitäten benötigt werden.

Die wichtigsten Bestandteile von Hadoop 

Das Framework besteht aus vier Bestandteilen: 
1. Datei-Zuteil-System: "Hadoop Distributed File System" (HDFS) 
2. Tools für die Grundfunktionen: "Hadoop Common" 
3. Algorithmus für die Datenverarbeitung: "MapReduce-Algorithmus" 
4. Ergänzung für den zentralen Algorithmus: "Yet Another Resource Negotiator" (YARN)

Die wesentlichen Elemente für die Funktionsweise von Hadoop sind HDFS und der 2003 von Google veröffentlichte MapReduce-Algorithmus. HDFS legt fest, welche Daten wo im Framework gespeichert und verarbeitet werden. Der Algorithmus bietet unterschiedliche Funktionen, um komplexe Probleme in lösbare Einzelteile zu zerlegen. 

Hadoop lässt sich relativ einfach mit der folgenden Metapher verstehen: Tausende Menschen haben Hunger und Durst. Sie alle wollen aber unterschiedliche Speisen und Getränke konsumieren. Für eine Person wäre es unlösbar, diese Bedürfnisse zu stillen. Stattdessen werden die Menschen auf ein Netzwerk von Restaurants aufgeteilt (HDFS), wo sie alle ihre individuellen Bestellungen tätigen können (MapReduce-Algorithmus). Nachlaufend wird zusammengetragen, wer was bestellt hat. 

Die Herkunft des Namens 

Hadoop geht auf Doug Cutting zurück, der das Framework nach der Veröffentlichung des MapReduce-Algorithmus entwickelte. Er übergab es Apache, wo der Quellcode bis heute frei einsehbar ist. Seit 2008 ist Hadoop ein "Top-Level-Project" von Apache. Der eigentümlich anmutende Name geht auf ein Kinderspielzeug zurrück: Cuttings Sohn hatte einen kleinen Elefanten, den er Hadoop getauft hatte. Der Entwickler "lieh" sich die Bezeichnung. Bis zum heutigen Tag ist deshalb auch der Elefant im Logo des Frameworks zu sehn.

Weitere Informationen

  • Kategorie: Glossar
  • Thema: Business Intelligence & Analytics