Apache Hadoop – wozu?

Das Internet wächst täglich: Neue Websites, Blogeinträge, Bewertungen, Kampagnen oder Nachrichten kommen hinzu. Soziale Netzwerke wie Facebook, Twitter oder YouTube lassen jeden Nutzer des Internets zu einem eigenen Sender werden. Millionen von Menschen auf der Welt verschicken Kurznachrichten, Fotos und Videos auf verschiedenen Endgeräten rund um den Globus.
Jede dieser Aktionen wird von einem Server registriert und weitergeleitet. Diese Datenmengen werden von Suchmaschinen verwertbar gemacht und somit für den Nutzer transparent.

Aber nicht nur Suchmaschinen sind mit großen Datenmengen konfrontiert: Ein weiteres Beispiel wäre die Firma Amazon. User bestellen auf Plattformen Produkte, die in Paketen verschickt werden, deren Auslieferung wiederum auch vom Nutzer überwacht werden kann.

Die heutige Welt produziert einen riesen Datenstrom, der sich kaum in eine relationale Datenbank speichern lässt. Waren es früher wenige Mega- oder Gigabyte, so sind die heutigen Systeme mit der Last von Exabyte oder Zetabyte konfrontiert. Ein Grund dafür ist, dass die Architektur der relationalen Datenbanken ein starres Schema fordert, dass nur eingeschränkt für Replikation und parallele Verarbeitung auf Servern geeignet ist. Diese Problemfelder werden allgemein als „Big Data“bezeichnet.

Deshalb wird an Lösungen gearbeitet, die mit wenig strukturierten Daten, hoher
Datengeschwindigkeit und großer Datenmengen umgehen können. Diese Ansätze arbeiten nicht nur mit SQL, sondern auch mit so genannten NoSQL (= Not only SQL) Datenbanken. Diese lassen sich deutlich einfacher replizieren und auf vielen Computern in einem Netzwerk verteilen. Die Datenmenge, die verarbeitet werden kann wird daher nur noch durch die Anzahl der
Rechnersysteme begrenzt.

Vertreter dieser Datenbanksysteme sind:

  • Googles BigTable2
  • CouchDB3
  • MongoDB4

Um diese Entwicklung der ständig steigenden Datenmenge zu beherrschen, zu erschließen und die damit eingehenden exorbitanten Kostensteigerungen in den Griff zu bekommen wurde das Framework Hadoop entwickelt.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.