Für einen Kunden in der Automobilbranche entwickeln und betreiben wir ein System zur Aufnahme und Verarbeitung von Fahrzeugdaten. Das ursprüngliche tägliche Batch-Verfahren erfüllte die geschäftliche Anforderungen nicht mehr und ein Umstieg auf Echtzeitverarbeitung war notwendig.
In unserem Vortrag berichten wir über die Schritte, die wir bei der Migration von Spark Batch auf Spark Structured Streaming durchgeführt haben. Zusätzlich schildern wir die Hürden, die wir bewältigen mussten und die konzeptuellen Unterschiede zwischen Batch und Streaming. Schließlich erklären wir unsere Systemarchitektur und die Gedankengänge dahinter.
Vorkenntnisse
Allgemeine Vorkenntnisse zu HDFS, Spark, Kafka, Java und Scala
Lernziele
* Aufbau einer Data-Analytics-Architektur mit Spark Structured Streaming
* konzeptuellen Unterschiede zwischen Batch und Streaming kennen
* Herausforderungen bei der Umstellung von Batch auf Streaming wie Scala/Java-Integration, Checkpointing und Serialisierung in Spark sowie Neugenerierung historischer Daten
// Laura Stockinger
ist Softwarearchitektin bei der MaibornWolff GmbH. Sie gestaltet, entwickelt und betreut Lösungen in den Bereichen Big Data und IoT. Am liebsten entwirft und implementiert sie die Softwarearchitektur komplexer Systeme zusammen mit ihrem Team.
// William Rogan
ist Data Scientist bei der MaibornWolff GmbH. Er hat viele Jahre Erfahrung als Consultant und Entwickler in zahlreichen Branchen und Umfeldern. Er findet Daten spannend und ist am glücklichsten, wenn er mit neuen Technologien rumspielen und neue Datenvisualisierungen ausprobieren kann.