Wenn es wirklich Big wird – Datenanalyse und Machine Learning skalieren mit PySpark
Massive Datenströme aus industriellen IoT-Anwendungen führen schnell zu echten Big-Data-Problemen, deren Lösung verteiltes Rechnen auf einem Cluster erfordert. Wir stellen das Open-Source-Framework Apache Spark vor, um Datenanalyse- und Machine Learning-Workflows auf einem Cluster skalierbar zu machen.
Der Workshop steht unter dem Motto: Nicht reden, sondern machen! Wir stellen die wichtigsten Konzepte vor und ermöglichen den Teilnehmern Programmiererfahrung anhand von Praxisaufgaben zu sammeln. Wir arbeiten in der Cloud. Nur ein Laptop mit Internetzugang ist mitzubringen.
Vorkenntnisse
Die Besucher sollten ein Interesse an Big-Data-Themen mitbringen und bereits erste Erfahrungen mit Fragestellungen im Data-Science-Bereich gemacht haben. Da der Workshop einen großen Anteil an interaktiven Beispielen hat, sind Programmierkenntnisse erforderlich (Python wird empfohlen).
Lernziele
Die Teilnehmer erhalten einen breiten Einblick in Spark, lernen Anwendungsfälle zu erkennen und die Pros und Contras des Frameworks abzuschätzen. Es werden verschiedene praxisnahe Anwendungen vorgestellt und mit unserer Unterstützung interaktiv in IPython Notebooks von den Teilnehmern bearbeitet. Wir erleichtern den Einstieg in die Grundlagen von Spark (RDDs, Transformations & Actions…) und führen die Teilnehmer dann vom Datenimport über einfache Datenanalysen (mit Spark SQL & DataFrames) bis hin zu Machine Learning Pipelines (mit Spark ML für Predictive Analytics, Clustering, Recommender Engines). Für die Durchführung des Kurses gibt es keine besonderen technischen Voraussetzungen.