Big Data Analytics Seminar mit PySpark

Datum 08.07.2024 bis 09.07.2024
Dauer 2 Tage
Unterrichtszeiten Vollzeit
Kosten 1.535,00 €
Zielgruppe Der Kurs wendet sich primär an Data Scientists und Data Analysts, die mit Hilfe von Python und Apache Spark (PySpark) große Datenmengen verarbeiten und analysieren möchten.
Bildungsart Fortbildung/Qualifizierung
Unterrichtsform Seminar
Voraussetzung Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Alle Programmierbeispiele für Apache Spark werden in Python umgesetzt. Die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden. Englischkenntnisse (lediglich im Verstehen von englischen Texten) sind sehr nützlich, da Python und die Internet-Dokumentationen
Förderung Bildungscheck NRW
Präsenzkurs Dies ist keine Anwesenheitsveranstaltung.
mind. Teilnehmerzahl 2
max. Teilnehmerzahl 10
Dozent Dr. Kaya Kupferschmidt
URL des Kurses Details beim Anbieter
Anmelde URL des Kurses Direkte Anmeldung beim Anbieter
spezielles Angebot für Dozenten Nein.
Veranstaltungsort
 
Regus (Live-Online, Zoom)
Königstraße 10C
70199 Stuttgart

 

AbendkursBildungsgutscheinFörderfähig nach Fachkursprogramm des ESFBarierrefreier Zugang
NeinNeink. A.Ja

 

Beschreibung
Big Data Analytics Seminar mit PySpark
Verarbeitung von großen Datenmengen mit Apache Spark und Python
Dieser praxisorientierte Kurs zeigt Ihnen wie Sie große Datenmengen (Big Data) mit PySpark (Python und Apache Spark) verarbeiten und analysieren können. Neben einer ausführlichen Einführung in PySpark wird die Integration von dem Python Datenanalyse Module Pandas in PySpark behandelt. Zudem werden die Möglichkeiten der Anwendung von Machine Learning in PySpark erläutert.

Beschreibung des Big Data Kurses
Der Kurs gliedert sich thematisch in drei Breiche, die die Teilnehmer schrittweise an Apache Spark heranführen.

Der erste (eher theoretische) Teil gibt einen knappen Überblick aktueller Technologien zur Speicherung und Verarbeitung großer Datenmengen (Hadoop und Kubernetes), und welchen Platz Spark als wichtiges Datenverarbeitungsframework darin einnimmt.

Der zweite, praktisch angelegte Teil umfasst eine ausführliche Einführung in die Arbeit mit Apache Spark mit Python (PySpark). Dieses Modul stellt den Kern des Workshops dar. Dementsprechend werden dabei alle wichtigen Punkte angesprochen:

• Einladen von Daten
• Datenaufbereitung (Transformation, Filtern, Joinen, Aggregation)
• Anbindung verschiedener Datenquellen
• Ausführungsmodelle von Apache Spark
• Integration von dem Python Data Science Module Pandas und wichtige Unterschiede

Die Teilnehmer werden all diese Schritte direkt an praktischen Beispielen und Übungen umsetzen. Zusätzlich werden auch gängige Grundkonzepte zur Datenorganisation in Big Data Projekten angesprochen.

Der dritte Teil behandelt schließlich die in Spark vorhandenen Möglichkeiten zur Datenanalyse und zum maschinellen Lernen (ML). Es werden kurz die grundlegenden Konzepte und Vorgehensweisen von ML erläutert und an einem Beispiel mit PySpark praktisch angewandt.

Was lernen Sie im PySpark Seminar?
Der Fokus des Workshops liegt auf dem Umgang mit PySpark zur Verarbeitung und Analyse großer Datenmengen. Der Bereich „Machine Learning“ wird im letzten Teil ebenfalls besprochen, jedoch wird das Thema aufgrund der inherenten Komplexität theoretisch nur knapp umrissen. Im Mittelpunkt steht vielmehr, welche Möglichkeiten Apache Spark zu diesem Anwendungsgebiet anbietet, und unter welchen Bedingungen der Einsatz von PySpark anderen Alternativen vorzuziehen ist.

Der Workshop versetzt die Teilnehmer in die Lage, selbständig Daten mit Hilfe von Apache Spark zu transformieren und analyieren.

Zielgruppe der Big Data Analytics Weiterbildung
Der Kurs wendet sich primär an Data Scientists und Data Analysts, die mit Hilfe von Python und Apache Spark (PySpark) große Datenmengen verarbeiten und analysieren möchten.

Voraussetzungen für das Big Data Analytics Seminar
Die Teilnehmer sollten grundlegende Programmier- und SQL Kenntnisse besitzen. Alle Programmierbeispiele für Apache Spark werden in Python umgesetzt. Die Erfahrung zeigt, dass sich Teilnehmer mit Kenntnissen in anderen Programmiersprachen schnell in Python zurechtfinden.

Englischkenntnisse (lediglich im Verstehen von englischen Texten) sind sehr nützlich, da Python und die Internet-Dokumentationen auf Englisch sind. Daher sind auch die Folien im Kurs auf Englisch. Die Schulung selbst wird auf Deutsch gehalten.

Didaktischer Aufbau des Big Data PySpark Kurs
Dieses Big Data Seminar ist sehr praxisorientiert. Die Konzepte werden in der Schulung mit Folien erläutert und an Beispielen verdeutlicht. In den Übungseinheiten der Schulung können die Teilnehmer mit der Programmiersprache Python in der Cloud mit Jupyter Notebooks das Erlernte umsetzen. Der Trainer unterstütz bei verschiedenen Aufgaben und begleitet bei Fragen.

Technik in der Big Data Analytics Weiterbildung
Die Teilnehmer benötigen zur Teilnahme einen eigenen Rechner, auf dem ein aktueller Browser (Chrome, Firefox, Edge) zur Teilnahme an der Video-Schulung installiert ist. Entsprechend sollten die Teilnehmer auch über Mikrofon und Kopfhörer oder Lautsprecher verfügen. Eine Kamera für die Teilnehmer ist optional und freiwillig.
Um ein möglichst realistisches Erlebnis zu ermöglichen, erhält jeder Teilnehmer ein eigenes kleines Cluster innerhalb der Amazon Cloud, der Zugriff erfolgt über SSH und den Web-Browser. Damit wird neben einem Web-Browser auch keine weitere Software auf den Computern der Teilnehmer benötigt.
Bitte prüfen Sie, ob Ihr Firmenlaptop Zugangsbeschränkungen im Internet hat. Die digitalen Unterlagen (Skript) werden im Seminar online zum Download zur Verfügung gestellt. Sie erhalten vor dem Seminar per E-Mail den Link zu einer Testdatei zum Download, um dies überprüfen zu können.
Sie sollten sich in firmenfremde WLAN-Netze registrieren können um Zugang zum Internet am Veranstaltungsort zu haben. Einige Teilnehmer können Sie sich alternativ auch über Ihr Firmen-Handy ins Internet einwählen (WLAN-Tethering / Hotspot).
Als Backup Lösung ist es möglich, dass der USB Port bei Ihrem Laptop freigeschalten ist, um damit verwendete Dateien oder sonstige Unterlagen übertragen zu können.

 

Schlagworte
datenverarbeitung, programmierung, programmiersprache, programmieren, datenanalyse

 

Gelistet in folgenden Rubriken: