Data Scientist

Kurs-ID 7663-0108-20230227
Datum 27.02.2023 bis 16.06.2023
Dauer 16 Wochen
Unterrichtszeiten Montag bis Freitag von 08:30 bis 15:35 Uhr (in Wochen mit Feiertagen von 8:30 bis 17:10 Uhr)
Kosten k. A.
Zielgruppe Der Lehrgang richtet sich an Personen mit abgeschlossenem Studium in der Informatik, Wirtschaftsinformatik, BWL, Mathematik oder vergleichbarer Qualifikation.
Voraussetzung Programmierkenntnisse in Python und Erfahrungen mit Datenbanken (SQL) werden vorausgesetzt.
Abschluss Zertifikat/Teilnahmebestätigung
Förderung Arbeitsagentur, Jobcenter, Beschäftigungs- und Qualifizierungsgesellschaften, BFD, DRV
Präsenzkurs Keine Angabe.
mind. Teilnehmerzahl 6
max. Teilnehmerzahl 25
URL des Kurses Details beim Anbieter
Anmelde URL des Kurses Direkte Anmeldung beim Anbieter
spezielles Angebot für Dozenten Nein.
Veranstaltungsort
 
alfatraining Bildungszentrum GmbH
In der Vorstadt 35
72488 Sigmaringen

 

AbendkursBildungsgutscheinBarierrefreier Zugang
NeinJaNein

 

Beschreibung
Data Scientist:

Data Engineer
Grundlagen Business Intelligence (ca. 2 Tage)
Aufgaben eines Data Engineers
Data Warehousing (DWH): Umgang und Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Daten
OLAP
OLTP

Anforderung von Daten (ca. 2 Tage)
Aufgaben, Ziele und Vorgehensweise in der Anforderungsanalyse
Einführung/Modellierung in der UML
- Use-Case Analyse
- Klassendiagramme
- Aktivitätsdiagramme
- Modellierung mit ERM

Datenbanken (ca. 2 Tage)
Grundlagen von Datenbanksystemen
Einführung/Modellierung in der UML
Architektur von Datenbankmanagementsystemen
Praktische und theoretische Einführung in SQL
Verwendung von Datenbanken (SQLite, PostgreSQL)
Grenzen von Relationalen Datenbanken

Data Warehouse Modellierung (ca. 4 Tage)
Star Schema
Snowflake Schema
Galaxy Schema
Data Vault 2.0
- Hubs
- Satellites
- Links im Raw- und Business Vault
- Hash Key
- Hash Diff
Slowly Changing Dimension Tables Typ 1 bis 5 (Restating, Stacking, Reorganizing, Mini Dimension und Typ 5
Einführung in normal, causal, mini und monster, heterogeneous und subdimensions
Vergleich von state und transaction oriented Faktentabellen
Density und Storage vom DWH

ETL (ca. 5 Tage)
Data Cleansing
- Null Values
- Aufbereitung von Daten
- Harmonisierung von Daten
- Anwendung von Regular Expressions
Datensicherheit/Datenschutz
Data Understanding
- Datenvalidierung
- Statistische Datenanalyse
Praktischer Aufbau von ETL-Strecken
Praktischer Aufbau eines Data Vault Modells - Business und Raw Vault
Praktische Umsetzung von Hash-Verfahren
json
csv

Projektarbeit (ca. 5 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse


Data Analytics
Einführung Datenanalyse (ca. 1 Tag)
CRISP-DM Referenzmodell
Data Analytics Workflows
Begriffsabgrenzung Künstliche Intelligenz, Machine Learning, Deep Learning
Anforderungen und Rolle im Unternehmen des Data Engineers, Data Scientists und Data Analysts

Wiederholung Grundlagen Python (ca. 1 Tag)
Datentypen
Funktionen

Datenanalyse (ca. 3 Tage)
Zentrale Python-Module im Kontext Data Analytics (NumPy, Pandas)
Prozess der Datenaufbereitung
Data Mining Algorithmen in Python

Datenvisualisierung (ca. 3 Tage)
Explorative Datenanalyse
Insights
Datenqualität
Nutzenanalyse
Visualisierung mit Python: Matplotlib, Seaborn, Plotly Express

Datenmanagement (ca. 2 Tage)
Big Data Architekturen
Relationale Datenbanken mit SQL
Vergleich von SQL- und NoSQL-Datenbanken
Business Intelligence
Datenschutz im Kontext der Datenanalyse

Datenanalyse im Big Data Kontext (ca. 1 Tag)
MapReduce-Ansatz
Spark
NoSQL

Dashboards (ca. 3 Tage)
Bibliothek: Dash
Aufbau von Dashboards – Dash Components
Customizing von Dashboards
Callbacks

TextMining (ca. 1 Tag)
Data Preprocessing
Visualisierung
Bibliothek: SpaCy

Projektarbeit (ca. 5 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse


Machine Learning
Einführung in Machine Learning (ca. 5 Tage)
Warum Machine Learning?
Anwendungsbeispiele
Überwachtes Lernen, Unüberwachtes Lernen, Teilüberwachtes Lernen, Reinforcement Lernen
Beispiele für Datenbestände
Daten kennenlernen
Trainings-, Validierungs- und Testdaten
Daten sichten
Vorhersagen treffen

Überwachtes Lernen (ca. 5 Tage)
Klassifikation und Regression
Verallgemeinerung, Overfitting und Underfitting
Größe des Datensatzes
Algorithmen zum überwachten Lernen
Lineare Modelle
Bayes-Klassifikatoren
Entscheidungsbäume
Random Forest
Gradient Boosting
k-nächste-Nachbarn
Support Vector Machines
Conditional Random Field
Neuronale Netze und Deep Learning
Wahrscheinlichkeiten

Unüberwachtes Lernen (ca. 5 Tage)
Arten unüberwachten Lernens
Vorverarbeiten und Skalieren
Datentransformationen
Trainings- und Testdaten skalieren
Dimensionsreduktion
Feature Engineering
Manifold Learning
Hauptkomponentenzerlegung (PCA)
Nicht-negative-Matrix-Faktorisierung (NMF)
Manifold Learning mit t-SNE
Clusteranalyse
k-Means-Clustering
Agglomeratives Clustering
Hierarchische Clusteranalyse
DBSCAN
Clusteralgorithmen

Evaluierung und Verbesserung (ca. 2 Tage)
Modellauswahl und Modellevaluation
Abstimmung der Hyperparameter eines Schätzers
Kreuzvalidierung
Gittersuche
Evaluationsmetriken
Klassifikation

Projektarbeit (ca. 3 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse


Deep Learning
Einführung Deep Learning (ca. 1 Tag)
Deep Learning als eine Art von Machine Learning

Grundlagen in neuronalen Netzen (ca. 4 Tage)
Perceptron
Berechnung neuronaler Netze
Optimierung der Modellparameter,
Backpropagation
Deep‐Learning‐Bibliotheken
Regression vs. Klassifikation
Lernkurven, Überanpassung und Regularisierung
Hyperparameteroptimierung
Stochastischer Gradientenabstieg (SGD)
Momentum, Adam Optimizer
Lernrate

Convolutional Neural Network (CNN) (ca. 2 Tage)
Bildklassifizierung
Convolutional‐Schichten, Pooling‐Schichten
Reshaping‐Schichten, Flatten, Global‐Average‐
Pooling
CNN‐Architekturen ImageNet‐Competition
Tiefe neuronale Netze, Vanishing Gradients, Skip‐Verbindungen, Batch‐Normalization

Transfer Learning (ca. 1 Tag)
Anpassen von Modellen
Unüberwachtes Vortrainieren
Image‐Data‐Augmentation, Explainable AI

Regional CNN (ca. 1 Tag)
Objektlokalisierung
Regressionsprobleme
Verzweigte neuronale Netze

Generative Adversarial Networks (ca. 1 Tag)
Anwendungen von GANs
Deepfakes
Deep‐Convolutional‐GANs

Recurrente neurale Netze (ca. 2 Tage)
Sequenzanalyse
Rekurrente Schichten
Backpropagation through time (BPTT)
Analyse von Zeitreihen
Exploding und Vanishing Gradient Probleme
LSTM (Long Short‐Term Memory)
GRU (Gated Recurrent Unit)
Deep RNN
Deep LSTM

Textverarbeitung durch neuronale Netze (ca. 2 Tage)
Text‐Preprocessing
Embedding‐Schichten
Text‐Klassifizierung
Sentimentanalyse
Transfer‐Learning in NLP
Übersetzungen
Seqence‐to‐Sequence‐Verfahren, Encoder‐
Decoder‐Architektur

Sprachmodelle (ca. 1 Tag)
BERT
Attention‐Schichten, Transformers
Textgeneration‐Pipelines
Summarization
Chatbots

Deep Reinforcement Learning (ca. 1 Tag)
Steuerung dynamischer Systeme
Agentensysteme
Training durch Belohnungen
Policy Gradients
Deep‐Q‐Learning

Bayes´sche neuronale Netze (ca. 1 Tag)
Unsicherheiten in neuronalen Netzen
Statistische Bewertung von Prognosen
Konfidenz, Standardabweichung
Unbalancierte Daten
Sampling‐Methoden

Projektarbeit (ca. 3 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse

 

Gelistet in folgenden Rubriken: