Data Analyst
alfatraining Bildungszentrum GmbH Reutlingen
Aktionen
Kursbeschreibung
Data Analysts überprüfen und verarbeiten Datensätze anhand relationaler Datenbanken und der Programmiersprache Python, werten diese mithilfe statistischer Methoden aus und visualisieren die Ergebnisse anschaulich. Der Lehrgang erläutert daher in einem ersten Schritt Instrumente der Statistik zur Analyse verschiedener Datengruppen, bevor im Anschluss Fachwissen in der Programmierung mit Python sowie der Entwicklung und Abfrage relationaler Datenbanken mit SQL vermittelt wird. Kenntnisse in der Data Warehouse-Modellierung und dem ETL-Prozess sowie in der Datenanalyse, -visualisierung und dem Datenmanagement runden den Kurs ab. Ergänzend erfährst du, wie Künstliche Intelligenz in diesem Bereich eingesetzt wird.
Statistik und Datenanalyse
Statistische Grundlagen (ca. 6 Tage)
Messtheoretische Grundlagen (Grundgesamtheit, Stichprobe, Stichprobenarten, Messung, Skalenniveaus)
Univariate Deskriptivstatistik (Häufigkeitsverteilungen, Zentralmaße, Streuungsmaße, Standardisierung, Histogramme, Balkendiagramme, Kreisdiagramme, Liniendiagramme, Boxplots)
Bivariate Deskriptivstatistik (Zusammenhangsmaße, Korrelationskoeffizienten, Kreuztabellen, Streudiagramme, gruppierte Balkendiagramme)
Grundlagen der induktiven Inferenzstatistik (Wahrscheinlichkeitsverteilungen, Normalverteilung, Stichprobenverteilung des Mittelwerts, Signifikanztest, Nullhypothesentest, Signifikanzniveau, Effektgröße, Parameterschätzung, Konfidenzintervalle, Fehlerbalkendiagramme, Poweranalyse, Stichprobenumfang)
Datenaufbereitung und Datenbereinigung mit geeigneter Software
Deskriptive Analyse
Visualisierung statistischer Ergebnisse
KI-gestützte Analyse und Interpretation statistischer Ergebnisse
Methoden zum Vergleich von zwei Gruppen (ca. 5 Tage)
z-Test, t-Test für eine Stichprobe
t-Test für unabhängige und verbundene Stichproben
Pretest-Posttest-Designs mit zwei Gruppen
Unterstützende Signifikanztests (Anderson-Darling-Test, Ryan-Joiner-Test, Levene-Test, Bonett-Test, Signifikanztest für Korrelationen)
Nonparametrische Verfahren (Wilcoxon-Test, Vorzeichentest, Mann-Whitney-Test)
Kontingenzanalysen (Binomialtest, Exakter Test nach Fisher, Chi-Quadrat-Test, Kreuztabellen, Assoziationsmaße)
Interpretation von Testergebnissen
KI-gestützte Ergebnisinterpretation
Grundlagen der Regressionsanalyse (ca. 2 Tage)
Lineare Regression
Modellinterpretation
KI-gestützte Modellinterpretation
Zusammenhangsanalyse
Methoden zum Mittelwertvergleich von mehreren Gruppen (ca. 3 Tage)
Einfaktorielle und zweifaktorielle Varianzanalyse (ANOVA)
Post-hoc-Analysen
Interpretation von Gruppenunterschieden
Mehrfaktorielle Varianzanalyse (Allgemeines Lineares Modell)
Feste, zufällige, gekreuzte und geschachtelte Faktoren
Mehrfachvergleichsverfahren (Tukey-HSD, Dunnett, Games-Howell)
Interaktionsanalyse
Poweranalyse bei Varianzanalysen
Einführung in die Versuchsplanung (DoE, Design of Experiments) (ca. 1 Tag)
Vollfaktorielle und teilfaktorielle Versuchspläne
Projektarbeit (ca. 3 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Relationale Datenbanken mit SQL
Grundlagen von Datenbanksystemen und SQL (ca. 3 Tage)
Überblick über Datenbanksysteme und -modelle
Redundante Daten und Datenintegrität
Normalisierung
Datenbankentwurf und Entity-Relationship-Modell (ERM)
Primär- und Fremdschlüssel
Beziehungen zwischen Relationen
Datentypen in SQL
Indizes und Performance
Einschränkungen und Validierung
Abfragen in SQL
Strukturierte Daten als Grundlage für KI-gestützte Analyseverfahren
Einführung in SQL Server Management Studio (SSMS) (ca. 2 Tage)
Überblick über SQL Server und SSMS
Physisches Datenbankdesign
Erstellen von Tabellen und Definieren von Datentypen
Einschränkungen, Standardwerte und Beziehungen
Datenbankdiagramme (ERM) und Beziehungen
Backup und Restore
Einführung in Performanceüberwachung
Überblick über KI-unterstützte Abfrageoptimierung und Queryanalyse
Einführung in DDL (Data Definition Language) und DML (Data Manipulation Language) (ca. 8 Tage)
SQL-Grundlagen und erweiterte Syntax
Operatoren und integrierte Funktionen
Abfragen und Manipulation von Daten
Fehlerbehandlung und Transaktionsmanagement
Erstellung und Verwaltung von Datenbankobjekten
Grundlagen der Performanceoptimierung
Arbeiten mit modernen Datentypen
Datenmodellierung und strukturierte Aufbereitung für KI- und Analyseanwendungen
DCL – Data Control Language und Sicherheit (ca. 1 Tag)
Benutzerverwaltung und Berechtigungen
Rollen und Sicherheitskonzepte
Auditing
Einführung in Row Level Security
Datensicherheit im Kontext von KI-gestützten Auswertungen
Datentypen, Datenimport und -export in modernen Systemen (ca. 1 Tag)
Datenimport und -export
Moderne Datentypen
Import, Transformation und Bereitstellung von Daten für Analyseprozesse
Projektarbeit (ca. 5 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Programmierung mit Python
Grundlagen Python (ca. 1 Tag)
Geschichte, Konzepte
Verwendung und Einsatzgebiete
Syntax
Lexis, Semantik
PEP-8-Konventionen
Interpreter vs. Compiler
Numeral Systems: binär, oktal, hexadezimal
Scientific Notation
Erste Schritte mit Python (ca. 5 Tage)
Zahlen
Zeichenketten
Datum und Zeit
Standardeingabe und -ausgabe
Numerische Operatoren
Vergleichs-, logische und bitweise Operatoren
Datentypumwandlung
list, tuple, dict, set
List-Funktionen und -Methoden
Verzweigungen und Schleifen (if, for, while)
Mitgliedsoperatoren
String-Basics: escaping, multiline strings
Operatoren priorisieren und binden
Künstliche Intelligenz (KI) im Arbeitsprozess
Vorstellung von konkreten KI‐Technologien
sowie Anwendungsmöglichkeiten im beruflichen Umfeld
Funktionen (ca. 5 Tage)
Eigene Funktionen definieren
Variablen
Parameter und Argumente
Rückgabewerte
Rekursion
Namensräume
Funktionale Programmierung
Parameterarten: positional, keyword, mixed
Defaultwerte
Shadowing und global keyword
None und Rückgabe ohne Wert
Fehlerbehebung (ca. 0,5 Tage)
Grundlagen der Fehlerbehandlung mit try und except
Typische Fehlertypen und Exception Hierarchie
Fehlerweitergabe und Programmunterbrechungen
Strukturierung der except Blöcke
Objektorientierte Programmierung (ca. 4,5 Tage)
Python-Klassen
Methoden
Unveränderliche Objekte
Datenklasse
Vererbung
Projektarbeit, Zertifizierungsvorbereitung und Zertifizierungsprüfung „PCEP™ – Certified Entry-Level Python Programmer” in englischer Sprache (ca. 4 Tage)
Data Engineer
Grundlagen Business Intelligence (ca. 2 Tage)
Anwendungsfelder, Dimensionen einer BI Architektur
Grundlagen Business Intelligence, OLAP, OLTP, Aufgaben der Data Engineers
Data Warehousing (DWH): Umgang und Verarbeitung von strukturierten, semi-strukturierten und unstrukturierten Daten
Anforderungsmanagement (ca. 2 Tage)
Aufgaben, Ziele und Vorgehensweise in der Anforderungsanalyse
Datenmodellierung, Einführung/Modellierung mit ERM
Einführung/Modellierung in der UML
· Klassendiagramme
· Use-Case Analyse
· Aktivitätsdiagramme
Künstliche Intelligenz (KI) im Arbeitsprozess
Vorstellung von konkreten KI‐Technologien
sowie Anwendungsmöglichkeiten im beruflichen Umfeld
Datenbanken (ca. 3 Tage)
Grundlagen von Datenbanksystemen
Architektur von Datenbankmanagementsystemen
Anwendung RDBMS
Umsetzung Datenmodell in RDBMS, Normalformen
Praktische und theoretische Einführung in SQL
Grenzen von Relationalen Datenbanken, csv, json
Data Warehouse (ca. 4 Tage)
Star Schema
Datenmodellierung
Erstellung Star Schema in RDBMS
Snowflake Schema, Grundlagen, Datenmodellierung
Erstellung Snowflake Schema in RDBMS
Galaxy Schema: Grundlagen, Datenmodellierung
Slowly Changing Dimension Tables Typ 1 bis 5 – Restating, Stacking, Reorganizing, mini Dimension und Typ 5
Einführung in normal, causal, mini und monster, heterogeneous und sub Dimensions
Vergleich von state und transaction oriented
Faktentabellen, Density und Storage vom DWH
ETL (ca. 4 Tage)
Data Cleansing
· Null Values
· Aufbereitung von Daten
· Harmonisierung von Daten
· Anwendung von Regular Expressions
Data Understanding
· Datenvalidierung
· Statistische Datenanalyse
Datenschutz, Datensicherheit
Praktischer Aufbau von ETL-Strecken
Data Vault 2.0, Grundlagen, Hubs, Links, Satellites, Hash Key, Hash Diff.
Data Vault Datenmodellierung
Praktischer Aufbau eines Data Vault Modells – Raw Vault, praktische Umsetzung von Hash-Verfahren
Projektarbeit (ca. 5 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Data Analytics
Einführung Datenanalyse (ca. 1 Tag)
CRISP-DM Referenzmodell
Data Analytics Workflows
Begriffsabgrenzung Künstliche Intelligenz, Machine Learning, Deep Learning
Anforderungen und Rolle im Unternehmen der Data Engineers, Data Scientists und Data Analysts
Wiederholung Grundlagen Python (ca. 1 Tag)
Datentypen
Funktionen
Datenanalyse (ca. 3 Tage)
Zentrale Python-Module im Kontext Data Analytics (NumPy, Pandas)
Prozess der Datenaufbereitung
Data Mining Algorithmen in Python
Künstliche Intelligenz (KI) im Arbeitsprozess
Vorstellung von konkreten KI‐Technologien
sowie Anwendungsmöglichkeiten im beruflichen Umfeld
Datenvisualisierung (ca. 3 Tage)
Explorative Datenanalyse
Insights
Datenqualität
Nutzenanalyse
Visualisierung mit Python: Matplotlib, Seaborn, Plotly Express
Data Storytelling
Datenmanagement (ca. 2 Tage)
Big Data Architekturen
Relationale Datenbanken mit SQL
Vergleich von SQL- und NoSQL-Datenbanken
Business Intelligence
Datenschutz im Kontext der Datenanalyse
Datenanalyse im Big Data Kontext (ca. 1 Tag)
MapReduce-Ansatz
Spark
NoSQL
Dashboards (ca. 3 Tage)
Bibliothek: Dash
Aufbau und Customizing von Dashboards
Callbacks
Text Mining (ca. 1 Tag)
Data Preprocessing, Visualisierung
Bibliothek: SpaCy
Projektarbeit (ca. 5 Tage)
Zur Vertiefung der gelernten Inhalte
Präsentation der Projektergebnisse
Änderungen möglich, die Lehrgangsinhalte werden regelmäßig aktualisiert.
Kursinformationen
Unter den Linden 2
72762 Reutlingen