PTI01821 – Data Science II, Data Visualisation and Supervised Learning

Module

Data Science II, Data Visualisation and Supervised Learning
Data Science II, Datenvisualisierung und Überwachtes Lernen

Module number

PTI01821
Version: 1

Faculty

Physikalische Technik / Informatik

Level

Bachelor

Duration

1 Semester

Semester

Summer semester

Module supervisor

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de

Lecturer(s)

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de
Lecturer in: "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de
Lecturer in: "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Course language(s)

German - 80.00%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

English - 20.00%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

ECTS credits

10.00 credits

Workload

300 hours

Courses

8.00 SCH (2.00 SCH Internship | 6.00 SCH Lecture with integrated exercise / seminar-lecture)

Self-study time

180.00 hours
180.00 hours Self-study - Data Science II, Datenvisualisierung und Überwachtes Lernen

Pre-examination(s)

Software project
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Examination(s)

mündliche Prüfungsleistung
Module examination | Examination time: 30 min | Weighting: 100%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Media type

No information

Instruction content/structure

Im Modul werden verschiedene Methoden der Datenvisualisierung eingeführt sowie die Grundlagen des überwachten maschinellen Lernens behandelt.

Ziel des überwachten Lernens ist die Entwicklung von Algorithmen, die anhand umfangereicher Beispieldatensätze automatisch Zuordnungen zwischen Ein- und Ausgabegrößen erlernen. Eingabegrößen können beispielsweise Bilder sein, Ausgabegrößen textuelle Beschreibungen der Bildinhalte.

Zwei prominente Verfahrensklassen des überwachten maschinellen Lernens, lineare Regression und künstliche neuronale Netze, werden detailliert vorgestellt und an praxisnahen Aufgabenstellungen erprobt und untersucht.

Datenvisualisierung:

Einführung in das Python-Paket Matplotlib
Erstellen zwei- und dreidimensionaler Visualisierungen
Vorstellung weiterer Python-Pakete zur Datenvisualisierung je nach aktuellem Entwicklungsstand auf dem Gebiet, insbesondere Seaborn
Visualisierung von Geodaten
Erstellen animierter Visualisierungen

Grundlagen des überwachten Lernens:

Abgrenzung Regression - Klassifikation
Hypothesen und Loss-Funktionen
Trainings-, Validierungs-, Testphase
Kreuzvalidierung
Hyperparameterwahl mittels Grid-Search
Bewerten der Vorhersagequalität trainierter Modelle
einfache Methoden zur Reduktion der Feature-Anzahl, insbesondere Hauptkomponentenanalyse (PCA)
Umsetzung mit dem Python-Paket Scikit-Learn

Lineare Regression:

Grundlagen
Overfitting und Regularisierung
Umsetzung mit dem Python-Paket Scikit-Learn

Künstliche neuronale Netze:

Grundlagen und Motivation
vorwärts gerichtete geschichtete neuronale Netze
Training mittels Gradientenverfahren
Overfitting und Regularisierung, insbesondere Regularisierung mittels Dropout-Schichten
faltende neuronale Netze (CNNs)
Klassifikation von Bilddaten
Trainieren und Anwenden neuronaler Netze mit den Python-Paketen Tensorflow und Keras

Qualification objectives

Die Studierenden besitzen fundierte Kenntnisse zur Software-Bibliothek Matplotlib und zu verwandten Bibliotheken zur Datenvisualisierung und können diese praktisch anwenden.

Die Studierenden beherrschen die theoretischen Grundlagen des überwachten maschinellen Lernens sowohl für Regressions- als auch für Klassifikationsprobleme. Sie können lineare Regressionen praktisch durchführen und deren Anwendungsgebiete und Grenzen einschätzen.

Auf künstlichen neuronalen Netzen basierende Techniken des überwachten Lernens sind den Studierenden theoretisch wie praktisch vertraut. Sie können vorwärts gerichtete geschichtete und insbesondere faltende neuronale Netze auf Lernprobleme anwenden, deren Möglichkeiten und Grenzen bewerten, sowie diese effizient mit den Bibliotheken Tensorflow und Keras implementieren.

Die Studierenden sind in der Lage, ihr Wissen durch eigenständige Arbeit mit Fachliteratur zu erweitern und sie besitzen ein geschärftes Bewusstsein für rechtliche Aspekte beim Sammeln und Verarbeiten von Daten.

Special admission requirements

keine

Recommended prerequisites

PTI01810 - Data Science I, Einführung in Python und Datenvorverarbeitung
PTI01710 - Mathematische Grundlagen I

Continuation options

PTI01831, PTI01841, PTI01850, PTI01860, PTI01870

Literature

Vorlesungsskript
Géron: Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow, O'Reilly Media
Chollet: Deep Learning with Python, Manning
Mohri, Rostamizadeh, Talwalkar: Foundations of Machine Learning, MIT Press
Shalev-Shwartz, Ben-David: Understanding Machine Learning From Theory to Algorithms, Cambridge University Press
Bishop: Pattern Recognition and Machine Learning, Springer
Vapnik: Statistical Learning Theory, Springer
Vapnik: The Nature of Statistical Learning Theory, Springer
Györfi, Kohler, Krzyzak, Walk: A Distribution-Free Theory of Nonparametric Regression, Springer
Cucker, Zhou: Learning Theory An Approximation Theory Viewpoint, Cambridge Monographs
Barber: Bayesian Reasoning and Machine Learning, Cambridge University Press
Murphy: Machine Learning A Probabilistic Perspective, MIT Press

Notes

Die Modulprüfung kann in deutscher und englischer Sprache abgelegt werden.

Assignment to curriculum

250 Data Science - Bachelor 2022 Vollzeit

250 Data Science - Bachelor 2022 Teilzeit

250 Data Science - Bachelor 2023 Vollzeit

250 Data Science - Bachelor 2023 Teilzeit

250 Data Science - Bachelor 2023 Vollzeit

250 Data Science - Bachelor 2023 Teilzeit

Close detail view