PTI01821 – Data Science II, Data Visualisation and Supervised Learning

Module
Data Science II, Data Visualisation and Supervised Learning
Data Science II, Datenvisualisierung und Überwachtes Lernen
Module number
PTI01821
Version: 1
Faculty
Physikalische Technik / Informatik
Level
Bachelor
Duration
1 Semester
Semester
Summer semester
Module supervisor

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de

Lecturer(s)

Prof. Dr. Mike Espig
mike.espig(at)fh-zwickau.de
Lecturer in: "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Prof. Dr. Jens Flemming
Jens.Flemming(at)fh-zwickau.de
Lecturer in: "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Course language(s)

German - 80.00%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

English - 20.00%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

ECTS credits

10.00 credits

Workload

300 hours

Courses

8.00 SCH (2.00 SCH Internship | 6.00 SCH Lecture with integrated exercise / seminar-lecture)

Self-study time

180.00 hours
180.00 hours Self-study - Data Science II, Datenvisualisierung und Überwachtes Lernen

Pre-examination(s)

Software project
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Examination(s)

mündliche Prüfungsleistung
Module examination | Examination time: 30 min | Weighting: 100%
in "Data Science II, Datenvisualisierung und Überwachtes Lernen"

Media type
No information
Instruction content/structure

Im Modul werden verschiedene Methoden der Datenvisualisierung eingeführt sowie die Grundlagen des überwachten maschinellen Lernens behandelt.

Ziel des überwachten Lernens ist die Entwicklung von Algorithmen, die anhand umfangereicher Beispieldatensätze automatisch Zuordnungen zwischen Ein- und Ausgabegrößen erlernen. Eingabegrößen können beispielsweise Bilder sein, Ausgabegrößen textuelle Beschreibungen der Bildinhalte.

Zwei prominente Verfahrensklassen des überwachten maschinellen Lernens, lineare Regression und künstliche neuronale Netze, werden detailliert vorgestellt und an praxisnahen Aufgabenstellungen erprobt und untersucht.

Datenvisualisierung:

  • Einführung in das Python-Paket Matplotlib
  • Erstellen zwei- und dreidimensionaler Visualisierungen
  • Vorstellung weiterer Python-Pakete zur Datenvisualisierung je nach aktuellem Entwicklungsstand auf dem Gebiet, insbesondere Seaborn
  • Visualisierung von Geodaten
  • Erstellen animierter Visualisierungen

Grundlagen des überwachten Lernens:

  • Abgrenzung Regression - Klassifikation
  • Hypothesen und Loss-Funktionen
  • Trainings-, Validierungs-, Testphase
  • Kreuzvalidierung
  • Hyperparameterwahl mittels Grid-Search
  • Bewerten der Vorhersagequalität trainierter Modelle
  • einfache Methoden zur Reduktion der Feature-Anzahl, insbesondere Hauptkomponentenanalyse (PCA)
  • Umsetzung mit dem Python-Paket Scikit-Learn

Lineare Regression:

  • Grundlagen
  • Overfitting und Regularisierung
  • Umsetzung mit dem Python-Paket Scikit-Learn

Künstliche neuronale Netze:

  • Grundlagen und Motivation
  • vorwärts gerichtete geschichtete neuronale Netze
  • Training mittels Gradientenverfahren
  • Overfitting und Regularisierung, insbesondere Regularisierung mittels Dropout-Schichten
  • faltende neuronale Netze (CNNs)
  • Klassifikation von Bilddaten
  • Trainieren und Anwenden neuronaler Netze mit den Python-Paketen Tensorflow und Keras
Qualification objectives

Die Studierenden besitzen fundierte Kenntnisse zur Software-Bibliothek Matplotlib und zu verwandten Bibliotheken zur Datenvisualisierung und können diese praktisch anwenden.

Die Studierenden beherrschen die theoretischen Grundlagen des überwachten maschinellen Lernens sowohl für Regressions- als auch für Klassifikationsprobleme. Sie können lineare Regressionen praktisch durchführen und deren Anwendungsgebiete und Grenzen einschätzen.

Auf künstlichen neuronalen Netzen basierende Techniken des überwachten Lernens sind den Studierenden theoretisch wie praktisch vertraut. Sie können vorwärts gerichtete geschichtete und insbesondere faltende neuronale Netze auf Lernprobleme anwenden, deren Möglichkeiten und Grenzen bewerten, sowie diese effizient mit den Bibliotheken Tensorflow und Keras implementieren.

Die Studierenden sind in der Lage, ihr Wissen durch eigenständige Arbeit mit Fachliteratur zu erweitern und sie besitzen ein geschärftes Bewusstsein für rechtliche Aspekte beim Sammeln und Verarbeiten von Daten.

Special admission requirements

keine

Recommended prerequisites
  • PTI01810 - Data Science I, Einführung in Python und Datenvorverarbeitung 
  • PTI01710 - Mathematische Grundlagen I
Continuation options

PTI01831, PTI01841, PTI01850, PTI01860, PTI01870

Literature
  • Vorlesungsskript
  • Géron: Hands-on Machine Learning with Scikit-Learn, Keras, and TensorFlow, O'Reilly Media
  • Chollet: Deep Learning with Python, Manning
  • Mohri, Rostamizadeh, Talwalkar: Foundations of Machine Learning, MIT Press
  • Shalev-Shwartz, Ben-David: Understanding Machine Learning From Theory to Algorithms,  Cambridge University Press
  • Bishop: Pattern Recognition and Machine Learning, Springer 
  • Vapnik: Statistical Learning Theory, Springer
  • Vapnik: The Nature of Statistical Learning Theory, Springer
  • Györfi, Kohler, Krzyzak, Walk: A Distribution-Free Theory of Nonparametric Regression, Springer
  • Cucker, Zhou: Learning Theory An Approximation Theory Viewpoint, Cambridge Monographs
  • Barber: Bayesian Reasoning and Machine Learning, Cambridge University Press
  • Murphy: Machine Learning A Probabilistic Perspective, MIT Press
Notes

Die Modulprüfung kann in deutscher und englischer Sprache abgelegt werden.