Vorlesung „Big Data Analytics“

Beschreibung

In der Vorlesung werden Grundlagen und Techniken zur Auswertung von großen Datenmengen gelehrt die von Menschen oder Computersystemen erzeugt werden. Diese Daten werden typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität.

Neue Erkenntnisse können durch die statistische Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar.

In den Übungen werden ausgewählte OpenSource-Werkzeuge wie Apache Pig, Hive, Spark oder Neo4j zur Analyse von öffentlich zugänglichen Datensets praktisch erprobt aber auch Grundlagen zur statistischen Auswertung oder die Erstellen von MapReduce Programmen gelehrt. Hierfür werden Grundlagen der Programmiersprachen R, Python und Java benötigt und in den Übungen erlernt.

Die neuste Version der Vorlesung ist hier.

Zielgruppe

Das Seminar ist als Wahlpflichtmodul/Vertiefung im Masterstudiengang eingetragen eignet sich allerdings auch für Studierende im Bachelorstudiengängen mit Bezug zur Informatik. Kenntnisse einer Programmiersprache sind erforderlich. In den Übungen werden Grundlagen der Programmiersprachen R, Python und Java erlernt, ein tiefergehendes Verständnis von komplexen Sprachkonstrukten ist nicht erforderlich. Kenntnisse von SQL sind nicht erforderlich aber vorteilhaft. Interessierte Zuhörer sind herzlich willkommen.

Daten der Veranstaltung

Ort		DKRZ, Raum 034
Zeit		Freitag 12:15 - 13:45
Zeit Übung		Freitag 10:15 - 11:45
Vorbesprechung		Freitag 16.10.2015 10:15
Mailingliste		BD-1516

Dozenten

Prof. Dr. Julian Kunkel

Zeitplan und Materialien

Der folgende Zeitplan ist vorläufig. Es gibt zwei Gastvorträge. Die Materialien sind typischerweise auf Englisch, die Vorlesung grundsätzlich Deutsch.

16.10 - 1. Introduction (Wir tauschen an dem Tag die Übung und Vorlesung um, d.h. Treffen um 10:15 Uhr)
- Big Data Challenges and Characteristics, Analytical Workflows, Use Cases, Programming
- Übung: Cluster-Einführung, Grundlagen für Java, Python & R, Verarbeitung von CSV-Dateien
- Folien – Übung 1
23.10 - 2. Data Models and Statistical Methods
- Übung: Einfache Textverarbeitung, Anwendung der Methoden in R, Datenmodelle
- Folien – Übung 2
30.10 - 3. Traditional databases and Data-Warehouses
- Übung: NetCDF, Datenbanken, SQL, Star-Schema
- Folien – Übung 3
06.11 - 4. Hadoop
- Folien – Übung 4
13.11 - 5. Zeitreihenanalyse und Statistische Modelle, Gastvortrag von Charlotte Jentzsch
- Übung 5
20.11 - 6. Data Retrieval & Cleaning, Gastvortrag von Reza Heidari
- Übung 6
27.11 - 7. Hive
- Folien – Übung 7
04.12 - 8. Graphprocessing with Neo4J / machine learning
- Folien für Neo4J – Folien für ML – Übung 8
- Rechnerraumführung in der Übung
11.12 - 9. HBase and REST APIs
- Folien für HBase – Folien für REST – Übung 9
18.12 - 10. Pig Latin and Performance Aspects
- Folien Pig – Folien Performance – Übung 10
08.01 - 11. Stream Processing with Storm
- Folien – Übung 11
15.01 - 12. In-Memory Computation with Spark
- Folien – Übung 12
22.01 - 13. Abschlussbesprechung (Da R034 am DKRZ belegt ist, müssen die Termine abgesagt werden. Wir treffen uns für die Abschlussbesprechung (der Ort wird noch bekannt gegeben).)
29.01 - 14. Overview of other tools in the Hadoop Ecosystem
- Folien

Literaturhinweise

Buch: Data Science for Dummies, Lillian Pierson, Wiley Verlag
Buch: Big Data - Priciples and best practices of scalable real-time data systems, Nathan Marz und James Warren, Manning Verlag
Horton Works Platform: http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/index.html
Einführung
- Python: Interaktives Tutorial
- R: Interaktives Tutorial
- Java: Interaktives Tutorial
Nützliche Tools:
- http://ipython.org/notebook.html Python Notebook, vgl. Laborbuch mit Experimentalbeschreibung und Ergebnissen.
R Bücher
Cheat cheats:
- Für diverse R Pakete
Ressource for data science: https://www.kaggle.com/

Scientific Computing // Wissenschaftliches Rechnen

Table of Contents