====== Vorlesung „Big Data Analytics“ ====== ===== Beschreibung ===== In der Vorlesung werden Grundlagen und Techniken zur Auswertung von großen Datenmengen gelehrt die von Menschen oder Computersystemen erzeugt werden. Diese Daten werden typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität. Neue Erkenntnisse können durch die statistische Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar. In den Übungen werden ausgewählte OpenSource-Werkzeuge wie Apache Pig, Hive, Spark oder Neo4j zur Analyse von öffentlich zugänglichen Datensets praktisch erprobt aber auch Grundlagen zur statistischen Auswertung oder die Erstellen von MapReduce Programmen gelehrt. Hierfür werden Grundlagen der Programmiersprachen R, Python und Java benötigt und in den Übungen erlernt. Die neuste Version der Vorlesung ist [[https://wr.informatik.uni-hamburg.de/teaching/wintersemester_2017_2018/big_data_analytics|hier]]. ===== Zielgruppe ===== Das Seminar ist als Wahlpflichtmodul/Vertiefung im Masterstudiengang eingetragen eignet sich allerdings auch für Studierende im Bachelorstudiengängen mit Bezug zur Informatik. Kenntnisse einer Programmiersprache sind erforderlich. In den Übungen werden Grundlagen der Programmiersprachen R, Python und Java erlernt, ein tiefergehendes Verständnis von komplexen Sprachkonstrukten ist nicht erforderlich. Kenntnisse von SQL sind nicht erforderlich aber vorteilhaft. Interessierte Zuhörer sind herzlich willkommen. ===== Daten der Veranstaltung ===== || Ort || [[http://maps.google.com/maps?q=DKRZ,+Bundesstra%C3%9Fe+45a,+20146+Hamburg&hl=de&cd=2&ei=BUxYS-GvKIuLOKaotbgJ&sig2=Kv8CBjHeXm8lAVC3XxRrIQ&ie=UTF8&view=map&cid=262423906154203330&ved=0CBsQpQY&hq=DKRZ,+Bundesstra%C3%9Fe+45a,+20146+Hamburg&hnear=&z=16&iwloc=A|DKRZ]], Raum 034 || || Zeit || Freitag 12:15 - 13:45 || || Zeit Übung || Freitag 10:15 - 11:45 || || Vorbesprechung || Freitag 16.10.2015 10:15 || || Mailingliste || [[https://wr.informatik.uni-hamburg.de/listinfo/bd-1516|BD-1516]] || ===== Dozenten ===== * [[People:Alumni:Julian Kunkel]] ===== Zeitplan und Materialien ===== Der folgende Zeitplan ist vorläufig. Es gibt zwei Gastvorträge. Die Materialien sind typischerweise auf Englisch, die Vorlesung grundsätzlich Deutsch. * 16.10 - 1. **Introduction** **(Wir tauschen an dem Tag die Übung und Vorlesung um, d.h. Treffen um 10:15 Uhr)** * Big Data Challenges and Characteristics, Analytical Workflows, Use Cases, Programming * Übung: Cluster-Einführung, Grundlagen für Java, Python & R, Verarbeitung von CSV-Dateien * {{:teaching:wintersemester_2015_2016:bd-1516-einfuehrung.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung1.pdf|Übung 1}} * 23.10 - 2. **Data Models and Statistical Methods** * Übung: Einfache Textverarbeitung, Anwendung der Methoden in R, Datenmodelle * {{:teaching:wintersemester_2015_2016:bd-1516-data-statistics.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung2.pdf|Übung 2}} * 30.10 - 3. **Traditional databases and Data-Warehouses** * Übung: NetCDF, Datenbanken, SQL, Star-Schema * {{:teaching:wintersemester_2015_2016:bd-1516-dbs.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung3.pdf|Übung 3}} * 06.11 - 4. **Hadoop** * {{:teaching:wintersemester_2015_2016:bd-1516-hadoop.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung04.pdf|Übung 4}} * 13.11 - 5. **Zeitreihenanalyse und Statistische Modelle**, Gastvortrag von Charlotte Jentzsch * {{:teaching:wintersemester_2015_2016:bd-1516-uebung05.pdf|Übung 5}} * 20.11 - 6. **Data Retrieval & Cleaning**, Gastvortrag von Reza Heidari * {{:teaching:wintersemester_2015_2016:bd-1516-uebung06.pdf|Übung 6}} * 27.11 - 7. **Hive** * {{:teaching:wintersemester_2015_2016:bd-1516-hive.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung07.pdf|Übung 7}} * 04.12 - 8. **Graphprocessing with Neo4J / machine learning** * {{:teaching:wintersemester_2015_2016:bd-1516-neo4j.pdf|Folien für Neo4J}} -- {{:teaching:wintersemester_2015_2016:bd-1516-machine-learning.pdf|Folien für ML}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung08.pdf|Übung 8}} * Rechnerraumführung in der Übung * 11.12 - 9. **HBase and REST APIs** * {{:teaching:wintersemester_2015_2016:bd-1516-hbase.pdf|Folien für HBase}} -- {{:teaching:wintersemester_2015_2016:bd-1516-rest.pdf|Folien für REST}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung09.pdf|Übung 9}} * 18.12 - 10. **Pig Latin and Performance Aspects** * {{:teaching:wintersemester_2015_2016:bd-1516-pig.pdf|Folien Pig}} -- {{:teaching:wintersemester_2015_2016:bd-1516-performance.pdf|Folien Performance}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung10.pdf|Übung 10}} * 08.01 - 11. **Stream Processing with Storm** * {{:teaching:wintersemester_2015_2016:bd-1516-storm.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung11.pdf|Übung 11}} * 15.01 - 12. **In-Memory Computation with Spark** * {{:teaching:wintersemester_2015_2016:bd-1516-spark.pdf|Folien}} -- {{:teaching:wintersemester_2015_2016:bd-1516-uebung12.pdf|Übung 12}} * 22.01 - 13. **Abschlussbesprechung** (Da R034 am DKRZ belegt ist, müssen die Termine abgesagt werden. Wir treffen uns für die Abschlussbesprechung (der Ort wird noch bekannt gegeben).) * 29.01 - 14. **Overview of other tools in the Hadoop Ecosystem** * {{:teaching:wintersemester_2015_2016:bd-1516-ecosystem.pdf|Folien}} ===== Literaturhinweise ===== * Buch: Data Science for Dummies, Lillian Pierson, Wiley Verlag * Buch: Big Data - Priciples and best practices of scalable real-time data systems, Nathan Marz und James Warren, Manning Verlag * Horton Works Platform: http://docs.hortonworks.com/HDPDocuments/HDP2/HDP-2.2.4/index.html * Einführung * Python: [[http://www.afterhoursprogramming.com/tutorial/Python/Overview/|Interaktives Tutorial]] * R: [[http://tryr.codeschool.com/|Interaktives Tutorial]] * Java: [[http://www.learnjavaonline.org/|Interaktives Tutorial]] * Nützliche Tools: * [[http://ipython.org/notebook.html Python Notebook]], vgl. Laborbuch mit Experimentalbeschreibung und Ergebnissen. * R Bücher * [[http://r-pkgs.had.co.nz/|R Packages]] * [[http://adv-r.had.co.nz/|Advanced R]] * [[http://dx.doi.org/10.1007/978-0-387-98141-3|ggplot2-Buch]] * Cheat cheats: * [[https://www.rstudio.com/resources/cheatsheets/|Für diverse R Pakete]] * Ressource for data science: https://www.kaggle.com/