====== Seminar „Neueste Trends in Big Data Analytics“ ====== ===== Beschreibung ===== Das Buzzword "Big Data" bezeichnet umgangssprachlich große Datenmengen aber auch eine Industrie, welche aus diesen Daten mit Hilfe der Datenanalyse Wert schöpft. Big Data wird typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität. Methoden aus der Statistik und des maschinellen Lernens ermöglichen es computergestützt Modelle von Sachverhalten zu erzeugen und zu verifizieren. Neue Erkenntnisse können so durch die automatisierte Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar, stellen jedoch einen Paradigmenwechsel in der wissenschaftlichen Arbeitsweise dar. Im Seminar werden wir verschiedenste Teilgebiete von Big Data Analytics beleuchten und insbesondere aktuelle Trends und Forschungsbereiche kennen lernen, dies umfasst u.A. die Teilgebiete: * Maschinelles lernen * Deep learning * Data Engineering * Speicher- und Compute * Analyseverfahren und Algorithmen * Visualisierung Das gewählte Thema kann nach Wunsch und Interesse der Studenten gestaltet werden. Beachten Sie auch unsere allgemeinen organisatorischen [[:teaching:organisatorische_hinweise:seminar_proseminar#seminare|Hinweise zu Seminaren]]. ===== Zielgruppe ===== Das Seminar eignet sich für Studierende im Bachelorstudiengängen mit Bezug zur Informatik sowie Masterstudiengängen. Interessierte Zuhörer sind auch herzlich willkommen. ===== Daten der Veranstaltung ===== || Ort || [[https://www.uni-hamburg.de/onTEAM/campus/index.html?loc=i12340438|DKRZ]], Raum 034 || || Zeit || Montag, 12:15-13:45 Uhr || || Vorbesprechung || Montag, 16.10.2017 || || Mailingliste || [[https://wr.informatik.uni-hamburg.de/listinfo/ntbd-1718|NTBD-1718]] || ===== Dozenten ===== * [[People:Alumni:Julian Kunkel]] * [[People:Alumni:Christian Hovy]] * [[People:Alumni:Eugen Betke]] * [[People:Externals:Jakob Lüttgau]] * [[https://www.mi.uni-hamburg.de/arbeitsgruppen/atmosphaerenmessungen/personen/tobias-finn.html|Tobias Finn]] ===== Themenliste ===== * History of big data + AI * Milestones + Tool development * Public competitions (Kaggle, ...) * Moralic aspects of AI and big data * Concepts - Vega Visualisierungs-Grammatik * Interaktive Visualisierung mittels JSON * https://vega.github.io/ - Generative AI / adversial networks: Content creation with deep learning * http://contentmarketinginstitute.com/2017/03/artificial-intelligence-manual-creation/ - Understanding p-value * Practical simulation of p-value * How to fool users * http://blog.minitab.com/blog/adventures-in-statistics-2/five-guidelines-for-using-p-values * https://researchutopia.wordpress.com/2013/11/10/understanding-p-values-via-simulations/ - Deep Neural Networks * Going deeper with convolutions: https://www.cv-foundation.org/openaccess/content_cvpr_2015/html/Szegedy_Going_Deeper_With_2015_CVPR_paper.html - Recurrent Neural Networks and Long short-term memory * https://en.wikipedia.org/wiki/Long_short-term_memory - Incremental learning in deep neural networks (or other machine learning algorithms) * http://vision.cs.tut.fi/data/publications/liu_mscthesis_2015.pdf - Tensorflow: An open-source software library for Machine Intelligence - Tensorflow Python API + TensorBoard visualization - Mimicing the brain behavior * Dendrite models * Hierarchical Temporal Memory: https://de.wikipedia.org/wiki/Hierarchischer_Temporalspeicher - Machine learning hardware * Tensor flow processor: https://www.extremetech.com/computing/247199-googles-dedicated-tensorflow-processor-tpu-makes-hash-intel-nvidia-inference-workloads * Catapult: https://www.microsoft.com/en-us/research/project/project-catapult/ * Applied big data + machine learning - Application of big data + machine learning in science - Beating humans in complex board games (e.g., Go + Chess using deep Learning) - AI in computer games - Training body movement (arms, robots, ...) * https://www.forbes.com/sites/aarontilley/2017/09/19/ai-startup-invents-trick-for-robots-to-more-efficiently-teach-themselves-complex-tasks/#48ee9e5015fe - Predicting system reliability (buildings, etc..) - Big data and AI impact on future employment: * [[https://www.computerwoche.de/a/ibm-watson-uebernimmt-versicherungsjobs,3329379|Versicherung]] - Predicting/Tuning storage performance using AI - Optimizing HPC systems with AI - Computer vision * Classifying images - Big data + AI in healthcare * https://siliconangle.com/blog/2017/09/27/google-brain-chief-jeff-dean-ai-beats-humans-computer-vision-healthcare-will-never/ - Text analysis and natural language processing * NGrams * Skip-Thoughts * Word2Vec * https://monkeylearn.com/blog/beginners-guide-text-vectorization/ - Suicid prevention * https://qz.com/1001968/artificial-intelligence-can-now-predict-suicide-with-remarkable-accuracy/ * https://www.sciencedaily.com/releases/2017/03/170301093659.htm * https://www.elsevier.com/connect/artificial-intelligence-app-combats-suicide-in-veterans - Stock market prediction * Big Data Tools: - Apache Flink Big Data Streaming + Batch Processing Engine * [[http://www.diva-portal.org/smash/get/diva2:1059537/FULLTEXT01.pdf|paper]] - Data management with the: Integrated Rule-Oriented Data System (iRODS) - Big Data Tools in HPC environments, performance, optimizations, tools - Cloud APIs to access big data services * NL API: https://cloud.google.com/natural-language/?hl=de - Workflow management with Apache NiFi + Apache Airflow ===== Zeitplan und Betreuer ===== * 16.10. 2017 -- Vorbesprechung * Vorgehensweise bei Seminaren * {{ :teaching:wintersemester_2017_2018:ntbd1718-bigdata.pdf |Kurze Einführung in Big Data}} * Themenvorstellung * Themenwahl * 06.11. 2017 * **Machine learning hardware ** -- Dominik Scherer ((Julian Kunkel)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-dominik_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-dominik_-report.pdf|Ausarbeitung}} * **Big data and AI impact on future employment ** -- Patricia Häußer ((Christian Hovy)) \\ {{ :teaching:wintersemester_2017_2018:ntbd-1718-haeusser-arbeitsmarkt.pdf |Präsentation}} -- Ausarbeitung * 13.11. 2017 :!: **Fällt aus** * 20.11. 2017 * **Understanding p-value** -- Tuan Anh Nguyen ((Julian Kunkel)) \\ {{ :teaching:wintersemester_2017_2018:ntbd1718-nguyen.pdf |Präsentation}} -- {{ :teaching:wintersemester_2017_2018:ntbd1718-nguyen-ausarbeitung.pdf |Ausarbeitung}} * 04.12. 2017 :!: **Wir sind in Raum 023** * **Training body movement** -- Lennart Kordt ((Christian Hovy)) * **Predicting system reliability** -- Henri Engelhardt ((Jakob Lüttgau)) * 11.12. 2017 * **Generative AI / adversial networks: Content creation with deep learning** -- Nele Lips ((Tobias Finn)) \\ Präsentation -- Ausarbeitung * **Online Machine Learning** -- Tim Pietz ((Eugen Betke)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-tim_-code.zip|Code}} {{ :teaching:wintersemester_2017_2018:ntbd-1718-pietz-online-learning-druckversion.pdf |Präsentation (Druckversion)}} -- {{:teaching:wintersemester_2017_2018:ntbd-1718-tim_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-tim_-report.pdf|Ausarbeitung}} * 18.12. 2017 * **Beating humans in complex board games** -- Eike Knopp ((Jakob Lüttgau)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-eike_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-eike_-report.pdf|Ausarbeitung}} * **Beating humans in computer games** -- Tim Runge ((Eugen Betke)) * 08.01. 2018 * **Stock market prediction** -- Clemens Becker ((Julian Kunkel)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-clemens_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-clemens_-report.pdf|Ausarbeitung}} * **Big data + AI in healthcare** -- Jan Zickermann ((Julian Kunkel)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-jan_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-jan_-report.pdf|Ausarbeitung}} * 15.01. 2018 * **Predicting/Tuning storage performance using AI** -- Max Brecht ((Eugen Betke)) * **Vega Visualisierungs-Grammatik** -- El Sayed El Deeb Ahmed ((Christian Hovy)) * 22.01. 2018 * **Deep Neural Networks** -- Julian Lorenz ((Tobias Finn)) \\ Präsentation -- {{ :teaching:wintersemester_2017_2018:ntbd1718-lorenz-ausarbeitung.pdf |Ausarbeitung}} * **Training body movement** -- Lennart Kordt ((Christian Hovy)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-lennart_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-lennart_-report.pdf|Ausarbeitung}} * **Predicting/Tuning storage performance using AI** -- Max Brecht ((Eugen Betke)) * 29.01. 2018 * **Money in the Big Data Age - Analyzing Blockchains** -- Frederik The ((Julian Kunkel)) \\ {{ :teaching:wintersemester_2017_2018:ntbd1718-the-praesentation.pdf |Präsentation}} -- {{ :teaching:wintersemester_2017_2018:ntbd1718-the-ausarbeitung.pdf |Ausarbeitung}} * **Moralic aspects of AI and big data** -- Valentin Krön ((Christian Hovy)) \\ {{:teaching:wintersemester_2017_2018:ntbd-1718-valentin_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:ntbd-1718-valentin_-report.pdf|Ausarbeitung}} * **Text analysis and natural language processing** -- Guangyu Ge ((Tobias Finn)) \\ {{ :teaching:wintersemester_2017_2018:ntbd1718-ge-praesentation.pdf |Präsentation}} -- {{ :teaching:wintersemester_2017_2018:ntbd1718-ge-ausarbeitung.pdf |Ausarbeitung}} ===== Literaturhinweise ===== * Understanding p-value: https://www.vox.com/science-and-health/2017/7/31/16021654/p-values-statistical-significance-redefine-0005 * Bitcoin price prediction: * https://github.com/cbyn/bitpredict * http://cs229.stanford.edu/proj2014/Isaac%20Madan,%20Shaurya%20Saluja,%20Aojia%20Zhao,Automated%20Bitcoin%20Trading%20via%20Machine%20Learning%20Algorithms.pdf * https://www.reddit.com/r/BitcoinMarkets/comments/5ai7cn/nitty_gritty_of_automated_bitcoin_trading/ * https://link.springer.com/chapter/10.1007/978-3-319-30315-4_14 * Blockchains + AI: * https://bitcoinmagazine.com/articles/bloq-acquires-skry-supercharges-blockchain-analytics-ai-and-machine-learning/ * https://www.newscientist.com/article/2145355-ai-uses-bitcoin-trail-to-find-and-help-sex-trafficking-victims/ * Games * https://www.nature.com/nature/journal/v550/n7676/full/nature24270.html