====== Projekt „Big Data“ ====== ===== Beschreibung ===== Das Buzzword "Big Data" bezeichnet umgangssprachlich große Datenmengen aber auch eine Industrie, welche aus diesen Daten mit Hilfe der Datenanalyse Wert schöpft. Big Data wird typischerweise neben ihrer Größe durch vier weitere Charakteristiken ausgezeichnet: ihrer Variabilität, dem stetigen und massiven Zuwachs an neuen Daten, potenziell schlechter Datenqualität und ihrer Komplexität. Methoden aus der Statistik und des maschinellen Lernens ermöglichen es computergestützt Modelle von Sachverhalten zu erzeugen und zu verifizieren. Neue Erkenntnisse können so durch die automatisierte Auswertung dieser Daten gewonnen werden. Global-Players wie Google und Facebook nutzen diese Techniken beispielsweise um Werbung zielgerichtet zu platzieren und somit den Werbeerlös zu maximieren. Die Techniken sind jedoch auch in der Wissenschaft vielseitig einsetzbar, stellen jedoch einen Paradigmenwechsel in der wissenschaftlichen Arbeitsweise dar. Im Projekt wird eine Einführung zu Big Data gegeben und dann aktuelle wissenschaftliche Fragestellungen vorgestellt. Anschließend werden über das Semester hinweg, die Aufgaben selbständig in Kleingruppen bearbeitet. Diese Aufgaben umfassen u.A. * Die Analyse von bestehenden Daten unter Verwendung von maschinellem Lernen * Die Weiterentwicklung von Werkzeugen aus dem Bereich Data Engineering oder die Leistungsanalyse der Werkzeuge * Die Umsetzung von Analyseverfahren, Algorithmen oder Visualisierungstechniken Das exakte Thema als auch der Anteil aus Programmiertätigkeit, Theorie und Evaluation kann gemeinsam mit den Betreuern nach Wunsch der Teilnehmer gestaltet werden. Beachten Sie auch unsere allgemeinen organisatorischen [[:teaching:organisatorische_hinweise:projekte|Hinweise zu Projekten]]. ===== Zielgruppe ===== Das Seminar eignet sich für Studierende im Bachelorstudiengängen mit Bezug zur Informatik sowie Masterstudiengängen. Interessierte Zuhörer sind auch herzlich willkommen. ===== Daten der Veranstaltung ===== || Ort || [[https://www.uni-hamburg.de/onTEAM/campus/index.html?loc=i12340438|DKRZ]], Raum 034 || || Zeit || Montag, 16:15-17:45 Uhr || || Vorbesprechung || Montag, 16.10.2017 || || Mailingliste || [[https://wr.informatik.uni-hamburg.de/listinfo/BDP-1718|BDP-1718]] || ===== Dozenten ===== * [[People:Alumni:Julian Kunkel]] (Ansprechpartner) * [[People:Alumni:Eugen Betke]] * [[People:Externals:Jakob Lüttgau]] * [[https://www.mi.uni-hamburg.de/arbeitsgruppen/atmosphaerenmessungen/personen/tobias-finn.html|Tobias Finn]] * Andrej Fast * Heinrich Widmann ===== Themenliste ===== Die Themenliste ist nicht vollständig. Gerne gehen wir auf Eure Vorschläge ein. * Wolkenkamera * Ziel: anhand von Photographien einer stationären Kamera den Bewölkungsgrad zu ermitteln. * Hierfür sollen neuronale Netze verwendet werden. * Effizientes Management von wissenschaftlichen Metadaten * Ziel 1: Effiziente Speicherung und Suche von Metadaten wissenschaftlicher Anwendungen in bspw. MongoDB * Ziel 2: Dynamische hierarchische Namensräume der Metadaten über FUSE * Analyse des Linux Kernel Overheads * Exploration der Eigenschaften von News * Semantische Suche * Ziel: Untersuchung in wieweit Apache Solr für die semantische Suche, d.h., ähnliche Begriffe genutzt werden kann * Big Data Platform für Erdsystemdaten * Ziel: Untersuchung der Leistungsfähigkeit von [[https://github.com/OphidiaBigData/ophidia-analytics-framework|Ophidia]] * DAG/Workflow processing engines * Ziel: Untersuchung bestehender Engines zur Definition und Verarbeitung von azyklischen Graphen welche Bearbeitungsschritte in Datengetriebenen Anwendungen darstellen. * Optimierungen solcher Graphen * Apache Flink Leistungsanalyse * Ziel: Verständnis der Flink-Architektur und Ermittlung dessen Effizienz * Nutzung von Flink testen mit Beispielworkflows und Erstellung von Benchmarks * Analyse von News zur Suizidprevention * Allgemeine News Analyse bspw. welche Abhängigkeiten zwischen News besteht * Wieviel Zeit vor Veröffentlichung der News fand der Event der in den News beschrieben steht statt * Korrelation zwischen Firma und Sentiment * Machine learning AI for a computer game * Intelligent chat bot responding to user questions, see [[https://wr.informatik.uni-hamburg.de/research/projects/pecoh/start|PeCoH]] * Webpage Crawler and Indexer ===== Themenzuteilung (provisorisch) ===== ==== Exploration der Eigenschaften von News ==== Teilnehmer: //Alexander Spikofsky, Sara Yüksel, Tatyana Galitskaya// {{:teaching:wintersemester_2017_2018:bdp-1718-tatyana_sara_alexander_-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-tatyana_sara_alexander_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-tatyana_sara_alexander_-report.pdf|Bericht}} ==== Analyse von News zur Suizidprevention ==== Teilnehmer: //Nina Arndt, Melanie Budde, Ariana Sliwa// Betreuer: Julian Kunkel {{:teaching:wintersemester_2017_2018:bdp-1718-nina_ariana_melanie_-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-nina_ariana_melanie_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-nina_ariana_melanie_-report.pdf|Bericht}} ==== Analyse von News-Artikeln – Sentimentanalyse mit Word2vec ==== Teilnehmer: //Raffael Diestel, Maike Schubert// {{:teaching:wintersemester_2017_2018:bdp-1718-raffael_maike_-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-raffael_maike_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-raffael_maike_-report.pdf|Bericht}} ==== Wolkenkamera ==== Teilnehmer: //Marcel Steger, Jan Zickermann// Betreuer: Tobias Finn, Julian Kunkel {{:teaching:wintersemester_2017_2018:bdp-1718-marcel_jan_-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-marcel_jan_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-marcel_jan_-report.pdf|Bericht}} ==== Semantische Suche mit Apache Solr ==== Teilnehmer: //Eike Knopp, Minh Hieu Nguyen// Betreuer: Andrej Fast, Heinrich Widmann, Julian Kunkel {{ :teaching:wintersemester_2017_2018:bdp1718-solr-presentation.pdf |Präsentation}} -- {{ :teaching:wintersemester_2017_2018:bdp1718-solr-bericht.pdf |Bericht}} -- {{ :teaching:wintersemester_2017_2018:bdp1718-solr-quellcode.zip |Sourcecode}} ==== Big Data Platform für Erdsystemdaten ==== Teilnehmer: //Nele Lips, Dominik Scherer// Betreuer: Jakob Lüttgau, Julian Kunkel {{:teaching:wintersemester_2017_2018:bdp-1718-dominik_nele_-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-dominik_nele_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-dominik_nele_-report.pdf|Bericht}} ==== AI for a computer game ==== Teilnehmer: //Friedrich Braun, Valentin Krön// Betreuer: Julian Kunkel, Eugen Betke {{:teaching:wintersemester_2017_2018:bdp-1718-braun_kroen-code.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-braun_kroen-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-braun_kroen-report.pdf|Bericht}} ==== Chat bot ==== Teilnehmer: //Felicitas Castrian, Paul Offner, Merlin Sewina// Betreuer: Julian Kunkel, Andrej Fast {{:teaching:wintersemester_2017_2018:bdp1718-chatbot-quellcode.zip|Code}} {{:teaching:wintersemester_2017_2018:bdp-1718-felicitas_merlin_paul_-presentation.pdf|Präsentation}} {{:teaching:wintersemester_2017_2018:bdp-1718-felicitas_merlin_paul_-report.pdf|Bericht}} ==== Klassifizierung von Musik-Genres mit ANN ==== Teilnehmer: //Singh Jagmit, Fuhrmann Gian-Luca// Betreuer: Julian Kunkel [[https://github.com/omnesia0rg/bdp|Code]] {{ :teaching:wintersemester_2017_2018:bdp-1718-musik-genres-report.pdf |Bericht}} ===== Zeitplan ===== Als Vorgehensweise werden wir uns monatlich zu einem Status-Update treffen. Gerne können Arbeiten in der Vorlesungsfreien Zeit abgeschlossen werden. Ansonsten können individuelle Termine mit den Betreuern vereinbart werden. * 16.10. 2017 -- Vorbesprechung * Vorgehensweise bei Projekten * {{ :teaching:wintersemester_2017_2018:bdp1718-bigdata.pdf |Einführung in Big Data}} (30 min) * {{ :teaching:wintersemester_2017_2018:bdp1718-themen.pdf |Themenideen}} * {{ :teaching:wintersemester_2017_2018:bdp1718-example-max.pdf |Beispiel Zwischenpräsentation eines Themas}} * Vorläufige Themenvergabe * 06.11. 2017 -- {{ :teaching:wintersemester_2017_2018:all.pdf |Vorstellung}} der einzelnen Gruppen * Detaillierte Themenvorstellung * Ansatz/Methodik * Zeitplan * 04.12. 2017 -- Statusupdate * 15.01. 2018 -- Statusupdate * 19.02. 2018 -- Zwischenpräsentation * 19.03. 2018 -- Abschlusspräsentation ===== Literaturhinweise ===== * Sentiment: * http://mpqa.cs.pitt.edu/opinionfinder/ * Flink: * https://flink.apache.org/introduction.html * Tensorflow * https://www.tensorflow.org/tutorials/