In der Veranstaltung werden die nötigen Methoden und das nötige Wissen zur Anwendung relevanter Text- und Web-Mining Verfahren entlang des KDD Prozesses (Knowledge Discovery in Databases) gegeben. Dies schließt relevante Schritte wie die Datenbaffung aus dem WWW, die Aufbereitung unstrukturierter und semistrukturierter Text/HTML Daten, und die statistische Analyse bzw. das Lernen von Modellen mit (un)überwachten Verfahren des maschinellen Lernens mit ein. 

Im folgenden finden Sie einige Details zur Vorlesung, die über die Modulbeschreibung ( https://obs.fbi.h-da.de/mhb/modul.php?nr=41.5042&sem=20182 ) hinausgehen:

  • Folgender Inhaltsblöcke werden in der Vorlesung inhallich abgestimmt auf das Praktikum vermittelt:
    • Mustererkennung in semi-strukturierten Webdaten mit regulären Ausdrücken und XPath
    • Crawler-Architekturen und -Programmierung mit Scrapy, sowie Such-Strategien im WWW mit Scrapy
    • Text-Vorverarbeitung mit Verfahren des Natural Language Processing
    • Information Retrieval: Anfragemodelle, Ähnlichkeitsfunktionen, Duplikaterkennung, Gütemaße und Evaluation, Lernen von Wortvektoren mit Word2Vec
    • Unüberwachtes Lernen: Probabilistische Topicmodelle
    • Überwachtes Lernen: Standard-Klassifikatoren auf Textrepräsentationen
    • Ausblick: Neuronale Netze und Deep Learning
  • Falls Sie die Veranstaltungen "Natural Language Processing" oder "Data-/Textmining" bereits belegt haben, ist dies eher nützlich als hinderlich. Die Veranstaltungen überschneiden sich zu max. je c. 15% und haben einen jeweils anderen Fokus. 
  • Das Praktikum wird überwiegend Python-basiert stattfinden und von Johannes Schaffrath mit betreut. Zu Beginn des Semesters werden wir einen optionalen Python-Crashkurs anbieten. Der genaue Termin dafür wird noch bekanntgegeben. Das Praktikum beginnt  am Mittwoch 24.10. 
  • Wichtiger Hinweis: Für diese Wahlpflicht-Veranstaltung kann es nötig sein, dass Sie sich bei Webdiensten wie z.B. Amazon Web Services, Kaggle oder Yelp zur Nutzung von Infrastruktur und/oder Datensätzen registrieren. Bitte belegen Sie die Veranstaltung nur, wenn Sie damit einverstanden sind.