В курсе рассматриваются основные вопросы аналитики больших данных. Рассматриваются проблемы работы современных перспективных СУБД с большими данными, особенности масштабируемой параллельной серверной бизнес-аналитики. Изучаются современные виды хранилищ данных, модель данных OLAP. Большое внимание уделено практическим сценариям использования больших данных. Изучаются наиболее часто используемые на практике языки программирования для обработки больших данных. Введение в распределенные файловые системы и распределенную обработку данных изучается на примере широко известных технологий Google File System и Google Map Reduce. Далее данная тема подробно изучается с использованием технологий HDFS и Hadoop Map Reduce. Рассматриваются примеры распределенных алгоритмов, теория сложности Map Reduce, вопросы планирования и управления вычислениями. Также изучаются технологии Hadoop Streaming, Apache Spark. Большое внимание уделено системам хранения на базе HDFS: Pig, Hive, HBase, а также форматам хранения бинарных данных. Демонстрация примеров использования изучаемых технологий проводится преподавателями на каждой лекции и каждом семинаре. Также данная дисциплина поддерживается практическими заданиями (практическими самостоятельными работами), позволяющими студентам в совершенстве овладеть навыками написания программ для обработки больших данных на кластере, а также навыками анализа работы реализованных алгоритмов при различных конфигурациях используемого кластера. Обсуждение практических самостоятельных работ, а также их защита, проводятся на семинарах. Дополнительно, на семинарах студенты выполняют небольшие практические задания по тематике последней на момент данного семинара лекции. Темы семинаров соответствуют темам лекций. Семинары направлены на укрепление знаний, полученных на лекциях.
Материалы лекций доступны по ссылке: https://drive.google.com/drive/folders/18mT5JSW36OAvUIfyamIjenq5mxCJjtDK?usp=sharing.
Записи лекций 2020/2021 учебного года доступны по ссылке: https://m.cs.msu.ru/s/jayLTzrSDEjR7DM.
Домашнее задание №1: https://docs.google.com/document/d/1PO4znOhR4GbyCUtiPO1L7IgAcI_R2yKxI0espLimRvA/edit.
Домашнее задание №2: https://docs.google.com/document/d/1vzWfm_yLyPomGQDkBxM9XQF_sWCcTMRY2qKonlcWCl8/edit.