- Статус
- Вне сети
- Регистрация
- 31 Май 2022
- Сообщения
- 1.115
- Реакции
- 4
- Автор темы
- Администратор
- #1
Практический курс по Big Data. Часть 1. HDFS, Map Reduce, Hive [bigdata team]
Кому подойдет этот курс:
- Разработчикам
Вы программируете, но хотите расширить профессиональные возможности и получить практические навыки работы с большими данными? На курсе вы научитесь работать с Hadoop, MapReduce, Hive, Spark, Kafka, Cassandra и будете выполнять задания на реальном кластере. - Data Engineers
Хотите расширить свой арсенал для работы с данными и структурировать свои знания в DE? Вы узнаете о современных технологиях работы с Big Data, научитесь грамотно их использовать и понимать, какую технологию в каких случаях лучше применять. - Аналитикам
Хотите освоить работу с большими данными, чтобы решать более сложные и интересные аналитические задачи? Вы научитесь использовать инструменты работы с большими данными, проводить аналитику с помощью SQL и NoSQL инструментов, готовить данные и отчеты на основе больших массивов информации. - Data Scientists
Ловите себя на мысли, что качество модели во многом зависит от правильного сбора и предобработки данных? Вы получите базу по современным инструментам и подходам, необходимым для сбора, хранения и обработки данных; изучите особенности укладки данных для оптимизации вычислений, подготовки фичей и масштабирования ML-моделей.
Часть 1. HDFS, Map Reduce, Hive
В этом модуле вы изучите:
- вводная часть: знакомство (задачи, оценки, дедлайны), подробности курса;
- распределенные файловые системы (GFS, HDFS). Их составляющие, достоинства, недостатки и сфера применения;
- чтение и запись в HDFS. HDFS APIs: Web, shell.
- Hadoop Streaming;
- элементы Hadoop-задачи (Mapper, reducer, combiner, partitioner, comparator).
- приложения с несколькими Hadoop-задачами;
- тюнинг Hadoop-job (настройка партиционирования, сложные ключи, uber jobs);
- задачи с несколькими входами. Joins в Hadoop.
- архитектура Hive, виды таблиц, форматы хранения данных;
- трансляция Hive-запросов в MapReduce-задачи;
- сериализация и десериализация;
- тюнинг Join'ов в Hive;
- партиционирование, бакетирование, семплирование;
- User defined functions, Hive Streaming.
To view the content, you need to Sign In .
Похожие темы:
- [Макс Ширко] Курс по личному бренду и ведению соцсетей для дизайнеров (2025)
- [Катя SMMetanova] Что-то на ИИшном. Готовый набор промптов для любой нейросети (2025)
- [TutorPlace] Анна Астафьева → Как создать подкаст (2026)
- [Антон Назаров] Подписка на контент Осознанная меркантильность. Тариф Волчара. Февраль (2026)
- [Дмитрий Черемушкин] Стратегический вебинар по рынку США (глобальный). Февраль (2026)
- [Udemy] Mike Pritula → Как HR создать свой чатбот для сотрудников? (2026)
- [klerk] Ирина Гамова → Блокировка счетов по 115-ФЗ. Как работать с расчетным счетом чтобы его не заблокировали (2026)
- [Михаил Дашкиев, Андрей Калашников] Нечто. Восьмой сезон (2025)
- [Алена Мишурко] 20 AI-ассистентов. Тариф Система продаж (2026)
- [Арнольд Оберлейтер] [Udemy] Агентный ИИ Буткемп: ИИ агенты при помощи Python, n8n, MCP & RAG (2025)