Что вы узнаете
- Аналитик данных (Data Analyst)
- Дата-сайентист (Data Scientist)
- Дата-стюард (Data Steward)
- Инженер данных (Data Engineer)
- Архитектор данных (Data Arhitect)
Привет! Я — Андрей Ларионов. Работаю с данными уже 20 лет. Начинал оператором БД, был аналитиком, а сейчас инженер и архитектор. Обожаю просто и понятно объяснять сложные вещи, используя аналогии из реальной жизни. Также я преподаю в школе Mathshub.
Я написал статью, где подробно объяснил различия между дата-профессиями на примере персонажей Гарри Поттера. Многие уже писали о разных дата-профессиях, но из недавних разговоров со знакомыми айтишниками стало понятно, что даже они не всегда понимают, чем отличаются дата-инженеры от дата-сайентистов.
Я увидел пример работы дата-инженера там, где меньше всего ожидал, а именно в книге Джоан Роулинг «Гарри Поттер и Кубок Огня». Это и побудило меня написать цикл статей (надеюсь, что все-таки будет цикл) о данных, используя в качестве иллюстраций примеры из книг английской писательницы. У меня есть подозрение, что для обычных людей мир данных выглядит примерно так же, как для дяди и тети Гарри выглядит мир магов и чародеев. Мы, разве что, в мантиях и шляпах остроконечных не разгуливаем… Или разгуливаем?
Итак, перед Вами первая статья из цикла — о дата-профессиях.
Итак, перед Вами первая статья из цикла — о дата-профессиях.
Аналитик данных (Data Analyst)
С точки зрения инженеров и администраторов баз данных, постоянно «наводят суету», пренебрегают правилами и являются источником головной боли и бессонных ночей. Зато всегда на виду.
Хороший аналитик знает:
Хороший аналитик знает:
- SQL для получения данных из базы
- Python или R для обработки данных
- Математику и статистику,
- Бизнес-процессы для правильной интерпретации полученных результатов
- Средства визуализации (Tableau, Power BI) , чтобы наглядно продемонстрировать результаты своей работы.
Дата-сайентист (Data Scientist)
В русскоязычных публикациях их еще иногда именуют «исследователями данных», иногда — «специалистами по науке о данных». Оба термина мне не нравятся. Первый ограничивает суть, исследование данных — только часть их функционала, кроме того, аналитики данных тоже занимаются исследованиями. Второй для меня слишком «тяжеловесен». Поэтому в дальнейшем я буду упоминать только разговорное, оно же общепринятое, название — дата-сайентист.
Основная задача, как и у аналитиков, — помощь бизнесу в принятии решений на основе данных. Только, если фокус аналитиков — прошлое и настоящее, то помыслы дата-сайентистов устремлены в будущее. Используя «мутные», только им понятные алгоритмы, они строят модели для прогнозов и рекомендаций.
Здесь больше математики и программирования и меньше визуализации.
Основная задача, как и у аналитиков, — помощь бизнесу в принятии решений на основе данных. Только, если фокус аналитиков — прошлое и настоящее, то помыслы дата-сайентистов устремлены в будущее. Используя «мутные», только им понятные алгоритмы, они строят модели для прогнозов и рекомендаций.
Здесь больше математики и программирования и меньше визуализации.
Дата-стюард (Data Steward)
Дата-стюарды — незаметные и недооцененные герои дата-мира, на мой взгляд. Их основная задача — помочь всем желающим в поиске необходимых качественных данных. Для этого они определяют правила по сбору, хранению, использованию, документированию и качеству данных. И следят за выполнением этих правил.
Порой кажется, что они чересчур назойливы и требовательны, но когда нужно за короткий срок найти данные для отчета среди множества таблиц и различных источников, понимаешь важность этих специалистов.
Порой кажется, что они чересчур назойливы и требовательны, но когда нужно за короткий срок найти данные для отчета среди множества таблиц и различных источников, понимаешь важность этих специалистов.
Приготовить идеальное «дата-зелье», без их помощи крайне сложно. Также могут обучить защитному заклинанию от «изобретения велосипедов», а именно- разработки отчетов, наборов данных, различных показателей, которые на самом деле в компании уже давно существуют.
Инженер данных (Data Engineer)
История профессии «инженер данных» своими корнями упирается в тот самый момент, когда пользователи, которые строят на базе данных отчеты, начали мешать пользователям, которые эту базу изменяют. Количество изменений и их частота росли, а значит, росли и объемы данных для аналитических отчетов. Было принято решение разделиться на 2 подхода:
OLTP (англ. Online Transaction Processing) — системы, предназначенные для быстрой обработки транзакций, то есть вставки, изменения, удаления записей.
OLAP (англ. online analytical processing) — системы, предназначенные для аналитических запросов.
Таким образом, появилась необходимость в специалистах, которые будут перемещать данные между OLTP и OLAP-системами. Желательно точно в срок, с необходимой полнотой и качеством, в структуры, заранее спроектированные архитектором, в удобном для использования виде дата-аналитиками и дата-сайентистами.
Основной навыки инженеров данных — язык SQL, различные ETL-инструменты и оркестраторы.
OLTP (англ. Online Transaction Processing) — системы, предназначенные для быстрой обработки транзакций, то есть вставки, изменения, удаления записей.
OLAP (англ. online analytical processing) — системы, предназначенные для аналитических запросов.
Таким образом, появилась необходимость в специалистах, которые будут перемещать данные между OLTP и OLAP-системами. Желательно точно в срок, с необходимой полнотой и качеством, в структуры, заранее спроектированные архитектором, в удобном для использования виде дата-аналитиками и дата-сайентистами.
Основной навыки инженеров данных — язык SQL, различные ETL-инструменты и оркестраторы.
Инженеры данных являются своеобразным «клеем», соединяющим между собой различные дата-профессии.
Архитектор данных (Data Arhitect)
Архитектор данных — это тот человек, который «видит всю картинку целиком», проектирует ваш дата-мир и в специальных программах рисует основные «сюжетные» блоки и линии. Важные навыки для этой профессии — умение слушать, задавать правильные вопросы и структурировать полученную информацию. Кроме того нужно разобраться с подходами, шаблонами, методологиями и технологиями, применяемыми для обработки данных. Так что «с нуля» стать архитектором вряд ли получится, хорошим подспорьем будет опыт в другой дата-профессии, например, в в роли инженера данных.
Вот как-то так выглядят дата-профессии в мире магии, ведь данные — это тоже, своего рода, волшебство.
Андрей Ларионов
Преподаватель курса
Data Engineer
Инженер и архитектор данных, преподаватель Mathshub
Рекомендуемые программы
Курс «Data Engineer»
старт — январь 2024, продолжительность — 7 месяцев
Курс «Data Scientist»
старт — январь 2024, продолжительность — 9 месяцев
Курс «Data Analyst»
старт — январь 2024, продолжительность — 8 месяцев