Error get alias
Блог
Аналитика

Гарри Поттер и большие данные

Что вы узнаете
  • Аналитик данных (Data Analyst)
  • Дата-сайентист (Data Scientist)
  • Дата-стюард (Data Steward)
  • Инженер данных (Data Engineer)
  • Архитектор данных (Data Arhitect)

Привет! Я — Андрей Ларионов. Работаю с данными уже 20 лет. Начинал оператором БД, был аналитиком, а сейчас инженер и архитектор. Обожаю просто и понятно объяснять сложные вещи, используя аналогии из реальной жизни. Также я преподаю в школе Mathshub.

Я написал статью, где подробно объяснил различия между дата-профессиями на примере персонажей Гарри Поттера. Многие уже писали о разных дата-профессиях, но из недавних разговоров со знакомыми айтишниками стало понятно, что даже они не всегда понимают, чем отличаются дата-инженеры от дата-сайентистов.

Я увидел пример работы дата-инженера там, где меньше всего ожидал, а именно в книге Джоан Роулинг «Гарри Поттер и Кубок Огня». Это и побудило меня написать цикл статей (надеюсь, что все-таки будет цикл) о данных, используя в качестве иллюстраций примеры из книг английской писательницы. У меня есть подозрение, что для обычных людей мир данных выглядит примерно так же, как для дяди и тети Гарри выглядит мир магов и чародеев. Мы, разве что, в мантиях и шляпах остроконечных не разгуливаем… Или разгуливаем?

Итак, перед Вами первая статья из цикла — о дата-профессиях.

Аналитик данных (Data Analyst)

С точки зрения инженеров и администраторов баз данных, постоянно «наводят суету», пренебрегают правилами и являются источником головной боли и бессонных ночей. Зато всегда на виду.

Хороший аналитик знает:

  • SQL для получения данных из базы
  • Python или R для обработки данных
  • Математику и статистику,
  • Бизнес-процессы для правильной интерпретации полученных результатов
  • Средства визуализации (Tableau, Power BI) , чтобы наглядно продемонстрировать результаты своей работы.

Дата-сайентист (Data Scientist)

В русскоязычных публикациях их еще иногда именуют «исследователями данных», иногда — «специалистами по науке о данных». Оба термина мне не нравятся. Первый ограничивает суть, исследование данных — только часть их функционала, кроме того, аналитики данных тоже занимаются исследованиями. Второй для меня слишком «тяжеловесен». Поэтому в дальнейшем я буду упоминать только разговорное, оно же общепринятое, название — дата-сайентист.

Основная задача, как и у аналитиков, — помощь бизнесу в принятии решений на основе данных. Только, если фокус аналитиков — прошлое и настоящее, то помыслы дата-сайентистов устремлены в будущее. Используя «мутные», только им понятные алгоритмы, они строят модели для прогнозов и рекомендаций.

Здесь больше математики и программирования и меньше визуализации.

Дата-стюард (Data Steward)

Дата-стюарды — незаметные и недооцененные герои дата-мира, на мой взгляд. Их основная задача — помочь всем желающим в поиске необходимых качественных данных. Для этого они определяют правила по сбору, хранению, использованию, документированию и качеству данных. И следят за выполнением этих правил.

Порой кажется, что они чересчур назойливы и требовательны, но когда нужно за короткий срок найти данные для отчета среди множества таблиц и различных источников, понимаешь важность этих специалистов.
Приготовить идеальное «дата-зелье», без их помощи крайне сложно. Также могут обучить защитному заклинанию от «изобретения велосипедов», а именно- разработки отчетов, наборов данных, различных показателей, которые на самом деле в компании уже давно существуют.

Инженер данных (Data Engineer)

История профессии «инженер данных» своими корнями упирается в тот самый момент, когда пользователи, которые строят на базе данных отчеты, начали мешать пользователям, которые эту базу изменяют. Количество изменений и их частота росли, а значит, росли и объемы данных для аналитических отчетов. Было принято решение разделиться на 2 подхода:

OLTP (англ. Online Transaction Processing) — системы, предназначенные для быстрой обработки транзакций, то есть вставки, изменения, удаления записей.

OLAP (англ. online analytical processing) — системы, предназначенные для аналитических запросов.

Таким образом, появилась необходимость в специалистах, которые будут перемещать данные между OLTP и OLAP-системами. Желательно точно в срок, с необходимой полнотой и качеством, в структуры, заранее спроектированные архитектором, в удобном для использования виде дата-аналитиками и дата-сайентистами.

Основной навыки инженеров данных — язык SQL, различные ETL-инструменты и оркестраторы.
Инженеры данных являются своеобразным «клеем», соединяющим между собой различные дата-профессии.

Архитектор данных (Data Arhitect)


Архитектор данных — это тот человек, который «видит всю картинку целиком», проектирует ваш дата-мир и в специальных программах рисует основные «сюжетные» блоки и линии. Важные навыки для этой профессии — умение слушать, задавать правильные вопросы и структурировать полученную информацию. Кроме того нужно разобраться с подходами, шаблонами, методологиями и технологиями, применяемыми для обработки данных. Так что «с нуля» стать архитектором вряд ли получится, хорошим подспорьем будет опыт в другой дата-профессии, например, в в роли инженера данных.
Вот как-то так выглядят дата-профессии в мире магии, ведь данные — это тоже, своего рода, волшебство.

Андрей Ларионов

Преподаватель курса

Data Engineer

Инженер и архитектор данных, преподаватель Mathshub


Рекомендуемые программы

Курс «Data Engineer»
старт — январь 2024, продолжительность — 7 месяцев
Курс «Data Scientist»
старт — январь 2024, продолжительность — 9 месяцев
Курс «Data Analyst»
старт — январь 2024, продолжительность — 8 месяцев