Кто такой Data Scientist и как им стать

Data Scientist – предсказатель и провидец в мире Big Data. Откроем завесу таинственности профессии исследователя данных. Чем занимается дата-сайентист, плюсы и минусы, сколько зарабатывает и где работает эксперт.

Анна Ли Павловнаавтор материала

Кто такой data scientist

Учёный по данным, дата-сайентист или датасаентист – все термины означают профессию Data Scientist. Специализация исследователя данных является новой профессией, на которую возлагают большие надежды.

Ажиотаж вокруг профессии начался в 2010-х годах и продолжается до сих пор. Одни ждут от профессии научного и технологического прорыва, другие – решение главных проблем человечества. Тем временем, Data Scientist анализирует Big Data и прогнозирует будущее.

Специальность дата-сайентист – это синтез статистики, научных методов и аналитической обработки данных. Учёный изучает большой объем информации, находит закономерности. А затем прогнозирует события, предсказывая будущий результат.

Никакой мистики, чистая наука и помощь искусственного интеллекта. Тем не менее, для публики остаётся загадкой, чем именно занимается работник. Проясним ситуацию и развеем мифы о молодой профессии.

Data Science или «наука о данных» – это раздел информатики, известный как даталогия, изучающий проблемы анализа, обработки и представления информации в цифровой форме.

«Большие данные» или Big Data – это массив информации, который создаётся социальными медиа и интернетом вещей.

Кто такой data scientist

Чем занимается Data Scientist

Дата-сайентист изучает массивы информации, известные как Big Data. Главная цель – найти полезные моменты, которые можно использовать для решения конкретной проблемы.

Существует миф о том, что дата-сайентист занимается только анализом данных.

Но, в действительности, работа включает и другие аспекты, среди которых отметим следующие:

  1. Сбор данных. Информация собирается из баз данных, социальных медиа и сайтов, датчиков и т.п. Навыки программирования позволяют сотруднику писать парсеры и скрипты для автоматизации сбора информации.
  2. Обработка, очистка и подготовка. Из массива удаляются лишние и бесполезные показатели, заполняются пропущенные значений. А также работник переводит информацию в формат, подходящий для анализа.
  3. Анализ информации. На этом этапе применяются методы статистического анализа и визуализации данных. Статистическое исследование помогает определить паттерны, закономерности и тенденции.
  4. Машинное обучение. Дата-сайентист создаёт и обучает модели для конкретных нужд. Например, для исследований в dsts, social или mail data science. Созданные алгоритмы и обученные модели решают задачи классификации, регрессии, кластеризации и т.п.
  5. Исследовательский анализ. Исследование информации приводит к обнаружению новых знаний или внезапному решению задач, известному как «инсайт». В итоге, учёный способен обнаружить неожиданные показатели, даже решения, выходящие за область поставленной задачи.
  6. Построение моделей прогнозирования. Для непосвящённых это таинственная часть работы. Но, в действительности, сайнтист использует статистический анализ исторических данных для предсказывания будущих значений и событий. Например, на основе информации о курсе за прошлые годы, можно предсказать котировки акций.
  7. Разработка приложений и решений. Практическая сторона профессии заключается в создании программ или приложений, сервисов и прочих рекомендательных систем. Цифровые продукты используют уже другие профессионалы для решения конкретных проблем бизнеса, науки, экономики и т.п.
  8. Сотрудничество с бизнесом. Развеем ещё один миф о том, что сциентист работает один. Нет, scientists сотрудничает с бизнес-аналитиками, ИТ-менеджерами, программистами, аналитиками данных и т.п. Командная работа направлена на предоставление информации руководству, которое может принять решение.

Таким образом, Data Scientist – это командный игрок, который занимается не только анализом. Специалист выполняет теоретические и практические задачи. А результат работы используется руководством для принятия обоснованных решений.

Отметим, что Data Scientists не всегда предсказывают будущее. В работе присутствует процент неопределённости. Это связано с качественной и количественной характеристиками обрабатываемой информации. Таким образом, прогноз не на 100% точен. Но, доля вероятности помогает принять обоснованное решение, а не гадать.

Отличие Data Scientist от аналитика данных

Обе профессии тесно связаны. В вакансиях границы между ролями сотрудников иногда размыты и неточно распределены обязанности. Тем не менее, профессии отличаются обязанностями, целями и способами обработки информации.

Различие Аналитик данных Data Scientist
Задачи анализ

интерпретация данных

отчёты

исследовательские задачи

прогнозирование

обучение моделей

Методы стандартные методы анализа

визуализация

отчётность

сложные методы статистики

машинное обучение

искусственный интеллект

исследовательский анализ

Навыки основные навыки анализа данных

визуализация

базовое владение R, Python, SQL

Программирование

математическое моделирование

статистика

расширенное объектно-ориентированное программирование

Цель работы анализ текущих данных

выявление тенденций

понимание рынка

поддержка решения

инновационные решения

предсказание будущих событий

оптимизация процессов

Знания основы математики

основы статистики

расширенная статистика

прогнозная аналитика

Наконец, для работы аналитика данных не требуется таких объёмов данных, какие использует учёный. Хотя обе профессии подразумевают использование Big Data. В действительности, аналитик работает с историческими данными за конкретный период.

Отличие Data Scientist от аналитика данных

Уровень зарплаты в профессии

Согласно информации Всемирного Экономического Форума 2023 года, в ближайшие пять лет спрос на профессию в мире вырастет на 30-35%. Это означает, появление более 1,4 миллиона вакансий на рынке труда.

Согласно статистики сервиса Работа.ру средний показатель зарплаты составляет 198 000 рублей. Ресурс Zarplan.com определяет среднюю зарплату по стране в 297 800, а модельную в 259 000 рублей в месяц.

Исследование hh.ru, показывает диапазон зарплат, указанных в вакансиях: 40 000 – 650 000 рублей в месяц. Например, компания «Яндекс» предлагает 400 000 – 650 000 рублей в месяц на должности Lead Data Scientist.

На аналогичную должность компания «Дром» уже предлагает 300 000 – 350 000 рублей. Таким образом, уровень зарплаты зависит от компании, уровня квалификации и стажа сотрудника.

Плюсы и минусы профессии

Всемирный Экономический Форум на протяжении последних 7 лет регулярно вносит специальность в список Future of Jobs. Таким образом, главный плюс работы – спрос на рынке труда. Однако, есть и другие положительные и отрицательные моменты.

Плюсы Минусы
Спрос на рынке трудаКонкуренция
Доходная профессияПостоянное обучение
Разнообразные задачиОтветственность
Карьерный ростНеопределённость задач
Влияние на бизнес, экономику
Нет возрастного критерия
Работа в международных компаниях
Допускается удалённая работа

Следует заметить, что оплата труда зависит от организации и области работы. Тем не менее, ВЭФ регулярно вносит специальность в список доходных профессии будущего.

Карьерные перспективы подразумевает следующие должности:

  • Аналитик данных – Data Analyst;
  • Младший Data Scientist – Junior Data Scientist;
  • Старший Data Scientist – Senior Data Scientist;
  • Главный Data Scientist – Lead Data Scientist;
  • Менеджер по Data Science – Data Science Manager;
  • Главный директор по данным – Chief Data Officer.

Профессия востребована не только в коммерческом секторе и экономике. Дата-сайентист проводит исследования для медицины, точных и гуманитарных наук, государственных и социальных нужд.

Для работы требуется аналитический склад ума и постоянное изучение новых данных и методов. На первый взгляд кажется, что должность для избранных, но это не так. Освоить специальность позволят усердие и учёба.

Какие знания и навыки нужны в профессии

Существует миф о том, что освоить профессию могут исключительно эксперты в математике и статистике. Знания в указанных областях нужны. Однако, инструменты и библиотеки машинного обучения упрощают работу.

Таким образом, должность может занимать работник, имеющие ограниченные знания в математике.

Рассмотрим навыки и знания, которые используется в профессии:

  1. Статистика. Основы методов используются для анализа данных, определения закономерностей и проверки гипотез.
  2. Математика. На практике используется математическое моделирование. Знание высшей математики – плюс, но не главное требование.
  3. Английский язык. Знание языка открывает доступ к актуальной информации и возможности работать на мировом рынке.
  4. Машинное обучение. Используется для создания моделей прогнозирования и классификации. В дата сайнс потребуются знания кластеризации, регрессии, нейронных сетей и алгоритмов классификации.
  5. Программирование. Языки Python или R, объектно-ориентированные языки программирования.
  6. Обработка данных. В дата саенс используются библиотеки Pandas, NumPy, Tableau и Hadoop. Они применяются для обработки информации.
  7. Визуализация данных. Перевод результата исследований в форму, понятную для восприятия, производится средствами Matplotlib, Seaborn, PPT и т.п.
  8. Базы данных. Для работы в дата сайенс обязательно знание SQL и опыт работы с базами данных.
  9. Работа с Big Data. Опыт работы с платформами и инструментами Hadoop, Spark и прочими.
  10. Оптимизация моделей. Навык настройки и оптимизации моделей машинного обучения.
  11. Понимание бизнес-процессов, задач и нужд. Это требование относится к сотрудникам коммерческих организаций.

На первый взгляд кажется, что требования к профессионалу чрезмерно высокие. Пусть это не станет препятствием на пути освоения карьеры. В действительности, обязанности, задачи и требования разнятся и зависят от организации.

Какие знания и навыки нужны в профессии

В каких сферах может работать Data Scientist

Ежедневно люди получают информацию, не подозревая, что часть данных предоставлена дата-сайентистом. Например, Яндекс Погода или другие сервисы прогноза – это результат работы с массивом исторических данных изменения погоды.

Должность Data Scientist востребована в коммерческих, научных, общественных и государственных секторах.

Приведём список отраслей, где требуется специальность исследователя данных:

  • Бизнес и финансы;
  • Здравоохранение;
  • Интернет и социальные медиа;
  • Производство и логистика;
  • Телекоммуникации, СМИ;
  • Государственная служба и общественная политика;
  • Наука и исследования;
  • Энергетика и экология.

Спрос продолжает расти с каждым годом. Даже новички не остаются без работы. Освоение специальности открывает перспективы устроиться в интересующую сферу деятельности и получать доход выше среднего показателя на рынке труда.

Как стать Data Scientistом

Как и в случае с аналитиком данных, эту специальность нельзя освоить без образования. В вакансиях напрямую указывается или подразумевается наличие высшего образования. Для работы в сфере коммерческой аналитики достаточно степени бакалавра.

Однако, на должность в области информационных, политических, общественных исследований, часто требуются сотрудники со степенью магистра или доктора.

В профессию приходят выпускники следующих вузов:

  • Московский физико-технический институт (МФТИ);
  • Московский государственный университет имени М.В. Ломоносова (МГУ);
  • Санкт-Петербургский государственный университет (СПбГУ);
  • Национальный исследовательский университет «Высшая школа экономики» (НИУ ВШЭ);
  • Институт прикладной математики имени М.В. Келдыша РАН;
  • Сколковский институт науки и технологий (Skoltech).

Высшее образование в области связанной с информатикой, статистикой, математикой, физикой и инженерий, позволяет освоиться в профессию. Но, не является гарантом того, что сразу начнёте работать на должности Data Scientist.

Целенаправленное изучение профессии проходит на курсах. Срок обучения составляет 1-2 года. Кроме того, необходимо постоянно изучать языки программирования, методы и инструменты работы с информацией.

Курсы по теме(платные и бесплатные): Профессия data scientist
DATA SCIENTIST от школы Productstar
Основы Data Science от школы Sf.Education
КУРС «ПРОФЕССИЯ DATA SCIENTIST» от школы Productstar

Освоение профессии зависит от целеустремлённости и усердия человека. Практикуйтесь, параллельно учёбе, изучайте свежую литературу, статьи и форумы. Участвуйте в практикумах, вебинарах и соревнованиях, например, на платформе Kaggle.

При трудоустройстве плюсом будет наличие сертификата в области Data Science от университетов или организаций.

Примеры международных сертификатов:

  • Microsoft Certified: Azure Data Scientist Associate;
  • IBM Data Science Professional Certificate;
  • Google Data Analytics Professional Certificate;
  • Certified Analytics Professional (CAP);
  • SAS Certified Data Scientist;
  • Cloudera Certified Data Scientist;
  • DataCamp Certificates.

Получив образование, приступайте к поиску работу. На начальном этапе рассматривайте должность помощника. Требований меньше, но должность позволит освоиться в выбранной специальности и, в дальнейшем, занять пост Data Scientist.

В заключении

Профессия открывает большие перспективы и возможность найти работу в других странах мира. Для сравнения, средняя зарплата в России 297 800 рублей в месяц, в Канаде – 7 000 канадских долларов в месяц, а в США – 116 000 долларов в год.

Освоить профессию тяжело, но возможно. Выпускникам вузов по смежным специальностям достаточно пройти курсы обучения на Data Scientist. А международная сертификация – серьёзное преимущество на рынке труда.

Анна Ли Павловнаавтор-эксперт

Комментарии

Оставьте свой комментарий
Пока никто не оставил комментариев