Дата-сайентист

Превращайте сырые данные в решения, которые двигают бизнес вперёд. Дата-сайентисты объединяют статистику, программирование и знание предметной области, чтобы находить закономерности, которые другие упускают.

Медианная зарплата

180 000 – 280 000 ₽

Зарплаты дата-сайентистов в 2025 году

По данным Хабр Карьера, Glassdoor и Levels.fyi. Реальные офферы зависят от компании, города и переговоров.

Россия

Junior100 000 – 150 000 ₽
Middle180 000 – 280 000 ₽
Senior300 000 – 450 000 ₽

США

Junior$80 000 – $105 000
Middle$110 000 – $145 000
Senior$145 000 – $190 000

Источник: Habr Career, Glassdoor 2025

Дорожная карта дата-сайентиста

Реалистичный путь за 20 месяцев от нуля до трудоустройства. Скорость зависит от вашего бэкграунда — с опытом программирования или математики вы продвинетесь быстрее.

Месяцы 1-3

Фундамент: Python, статистика и SQL

Начните с основ Python — типы данных, управление потоком, функции и ООП. Параллельно заложите статистический фундамент: описательная статистика, распределения вероятностей и основы проверки гипотез. Освойте SQL: SELECT, JOIN, GROUP BY, подзапросы и оконные функции. Выполните первый проект исследования данных — очистите и проанализируйте реальный датасет с помощью pandas.

Месяцы 4-8

Машинное обучение и конструирование признаков

Погрузитесь в обучение с учителем: линейная и логистическая регрессия, решающие деревья, случайный лес, градиентный бустинг (XGBoost, LightGBM) и метод опорных векторов. Изучите методы без учителя: кластеризация k-means, метод главных компонент и снижение размерности. Освойте feature engineering — создание, отбор и преобразование признаков. Постройте первый пайплайн полного цикла: от очистки данных до оценки модели. Участвуйте в первых соревнованиях на Kaggle, чтобы практиковаться на реальных задачах с реальными метриками.

Месяцы 9-14

Глубокое обучение, специализация и эксперименты

Изучите основы нейронных сетей и фреймворков — PyTorch для прототипирования и TensorFlow/Keras для продакшена. Выберите направление специализации: NLP (трансформеры, классификация текстов, анализ тональности) или компьютерное зрение (сверточные сети, детекция объектов, сегментация изображений). Освойте методологию A/B-тестирования: дизайн экспериментов, расчёт размера выборки, статистическая значимость и последовательное тестирование. Выполните проект, демонстрирующий полный цикл — от постановки задачи до развёрнутой модели.

Месяцы 15-20+

Портфолио, MLOps и поиск работы

Соберите портфолио из 3-4 проработанных проектов на GitHub с чистым кодом, документацией и понятным бизнес-контекстом. Освойте основы MLOps: версионирование моделей через MLflow, контейнеризацию через Docker и CI/CD для ML-пайплайнов. Подготовьтесь к техническим собеседованиям: задачи по SQL, системный дизайн ML-систем, задачи по вероятности и кейсы. Потренируйтесь кратко и убедительно рассказывать о своих проектах и их бизнес-эффекте. Начните откликаться на вакансии, начиная с небольших компаний и стартапов, где процесс найма быстрее.

Что на самом деле нужно дата-сайентисту

Технические навыки

Python — основной язык в data science. Вы будете использовать его каждый день для обработки данных, обучения моделей и автоматизации. Свободное владение pandas, NumPy и экосистемой научных вычислений — обязательное требование.Теория вероятностей, проверка гипотез, регрессионный анализ и байесовские методы — математическая основа каждой модели, которую вы строите. Без крепкой статистики вы не сможете правильно интерпретировать результаты и замечать ошибочные допущения.Большинство данных хранится в базах. SQL нужен, чтобы извлекать, объединять, агрегировать и обрабатывать производственные данные до того, как они попадут в Python-ноутбук.Алгоритмы обучения с учителем и без — от линейной регрессии до градиентного бустинга — ваш основной инструментарий. Нужно понимать, как работает каждый алгоритм, когда его применять и как оценивать его качество.Умение донести выводы через matplotlib, seaborn или Plotly — половина работы. Отличная модель, которую никто не понимает, бесполезна. Нужно делать инсайты наглядными и убедительными.Очистка, преобразование и исследование данных происходят в pandas. Ожидайте, что 60-70% времени уйдёт на подготовку данных до начала моделирования.Нейронные сети для распознавания изображений, обработки естественного языка и рекомендательных систем. PyTorch — отраслевой стандарт для исследований и прототипирования; TensorFlow преобладает в продакшен-развёртывании.Создание осмысленных признаков из сырых данных часто важнее выбора правильного алгоритма. Знание предметной области определяет качество признаков — это навык, который отличает сильных дата-сайентистов от средних.A/B-тесты, многорукие бандиты и методы каузального вывода позволяют измерить реальный эффект изменений. Эксперименты — то, как data science доказывает свою ценность бизнесу.Apache Spark, распределённые вычисления и облачные пайплайны данных становятся необходимыми, когда датасеты перестают помещаться в оперативную память. Большинство средних и крупных компаний ожидают знакомства со Spark и облачными платформами.

Гибкие навыки

Умение ставить под сомнение допущения, замечать проблемы с качеством данных и распознавать, когда выводы модели не имеют смысла. Это предотвращает дорогие ошибки, основанные на ложных корреляциях.Умение переводить сложные статистические выводы на понятный язык для продакт-менеджеров, руководства и нетехнических стейкхолдеров. Если вы не можете это объяснить — это не считается.Понимание предметной области — что приносит доход, какие метрики важны и какие проблемы стоит решать — определяет, какие вопросы вы задаёте и создают ли ваши модели реальную ценность.Привычка копать глубже в аномалии, исследовать неожиданные закономерности и постоянно спрашивать «почему» — то, что отличает дата-сайентиста от человека, который просто запускает код.

С чего начать

Срок обучения

9–24 мес.

Срок поиска работы

4–12 мес.

Образование

Бакалавриат — стандартная точка входа. Чаще всего это STEM-специальности: математика, физика, информатика, инженерия, экономика. Магистратура помогает при конкуренции за сильные позиции, но не является строгим требованием — крепкое портфолио и подтверждённые навыки могут это компенсировать.

Английский

B2 (Upper-Intermediate). Большинство документации, научных статей и профессиональных сообществ — на английском. На уровне B2 вы можете читать технические статьи, участвовать в обсуждениях на Kaggle и работать в международных командах.

Тренд спроса

Высокий спрос

Дата-сайентист и смежные профессии

Аналитик данных

  • Дата-аналитик отвечает на вопрос «что произошло и почему» — строит дашборды, пишет SQL-запросы и создаёт отчёты. Дата-сайентист идёт дальше: предсказывает «что произойдёт» и рекомендует «что с этим делать», используя статистические модели и машинное обучение.
  • Инструменты сильно пересекаются — и те, и другие работают с Python, SQL и библиотеками визуализации. Разница — в глубине статистических знаний, умении строить предиктивные модели и готовности работать в условиях неопределённости. Дата-сайентист решает открытые задачи, где правильный вопрос не всегда задан заранее.

ML-инженер

  • Главная задача дата-сайентиста — обнаружение проблем и проектирование решений: постановка правильных вопросов, выбор методов, интерпретация результатов в бизнес-контексте. ML-инженер занимается развёртыванием этих решений: деплой моделей, серверная инфраструктура, оптимизация задержек и мониторинг.
  • На практике в небольших компаниях эти роли часто совмещены. В крупных организациях разделение чётче: дата-сайентисты работают в исследовательских и экспериментальных командах, а ML-инженеры — в командах платформ и инфраструктуры. В компаниях среднего размера границы размыты, и один человек может выполнять обе функции.

Бэкенд-разработчик

  • Бэкенд-разработчики строят API, управляют базами данных и серверной логикой. Дата-сайентисты строят модели на основе данных, которые бэкенд-разработчики обслуживают. Пересечение — в Python и SQL, но решаемые задачи принципиально разные.
  • Бэкенд-разработчик спрашивает: «Как надёжно отдать эти данные?» Дата-сайентист спрашивает: «Какие закономерности в этих данных и как их использовать?» Переход возможен, но требует серьёзной переобучения — бэкенд-разработчику нужно освоить статистику и машинное обучение, а не просто Python.

Реальные истории перехода в Data Science

АК

Анна К.

Старший бухгалтер

Старший бухгалтерДата-сайентист в финтех-компании

После пяти лет в бухгалтерии Анна свободно владела Excel и имела сильные аналитические навыки, но чувствовала, что застряла в рутинной отчётности. Она начала изучать Python по вечерам и быстро обнаружила, что pandas ощущается как Excel на максималках. Бухгалтерский бэкграунд дал ей естественное чутьё на качество данных, аномалии и финансовые метрики. Она выполнила два портфолио-проекта — модель прогнозирования оттока клиентов и пайплайн выявления мошенничества — и получила первую позицию в финтех-стартапе за 18 месяцев.

Срок перехода: 18 месяцев

ДМ

Дмитрий М.

Исследователь-физик

Исследователь-физикСеньор дата-сайентист в e-commerce компании

Дмитрий четыре года занимался научными исследованиями в физике, публиковал статьи и проводил сложные симуляции. Математическая строгость перенеслась напрямую — линейная алгебра, оптимизация и статистический вывод были привычны. Главная сложность — освоить инженерные практики: контроль версий, чистый код и развёртывание в продакшене. Он использовал опыт симуляций для построения моделей рекомендательных систем и был нанят на позицию мидл-сайентиста через 12 месяцев после начала перехода.

Срок перехода: 12 месяцев

ЕС

Елена С.

Маркетинг-аналитик

Маркетинг-аналитикДата-сайентист в медиа-компании

Елена три года занималась маркетинговой аналитикой — строила отчёты, отслеживала KPI и делала базовую сегментацию. SQL она знала хорошо, но с машинным обучением не сталкивалась. Она записалась на онлайн-курс по ML и продолжала работать, применяя новые методы к ежедневным маркетинговым задачам. В портфолио вошли фреймворк для A/B-тестирования, модель прогнозирования LTV и движок рекомендаций контента. Знание маркетинговой предметной области сделало её особенно привлекательной для работодателей в медиа и рекламных технологиях.

Срок перехода: 14 месяцев

Распространённые мифы о Data Science

Миф

Для работы дата-сайентистом нужна учёная степень.

Реальность

Кандидатская степень ценится для исследовательских ролей в крупных технологических компаниях, но подавляющее большинство позиций в data science ставит практические навыки на первое место. Крепкое портфолио из 3-4 задокументированных проектов, сильные результаты на Kaggle и подтверждённая способность решать бизнес-задачи с помощью данных откроют больше дверей, чем докторская степень для большинства ролей.

Миф

Data Science — это просто продвинутое программирование.

Реальность

Программирование — инструмент, а не суть работы. Типичный дата-сайентист тратит 60-70% времени на исследование данных, очистку и понимание бизнес-контекста. Статистическое мышление, знание предметной области и умение сформулировать правильный вопрос не менее важны, чем написание кода — часто важнее.

Миф

Через пару лет ИИ автоматизирует Data Science.

Реальность

Инструменты на базе ИИ ускоряют рутинные задачи — AutoML справляется с базовым выбором моделей, LLM-модели помогают писать шаблонный код. Но основная работа дата-сайентиста — понимание неоднозначных бизнес-проблем, дизайн экспериментов, валидация результатов и донесение выводов до стейкхолдеров — требует человеческого суждения, которому текущий ИИ не замена. Профессия развивается, а не исчезает.

Рынок России

Рынок Data Science в России

Российский рынок data science сильно сконцентрирован в Москве, Санкт-Петербурге и Екатеринбурге. Эти три города дают примерно 75% всех вакансий, причём только Москва занимает более половины позиций в крупных технологических компаниях и банках.

Крупнейшие российские IT-компании — Яндекс, VK, Т-Банк (Тинькофф) и Сбербанк — главные работодатели для дата-сайентистов в стране. Каждая из этих компаний содержит специализированные ML-команды от десятков до сотен специалистов и активно нанимает на все уровни опыта.

Рейтинги соревнований Kaggle и научные публикации имеют значительный вес у российских работодателей. Сильная медаль на Kaggle или статья на признанной ML-конференции могут компенсировать отсутствие формального опыта работы, особенно для кандидатов из академической среды.

Знание методов NLP, адаптированных для русского языка — серьёзное конкурентное преимущество. Обработка русскоязычных текстов имеет свои особенности — богатая морфология, свободный порядок слов и меньше предобученных моделей по сравнению с английским. Специалисты по русскоязычному NLP востребованы в медиа, финтехе и e-commerce.

Частые вопросы о Data Science

Готовы начать путь в Дата-саентист?

Получите персональный маршрут с учётом ваших навыков и целей. Бесплатно.