Дата-сайентист
Превращайте сырые данные в решения, которые двигают бизнес вперёд. Дата-сайентисты объединяют статистику, программирование и знание предметной области, чтобы находить закономерности, которые другие упускают.
Медианная зарплата
180 000 – 280 000 ₽
Зарплаты дата-сайентистов в 2025 году
По данным Хабр Карьера, Glassdoor и Levels.fyi. Реальные офферы зависят от компании, города и переговоров.
Россия
США
Источник: Habr Career, Glassdoor 2025
Дорожная карта дата-сайентиста
Реалистичный путь за 20 месяцев от нуля до трудоустройства. Скорость зависит от вашего бэкграунда — с опытом программирования или математики вы продвинетесь быстрее.
Месяцы 1-3
Фундамент: Python, статистика и SQL
Начните с основ Python — типы данных, управление потоком, функции и ООП. Параллельно заложите статистический фундамент: описательная статистика, распределения вероятностей и основы проверки гипотез. Освойте SQL: SELECT, JOIN, GROUP BY, подзапросы и оконные функции. Выполните первый проект исследования данных — очистите и проанализируйте реальный датасет с помощью pandas.
Месяцы 1-3
Фундамент: Python, статистика и SQL
Начните с основ Python — типы данных, управление потоком, функции и ООП. Параллельно заложите статистический фундамент: описательная статистика, распределения вероятностей и основы проверки гипотез. Освойте SQL: SELECT, JOIN, GROUP BY, подзапросы и оконные функции. Выполните первый проект исследования данных — очистите и проанализируйте реальный датасет с помощью pandas.
Месяцы 4-8
Машинное обучение и конструирование признаков
Погрузитесь в обучение с учителем: линейная и логистическая регрессия, решающие деревья, случайный лес, градиентный бустинг (XGBoost, LightGBM) и метод опорных векторов. Изучите методы без учителя: кластеризация k-means, метод главных компонент и снижение размерности. Освойте feature engineering — создание, отбор и преобразование признаков. Постройте первый пайплайн полного цикла: от очистки данных до оценки модели. Участвуйте в первых соревнованиях на Kaggle, чтобы практиковаться на реальных задачах с реальными метриками.
Месяцы 4-8
Машинное обучение и конструирование признаков
Погрузитесь в обучение с учителем: линейная и логистическая регрессия, решающие деревья, случайный лес, градиентный бустинг (XGBoost, LightGBM) и метод опорных векторов. Изучите методы без учителя: кластеризация k-means, метод главных компонент и снижение размерности. Освойте feature engineering — создание, отбор и преобразование признаков. Постройте первый пайплайн полного цикла: от очистки данных до оценки модели. Участвуйте в первых соревнованиях на Kaggle, чтобы практиковаться на реальных задачах с реальными метриками.
Месяцы 9-14
Глубокое обучение, специализация и эксперименты
Изучите основы нейронных сетей и фреймворков — PyTorch для прототипирования и TensorFlow/Keras для продакшена. Выберите направление специализации: NLP (трансформеры, классификация текстов, анализ тональности) или компьютерное зрение (сверточные сети, детекция объектов, сегментация изображений). Освойте методологию A/B-тестирования: дизайн экспериментов, расчёт размера выборки, статистическая значимость и последовательное тестирование. Выполните проект, демонстрирующий полный цикл — от постановки задачи до развёрнутой модели.
Месяцы 9-14
Глубокое обучение, специализация и эксперименты
Изучите основы нейронных сетей и фреймворков — PyTorch для прототипирования и TensorFlow/Keras для продакшена. Выберите направление специализации: NLP (трансформеры, классификация текстов, анализ тональности) или компьютерное зрение (сверточные сети, детекция объектов, сегментация изображений). Освойте методологию A/B-тестирования: дизайн экспериментов, расчёт размера выборки, статистическая значимость и последовательное тестирование. Выполните проект, демонстрирующий полный цикл — от постановки задачи до развёрнутой модели.
Месяцы 15-20+
Портфолио, MLOps и поиск работы
Соберите портфолио из 3-4 проработанных проектов на GitHub с чистым кодом, документацией и понятным бизнес-контекстом. Освойте основы MLOps: версионирование моделей через MLflow, контейнеризацию через Docker и CI/CD для ML-пайплайнов. Подготовьтесь к техническим собеседованиям: задачи по SQL, системный дизайн ML-систем, задачи по вероятности и кейсы. Потренируйтесь кратко и убедительно рассказывать о своих проектах и их бизнес-эффекте. Начните откликаться на вакансии, начиная с небольших компаний и стартапов, где процесс найма быстрее.
Месяцы 15-20+
Портфолио, MLOps и поиск работы
Соберите портфолио из 3-4 проработанных проектов на GitHub с чистым кодом, документацией и понятным бизнес-контекстом. Освойте основы MLOps: версионирование моделей через MLflow, контейнеризацию через Docker и CI/CD для ML-пайплайнов. Подготовьтесь к техническим собеседованиям: задачи по SQL, системный дизайн ML-систем, задачи по вероятности и кейсы. Потренируйтесь кратко и убедительно рассказывать о своих проектах и их бизнес-эффекте. Начните откликаться на вакансии, начиная с небольших компаний и стартапов, где процесс найма быстрее.
Что на самом деле нужно дата-сайентисту
Технические навыки
Гибкие навыки
С чего начать
Срок обучения
9–24 мес.
Срок поиска работы
4–12 мес.
Образование
Бакалавриат — стандартная точка входа. Чаще всего это STEM-специальности: математика, физика, информатика, инженерия, экономика. Магистратура помогает при конкуренции за сильные позиции, но не является строгим требованием — крепкое портфолио и подтверждённые навыки могут это компенсировать.
Английский
B2 (Upper-Intermediate). Большинство документации, научных статей и профессиональных сообществ — на английском. На уровне B2 вы можете читать технические статьи, участвовать в обсуждениях на Kaggle и работать в международных командах.
Тренд спроса
Высокий спрос
Дата-сайентист и смежные профессии
Аналитик данных
- Дата-аналитик отвечает на вопрос «что произошло и почему» — строит дашборды, пишет SQL-запросы и создаёт отчёты. Дата-сайентист идёт дальше: предсказывает «что произойдёт» и рекомендует «что с этим делать», используя статистические модели и машинное обучение.
- Инструменты сильно пересекаются — и те, и другие работают с Python, SQL и библиотеками визуализации. Разница — в глубине статистических знаний, умении строить предиктивные модели и готовности работать в условиях неопределённости. Дата-сайентист решает открытые задачи, где правильный вопрос не всегда задан заранее.
ML-инженер
- Главная задача дата-сайентиста — обнаружение проблем и проектирование решений: постановка правильных вопросов, выбор методов, интерпретация результатов в бизнес-контексте. ML-инженер занимается развёртыванием этих решений: деплой моделей, серверная инфраструктура, оптимизация задержек и мониторинг.
- На практике в небольших компаниях эти роли часто совмещены. В крупных организациях разделение чётче: дата-сайентисты работают в исследовательских и экспериментальных командах, а ML-инженеры — в командах платформ и инфраструктуры. В компаниях среднего размера границы размыты, и один человек может выполнять обе функции.
Бэкенд-разработчик
- Бэкенд-разработчики строят API, управляют базами данных и серверной логикой. Дата-сайентисты строят модели на основе данных, которые бэкенд-разработчики обслуживают. Пересечение — в Python и SQL, но решаемые задачи принципиально разные.
- Бэкенд-разработчик спрашивает: «Как надёжно отдать эти данные?» Дата-сайентист спрашивает: «Какие закономерности в этих данных и как их использовать?» Переход возможен, но требует серьёзной переобучения — бэкенд-разработчику нужно освоить статистику и машинное обучение, а не просто Python.
Реальные истории перехода в Data Science
Анна К.
Старший бухгалтер
После пяти лет в бухгалтерии Анна свободно владела Excel и имела сильные аналитические навыки, но чувствовала, что застряла в рутинной отчётности. Она начала изучать Python по вечерам и быстро обнаружила, что pandas ощущается как Excel на максималках. Бухгалтерский бэкграунд дал ей естественное чутьё на качество данных, аномалии и финансовые метрики. Она выполнила два портфолио-проекта — модель прогнозирования оттока клиентов и пайплайн выявления мошенничества — и получила первую позицию в финтех-стартапе за 18 месяцев.
Срок перехода: 18 месяцев
Дмитрий М.
Исследователь-физик
Дмитрий четыре года занимался научными исследованиями в физике, публиковал статьи и проводил сложные симуляции. Математическая строгость перенеслась напрямую — линейная алгебра, оптимизация и статистический вывод были привычны. Главная сложность — освоить инженерные практики: контроль версий, чистый код и развёртывание в продакшене. Он использовал опыт симуляций для построения моделей рекомендательных систем и был нанят на позицию мидл-сайентиста через 12 месяцев после начала перехода.
Срок перехода: 12 месяцев
Елена С.
Маркетинг-аналитик
Елена три года занималась маркетинговой аналитикой — строила отчёты, отслеживала KPI и делала базовую сегментацию. SQL она знала хорошо, но с машинным обучением не сталкивалась. Она записалась на онлайн-курс по ML и продолжала работать, применяя новые методы к ежедневным маркетинговым задачам. В портфолио вошли фреймворк для A/B-тестирования, модель прогнозирования LTV и движок рекомендаций контента. Знание маркетинговой предметной области сделало её особенно привлекательной для работодателей в медиа и рекламных технологиях.
Срок перехода: 14 месяцев
Распространённые мифы о Data Science
Миф
Для работы дата-сайентистом нужна учёная степень.
Реальность
Кандидатская степень ценится для исследовательских ролей в крупных технологических компаниях, но подавляющее большинство позиций в data science ставит практические навыки на первое место. Крепкое портфолио из 3-4 задокументированных проектов, сильные результаты на Kaggle и подтверждённая способность решать бизнес-задачи с помощью данных откроют больше дверей, чем докторская степень для большинства ролей.
Миф
Data Science — это просто продвинутое программирование.
Реальность
Программирование — инструмент, а не суть работы. Типичный дата-сайентист тратит 60-70% времени на исследование данных, очистку и понимание бизнес-контекста. Статистическое мышление, знание предметной области и умение сформулировать правильный вопрос не менее важны, чем написание кода — часто важнее.
Миф
Через пару лет ИИ автоматизирует Data Science.
Реальность
Инструменты на базе ИИ ускоряют рутинные задачи — AutoML справляется с базовым выбором моделей, LLM-модели помогают писать шаблонный код. Но основная работа дата-сайентиста — понимание неоднозначных бизнес-проблем, дизайн экспериментов, валидация результатов и донесение выводов до стейкхолдеров — требует человеческого суждения, которому текущий ИИ не замена. Профессия развивается, а не исчезает.
Рынок Data Science в России
Российский рынок data science сильно сконцентрирован в Москве, Санкт-Петербурге и Екатеринбурге. Эти три города дают примерно 75% всех вакансий, причём только Москва занимает более половины позиций в крупных технологических компаниях и банках.
Крупнейшие российские IT-компании — Яндекс, VK, Т-Банк (Тинькофф) и Сбербанк — главные работодатели для дата-сайентистов в стране. Каждая из этих компаний содержит специализированные ML-команды от десятков до сотен специалистов и активно нанимает на все уровни опыта.
Рейтинги соревнований Kaggle и научные публикации имеют значительный вес у российских работодателей. Сильная медаль на Kaggle или статья на признанной ML-конференции могут компенсировать отсутствие формального опыта работы, особенно для кандидатов из академической среды.
Знание методов NLP, адаптированных для русского языка — серьёзное конкурентное преимущество. Обработка русскоязычных текстов имеет свои особенности — богатая морфология, свободный порядок слов и меньше предобученных моделей по сравнению с английским. Специалисты по русскоязычному NLP востребованы в медиа, финтехе и e-commerce.
Частые вопросы о Data Science
Готовы начать путь в Дата-саентист?
Получите персональный маршрут с учётом ваших навыков и целей. Бесплатно.