- Страна
- Россия
- Зарплата
- до 200 000 ₽
Откликайтесь
на вакансии с ИИ

Data Engineer Middle+ / Senior
Интересный проект по созданию Lakehouse с нуля и современный стек технологий. Однако зарплатная вилка до 200 тысяч рублей может быть ниже рыночной для уровня Senior в Москве или при работе с международными проектами.
Сложность вакансии
Роль требует глубоких знаний в области архитектуры данных (Lakehouse) и специфического опыта работы с XML и многослойными хранилищами. Высокая планка по стеку технологий (Spark, Airflow, Cloud) соответствует уровню Middle+/Senior.
Анализ зарплаты
Предложенная вилка до 200 000 руб. на руки находится на нижней границе или даже ниже среднего рынка для специалистов уровня Senior Data Engineer в России, где медиана обычно составляет 300-400 тысяч. Для уровня Middle+ это предложение является конкурентным, но для Senior может быть недостаточно привлекательным.
Сопроводительное письмо
Меня заинтересовала вакансия Data Engineer в компании EvApps, так как мой опыт построения ETL/ELT пайплайнов и работы с большими объемами данных полностью соответствует вашим задачам. Я обладаю глубокими знаниями Python, PySpark и имею практический опыт работы с форматами Parquet и хранилищами S3, что критично для разработки вашего Lakehouse решения.
Особое внимание в моей практике я уделяю качеству данных: нормализации, дедупликации и формированию «золотых записей». Уверен, что мой опыт работы с Airflow, Docker и облачными платформами позволит мне эффективно включиться в процесс разработки и обеспечить высокую производительность обработки данных для вашего заказчика.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в EvApps уже сейчас
Присоединяйтесь к команде EvApps и создавайте современные Data Lakehouse решения — откликайтесь прямо сейчас!
Описание вакансии
#вакансия #ML #ComputerVision #Python #удаленка #EvApps
Data Engineer Middle+ / Senior
Компания: EvApps
ЗП вилка до 200 на руки
Удаленно, РФ
Полная занятость
📰 Ищем Data Engineer для разработки data lakehouse решения для заказчика (работа под NDA).
Требования:
-Опыт работы Data Engineer от 3 лет;
-Опыт построения ETL/ELT пайплайнов в продакшн;
-Работали с большими объемами данных;
-Уверенно владеете Python;
-Имеете опыт обработки и трансформации данных (pandas, PySpark или аналоги);
-Работали с XML (lxml, ElementTree или аналоги);
-Понимаете форматы хранения данных (Parquet, columnar storage);
-Работали с S3 или аналогичными хранилищами;
-Понимаете архитектуру data lake / lakehouse и multi-layer подход (raw → processed → curated);
-Имеете опыт подготовки данных (нормализация, дедупликация, golden record / master data);
-Работали с реляционными БД (PostgreSQL, Greenplum, ClickHouse или аналоги) и SQL;
-Имеете опыт работы с Airflow или аналогами;
-Работали с Docker и CI/CD;
-Имеете опыт работы с облаками (Yandex Cloud, AWS, GCP);
-Работали с Git.
➕Будет плюсом:
-Опыт работы со Spark, Hadoop;
-Опыт работы с Delta Lake, Iceberg, Hudi.
💻 Обязанности:
-Разрабатывать и оптимизировать ETL-пайплайны;
-Обрабатывать и трансформировать XML-данные;
-Строить raw-слой (Parquet в S3) и витрины данных;
-Реализовывать нормализацию, дедупликацию и формирование "золотых" записей;
-Обеспечивать производительность обработки данных;
-Готовить решения к переносу в закрытый контур заказчика;
-Взаимодействовать с аналитиками, архитектором, DevOps и командой проекта.
Откликнуться с пометкой [Data Engineer] 👋 Откликнуться
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- ETL
- ELT
- Pandas
- PySpark
- XML
- Parquet
- S3
- PostgreSQL
- Greenplum
- ClickHouse
- SQL
- Airflow
- Docker
- CI/CD
- Yandex Cloud
- AWS
- GCP
- Git
- Apache Spark
- Hadoop
- Delta Lake
- Apache Iceberg
- Apache Hudi
Возможные вопросы на собеседовании
Вакансия предполагает работу с концепцией Lakehouse и многослойной архитектурой.
Расскажите о вашем опыте реализации multi-layer подхода (raw, processed, curated). С какими сложностями вы сталкивались при переходе между слоями?
В обязанностях указана обработка XML-данных.
Какие библиотеки Python вы предпочитаете для парсинга больших XML-файлов и как обеспечиваете эффективное использование памяти при этом?
Работа включает формирование 'golden records'.
Какие алгоритмы или подходы вы использовали для дедупликации данных и создания Master Data (Golden Record)?
Упоминается работа с Parquet и S3.
Как вы оптимизируете чтение и запись Parquet-файлов в S3? Расскажите про партиционирование и влияние размера файлов на производительность.
Требуется опыт работы с Airflow.
Как вы организуете обработку ошибок и повторные запуски (retries) в сложных DAG-ах Airflow при работе с внешними БД?
Похожие вакансии
ML разработчик (Senior)
Data инженер (Senior)
MLOps Engineer
Инженер Mlops (Senior)
Data инженер Middle+ Senior
Senior MLOps Engineer (Platform Development / LLMOps)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия
- Зарплата
- до 200 000 ₽