Страна: Россия
Зарплата: до 200 000 ₽

+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorУдалённоПолная занятость

Data Engineer Middle+ / Senior

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Интересный проект по созданию Lakehouse с нуля и современный стек технологий. Однако зарплатная вилка до 200 тысяч рублей может быть ниже рыночной для уровня Senior в Москве или при работе с международными проектами.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний в области архитектуры данных (Lakehouse) и специфического опыта работы с XML и многослойными хранилищами. Высокая планка по стеку технологий (Spark, Airflow, Cloud) соответствует уровню Middle+/Senior.

Анализ зарплаты

Медиана350 000 ₽

Рынок250 000 ₽ – 500 000 ₽

Предложенная вилка до 200 000 руб. на руки находится на нижней границе или даже ниже среднего рынка для специалистов уровня Senior Data Engineer в России, где медиана обычно составляет 300-400 тысяч. Для уровня Middle+ это предложение является конкурентным, но для Senior может быть недостаточно привлекательным.

Меня заинтересовала вакансия Data Engineer в компании EvApps, так как мой опыт построения ETL/ELT пайплайнов и работы с большими объемами данных полностью соответствует вашим задачам. Я обладаю глубокими знаниями Python, PySpark и имею практический опыт работы с форматами Parquet и хранилищами S3, что критично для разработки вашего Lakehouse решения.

Особое внимание в моей практике я уделяю качеству данных: нормализации, дедупликации и формированию «золотых записей». Уверен, что мой опыт работы с Airflow, Docker и облачными платформами позволит мне эффективно включиться в процесс разработки и обеспечить высокую производительность обработки данных для вашего заказчика.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в EvApps уже сейчас

Присоединяйтесь к команде EvApps и создавайте современные Data Lakehouse решения — откликайтесь прямо сейчас!

Описание вакансии

#вакансия #ML #ComputerVision #Python #удаленка #EvApps

Data Engineer Middle+ / Senior

Компания: EvApps

ЗП вилка до 200 на руки

Удаленно, РФ

Полная занятость

📰 Ищем Data Engineer для разработки data lakehouse решения для заказчика (работа под NDA).

Требования:

-Опыт работы Data Engineer от 3 лет;

-Опыт построения ETL/ELT пайплайнов в продакшн;

-Работали с большими объемами данных;

-Уверенно владеете Python;

-Имеете опыт обработки и трансформации данных (pandas, PySpark или аналоги);

-Работали с XML (lxml, ElementTree или аналоги);

-Понимаете форматы хранения данных (Parquet, columnar storage);

-Работали с S3 или аналогичными хранилищами;

-Понимаете архитектуру data lake / lakehouse и multi-layer подход (raw → processed → curated);

-Имеете опыт подготовки данных (нормализация, дедупликация, golden record / master data);

-Работали с реляционными БД (PostgreSQL, Greenplum, ClickHouse или аналоги) и SQL;

-Имеете опыт работы с Airflow или аналогами;

-Работали с Docker и CI/CD;

-Имеете опыт работы с облаками (Yandex Cloud, AWS, GCP);

-Работали с Git.

➕Будет плюсом:

-Опыт работы со Spark, Hadoop;

-Опыт работы с Delta Lake, Iceberg, Hudi.

💻 Обязанности:

-Разрабатывать и оптимизировать ETL-пайплайны;

-Обрабатывать и трансформировать XML-данные;

-Строить raw-слой (Parquet в S3) и витрины данных;

-Реализовывать нормализацию, дедупликацию и формирование "золотых" записей;

-Обеспечивать производительность обработки данных;

-Готовить решения к переносу в закрытый контур заказчика;

-Взаимодействовать с аналитиками, архитектором, DevOps и командой проекта.

Откликнуться с пометкой [Data Engineer] 👋 Откликнуться

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Git
AWS
Python
Pandas
GCP
SQL
CI/CD
PostgreSQL
Docker
PySpark
Delta Lake
Airflow
Apache Spark
Hadoop
Apache Iceberg
ETL
XML
S3
ELT
ClickHouse
Parquet
Yandex Cloud
Greenplum
Apache Hudi

Возможные вопросы на собеседовании

Вакансия предполагает работу с концепцией Lakehouse и многослойной архитектурой.

Расскажите о вашем опыте реализации multi-layer подхода (raw, processed, curated). С какими сложностями вы сталкивались при переходе между слоями?

В обязанностях указана обработка XML-данных.

Какие библиотеки Python вы предпочитаете для парсинга больших XML-файлов и как обеспечиваете эффективное использование памяти при этом?

Работа включает формирование 'golden records'.

Какие алгоритмы или подходы вы использовали для дедупликации данных и создания Master Data (Golden Record)?

Упоминается работа с Parquet и S3.

Как вы оптимизируете чтение и запись Parquet-файлов в S3? Расскажите про партиционирование и влияние размера файлов на производительность.

Требуется опыт работы с Airflow.

Как вы организуете обработку ошибок и повторные запуски (retries) в сложных DAG-ах Airflow при работе с внешними БД?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Россиядо 200 000 ₽

Откликайтесь
на вакансии с ИИ

Data Engineer Middle+ / Senior

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в EvApps уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о вашем опыте реализации multi-layer подхода (raw, processed, curated). С какими сложностями вы сталкивались при переходе между слоями?

Какие библиотеки Python вы предпочитаете для парсинга больших XML-файлов и как обеспечиваете эффективное использование памяти при этом?

Какие алгоритмы или подходы вы использовали для дедупликации данных и создания Master Data (Golden Record)?

Как вы оптимизируете чтение и запись Parquet-файлов в S3? Расскажите про партиционирование и влияние размера файлов на производительность.

Как вы организуете обработку ошибок и повторные запуски (retries) в сложных DAG-ах Airflow при работе с внешними БД?

Похожие вакансии

ML разработчик (Senior)

Senior / Middle+ Data Scientist

MlOps / Python Backend Engineer (ML)

Data Scientist Senior

Senior/Middle Data Engineer

Senior Data Scientist

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Data Engineer Middle+ / Senior

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в EvApps уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о вашем опыте реализации multi-layer подхода (raw, processed, curated). С какими сложностями вы сталкивались при переходе между слоями?

Какие библиотеки Python вы предпочитаете для парсинга больших XML-файлов и как обеспечиваете эффективное использование памяти при этом?

Какие алгоритмы или подходы вы использовали для дедупликации данных и создания Master Data (Golden Record)?

Как вы оптимизируете чтение и запись Parquet-файлов в S3? Расскажите про партиционирование и влияние размера файлов на производительность.

Как вы организуете обработку ошибок и повторные запуски (retries) в сложных DAG-ах Airflow при работе с внешними БД?

Похожие вакансии

ML разработчик (Senior)

Senior / Middle+ Data Scientist

MlOps / Python Backend Engineer (ML)

Data Scientist Senior

Senior/Middle Data Engineer

Senior Data Scientist

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ