- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Инженер платформы данных (NRT/Spark)
Вакансия в одной из топовых технологических компаний с сильной инженерной культурой и масштабными задачами. Предлагается работа над ключевыми продуктами экосистемы с отличным соцпакетом и возможностями роста.
Сложность вакансии
Высокая сложность обусловлена требованиями к глубокому пониманию внутренней архитектуры Spark и опытом работы с высоконагруженными NRT-системами. Также необходим широкий стек технологий, включая различные СУБД и облачную инфраструктуру.
Анализ зарплаты
Зарплата в объявлении не указана, но для позиции Senior Data Engineer в Яндексе рыночные ожидания составляют от 350 000 до 550 000 рублей в зависимости от уровня компетенций. Это соответствует или слегка превышает средние показатели по финтех-индустрии в России.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Яндекс уже сейчас
Присоединяйтесь к команде Финтеха Яндекса и создавайте будущее облачных дата-платформ уже сегодня!
Описание вакансии
❤️ Инженер платформы данных (NRT/Spark)
Финтех Яндекса — это одно из ключевых и наиболее динамично развивающихся направлений компании. Это экосистема финансовых сервисов, встроенная в повседневную жизнь миллионов пользователей и бизнесов. Ключевые продукты Финтеха: Яндекс Пэй, Сплит, Сейвы, Карта Плюса, кредитные продукты, Яндекс ID, Яндекс Про.
В команду платформенных данных ищем специалиста по Apache Spark с глубоким понимаем внутренней архитектуры фреймворка. Основные задачи — развитие платформы для обработки NRT-данных (near real time), повышение отказоустойчивости и производительности потоковых процессов.
Какие задачи вас ждут:
• Проектирование и развитие облачной дата-платформыОптимизировать инфраструктуру и проектировать новые компоненты платформы с использованием технологий Yandex Cloud.
• Построение единой observability-платформы для таблиц DWHСоздавать единую точку входа для мониторинга статусов сборки, качества данных и анализа зависимостей, включая построение datalineage и процессы логирования.
• Ускорение текущих процессов поставки данныхОптимизировать существующие и выстраивать новые надёжные процессы поставки данных, включая процессы взятия снепшотов, загрузки инкрементов напрямую, из аудит-таблиц и CDC, а также внедрять Spark Streaming или аналогичные решения для обеспечения обновления данных с минимальной задержкой.
• Построение тестовых окруженийСоздавать изолированные среды разработки, тестирования и предпрод с автоматизированными процессами проверки.
• Развитие фреймворков обработки данныхРазвивать внутренние фреймворки для загрузки, трансформации и контроля качества данных.
Мы ждём, что вы:• Занимались коммерческой разработкой от четырёх лет
• Понимаете устройство БД
• Владеете СУБД разного типа: PostgreSQL, Oracle, MongoDB, Greenplum
• Работали с CDC
• Уверенно работаете с S3-совместимыми хранилищами
Что мы предлагаем:Мы заботимся, чтобы вы были сыты, и компенсируем обеды. А на кофепойнтах всегда можно перекусить свежими фруктами. Это не все бонусы — полный список тут.
📩 Откликнуться на нашем сайте
#финтех #spark
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Apache Spark
- Spark Streaming
- PostgreSQL
- Oracle
- MongoDB
- Greenplum
- CDC
- S3
- Yandex Cloud
- DWH
- Observability
- Data Lineage
Возможные вопросы на собеседовании
Вакансия требует глубокого понимания Spark для оптимизации производительности.
Расскажите о внутреннем устройстве Spark Catalyst Optimizer и о том, как вы оптимизировали планы выполнения запросов в своих проектах?
Одной из задач является внедрение Spark Streaming для минимизации задержек.
С какими основными проблемами вы сталкивались при обеспечении семантики 'exactly-once' в Spark Streaming и как их решали?
В задачах указано построение observability-платформы и datalineage.
Как бы вы спроектировали систему автоматического отслеживания зависимостей (data lineage) для сложного DWH с множеством источников?
Требуется опыт работы с CDC и различными СУБД.
Какие подходы к реализации CDC вы использовали для минимизации нагрузки на исходную БД (например, PostgreSQL или Oracle)?
Работа предполагает использование S3-хранилищ.
В чем заключаются особенности работы Spark с S3 (проблема консистентности, S3Guard) и как вы оптимизируете запись больших объемов данных в объектное хранилище?
Похожие вакансии
Data Scientist (AutoML)
Team Lead MLOps / Tech Lead
Data Science / ML Engineer
Data инженер Middle+ Senior
Data инженер Middle
AI/ML Engineer
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия