- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Data Engineer for VLM Training Data (GigaChat Vision)
Это позиция в одном из самых передовых AI-проектов России (GigaChat). Работа с уникальными масштабами данных и современным стеком (VLM, YTsaurus) обеспечивает колоссальный профессиональный рост, а бренд Сбера гарантирует стабильность и конкурентный соцпакет.
Сложность вакансии
Высокая сложность обусловлена необходимостью работы с колоссальными объемами данных (десятки миллиардов объектов) и специфическим стеком технологий, включая YTsaurus. Требуется глубокое понимание как классического Data Engineering, так и специфики подготовки данных для мультимодальных моделей (VLM).
Анализ зарплаты
Зарплата в объявлении не указана, однако для позиций уровня Senior Data Engineer в BigTech компаниях Москвы (таких как Сбер, Яндекс, VK) рыночные предложения обычно находятся в диапазоне 300 000 – 500 000 рублей. Учитывая уникальность домена VLM, компенсация может быть выше среднего.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Сбер уже сейчас
Присоединяйтесь к команде GigaChat Vision и создавайте будущее мультимодальных моделей в Сбере!
Описание вакансии
Data Engineer for VLM Training Data (GigaChat Vision)
Москва
Компания: Сбер
*🔹*Обязанности
-Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.
-Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.
-Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.
-Отвечать за инфраструктуру хранения и подготовки данных, включая:
импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;
валидацию и контроль качества данных;
хранение и версионирование датасетов;
экспорт данных в форматы, пригодные для обучения моделей.
-Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.
-Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.
-Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.
-Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.
-Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.
*🔹*Требования
-Сильный опыт в data engineering и построении production-grade data pipelines.
-Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.
-Опыт работы с большими объёмами данных и распределённой обработкой.
-Практический опыт с объектными хранилищами, в частности S3 или аналогами.
-Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.
-Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.
-Опыт работы с DVC, Git, Docker.
-Опыт работы с PostgreSQL или другими реляционными базами данных.
-Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.
-Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.
-Готовность работать на стыке engineering и ML research.
IT Jobs в Telegram | в VK | в Max
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- S3
- YTsaurus
- DVC
- Git
- Docker
- PostgreSQL
- Data Engineering
- Data Pipelines
- Multiprocessing
- asyncio
- Vision Language Models
Возможные вопросы на собеседовании
Проверка опыта работы с масштабируемыми системами, критически важными для Сбера.
Расскажите о вашем опыте работы с YTsaurus или аналогичными системами распределенной обработки данных. С какими основными трудностями вы сталкивались при масштабировании?
Важно понять, как кандидат обеспечивает качество данных для обучения моделей.
Какие стратегии дедупликации и фильтрации изображений и текстов вы бы предложили для датасета объемом в несколько миллиардов пар?
Проверка навыков работы с инструментами воспроизводимости в ML.
Как вы организовывали версионирование данных в своих прошлых проектах? В чем, по-вашему, основные преимущества и недостатки DVC в связке с S3?
Оценка инженерной грамотности в Python.
В каких случаях при обработке данных вы предпочтете multiprocessing вместо asyncio, и как вы будете бороться с накладными расходами на сериализацию данных?
Проверка понимания специфики VLM.
Как бы вы спроектировали пайплайн генерации синтетических данных для улучшения понимания моделью пространственных отношений на изображениях?
Похожие вакансии
Senior Data Engineer
ML-инженер
Python разработчик (DWH/Data Engineering)
Data Scientist Middle+, Senior
Data Scientist
Middle+ Data инженер
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!