Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

В офисеПолная занятость

Data Engineer for VLM Training Data (GigaChat Vision)

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Это позиция в одном из самых передовых AI-проектов России (GigaChat). Работа с уникальными масштабами данных и современным стеком (VLM, YTsaurus) обеспечивает колоссальный профессиональный рост, а бренд Сбера гарантирует стабильность и конкурентный соцпакет.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Высокая сложность обусловлена необходимостью работы с колоссальными объемами данных (десятки миллиардов объектов) и специфическим стеком технологий, включая YTsaurus. Требуется глубокое понимание как классического Data Engineering, так и специфики подготовки данных для мультимодальных моделей (VLM).

Анализ зарплаты

Медиана400 000 ₽

Рынок300 000 ₽ – 550 000 ₽

Зарплата в объявлении не указана, однако для позиций уровня Senior Data Engineer в BigTech компаниях Москвы (таких как Сбер, Яндекс, VK) рыночные предложения обычно находятся в диапазоне 300 000 – 500 000 рублей. Учитывая уникальность домена VLM, компенсация может быть выше среднего.

Меня крайне заинтересовала вакансия Data Engineer в команду GigaChat Vision. Мой опыт построения отказоустойчивых пайплайнов обработки данных и работы с распределенными системами хранения, такими как S3 и YTsaurus, идеально соответствует вашим задачам по подготовке данных для обучения VLM. Я обладаю глубокими знаниями Python и имею практический опыт работы с инструментами версионирования данных (DVC), что критически важно для воспроизводимости ML-экспериментов.

Особенно меня привлекает масштаб задач — работа с десятками миллиардов изображений требует не только инженерной точности, но и инновационного подхода к фильтрации и генерации синтетических данных. Я готов применять свои навыки для оптимизации процессов очистки и дедупликации, чтобы обеспечить ML-команду данными высочайшего качества. Уверен, что мой опыт на стыке Data Engineering и ML Research принесет значительную пользу развитию GigaChat.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Сбер уже сейчас

Присоединяйтесь к команде GigaChat Vision и создавайте будущее мультимодальных моделей в Сбере!

Описание вакансии

Data Engineer for VLM Training Data (GigaChat Vision)

#офис

Москва

Компания: Сбер

*🔹*Обязанности

-Собирать и структурировать потребности ML-команды в данных: какие данные нужны для обучения, дообучения, оценки и улучшения VLM.

-Предлагать и реализовывать идеи пайплайнов очистки, фильтрации, дедупликации, категоризации и генерации данных.

-Ориентироваться в современных практиках построения датасетов для Vision-Language Models: image-text pairs, synthetic data, filtering, quality scoring, data mixture design, dataset versioning.

-Отвечать за инфраструктуру хранения и подготовки данных, включая:

импорт данных из различных источников: production, Common Crawl, open-source datasets, generated data;

валидацию и контроль качества данных;

хранение и версионирование датасетов;

экспорт данных в форматы, пригодные для обучения моделей.

-Проектировать и реализовывать пайплайны обработки данных на большом масштабе, включая десятки миллиардов изображений.

-Разрабатывать пайплайны генерации синтетических данных для обучения и улучшения VLM.

-Собирать статистику по данным, строить отчёты и визуализации для анализа состава, качества и покрытия датасетов.

-Обеспечивать воспроизводимость, наблюдаемость и надёжность data-процессов.

-Работать в тесной связке с ML-инженерами, исследователями и инфраструктурной командой.

*🔹*Требования

-Сильный опыт в data engineering и построении production-grade data pipelines.

-Уверенное владение Python, включая multiprocessing, multithreading и async-подходы.

-Опыт работы с большими объёмами данных и распределённой обработкой.

-Практический опыт с объектными хранилищами, в частности S3 или аналогами.

-Опыт работы с YTsaurus или похожими системами для распределённого хранения и обработки данных.

-Понимание принципов валидации, очистки, дедупликации и версионирования датасетов.

-Опыт работы с DVC, Git, Docker.

-Опыт работы с PostgreSQL или другими реляционными базами данных.

-Умение проектировать устойчивые пайплайны: от импорта данных до финального экспорта в training-ready формат.

-Способность самостоятельно разбираться в нечетко сформулированных задачах и доводить их до работающего решения.

-Готовность работать на стыке engineering и ML research.

Откликнуться

IT Jobs в Telegram | в VK | в Max

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Python
S3
YTsaurus
DVC
Git
Docker
PostgreSQL
Data Engineering
Data Pipelines
Multiprocessing
asyncio
Vision Language Models

Возможные вопросы на собеседовании

Проверка опыта работы с масштабируемыми системами, критически важными для Сбера.

Расскажите о вашем опыте работы с YTsaurus или аналогичными системами распределенной обработки данных. С какими основными трудностями вы сталкивались при масштабировании?

Важно понять, как кандидат обеспечивает качество данных для обучения моделей.

Какие стратегии дедупликации и фильтрации изображений и текстов вы бы предложили для датасета объемом в несколько миллиардов пар?

Проверка навыков работы с инструментами воспроизводимости в ML.

Как вы организовывали версионирование данных в своих прошлых проектах? В чем, по-вашему, основные преимущества и недостатки DVC в связке с S3?

Оценка инженерной грамотности в Python.

В каких случаях при обработке данных вы предпочтете multiprocessing вместо asyncio, и как вы будете бороться с накладными расходами на сериализацию данных?

Проверка понимания специфики VLM.

Как бы вы спроектировали пайплайн генерации синтетических данных для улучшения понимания моделью пространственных отношений на изображениях?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Россия

Откликайтесь
на вакансии с ИИ

Data Engineer for VLM Training Data (GigaChat Vision)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Сбер уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие стратегии дедупликации и фильтрации изображений и текстов вы бы предложили для датасета объемом в несколько миллиардов пар?

Как вы организовывали версионирование данных в своих прошлых проектах? В чем, по-вашему, основные преимущества и недостатки DVC в связке с S3?

В каких случаях при обработке данных вы предпочтете multiprocessing вместо asyncio, и как вы будете бороться с накладными расходами на сериализацию данных?

Как бы вы спроектировали пайплайн генерации синтетических данных для улучшения понимания моделью пространственных отношений на изображениях?

Похожие вакансии

Senior Data Engineer

ML-инженер

Python разработчик (DWH/Data Engineering)

Data Scientist Middle+, Senior

Data Scientist

Middle+ Data инженер

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Data Engineer for VLM Training Data (GigaChat Vision)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Сбер уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие стратегии дедупликации и фильтрации изображений и текстов вы бы предложили для датасета объемом в несколько миллиардов пар?

Как вы организовывали версионирование данных в своих прошлых проектах? В чем, по-вашему, основные преимущества и недостатки DVC в связке с S3?

В каких случаях при обработке данных вы предпочтете multiprocessing вместо asyncio, и как вы будете бороться с накладными расходами на сериализацию данных?

Как бы вы спроектировали пайплайн генерации синтетических данных для улучшения понимания моделью пространственных отношений на изображениях?

Похожие вакансии

Senior Data Engineer

ML-инженер

Python разработчик (DWH/Data Engineering)

Data Scientist Middle+, Senior

Data Scientist

Middle+ Data инженер

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ