- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Инженер по производительности GPU
Яндекс предлагает работу с уникальным масштабом инфраструктуры и передовыми технологиями (LLM, GPU-кластеры). Вакансия привлекательна сильным инженерным комьюнити и отличным соцпакетом, хотя и требует высокой квалификации.
Сложность вакансии
Роль требует глубоких знаний в системном программировании, архитектуре GPU и CUDA, что делает порог входа достаточно высоким. Необходимо уметь работать на стыке инфраструктуры и ML-оптимизации.
Анализ зарплаты
Зарплата в Яндексе для таких узкоспециализированных ролей обычно соответствует верхней границе рынка или превышает её, учитывая бонусы и опционы. Указанный диапазон отражает рыночные реалии для Senior/Lead специалистов в области системного ML.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Яндекс уже сейчас
Присоединяйтесь к команде Яндекса и оптимизируйте работу мощнейших GPU-кластеров страны!
Описание вакансии
*❤️ Инженер по производительности GPU*
Мы управляем одним из самых дефицитных и самых дорогих ресурсов компании — графическими процессорами (GPU). Их эффективное использование ĸритичесĸи важно для работы ключевых сервисов Яндекса. Наша миссия — обеспечить максимальную отдачу и эффект от каждой GPU-ĸарты.
Какие задачи вас ждут:
• Повышение эффективности утилизации GPUФормировать гипотезы и исследовать способы повышения эффективности утилизации GPU, участвовать в реализации и внедрении наиболее профитных решений. Формировать рекомендации и лучшие практики по повышению производительности.
• Оптимизация и профилированиеНаходить узкие места в производительности и устранять их с помощью профилировщиков, оптимизировать доступ к памяти, время ожидания и пропускную способность.
• Развитие инструментов диагностикиСоздавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на эффективность утилизации, стабильность и скорость GPU-вычислений.
• Исследование и внедрение современных решенийИзучать новейшие подходы ĸ организации инфраструктуры для обучения и инференса, оценивать их эффективность и внедрять в проекты.
• Анализ архитектуры, тестирование, интеграцияВзаимодействовать с разработчиками, ML-инженерами и системными архитекторами. Участвовать в оценке аппаратных решений и предлагать улучшения для будущих поколений GPU.
Мы ждём, что вы:• Знаете Python и занимались системным программированием
• Работали с фреймворĸом PyTorch
• Оптимизировали производительность GPU-приложений и повышали эффективность утилизации GPU
• Работали с GPU (NVIDIA) и CUDA
• Применяете подходы параллелизации для распределённого инференса или обучения
Будет плюсом, если вы:• Уверенно владеете C/C++ или аналогичными низкоуровневыми языками
• Работали с библиотеками RL-обучения для LLM
Наши бонусы:Яндекс — это комьюнити. Тут есть и спортивные клубы, и книжный клуб, и киберспортивное сообщество. Это не все бонусы — полный список тут.
*📩* Откликнуться на нашем сайте
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- PyTorch
- CUDA
- NVIDIA GPU
- C++
- LLM
- Parallel Computing
- Performance Optimization
Возможные вопросы на собеседовании
Проверка понимания архитектуры памяти GPU и умения оптимизировать доступ к ней.
Расскажите о техниках оптимизации доступа к памяти в CUDA (coalesced access, shared memory) и как они влияют на пропускную способность.
Важно понимать, как кандидат ищет проблемы в реальных задачах.
Какие инструменты профилирования (например, Nsight Systems/Compute) вы использовали для поиска узких мест в PyTorch-приложениях?
Проверка опыта работы с распределенными системами.
В чем разница между Data Parallelism и Model Parallelism при обучении больших моделей, и какие накладные расходы они создают для GPU?
Оценка навыков системного программирования.
Как бы вы реализовали кастомный CUDA-кернел для специфической операции, которой нет в стандартном PyTorch, чтобы минимизировать время выполнения?
Проверка умения работать с инфраструктурными метриками.
Как вы определяете, что GPU недоутилизирована, и какие шаги предпримете, если увидите низкий показатель SM Efficiency при высокой загрузке памяти?
Похожие вакансии
T-shape Аналитик AI (Middle / Senior)
Архитектор мультиагентных систем на базе LLM
Fullstack разработчик-подмастерье (AI Engineer)
Специалист по AI-инструментам
Fullstack / AI разработчик (подмастерье)
AI engineer (ML/DS)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!