Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

УдалённоПолная занятость

Инженер по производительности GPU

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Яндекс предлагает работу с уникальным масштабом инфраструктуры и передовыми технологиями (LLM, GPU-кластеры). Вакансия привлекательна сильным инженерным комьюнити и отличным соцпакетом, хотя и требует высокой квалификации.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний в системном программировании, архитектуре GPU и CUDA, что делает порог входа достаточно высоким. Необходимо уметь работать на стыке инфраструктуры и ML-оптимизации.

Анализ зарплаты

Медиана450 000 ₽

Рынок350 000 ₽ – 650 000 ₽

Зарплата в Яндексе для таких узкоспециализированных ролей обычно соответствует верхней границе рынка или превышает её, учитывая бонусы и опционы. Указанный диапазон отражает рыночные реалии для Senior/Lead специалистов в области системного ML.

Меня крайне заинтересовала вакансия инженера по производительности GPU в Яндексе. Имея опыт работы с CUDA и PyTorch, я понимаю, насколько критична эффективная утилизация графических процессоров для масштабных ML-проектов. Мой опыт в профилировании и устранении узких мест в производительности GPU-приложений позволит мне внести значимый вклад в развитие вашей инфраструктуры.

Я обладаю глубокими знаниями Python и системного программирования, а также имею опыт реализации подходов параллелизации для распределенного обучения. Работа в Яндексе привлекает меня возможностью решать сложные инженерные задачи на переднем крае технологий и влиять на эффективность ключевых сервисов компании. Буду рад обсудить, как мои навыки помогут вашей команде достичь новых высот в оптимизации GPU.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Яндекс уже сейчас

Присоединяйтесь к команде Яндекса и оптимизируйте работу мощнейших GPU-кластеров страны!

Описание вакансии

*❤️ Инженер по производительности GPU*

Мы управляем одним из самых дефицитных и самых дорогих ресурсов компании — графическими процессорами (GPU). Их эффективное использование ĸритичесĸи важно для работы ключевых сервисов Яндекса. Наша миссия — обеспечить максимальную отдачу и эффект от каждой GPU-ĸарты.

Какие задачи вас ждут:

• Повышение эффективности утилизации GPUФормировать гипотезы и исследовать способы повышения эффективности утилизации GPU, участвовать в реализации и внедрении наиболее профитных решений. Формировать рекомендации и лучшие практики по повышению производительности.

• Оптимизация и профилированиеНаходить узкие места в производительности и устранять их с помощью профилировщиков, оптимизировать доступ к памяти, время ожидания и пропускную способность.

• Развитие инструментов диагностикиСоздавать и улучшать инструменты для быстрого выявления и устранения инфраструктурных проблем, которые влияют на эффективность утилизации, стабильность и скорость GPU-вычислений.

• Исследование и внедрение современных решенийИзучать новейшие подходы ĸ организации инфраструктуры для обучения и инференса, оценивать их эффективность и внедрять в проекты.

• Анализ архитектуры, тестирование, интеграцияВзаимодействовать с разработчиками, ML-инженерами и системными архитекторами. Участвовать в оценке аппаратных решений и предлагать улучшения для будущих поколений GPU.

Мы ждём, что вы:• Знаете Python и занимались системным программированием

• Работали с фреймворĸом PyTorch

• Оптимизировали производительность GPU-приложений и повышали эффективность утилизации GPU

• Работали с GPU (NVIDIA) и CUDA

• Применяете подходы параллелизации для распределённого инференса или обучения

Будет плюсом, если вы:• Уверенно владеете C/C++ или аналогичными низкоуровневыми языками

• Работали с библиотеками RL-обучения для LLM

Наши бонусы:Яндекс — это комьюнити. Тут есть и спортивные клубы, и книжный клуб, и киберспортивное сообщество. Это не все бонусы — полный список тут.

*📩* Откликнуться на нашем сайте

#GPU #python #CPP #pytorch #LLM

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Python
PyTorch
CUDA
NVIDIA GPU
C++
LLM
Parallel Computing
Performance Optimization

Возможные вопросы на собеседовании

Проверка понимания архитектуры памяти GPU и умения оптимизировать доступ к ней.

Расскажите о техниках оптимизации доступа к памяти в CUDA (coalesced access, shared memory) и как они влияют на пропускную способность.

Важно понимать, как кандидат ищет проблемы в реальных задачах.

Какие инструменты профилирования (например, Nsight Systems/Compute) вы использовали для поиска узких мест в PyTorch-приложениях?

Проверка опыта работы с распределенными системами.

В чем разница между Data Parallelism и Model Parallelism при обучении больших моделей, и какие накладные расходы они создают для GPU?

Оценка навыков системного программирования.

Как бы вы реализовали кастомный CUDA-кернел для специфической операции, которой нет в стандартном PyTorch, чтобы минимизировать время выполнения?

Проверка умения работать с инфраструктурными метриками.

Как вы определяете, что GPU недоутилизирована, и какие шаги предпримете, если увидите низкий показатель SM Efficiency при высокой загрузке памяти?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Россия

Откликайтесь
на вакансии с ИИ

Инженер по производительности GPU

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Яндекс уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о техниках оптимизации доступа к памяти в CUDA (coalesced access, shared memory) и как они влияют на пропускную способность.

Какие инструменты профилирования (например, Nsight Systems/Compute) вы использовали для поиска узких мест в PyTorch-приложениях?

В чем разница между Data Parallelism и Model Parallelism при обучении больших моделей, и какие накладные расходы они создают для GPU?

Как бы вы реализовали кастомный CUDA-кернел для специфической операции, которой нет в стандартном PyTorch, чтобы минимизировать время выполнения?

Как вы определяете, что GPU недоутилизирована, и какие шаги предпримете, если увидите низкий показатель SM Efficiency при высокой загрузке памяти?

Похожие вакансии

T-shape Аналитик AI (Middle / Senior)

Архитектор мультиагентных систем на базе LLM

Fullstack разработчик-подмастерье (AI Engineer)

Специалист по AI-инструментам

Fullstack / AI разработчик (подмастерье)

AI engineer (ML/DS)

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Инженер по производительности GPU

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Яндекс уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о техниках оптимизации доступа к памяти в CUDA (coalesced access, shared memory) и как они влияют на пропускную способность.

Какие инструменты профилирования (например, Nsight Systems/Compute) вы использовали для поиска узких мест в PyTorch-приложениях?

В чем разница между Data Parallelism и Model Parallelism при обучении больших моделей, и какие накладные расходы они создают для GPU?

Как бы вы реализовали кастомный CUDA-кернел для специфической операции, которой нет в стандартном PyTorch, чтобы минимизировать время выполнения?

Как вы определяете, что GPU недоутилизирована, и какие шаги предпримете, если увидите низкий показатель SM Efficiency при высокой загрузке памяти?

Похожие вакансии

T-shape Аналитик AI (Middle / Senior)

Архитектор мультиагентных систем на базе LLM

Fullstack разработчик-подмастерье (AI Engineer)

Специалист по AI-инструментам

Fullstack / AI разработчик (подмастерье)

AI engineer (ML/DS)

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ