- Страна
- Россия
- Зарплата
- 220 000 ₽ – 650 000 ₽
Откликайтесь
на вакансии с ИИ

ML engineer (LLM optimization & inference acceleration)
Отличная вакансия для специалистов по LLM с очень конкурентной заработной платой и работой над передовыми технологическими задачами. Прозрачные условия и актуальный стек технологий делают предложение крайне привлекательным.
Сложность вакансии
Роль требует глубоких знаний в области архитектуры LLM и специфических методов оптимизации инференса (квантование, спекулятивное декодирование), что делает порог входа достаточно высоким. Высокая верхняя планка зарплаты подразумевает ожидание экспертного уровня владения инструментами оптимизации.
Анализ зарплаты
Предложенная вилка 220–650к рублей полностью соответствует рыночным ожиданиям для Middle+/Senior ML-инженеров в России. Верхняя граница значительно выше среднего по рынку, что характерно для узкоспециализированных ролей в области LLM.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас
Если вы хотите работать над ускорением LLM и внедрять передовые методы оптимизации, откликайтесь на вакансию прямо сейчас!
Описание вакансии
220 000 – 650 000 ₽/месяц
Офис, Фултайм
We are looking for an ML Engineer to focus on developing and optimizing algorithms that accelerate large language model (LLM) inference. Your work will directly impact latency, cost efficiency, and scalability of production-grade AI systems. You’ll explore and implement cutting-edge techniques such as speculative decoding, prompt compression, quantization, and generation optimization...(Откликнуться)
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- PyTorch
- LLM
- CUDA
- Inference Optimization
- Quantization
- Speculative Decoding
- Prompt Compression
Возможные вопросы на собеседовании
Проверка понимания современных методов ускорения генерации текста.
Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?
Оценка практического опыта работы с методами сжатия моделей.
В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?
Проверка навыков оптимизации производительности на уровне железа.
Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?
Оценка умения работать с инфраструктурой инференса.
С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?
Проверка навыков работы с промптами на уровне системы.
Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?
Похожие вакансии
ML разработчик (Senior)
Senior / Middle+ Data Scientist
MlOps / Python Backend Engineer (ML)
Data Scientist Senior
Senior/Middle Data Engineer
Senior Data Scientist
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия
- Зарплата
- 220 000 ₽ – 650 000 ₽