Страна: Россия
Зарплата: 220 000 ₽ – 650 000 ₽

+500% приглашений

Откликайтесь
на вакансии с ИИ

В офисеПолная занятость

ML engineer (LLM optimization & inference acceleration)

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Отличная вакансия для специалистов по LLM с очень конкурентной заработной платой и работой над передовыми технологическими задачами. Прозрачные условия и актуальный стек технологий делают предложение крайне привлекательным.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний в области архитектуры LLM и специфических методов оптимизации инференса (квантование, спекулятивное декодирование), что делает порог входа достаточно высоким. Высокая верхняя планка зарплаты подразумевает ожидание экспертного уровня владения инструментами оптимизации.

Анализ зарплаты

Медиана400 000 ₽

Рынок250 000 ₽ – 700 000 ₽

Предложенная вилка 220–650к рублей полностью соответствует рыночным ожиданиям для Middle+/Senior ML-инженеров в России. Верхняя граница значительно выше среднего по рынку, что характерно для узкоспециализированных ролей в области LLM.

Меня крайне заинтересовала вакансия ML-инженера, сфокусированная на оптимизации инференса LLM. Учитывая мой опыт работы с алгоритмами машинного обучения и глубокое понимание архитектур трансформеров, я готов внести вклад в улучшение задержек и масштабируемости ваших AI-систем. Технологии вроде квантования и спекулятивного декодирования являются для меня приоритетными областями развития.

Я обладаю навыками работы с PyTorch и CUDA, что позволит мне эффективно реализовывать низкоуровневые оптимизации. Уверен, что мой опыт в области сжатия моделей и оптимизации генерации поможет вашей команде достичь новых высот в производительности. Буду рад обсудить, как мои знания могут быть полезны для ваших текущих задач.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Если вы хотите работать над ускорением LLM и внедрять передовые методы оптимизации, откликайтесь на вакансию прямо сейчас!

Описание вакансии

Откликнуться

220 000 – 650 000 ₽/месяц

Офис, Фултайм

We are looking for an ML Engineer to focus on developing and optimizing algorithms that accelerate large language model (LLM) inference. Your work will directly impact latency, cost efficiency, and scalability of production-grade AI systems. You’ll explore and implement cutting-edge techniques such as speculative decoding, prompt compression, quantization, and generation optimization...(Откликнуться)

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

LLM
PyTorch
Quantization
Speculative Decoding
Prompt Compression
Inference Optimization
CUDA

Возможные вопросы на собеседовании

Проверка понимания современных методов ускорения генерации текста.

Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?

Оценка практического опыта работы с методами сжатия моделей.

В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?

Проверка навыков оптимизации производительности на уровне железа.

Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?

Оценка умения работать с инфраструктурой инференса.

С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?

Проверка навыков работы с промптами на уровне системы.

Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Россияот 220 000 ₽

Откликайтесь
на вакансии с ИИ

ML engineer (LLM optimization & inference acceleration)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?

В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?

Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?

С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?

Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?

Похожие вакансии

Senior MLOps инженер

Team Lead Data Science / ML

MLOps инженер (Team Lead)

MLOps инженер (Тимлид)

Senior MLOps инженер

Senior Data Engineer

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

ML engineer (LLM optimization & inference acceleration)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?

В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?

Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?

С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?

Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?

Похожие вакансии

Senior MLOps инженер

Team Lead Data Science / ML

MLOps инженер (Team Lead)

MLOps инженер (Тимлид)

Senior MLOps инженер

Senior Data Engineer

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ