yandex
N
NDA
Страна
Россия
Зарплата
220 000 ₽ – 650 000 ₽
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
В офисеПолная занятость

ML engineer (LLM optimization & inference acceleration)

ИИОценка ИИ

Отличная вакансия для специалистов по LLM с очень конкурентной заработной платой и работой над передовыми технологическими задачами. Прозрачные условия и актуальный стек технологий делают предложение крайне привлекательным.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
ИИОценка ИИ

Роль требует глубоких знаний в области архитектуры LLM и специфических методов оптимизации инференса (квантование, спекулятивное декодирование), что делает порог входа достаточно высоким. Высокая верхняя планка зарплаты подразумевает ожидание экспертного уровня владения инструментами оптимизации.

Анализ зарплаты

Медиана400 000 ₽
Рынок250 000 ₽ – 700 000 ₽
ИИОценка ИИ

Предложенная вилка 220–650к рублей полностью соответствует рыночным ожиданиям для Middle+/Senior ML-инженеров в России. Верхняя граница значительно выше среднего по рынку, что характерно для узкоспециализированных ролей в области LLM.

Сопроводительное письмо

Меня крайне заинтересовала вакансия ML-инженера, сфокусированная на оптимизации инференса LLM. Учитывая мой опыт работы с алгоритмами машинного обучения и глубокое понимание архитектур трансформеров, я готов внести вклад в улучшение задержек и масштабируемости ваших AI-систем. Технологии вроде квантования и спекулятивного декодирования являются для меня приоритетными областями развития.

Я обладаю навыками работы с PyTorch и CUDA, что позволит мне эффективно реализовывать низкоуровневые оптимизации. Уверен, что мой опыт в области сжатия моделей и оптимизации генерации поможет вашей команде достичь новых высот в производительности. Буду рад обсудить, как мои знания могут быть полезны для ваших текущих задач.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Если вы хотите работать над ускорением LLM и внедрять передовые методы оптимизации, откликайтесь на вакансию прямо сейчас!

Описание вакансии

Откликнуться

220 000 – 650 000 ₽/месяц

Офис, Фултайм

We are looking for an ML Engineer to focus on developing and optimizing algorithms that accelerate large language model (LLM) inference. Your work will directly impact latency, cost efficiency, and scalability of production-grade AI systems. You’ll explore and implement cutting-edge techniques such as speculative decoding, prompt compression, quantization, and generation optimization...(Откликнуться)

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • PyTorch
  • LLM
  • CUDA
  • Inference Optimization
  • Quantization
  • Speculative Decoding
  • Prompt Compression

Возможные вопросы на собеседовании

Проверка понимания современных методов ускорения генерации текста.

Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?

Оценка практического опыта работы с методами сжатия моделей.

В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?

Проверка навыков оптимизации производительности на уровне железа.

Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?

Оценка умения работать с инфраструктурой инференса.

С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?

Проверка навыков работы с промптами на уровне системы.

Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?

Похожие вакансии

NDA
2 000 ₽ – 2 500 ₽

ML разработчик (Senior)

SeniorУдалённо
n8n · Generative AI · Python · JavaScript · TypeScript · React · LangChain · PostgreSQL · REST · GraphQL · FastAPI · RAG · Vector Database · Prompt Engineering
+14 навыков
КС
КВИКЛИ СЕЧ ИТ
300 000 ₽ – 450 000 ₽

Senior / Middle+ Data Scientist

SeniorУдалённо
Python · Apache Spark · Machine Learning · Recommendation Systems · Ranking · NLP · LLM · MLOps · A/B Testing · Uplift Modeling
+10 навыков
S
Selecty
220 000 ₽ – 310 000 ₽

MlOps / Python Backend Engineer (ML)

SeniorУдалённо
Python · FastAPI · Flask · Kafka · Docker · Kubernetes · Airflow · Spark · Hive · SQL · MLOps · NLP · Computer Vision
+13 навыков
NDA
от 2 000 ₽

Data Scientist Senior

SeniorУдалённо
Python · Pandas · NumPy · Matplotlib · Seaborn · Plotly · Scikit-learn · SciPy · statsmodels · CatBoost · XGBoost · LightGBM · ARIMA · Prophet · Deep Learning · CNN · RNN · LSTM · Attention · Feature Engineering · tsfresh · EDA
+22 навыков
З
Зонтик
до 390 000 ₽

Senior/Middle Data Engineer

SeniorУдалённо
SQL · Python · C++ · ETL · BI · REST API · JSON · XML · Message Broker · OOP
+10 навыков
C
Centicore
340 000 ₽ – 360 000 ₽

Senior Data Scientist

SeniorУдалённо
Python · Machine Learning · Uplift Modeling · LightGBM · XGBoost · CatBoost · Scikit-learn · Pandas · NumPy · SQL · Apache Spark · Hadoop · Apache Hive · MLOps
+14 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

N
NDA
Страна
Россия
Зарплата
220 000 ₽ – 650 000 ₽