yandex
N
NDA
Страна
Россия
Зарплата
220 000 ₽ – 650 000 ₽
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
В офисеПолная занятость

ML engineer (LLM optimization & inference acceleration)

ИИОценка ИИ

Отличная вакансия для специалистов по LLM с очень конкурентной заработной платой и работой над передовыми технологическими задачами. Прозрачные условия и актуальный стек технологий делают предложение крайне привлекательным.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
ИИОценка ИИ

Роль требует глубоких знаний в области архитектуры LLM и специфических методов оптимизации инференса (квантование, спекулятивное декодирование), что делает порог входа достаточно высоким. Высокая верхняя планка зарплаты подразумевает ожидание экспертного уровня владения инструментами оптимизации.

Анализ зарплаты

Медиана400 000 ₽
Рынок250 000 ₽ – 700 000 ₽
ИИОценка ИИ

Предложенная вилка 220–650к рублей полностью соответствует рыночным ожиданиям для Middle+/Senior ML-инженеров в России. Верхняя граница значительно выше среднего по рынку, что характерно для узкоспециализированных ролей в области LLM.

Сопроводительное письмо

Меня крайне заинтересовала вакансия ML-инженера, сфокусированная на оптимизации инференса LLM. Учитывая мой опыт работы с алгоритмами машинного обучения и глубокое понимание архитектур трансформеров, я готов внести вклад в улучшение задержек и масштабируемости ваших AI-систем. Технологии вроде квантования и спекулятивного декодирования являются для меня приоритетными областями развития.

Я обладаю навыками работы с PyTorch и CUDA, что позволит мне эффективно реализовывать низкоуровневые оптимизации. Уверен, что мой опыт в области сжатия моделей и оптимизации генерации поможет вашей команде достичь новых высот в производительности. Буду рад обсудить, как мои знания могут быть полезны для ваших текущих задач.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас

Если вы хотите работать над ускорением LLM и внедрять передовые методы оптимизации, откликайтесь на вакансию прямо сейчас!

Описание вакансии

Откликнуться

220 000 – 650 000 ₽/месяц

Офис, Фултайм

We are looking for an ML Engineer to focus on developing and optimizing algorithms that accelerate large language model (LLM) inference. Your work will directly impact latency, cost efficiency, and scalability of production-grade AI systems. You’ll explore and implement cutting-edge techniques such as speculative decoding, prompt compression, quantization, and generation optimization...(Откликнуться)

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • LLM
  • PyTorch
  • Quantization
  • Speculative Decoding
  • Prompt Compression
  • Inference Optimization
  • CUDA

Возможные вопросы на собеседовании

Проверка понимания современных методов ускорения генерации текста.

Расскажите подробно о принципе работы спекулятивного декодирования (speculative decoding) и в каких случаях оно наиболее эффективно?

Оценка практического опыта работы с методами сжатия моделей.

В чем разница между методами квантования PTQ и QAT, и какие побочные эффекты могут возникнуть при агрессивном квантовании LLM?

Проверка навыков оптимизации производительности на уровне железа.

Какие техники оптимизации памяти (например, FlashAttention или PagedAttention) вы использовали и какой прирост производительности они дают?

Оценка умения работать с инфраструктурой инференса.

С какими фреймворками для инференса LLM (vLLM, TGI, TensorRT-LLM) вы работали и как выбирали подходящий под конкретную задачу?

Проверка навыков работы с промптами на уровне системы.

Что такое prompt compression и как этот метод влияет на KV-кэш и общую пропускную способность системы?

Похожие вакансии

TS
Top Selection
264 000 ₽ – 290 000 ₽

Senior MLOps инженер

SeniorУдалённо
MLOps · PyTorch · ClearML · ONNX · TensorRT · Triton Inference Server · Kubernetes · Helm · Kubeflow · Ray · KServe · vLLM · CI/CD · GPU Scheduling
+14 навыков
T
Twinby
300 000 ₽ – 450 000 ₽

Team Lead Data Science / ML

LeadУдалённо
Data Science · Machine Learning · A/B Testing · MLOps · Computer Vision · Vector Search · Recommendation Systems · Anti-fraud · Python
+9 навыков
NDA
430 000 ₽ – 527 300 ₽

MLOps инженер (Team Lead)

LeadУдалённо
PostgreSQL · JupyterHub · Coder · Airflow · Argo Workflows · MLflow · Seldon Core · Python · Hadoop · Docker · OpenShift · Kubernetes · Longhorn · Jenkins · Kafka · Redis · Spark · HDFS · Helm · GitLab CI · CUDA · ELK stack
+22 навыков
NDA
430 000 ₽ – 527 300 ₽

MLOps инженер (Тимлид)

LeadУдалённо
PostgreSQL · JupyterHub · Airflow · Argo Workflows · MLflow · Seldon Core · Python · Hadoop · Docker · OpenShift · Kubernetes · Jenkins · Kafka · Redis · Spark · HDFS · Helm · GitLab CI · ELK stack
+19 навыков
NDA
430 000 ₽ – 527 000 ₽

Senior MLOps инженер

SeniorУдалённо
Docker · Helm · Jenkins · GitLab CI · Python · Airflow · JupyterHub · MLflow · Seldon Core · CUDA · Kubernetes · Hadoop · Apache Spark · Apache Kafka · ELK stack
+15 навыков
AG
Aya Games
до 300 000 ₽

Senior Data Engineer

SeniorУдалённо
SQL · ClickHouse · Airflow · dbt · ETL · ELT · Data Engineering · OLAP · Monitoring
+9 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

N
NDA
Россияот 220 000 ₽