Страна: Нидерланды

+500% приглашений

Откликайтесь
на вакансии с ИИ

ГибридПолная занятость

Research Engineer (LLM Training and Performance)

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Исключительная вакансия для инженеров мирового уровня: работа в JetBrains над собственным семейством LLM (Mellum), доступ к мощным вычислительным ресурсам и возможность влиять на инструменты, которыми пользуются миллионы разработчиков. Высокая сложность задач компенсируется престижем компании и передовым стеком технологий.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний на стыке ML-исследований и системного программирования: от написания CUDA/Triton ядер до настройки топологии сети NCCL и работы с распределенными системами (Megatron, DeepSpeed). Высокий порог входа обусловлен необходимостью оптимизации производительности на уровне железа для огромных кластеров GPU.

Анализ зарплаты

Медиана110 000 €

Рынок90 000 € – 150 000 €

Предлагаемая позиция Research Engineer в области LLM Performance в Европе обычно оплачивается значительно выше среднего по рынку из-за дефицита специалистов такого уровня. JetBrains известен конкурентными зарплатами, которые часто находятся в верхнем дециле для региона Амстердама и Берлина.

I am writing to express my strong interest in the Research Engineer position for the Mellum LLM family at JetBrains. With a deep background in PyTorch Distributed and extensive experience profiling multi-node training runs using Nsight Systems, I am confident in my ability to make your training pipelines faster, cheaper, and more stable. My experience with Megatron-LM and custom Triton kernels aligns perfectly with your goal of pushing the boundaries of large-scale model performance.

In my previous work, I have successfully implemented FSDP and ZeRO strategies to optimize memory usage and have a proven track record of debugging complex NCCL collective issues in high-performance computing environments. I am particularly excited about the opportunity to work on architecture choices like MoE routing and Flash-style attention variants within the JetBrains ecosystem. I am eager to bring my expertise in GPU programming and distributed systems to help the JCP Core Machine Learning team deliver world-class developer tools.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в jetbrains уже сейчас

Присоединяйтесь к JetBrains, чтобы оптимизировать обучение LLM на переднем крае технологий и работать с крупнейшими GPU-кластерами!

Описание вакансии

At JetBrains, code is our passion. Ever since we started back in 2000, we have been striving to make the strongest, most effective developer tools on earth. By automating routine checks and corrections, our tools speed up production, freeing developers to grow, discover, and create.

We’re looking for a Research Engineer who will own the training stack and model architecture for our Mellum LLM family. Your job is easier said than done: make training faster, cheaper, and more stable at a large scale. You’ll profile, design, and implement changes to the training pipeline – from architecture to custom GPU kernels, as needed.

As part of our team, you will:

Be responsible for improving end-to-end performance for multi-node LLM pre-training and post-training pipelines.
Profile hotspots (Nsight Systems/Compute, NVTX) and fix them using compute/comm overlap, kernel fusion, scheduling, etc.
Design and evaluate architecture choices (depth/width, attention variants including GQA/MQA/MLA/Flash-style, RoPE scaling/NTK, and MoE routing and load-balancing).
Implement custom ops (Triton and/or CUDA C++), integrate via PyTorch extensions, and upstream when possible.
Push memory/perf levers: FSDP/ZeRO, activation checkpointing, FP8/TE, tensor/pipeline/sequence/expert parallelism, NCCL tuning.
Harden large runs by building elastic and fault-tolerant training setups, ensuring robust checkpointing, strengthening reproducibility, and improving resilience to preemption.
Keep the data path fast using streaming and sharded data loaders and tokenizer pipelines, as well as improve overall throughput and cache efficiency.
Define the right metrics, build dashboards, and deliver steady improvements.
Run both pre-training and post-training (including SFT, RLHF, and GRPO-style methods) efficiently across sizable clusters.

We’ll be happy to bring you on board if you have:

Strong PyTorch and PyTorch Distributed experience, having run multi-node jobs with tens to hundreds of GPUs.
Hands-on experience with Megatron-LM/Megatron-Core/NeMo, DeepSpeed, or serious FSDP/ZeRO expertise.
Real profiling expertise (Nsight Systems/Compute, nvprof) and experience with NVTX-instrumented workflows.
GPU programming skills with Triton and/or CUDA, and the ability to write, test, and debug kernels.
A solid understanding of NCCL collectives, as well as topology and fabric effects (IB/RoCE), and how they show up in traces.

Our ideal candidate would have experience with:

FlashAttention-2 and 3, CUTLASS and CuTe, TransformerEngine and FP8, Inductor, AOTAutograd, and torch.compile.
MoE at scale (expert parallel, router losses, capacity management) and long-context tricks (ALiBi/YaRN/NTK scaling).
Kubernetes or SLURM at scale, placement and affinity tuning, as well as AWS, GCP, and Azure GPU fleets.
Web-scale data plumbing (streaming datasets, Parquet and TFRecord, tokenizer perf), eval harnesses, and benchmarking.
Safety and post-training methods, such as DPO, ORPO, GRPO, and reward models.
Inference ecosystems such as vLLM and paged KV.

#LI-KP1

We are an equal opportunity employer

We know great ideas can come from anyone, anywhere. That’s why we do our best to create an open and inclusive workplace – one that welcomes everyone regardless of their background, identity, religion, age, accessibility needs, or orientation.

We process the data provided in your job application in accordance with the Recruitment Privacy Policy.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

C++
Python
PyTorch
LLM
Kubernetes
CUDA
RLHF
FSDP
SFT
Distributed Training
Triton
NCCL
DeepSpeed
Slurm
Nsight Systems
Nsight Compute
FlashAttention
PyTorch Distributed
ZeRO

Возможные вопросы на собеседовании

Проверка опыта работы с распределенным обучением и понимания узких мест в коммуникациях между узлами.

Расскажите о самом сложном случае отладки NCCL-таймаутов или проблем с производительностью интерконнекта (IB/RoCE) в вашей практике.

Оценка навыков низкоуровневой оптимизации GPU.

В каких ситуациях вы бы предпочли написать кастомное ядро на Triton вместо использования стандартных операторов PyTorch или torch.compile?

Проверка понимания современных архитектур LLM и их влияния на память.

Как бы вы подошли к выбору между Tensor Parallelism и Pipeline Parallelism для модели с 70B+ параметрами при ограниченной пропускной способности между узлами?

Оценка навыков профилирования.

Опишите ваш процесс поиска 'пузырей' (bubbles) в пайплайне обучения с помощью Nsight Systems. На какие метрики вы смотрите в первую очередь?

Проверка опыта работы с MoE.

Какие основные проблемы возникают при балансировке нагрузки (load balancing) в экспертных слоях (MoE) при масштабировании на сотни GPU?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Страна: Нидерланды

Откликайтесь
на вакансии с ИИ

Research Engineer (LLM Training and Performance)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в jetbrains уже сейчас

Описание вакансии

As part of our team, you will:

We’ll be happy to bring you on board if you have:

Our ideal candidate would have experience with:

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о самом сложном случае отладки NCCL-таймаутов или проблем с производительностью интерконнекта (IB/RoCE) в вашей практике.

В каких ситуациях вы бы предпочли написать кастомное ядро на Triton вместо использования стандартных операторов PyTorch или torch.compile?

Как бы вы подошли к выбору между Tensor Parallelism и Pipeline Parallelism для модели с 70B+ параметрами при ограниченной пропускной способности между узлами?

Опишите ваш процесс поиска 'пузырей' (bubbles) в пайплайне обучения с помощью Nsight Systems. На какие метрики вы смотрите в первую очередь?

Какие основные проблемы возникают при балансировке нагрузки (load balancing) в экспертных слоях (MoE) при масштабировании на сотни GPU?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Research Engineer (LLM Training and Performance)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в jetbrains уже сейчас

Описание вакансии

As part of our team, you will:

We’ll be happy to bring you on board if you have:

Our ideal candidate would have experience with:

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о самом сложном случае отладки NCCL-таймаутов или проблем с производительностью интерконнекта (IB/RoCE) в вашей практике.

В каких ситуациях вы бы предпочли написать кастомное ядро на Triton вместо использования стандартных операторов PyTorch или torch.compile?

Как бы вы подошли к выбору между Tensor Parallelism и Pipeline Parallelism для модели с 70B+ параметрами при ограниченной пропускной способности между узлами?

Опишите ваш процесс поиска 'пузырей' (bubbles) в пайплайне обучения с помощью Nsight Systems. На какие метрики вы смотрите в первую очередь?

Какие основные проблемы возникают при балансировке нагрузки (load balancing) в экспертных слоях (MoE) при масштабировании на сотни GPU?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ