Страна: Нидерланды

+500% приглашений

Откликайтесь
на вакансии с ИИ

ГибридПолная занятость

HPC System Engineer

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Nebius — это быстрорастущий международный игрок в сфере ИИ-облаков с листингом на Nasdaq. Вакансия предлагает работу с топовым железом (H100/B200) и отличные возможности для профессионального роста в самой востребованной нише ИТ.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний на стыке системного администрирования Linux, сетевых технологий и специфического стека GPU (CUDA, NCCL). Высокая сложность обусловлена необходимостью профилирования производительности на низком уровне и работы с передовым ИИ-железом.

Анализ зарплаты

Медиана85 000 €

Рынок70 000 € – 110 000 €

Зарплата в объявлении не указана, но для позиции HPC Engineer в Амстердаме рыночные вилки достаточно высоки из-за дефицита специалистов. Предложение Nebius обычно соответствует или превышает средние показатели по региону для привлечения талантов из BigTech.

I am writing to express my strong interest in the HPC System Engineer position at Nebius. With a solid background in Linux systems and a deep understanding of the GPU stack, including CUDA and NCCL, I am excited about the opportunity to contribute to benchmarking and optimizing GPU platforms for large-scale AI workloads. My experience in troubleshooting complex hardware-software interactions aligns perfectly with your mission to provide cutting-edge cloud infrastructure.

In my previous roles, I have successfully automated performance profiling using Python and Bash, and I am well-versed in containerized environments like Docker and Kubernetes. I am particularly drawn to Nebius because of its leadership in the global AI economy and the chance to work alongside world-class engineers on next-generation hardware development. I am confident that my technical skills and passion for AI infrastructure will make me a valuable asset to your team in Amsterdam.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Присоединяйтесь к Nebius, чтобы строить будущее ИИ-инфраструктуры на передовом крае технологий GPU!

Описание вакансии

Why work at NebiusNebius is leading a new era in cloud computing to serve the global AI economy. We create the tools and resources our customers need to solve real-world challenges and transform industries, without massive infrastructure costs or the need to build large in-house AI/ML teams. Our employees work at the cutting edge of AI cloud infrastructure alongside some of the most experienced and innovative leaders and engineers in the field.

Where we workHeadquartered in Amsterdam and listed on Nasdaq, Nebius has a global footprint with R&D hubs across Europe, North America, and Israel. The team of over 1400 employees includes more than 400 highly skilled engineers with deep expertise across hardware and software engineering, as well as an in-house AI R&D team.

The role

We are seeking a highly skilled Systems Engineer (Cloudmeter) to join our team to support benchmarking of GPU platforms for machine learning and AI workloads. You will play a critical role in evaluating the performance of GPU-based hardware for various deep learning and AI frameworks, enabling data-driven decisions for platform optimization and next-generation hardware development.

In this position, your responsibility will be to:

Work closely with hardware, development teams to profile and analyze GPU performance at the system and kernel level.
Evaluate and compare GPU performance across different platforms, architectures, and software stacks (e.g., CUDA, ROCm).
Perform acceptance testing for new GPU clusters, ensuring hardware and software meet performance, stability, and compatibility requirements for AI workloads.
Perform experiments across diverse GPU system configurations to assess the impact of varying interconnect strategies and system-level optimizations on performance and scalability.

We expect you to have:

Proficient in Unix/Linux, plus Python and Bash for automation.
Good understanding of the GPU stack: CUDA,NCCL, drivers, and relevant libraries
Proven ability to troubleshoot complex system issues including hardware, software, and networking problems.
Familiarity with containerized environments (e.g., Docker, Kubernetes).

Ways to stand out from the crowd:

Experience with modern deep learning frameworks (PyTorch, JAX, vLLM, Tensort-LLM)
Experience with job schedulers and resource managers (Slurm, Volcano, etc.).

What we offer

Competitive salary and comprehensive benefits package.
Opportunities for professional growth within Nebius.
Flexible working arrangements.
A dynamic and collaborative work environment that values initiative and innovation.

We’re growing and expanding our products every day. If you’re up to the challenge and are excited about AI and ML as much as we are, join us!

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Linux
Python
Bash
CUDA
NCCL
Docker
Kubernetes
PyTorch
JAX
Slurm
GPU
Benchmarking

Возможные вопросы на собеседовании

Проверка понимания ключевой библиотеки для связи между GPU, критически важной для распределенного обучения.

Как бы вы подошли к отладке проблем с производительностью NCCL в многоузловом GPU-кластере?

Оценка навыков автоматизации и работы с системными метриками.

Какие инструменты и метрики вы бы использовали для профилирования использования памяти GPU и пропускной способности шины в реальном времени?

Проверка опыта работы с оркестрацией задач, что является плюсом для вакансии.

Опишите ваш опыт работы со Slurm: как вы настраиваете приоритеты задач и управляете ресурсами GPU?

Оценка способности решать сложные инфраструктурные проблемы.

Расскажите о самом сложном случае «необъяснимого» падения производительности GPU, с которым вы столкнулись, и как вы его решили.

Проверка знаний контейнеризации в контексте HPC.

В чем заключаются основные сложности проброса GPU-устройств в Docker-контейнеры и как обеспечить минимальные накладные расходы на производительность?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Нидерланды

Откликайтесь
на вакансии с ИИ

HPC System Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Описание вакансии

The role

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы подошли к отладке проблем с производительностью NCCL в многоузловом GPU-кластере?

Какие инструменты и метрики вы бы использовали для профилирования использования памяти GPU и пропускной способности шины в реальном времени?

Опишите ваш опыт работы со Slurm: как вы настраиваете приоритеты задач и управляете ресурсами GPU?

Расскажите о самом сложном случае «необъяснимого» падения производительности GPU, с которым вы столкнулись, и как вы его решили.

В чем заключаются основные сложности проброса GPU-устройств в Docker-контейнеры и как обеспечить минимальные накладные расходы на производительность?

Похожие вакансии

Middle+/Senior SFA Administrator

Technical marketing engineer (сетевой инженер/архитектор)

Специалист поддержки телекоммуникационного оборудования

Разработчик в команду интеграции Автономного транспорта

Архитектор вычислительной инфраструктуры под AI

Senior С++ разработчик

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

HPC System Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Описание вакансии

The role

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы подошли к отладке проблем с производительностью NCCL в многоузловом GPU-кластере?

Какие инструменты и метрики вы бы использовали для профилирования использования памяти GPU и пропускной способности шины в реальном времени?

Опишите ваш опыт работы со Slurm: как вы настраиваете приоритеты задач и управляете ресурсами GPU?

Расскажите о самом сложном случае «необъяснимого» падения производительности GPU, с которым вы столкнулись, и как вы его решили.

В чем заключаются основные сложности проброса GPU-устройств в Docker-контейнеры и как обеспечить минимальные накладные расходы на производительность?

Похожие вакансии

Middle+/Senior SFA Administrator

Technical marketing engineer (сетевой инженер/архитектор)

Специалист поддержки телекоммуникационного оборудования

Разработчик в команду интеграции Автономного транспорта

Архитектор вычислительной инфраструктуры под AI

Senior С++ разработчик

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ