yandex
nebius
Страна
Нидерланды
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
ГибридПолная занятость

HPC System Engineer

Оценка ИИ

Nebius — это быстрорастущий международный игрок в сфере ИИ-облаков с листингом на Nasdaq. Вакансия предлагает работу с топовым железом (H100/B200) и отличные возможности для профессионального роста в самой востребованной нише ИТ.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Роль требует глубоких знаний на стыке системного администрирования Linux, сетевых технологий и специфического стека GPU (CUDA, NCCL). Высокая сложность обусловлена необходимостью профилирования производительности на низком уровне и работы с передовым ИИ-железом.

Анализ зарплаты

Медиана85 000 €
Рынок70 000 € – 110 000 €
Оценка ИИ

Зарплата в объявлении не указана, но для позиции HPC Engineer в Амстердаме рыночные вилки достаточно высоки из-за дефицита специалистов. Предложение Nebius обычно соответствует или превышает средние показатели по региону для привлечения талантов из BigTech.

Сопроводительное письмо

I am writing to express my strong interest in the HPC System Engineer position at Nebius. With a solid background in Linux systems and a deep understanding of the GPU stack, including CUDA and NCCL, I am excited about the opportunity to contribute to benchmarking and optimizing GPU platforms for large-scale AI workloads. My experience in troubleshooting complex hardware-software interactions aligns perfectly with your mission to provide cutting-edge cloud infrastructure.

In my previous roles, I have successfully automated performance profiling using Python and Bash, and I am well-versed in containerized environments like Docker and Kubernetes. I am particularly drawn to Nebius because of its leadership in the global AI economy and the chance to work alongside world-class engineers on next-generation hardware development. I am confident that my technical skills and passion for AI infrastructure will make me a valuable asset to your team in Amsterdam.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Присоединяйтесь к Nebius, чтобы строить будущее ИИ-инфраструктуры на передовом крае технологий GPU!

Описание вакансии

Why work at NebiusNebius is leading a new era in cloud computing to serve the global AI economy. We create the tools and resources our customers need to solve real-world challenges and transform industries, without massive infrastructure costs or the need to build large in-house AI/ML teams. Our employees work at the cutting edge of AI cloud infrastructure alongside some of the most experienced and innovative leaders and engineers in the field.

Where we workHeadquartered in Amsterdam and listed on Nasdaq, Nebius has a global footprint with R&D hubs across Europe, North America, and Israel. The team of over 1400 employees includes more than 400 highly skilled engineers with deep expertise across hardware and software engineering, as well as an in-house AI R&D team.

The role

We are seeking a highly skilled Systems Engineer (Cloudmeter) to join our team to support benchmarking of GPU platforms for machine learning and AI workloads. You will play a critical role in evaluating the performance of GPU-based hardware for various deep learning and AI frameworks, enabling data-driven decisions for platform optimization and next-generation hardware development.

In this position, your responsibility will be to:

  • Work closely with hardware, development teams to profile and analyze GPU performance at the system and kernel level.
  • Evaluate and compare GPU performance across different platforms, architectures, and software stacks (e.g., CUDA, ROCm).
  • Perform acceptance testing for new GPU clusters, ensuring hardware and software meet performance, stability, and compatibility requirements for AI workloads.
  • Perform experiments across diverse GPU system configurations to assess the impact of varying interconnect strategies and system-level optimizations on performance and scalability.

We expect you to have:

  • Proficient in Unix/Linux, plus Python and Bash for automation.
  • Good understanding of the GPU stack: CUDA,NCCL, drivers, and relevant libraries
  • Proven ability to troubleshoot complex system issues including hardware, software, and networking problems.
  • Familiarity with containerized environments (e.g., Docker, Kubernetes).

Ways to stand out from the crowd:

  • Experience with modern deep learning frameworks (PyTorch, JAX, vLLM, Tensort-LLM)
  • Experience with job schedulers and resource managers (Slurm, Volcano, etc.).

What we offer

  • Competitive salary and comprehensive benefits package.
  • Opportunities for professional growth within Nebius.
  • Flexible working arrangements.
  • A dynamic and collaborative work environment that values initiative and innovation.

We’re growing and expanding our products every day. If you’re up to the challenge and are excited about AI and ML as much as we are, join us!

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • Linux
  • Python
  • Bash
  • CUDA
  • NCCL
  • Docker
  • Kubernetes
  • PyTorch
  • JAX
  • Slurm
  • GPU
  • Benchmarking

Возможные вопросы на собеседовании

Проверка понимания ключевой библиотеки для связи между GPU, критически важной для распределенного обучения.

Как бы вы подошли к отладке проблем с производительностью NCCL в многоузловом GPU-кластере?

Оценка навыков автоматизации и работы с системными метриками.

Какие инструменты и метрики вы бы использовали для профилирования использования памяти GPU и пропускной способности шины в реальном времени?

Проверка опыта работы с оркестрацией задач, что является плюсом для вакансии.

Опишите ваш опыт работы со Slurm: как вы настраиваете приоритеты задач и управляете ресурсами GPU?

Оценка способности решать сложные инфраструктурные проблемы.

Расскажите о самом сложном случае «необъяснимого» падения производительности GPU, с которым вы столкнулись, и как вы его решили.

Проверка знаний контейнеризации в контексте HPC.

В чем заключаются основные сложности проброса GPU-устройств в Docker-контейнеры и как обеспечить минимальные накладные расходы на производительность?

Похожие вакансии

JETLYN
350 000 ₽ – 450 000 ₽

C++ Developer (System Programming / COM & RPC)

SeniorУдалённоРоссия
C++ · COM · DCOM · RPC · POSIX · Linux · Socket Programming · Multithreading · Wireshark · WINE
+10 навыков
NDA
Не указана

Инженер сетевой (Senior)

SeniorУдалённоРоссия
Linux · BGP · OSPF · VXLAN · VPN · VRRP · LACP · Python · Bash · Docker · SDN · Open vSwitch · Wireshark · TCPDump · IXIA · Spirent · TRex · EVE-NG · GNS3
+19 навыков
TopSelection
300 000 ₽ – 370 000 ₽

Senior C Developer (Linux Kernel)

SeniorУдалённоРоссия
C++ · Linux Kernel · VFS · POSIX · IPC · mmap · seccomp · ptrace · perf · strace · GDB · inotify · epoll
+13 навыков
ЛАНИТ
Не указана

C++ разработчик (ethernet-коммутатор)

SeniorУдалённоРоссия
C++ · Linux · TCP/IP · Docker · Git · BGP · ARP · BFD · ECMP · LACP · RSTP · STP · VLAN · VRRP · VXLAN · Wireshark · TCPDump · Iperf · Cisco TRex · EVE-NG · GNS3
+21 навыков
X5 Tech
Не указана

Стажер в группу поддержки сетевой инфраструктуры

InternУдалённоРоссия
Cisco · HP · Huawei · Juniper · MikroTik · Eltex · TCP/IP · ARP · BGP · Zabbix · Netbox · Wireshark · DHCP · Static Routing · LLDP · CDP · EtherChannel · Spanning Tree Protocol · GRE · DMVPN
+20 навыков
PN Labs (based on handle)
4 000 $ – 6 000 $

C++ Developer (Desktop VPN Client)

SeniorУдалённо
C++ · Qt · QML · gRPC · CMake · vcpkg · Boost · OpenSSL · cURL · RxCpp · WireGuard · TCP/IP · DNS · TLS · Win32 · WFP
+16 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

nebius
Страна
Нидерланды