Страна: США

+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorУдалённоПолная занятость

Machine Learning Engineer - Distributed ML Systems

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Исключительная вакансия для инженеров, ищущих работу над фундаментальными технологиями (Protocol Learning). Поддержка топовых инвесторов (USV), возможность удаленной работы и значительная доля в капитале делают предложение очень привлекательным.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует редкого сочетания глубоких знаний в области распределенного обучения ML (FSDP, DeepSpeed) и системного программирования P2P-сетей. Высокая сложность обусловлена необходимостью оптимизации под низкую пропускную способность и нестабильные соединения.

Анализ зарплаты

Медиана220 000 $

Рынок170 000 $ – 280 000 $

Для позиции Senior/Staff уровня в США и Австралии в сфере ML Systems рыночный диапазон составляет $180k-$260k+. Предложение Pluralis Research включает 'equity-heavy' компенсацию, что типично для стартапов на ранних стадиях с высоким потенциалом роста.

I am writing to express my strong interest in the Machine Learning Engineer position at Pluralis Research. With over five years of experience in building large-scale distributed systems and optimizing ML training workloads, I am deeply inspired by your mission to develop Protocol Learning. My background in implementing model-parallel strategies using DeepSpeed and FSDP, combined with a solid understanding of P2P networking, aligns perfectly with your goal of training foundation models across heterogeneous, consumer-grade internet connections.

In my previous roles, I have focused on maximizing GPU utilization and designing resilient architectures for fault-prone environments. I am particularly excited about the challenge of architecting decentralized coordination systems that handle NAT traversal and dynamic peer discovery. I share your ideological commitment to preventing the monopolization of AI and would welcome the opportunity to contribute my technical expertise to a team backed by visionaries like Union Square Ventures.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Присоединяйтесь к Pluralis Research, чтобы переосмыслить будущее ИИ и создать децентрализованную альтернативу корпоративным монополиям.

Описание вакансии

Overview

Pluralis Research carries out foundational research on Protocol Learning: multi-participant training of foundation models where no single participant has, or can ever obtain, a full copy of the model. The purpose of Protocol Learning is to facilitate the creation of community-trained and community-owned frontier models with self-sustaining economics.

We're looking for Senior/Staff engineers with 5+ years of experience in distributed systems and ML large-scale training. You'll be implementing a novel substrate for training distributed ML models that work under consumer grade internet connection.

Responsibilities

Distributed Training Architecture & Optimization

Design and implement large-scale distributed training systems optimized for heterogeneous hardware operating under low-bandwidth, high-latency conditions.
Develop and optimize model-parallel training strategies (data, tensor, pipeline parallelism) with custom sharding techniques that minimize communication overhead.
Optimize GPU utilization, memory efficiency, and compute performance across distributed nodes.
Implement robust checkpointing, state synchronization, and recovery mechanisms for long-running, fault-prone training jobs.
Build monitoring and metrics systems to track training progress, model quality, and system bottlenecks.

Decentralized Networking & Resilience

Architect resilient training systems where nodes can fail, networks can partition, and participants can dynamically join or leave.
Design and optimize peer-to-peer topologies for decentralized coordination across non-co-located nodes.
Implement NAT traversal, peer discovery, dynamic routing, and connection lifecycle management.
Profile and optimize communication patterns to reduce latency and bandwidth overhead in multi-participant environments.

What You’ll Bring

Strong experience building and operating distributed systems in production.
Hands-on expertise with distributed training frameworks (FSDP, DeepSpeed, Megatron, or similar).
Deep understanding of model parallelism (data, tensor, pipeline parallelism).
Expert-level Python with production experience (concurrency, error handling, retry logic, clean architecture).
Strong networking fundamentals: P2P systems, gRPC, routing, NAT traversal, distributed coordination.
Experience optimizing GPU workloads, memory management, and large-scale compute efficiency.

What We Offer

Equity-heavy compensation with meaningful ownership in a mission-driven company
Competitive base salary for senior engineering roles in Australia
Visa sponsorship available for exceptional candidates
Remote-first with optional access to our Melbourne hub
World-class team — team mates were previously at at Google, Amazon, Microsoft, and leading startups

Backed by Union Square Ventures and other tier-1 investors, we're a world-class, deeply technical team of ML researchers and engineers. Pluralis is unapologetically ideological. We view the world as a better place if we are able to implement what we are attempting, and Protocol Learning as the only plausible approach to preventing a handful of massive corporations monopolising model development, access and release, and achieving massive economic capture. If this resonates, please apply.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Python
Machine Learning
Distributed Systems
DeepSpeed
FSDP
Megatron-LM
P2P
gRPC
GPU Optimization
PyTorch
Networking
Parallel Computing

Возможные вопросы на собеседовании

Проверка опыта работы с конкретными стратегиями параллелизма в условиях ограниченной пропускной способности.

Как бы вы адаптировали Pipeline Parallelism для работы в сети с высокой задержкой (high latency) и ограниченным каналом?

Оценка навыков проектирования отказоустойчивых систем, что критично для децентрализованного обучения.

Опишите ваш подход к реализации механизмов чекпоинтинга в системе, где узлы могут динамически покидать сеть без предупреждения.

Проверка понимания сетевых протоколов, необходимых для P2P взаимодействия.

Какие стратегии NAT traversal вы считаете наиболее эффективными для обеспечения стабильного gRPC соединения между домашними ПК?

Оценка умения оптимизировать использование ресурсов GPU.

Как минимизировать накладные расходы на коммуникацию при использовании FSDP (Fully Sharded Data Parallel) в гетерогенной среде?

Проверка опыта работы с распределенным консенсусом.

Какие алгоритмы распределенной координации вы бы выбрали для синхронизации состояния градиентов в децентрализованной топологии?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

США

Откликайтесь
на вакансии с ИИ

Machine Learning Engineer - Distributed ML Systems

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Описание вакансии

Overview

Responsibilities

Distributed Training Architecture & Optimization

Decentralized Networking & Resilience

What You’ll Bring

What We Offer

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы адаптировали Pipeline Parallelism для работы в сети с высокой задержкой (high latency) и ограниченным каналом?

Опишите ваш подход к реализации механизмов чекпоинтинга в системе, где узлы могут динамически покидать сеть без предупреждения.

Какие стратегии NAT traversal вы считаете наиболее эффективными для обеспечения стабильного gRPC соединения между домашними ПК?

Как минимизировать накладные расходы на коммуникацию при использовании FSDP (Fully Sharded Data Parallel) в гетерогенной среде?

Какие алгоритмы распределенной координации вы бы выбрали для синхронизации состояния градиентов в децентрализованной топологии?

Похожие вакансии

Архитектор мультиагентных систем на базе LLM

AI engineer (ML/DS)

Python-разработчик в команду запуска внутренних AI-сервисов

Аналитик AI-агентов Senior

Аналитик AI-агентов

AI-разработчик (Senior)

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Machine Learning Engineer - Distributed ML Systems

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Описание вакансии

Overview

Responsibilities

Distributed Training Architecture & Optimization

Decentralized Networking & Resilience

What You’ll Bring

What We Offer

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы адаптировали Pipeline Parallelism для работы в сети с высокой задержкой (high latency) и ограниченным каналом?

Опишите ваш подход к реализации механизмов чекпоинтинга в системе, где узлы могут динамически покидать сеть без предупреждения.

Какие стратегии NAT traversal вы считаете наиболее эффективными для обеспечения стабильного gRPC соединения между домашними ПК?

Как минимизировать накладные расходы на коммуникацию при использовании FSDP (Fully Sharded Data Parallel) в гетерогенной среде?

Какие алгоритмы распределенной координации вы бы выбрали для синхронизации состояния градиентов в децентрализованной топологии?

Похожие вакансии

Архитектор мультиагентных систем на базе LLM

AI engineer (ML/DS)

Python-разработчик в команду запуска внутренних AI-сервисов

Аналитик AI-агентов Senior

Аналитик AI-агентов

AI-разработчик (Senior)

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ