Страна: США

+500% приглашений

Откликайтесь
на вакансии с ИИ

УдалённоПолная занятость

Machine Learning Engineer - ML Training Platform

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Исключительно интересная вакансия для инженеров, желающих работать на стыке Web3 и AI. Поддержка топовых инвесторов (USV) и амбициозная миссия делают роль очень привлекательной, несмотря на отсутствие указанной зарплаты.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Высокая сложность обусловлена необходимостью глубоких знаний как в DevOps/SRE (multi-cloud, IaC), так и в специфике ML (распределенное обучение, GPU-кластеры). Дополнительную сложность добавляет работа с децентрализованными сетями и нестабильными узлами (churn), что требует нестандартных архитектурных решений.

Анализ зарплаты

Медиана210 000 $

Рынок180 000 $ – 250 000 $

Поскольку зарплата в вакансии не указана, мы ориентируемся на рынок Сан-Франциско для Senior ML Infrastructure ролей. Учитывая стадию стартапа и поддержку Tier-1 инвесторов, можно ожидать конкурентный оклад и значительный пакет опционов. Предлагаемый диапазон соответствует уровню Senior/Lead в высокотехнологичных компаниях США.

I am writing to express my strong interest in the ML Training Platform Engineer position at Pluralis Research. With over five years of experience in infrastructure and platform engineering, I have developed a deep expertise in orchestrating multi-cloud environments and managing large-scale distributed systems. Your mission to decentralize AI training through Protocol Learning resonates with my belief that frontier-scale AI should be accessible and collaborative rather than controlled by a few large entities.

In my previous roles, I have successfully implemented infrastructure-as-code using Pulumi and Terraform to manage heterogeneous GPU clusters and fault-tolerant ML workflows. I am particularly excited by the challenge of building systems that handle real-world networking conditions and node churn, which are critical for a decentralized training platform. My background in Python systems programming and SRE practices aligns perfectly with your need for resilient, high-performance infrastructure. I am eager to bring my technical skills to your world-class team and contribute to the development of a truly open AI ecosystem.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Присоединяйтесь к Pluralis Research, чтобы строить будущее децентрализованного ИИ и бросить вызов монополии корпораций.

Описание вакансии

Overview

Pluralis Research is pioneering Protocol Learning—a fully decentralised way to train and deploy AI models that opens this layer to individuals rather than well resourced corporates. By pooling compute from many participants, incentivising their efforts, and preventing any single party from controlling a model’s full weights, we’re creating a genuinely open, collaborative path to frontier-scale AI.

We’re looking for an ML Training Platform Engineer to architect, build, and scale the foundational infrastructure powering our decentralized ML training platform. You will own core systems spanning infrastructure orchestration, distributed compute, and services integration, enabling continuous experimentation and large-scale model training.

Responsibilities

Multi-Cloud Infrastructure: Design resource management systems provisioning and orchestrating compute across AWS, GCP, and Azure using infrastructure-as-code (Pulumi/Terraform). Handle dynamic scaling, state synchronization, and concurrent operations across hundreds of heterogeneous nodes.
Distributed Training Systems: Architect fault-tolerant infrastructure for distributed ML. GPU clusters, NVIDIA runtime, S3 checkpointing, Large dataset management and streaming, health monitoring, and resilient retry strategies.
Real-World Networking: Build systems that simulate and handle real-world network conditions — bandwidth shaping, latency injection, packet loss — while managing dynamic node churn and ensuring efficient data flow across workers with heterogeneous connectivity, because our training happens on consumer nodes and non co-located infrastructure, not in a datacenter.

What You’ll Bring

Ideally, you’ll have 5+ years of work experience with deep experience in:

Infrastructure & Platform Engineering: Production experience with infrastructure-as-code (Pulumi/Terraform/CloudFormation) managing multi-cloud deployments, lifecycle orchestration, self-healing systems, Docker/Kubernetes (EKS), GPU workloads, and heterogeneous clusters at scale.
Distributed Systems & ML Infrastructure: Deep understanding of distributed training workflows, checkpointing, data sharding, model versioning, long-running job orchestration, decentralized networking (P2P, NAT traversal, traffic shaping), and real-world bandwidth constraints.
Systems Programming & Reliability: Strong Python engineering (asyncio, concurrency, retry logic, cloud SDKs, CLI tooling) with hands-on experience in observability, SRE practices, monitoring (Prometheus/Grafana), performance profiling, and incident response.

What we’re looking for

Experience in a startup environment with an emphasis on micro-services orchestration or big tech background
Deep understanding of multi-cloud infra & distributed training systems
A team player with high attention to detail
A strong passion to join

Backed by Union Square Ventures and other tier-1 investors, we’re a world-class, deeply technical team of ML researchers. Pluralis is unapologetically ideological. We view the world as a better place if we are able to implement what we are attempting, and Protocol Learning as the only plausible approach to preventing a handful of massive corporations monopolising model development, access and release, and achieving massive economic capture. If this resonates, please apply.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

AWS
Azure
Python
Terraform
GCP
Kubernetes
Prometheus
Grafana
SRE
Docker
Networking
Distributed Systems
Machine Learning Infrastructure
Pulumi
GPU Computing

Возможные вопросы на собеседовании

Проверка опыта работы с нестабильной инфраструктурой, что критично для децентрализованного обучения.

Как бы вы спроектировали систему чекпоинтов для модели, обучающейся на сотнях потребительских узлов с высоким уровнем 'churn' (отключения узлов)?

Оценка навыков управления ресурсами в разных облаках.

С какими основными трудностями вы сталкивались при реализации кросс-облачного оркестратора (AWS/GCP/Azure) и как решали проблему синхронизации состояний?

Проверка понимания сетевых ограничений вне дата-центров.

Какие стратегии вы бы использовали для минимизации влияния задержек (latency) и потери пакетов при синхронизации градиентов в децентрализованной сети?

Оценка опыта работы с GPU в контейнеризированных средах.

Опишите ваш опыт настройки NVIDIA runtime в Kubernetes для обеспечения эффективной изоляции и мониторинга GPU-нагрузок.

Проверка навыков системного программирования на Python.

Как эффективно использовать asyncio для управления тысячами параллельных соединений с облачными SDK и внешними воркерами без блокировки основного цикла?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Страна: США

Откликайтесь
на вакансии с ИИ

Machine Learning Engineer - ML Training Platform

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Описание вакансии

Overview

Responsibilities

What You’ll Bring

What we’re looking for

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы спроектировали систему чекпоинтов для модели, обучающейся на сотнях потребительских узлов с высоким уровнем 'churn' (отключения узлов)?

С какими основными трудностями вы сталкивались при реализации кросс-облачного оркестратора (AWS/GCP/Azure) и как решали проблему синхронизации состояний?

Какие стратегии вы бы использовали для минимизации влияния задержек (latency) и потери пакетов при синхронизации градиентов в децентрализованной сети?

Опишите ваш опыт настройки NVIDIA runtime в Kubernetes для обеспечения эффективной изоляции и мониторинга GPU-нагрузок.

Как эффективно использовать asyncio для управления тысячами параллельных соединений с облачными SDK и внешними воркерами без блокировки основного цикла?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Machine Learning Engineer - ML Training Platform

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в pluralis-research уже сейчас

Описание вакансии

Overview

Responsibilities

What You’ll Bring

What we’re looking for

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Как бы вы спроектировали систему чекпоинтов для модели, обучающейся на сотнях потребительских узлов с высоким уровнем 'churn' (отключения узлов)?

С какими основными трудностями вы сталкивались при реализации кросс-облачного оркестратора (AWS/GCP/Azure) и как решали проблему синхронизации состояний?

Какие стратегии вы бы использовали для минимизации влияния задержек (latency) и потери пакетов при синхронизации градиентов в децентрализованной сети?

Опишите ваш опыт настройки NVIDIA runtime в Kubernetes для обеспечения эффективной изоляции и мониторинга GPU-нагрузок.

Как эффективно использовать asyncio для управления тысячами параллельных соединений с облачными SDK и внешними воркерами без блокировки основного цикла?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ