Страна: Россия

+500% приглашений

Откликайтесь
на вакансии с ИИ

УдалённоПолная занятость

ML-инженер

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Очень привлекательная вакансия для опытных инженеров: работа на стыке AI, Blockchain и системного программирования с использованием самого современного стека технологий.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний как в ML-инфраструктуре (vLLM, TensorRT), так и в системном программировании (Rust, CUDA), а также понимания специфических технологий вроде TEE и блокчейна.

Анализ зарплаты

Медиана450 000 ₽

Рынок350 000 ₽ – 600 000 ₽

Зарплата не указана в явном виде, но для позиций уровня Senior ML Infrastructure Engineer в России и удаленно рыночные вилки обычно начинаются от 400 000 рублей. Проекты на стыке блокчейна и ИИ часто предлагают компенсацию выше среднего по рынку.

I am writing to express my strong interest in the ML Engineer position at Staffberry. With a solid background in optimizing LLM inference and managing large-scale AI infrastructure, I am excited about the opportunity to contribute to your decentralized blockchain project for distributed AI computing.

In my previous experience, I have worked extensively with vLLM, Triton Inference Server, and TensorRT to optimize transformer-based models for high throughput and low latency. I am proficient in Python and Rust, and I have hands-on experience with Kubernetes and Terraform for scaling AI workloads. The challenge of implementing secure inference pipelines using TEE and integrating them with blockchain scheduling aligns perfectly with my technical expertise and interest in cutting-edge infrastructure.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Staffberry уже сейчас

Присоединяйтесь к созданию будущего децентрализованного ИИ и блокчейн-вычислений — откликайтесь прямо сейчас!

Описание вакансии

ML-инженер

Локация: Удаленно

Компания: Staffberry

ЗП: обсуждается на собеседовании

Занятость: Полная

Мы создаём передовой блокчейн для распределенных вычислений в сфере ИИ. Мы ищем инженера, специализирующегося на инфраструктуре и производительности вывода машинного обучения. Ваша задача — сделать крупномасштабный вывод ИИ быстрым, экономически эффективным и безопасным в среде гетерогенных GPU-узлов, включая конфиденциальные и минимизированные по уровню доверия среды.

Обязанности:

Архитектура и разработка децентрализованных ИИ-систем корпоративного уровня (pro-code);

Создание и масштабирование ИИ-инфраструктуры на базе Kubernetes с использованием Docker, K8s, Terraform/Pulumi и распределенных фреймворков (KubeRay, SkyPilot);

Оптимизация вывода LLM / Transformer (задержки, пропускная способность, память);

Работа с vLLM, SGLang, пакетной обработкой, KV-кэшем, потоковым выводом;

Развертывание и настройка Triton Inference Server, TensorRT, ONNX Runtime;

Применение квантования (INT8 / FP16 / FP8) и анализ компромиссов между точностью и скоростью;

Профилирование и оптимизация использования CUDA/GPU;

Выбор и тестирование GPU для распределенных рабочих нагрузок;

Построение защищенных конвейеров вывода с использованием TEE (Intel SGX, NVIDIA Confidential Computing, аттестация):

Интеграция вывода ИИ с планированием на основе блокчейна и уровнями доверия.

Требования:

AI / Inference: PyTorch, ONNX; vLLM, SGLang; Triton Inference Server, TensorRT; CUDA, NVIDIA NGC;
Знания в области систем машинного обучения: Архитектура Transformer, механизм внимания; KV-кэш, токенизация, эмбеддинги; Линейная алгебра для повышения производительности машинного обучения;
Языки программирования: Python, Rust.

🌐 Резюме отправлять: Откликнуться

–––

Бесплатный постинг вакансий: @freeIT_job

Забирай 📚 Базу Знаний

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Python
Rust
Terraform
PyTorch
Kubernetes
Docker
CUDA
TensorRT
Triton Inference Server
ONNX
Pulumi
vLLM
SGLang
NVIDIA NGC
KubeRay
SkyPilot
Intel SGX

Возможные вопросы на собеседовании

Вакансия предполагает работу с высоконагруженным выводом моделей. Знание vLLM критично для оптимизации памяти.

Расскажите, как работает механизм PagedAttention в vLLM и какие проблемы он решает при работе с KV-кэшем?

В требованиях указан Rust, который часто используется для высокопроизводительных системных компонентов.

В каких сценариях при разработке ИИ-инфраструктуры вы бы предпочли Rust вместо Python и почему?

Компания работает с гетерогенными узлами и конфиденциальными вычислениями.

Каков ваш опыт работы с Trusted Execution Environments (TEE), такими как Intel SGX или NVIDIA Confidential Computing, в контексте защиты весов моделей?

Оптимизация производительности — ключевая задача.

Какие стратегии квантования (например, FP8 или INT8) вы использовали и как вы оценивали влияние на перплексию модели?

Упоминается использование KubeRay и SkyPilot для распределенных вычислений.

Как вы организуете планирование ресурсов в Kubernetes для задач, требующих интенсивного использования GPU и минимальных задержек связи между узлами?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Страна: Россия

Откликайтесь
на вакансии с ИИ

ML-инженер

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Staffberry уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите, как работает механизм PagedAttention в vLLM и какие проблемы он решает при работе с KV-кэшем?

В каких сценариях при разработке ИИ-инфраструктуры вы бы предпочли Rust вместо Python и почему?

Каков ваш опыт работы с Trusted Execution Environments (TEE), такими как Intel SGX или NVIDIA Confidential Computing, в контексте защиты весов моделей?

Какие стратегии квантования (например, FP8 или INT8) вы использовали и как вы оценивали влияние на перплексию модели?

Как вы организуете планирование ресурсов в Kubernetes для задач, требующих интенсивного использования GPU и минимальных задержек связи между узлами?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

ML-инженер

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Staffberry уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите, как работает механизм PagedAttention в vLLM и какие проблемы он решает при работе с KV-кэшем?

В каких сценариях при разработке ИИ-инфраструктуры вы бы предпочли Rust вместо Python и почему?

Каков ваш опыт работы с Trusted Execution Environments (TEE), такими как Intel SGX или NVIDIA Confidential Computing, в контексте защиты весов моделей?

Какие стратегии квантования (например, FP8 или INT8) вы использовали и как вы оценивали влияние на перплексию модели?

Как вы организуете планирование ресурсов в Kubernetes для задач, требующих интенсивного использования GPU и минимальных задержек связи между узлами?

Похожие вакансии

Junior AI Engineer

AI Engineer (Agents)

Senior Python AI Developer

Ai Tech Lead

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ