- Страна
- Россия
Откликайтесь
на вакансии с ИИ

ML-инженер
Очень привлекательная вакансия для опытных инженеров: работа на стыке AI, Blockchain и системного программирования с использованием самого современного стека технологий.
Сложность вакансии
Роль требует глубоких знаний как в ML-инфраструктуре (vLLM, TensorRT), так и в системном программировании (Rust, CUDA), а также понимания специфических технологий вроде TEE и блокчейна.
Анализ зарплаты
Зарплата не указана в явном виде, но для позиций уровня Senior ML Infrastructure Engineer в России и удаленно рыночные вилки обычно начинаются от 400 000 рублей. Проекты на стыке блокчейна и ИИ часто предлагают компенсацию выше среднего по рынку.
Сопроводительное письмо
I am writing to express my strong interest in the ML Engineer position at Staffberry. With a solid background in optimizing LLM inference and managing large-scale AI infrastructure, I am excited about the opportunity to contribute to your decentralized blockchain project for distributed AI computing.
In my previous experience, I have worked extensively with vLLM, Triton Inference Server, and TensorRT to optimize transformer-based models for high throughput and low latency. I am proficient in Python and Rust, and I have hands-on experience with Kubernetes and Terraform for scaling AI workloads. The challenge of implementing secure inference pipelines using TEE and integrating them with blockchain scheduling aligns perfectly with my technical expertise and interest in cutting-edge infrastructure.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Staffberry уже сейчас
Присоединяйтесь к созданию будущего децентрализованного ИИ и блокчейн-вычислений — откликайтесь прямо сейчас!
Описание вакансии
ML-инженер
Локация: Удаленно
Компания: Staffberry
ЗП: обсуждается на собеседовании
Занятость: Полная
Мы создаём передовой блокчейн для распределенных вычислений в сфере ИИ. Мы ищем инженера, специализирующегося на инфраструктуре и производительности вывода машинного обучения. Ваша задача — сделать крупномасштабный вывод ИИ быстрым, экономически эффективным и безопасным в среде гетерогенных GPU-узлов, включая конфиденциальные и минимизированные по уровню доверия среды.
Обязанности:
Архитектура и разработка децентрализованных ИИ-систем корпоративного уровня (pro-code);
Создание и масштабирование ИИ-инфраструктуры на базе Kubernetes с использованием Docker, K8s, Terraform/Pulumi и распределенных фреймворков (KubeRay, SkyPilot);
Оптимизация вывода LLM / Transformer (задержки, пропускная способность, память);
Работа с vLLM, SGLang, пакетной обработкой, KV-кэшем, потоковым выводом;
Развертывание и настройка Triton Inference Server, TensorRT, ONNX Runtime;
Применение квантования (INT8 / FP16 / FP8) и анализ компромиссов между точностью и скоростью;
Профилирование и оптимизация использования CUDA/GPU;
Выбор и тестирование GPU для распределенных рабочих нагрузок;
Построение защищенных конвейеров вывода с использованием TEE (Intel SGX, NVIDIA Confidential Computing, аттестация):
Интеграция вывода ИИ с планированием на основе блокчейна и уровнями доверия.
Требования:
- AI / Inference: PyTorch, ONNX; vLLM, SGLang; Triton Inference Server, TensorRT; CUDA, NVIDIA NGC;
- Знания в области систем машинного обучения: Архитектура Transformer, механизм внимания; KV-кэш, токенизация, эмбеддинги; Линейная алгебра для повышения производительности машинного обучения;
- Языки программирования: Python, Rust.
🌐 Резюме отправлять: Откликнуться
–––
Бесплатный постинг вакансий: @freeIT_job
Забирай 📚 Базу Знаний
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- PyTorch
- ONNX
- vLLM
- SGLang
- Triton Inference Server
- TensorRT
- CUDA
- NVIDIA NGC
- Python
- Rust
- Docker
- Kubernetes
- Terraform
- Pulumi
- KubeRay
- SkyPilot
- Intel SGX
Возможные вопросы на собеседовании
Вакансия предполагает работу с высоконагруженным выводом моделей. Знание vLLM критично для оптимизации памяти.
Расскажите, как работает механизм PagedAttention в vLLM и какие проблемы он решает при работе с KV-кэшем?
В требованиях указан Rust, который часто используется для высокопроизводительных системных компонентов.
В каких сценариях при разработке ИИ-инфраструктуры вы бы предпочли Rust вместо Python и почему?
Компания работает с гетерогенными узлами и конфиденциальными вычислениями.
Каков ваш опыт работы с Trusted Execution Environments (TEE), такими как Intel SGX или NVIDIA Confidential Computing, в контексте защиты весов моделей?
Оптимизация производительности — ключевая задача.
Какие стратегии квантования (например, FP8 или INT8) вы использовали и как вы оценивали влияние на перплексию модели?
Упоминается использование KubeRay и SkyPilot для распределенных вычислений.
Как вы организуете планирование ресурсов в Kubernetes для задач, требующих интенсивного использования GPU и минимальных задержек связи между узлами?
Похожие вакансии
MLOps Engineer (Python)
AI Engineer (CV & Navigation)
Middle, Middle+, Senior GenAI/LLM Разработчик
Middle / Senior GenAI Engineer (CV)
AI Engineer / AI Mentor
Junior разработчик agent AI-систем
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия