+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorУдалённоПолная занятость

Senior ML Solutions Architect - Token Factory

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Nebius — это быстрорастущий международный игрок в сфере ИИ-инфраструктуры с листингом на Nasdaq. Позиция предлагает работу с передовыми технологиями (Token Factory), удаленный формат работы по всей Европе и возможность влиять на развитие платформы.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует глубоких знаний в области LLM, RAG и агентных фреймворков, а также опыта работы с инфраструктурой инференса (vLLM, TensorRT-LLM). Высокая сложность обусловлена необходимостью совмещать глубокую техническую экспертизу с навыками архитектурного проектирования для клиентов.

Анализ зарплаты

Медиана110 000 €

Рынок90 000 € – 140 000 €

Зарплата в объявлении не указана, но для уровня Senior ML Solutions Architect в европейских R&D центрах (таких как Амстердам или Берлин) рыночные показатели обычно выше среднего по IT-сектору. Nebius позиционирует себя как конкурентный работодатель, предлагая пакеты, соответствующие уровню Tier-1 компаний.

I am writing to express my strong interest in the Senior ML Solutions Architect position at Nebius. With over five years of experience in ML systems and a deep focus on LLM architectures, I have successfully designed and deployed production-ready RAG systems and agentic workflows. My background in optimizing inference and working with frameworks like vLLM and LangChain aligns perfectly with the technical requirements of the Token Factory platform.

In my previous roles, I have bridged the gap between complex AI infrastructure and client business needs, guiding projects from initial POC to scalable production environments. I am particularly impressed by Nebius's commitment to open-source LLMs and serverless infrastructure, and I am eager to contribute my expertise in prompt engineering and multimodal models to help your customers maximize the value of the Token Factory. I look forward to the possibility of discussing how my technical skills and client-facing experience can support Nebius's growth.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Присоединяйтесь к Nebius и станьте архитектором будущего в сфере серверлесс-инференса LLM!

Описание вакансии

Why work at NebiusNebius is leading a new era in cloud computing to serve the global AI economy. We create the tools and resources our customers need to solve real-world challenges and transform industries, without massive infrastructure costs or the need to build large in-house AI/ML teams. Our employees work at the cutting edge of AI cloud infrastructure alongside some of the most experienced and innovative leaders and engineers in the field.

Where we workHeadquartered in Amsterdam and listed on Nasdaq, Nebius has a global footprint with R&D hubs across Europe, North America, and Israel. The team of over 1400 employees includes more than 400 highly skilled engineers with deep expertise across hardware and software engineering, as well as an in-house AI R&D team.

The role

We seek an experienced Senior ML Solutions Architect to support customers leveraging Nebius Token Factory's serverless inference platform for open-source LLMs across multiple modalities. In this role, you will be collaborating with clients to design and implement customized LLM-based solution and architect scalable AI applications using our served models, and working together with our backend team to improve our platform to match the clients' needs.

You’re welcome to work remotely from Europe.

Your responsibilities will include:

Design and implement LLM-based solutions using Nebius Token Factory’s inference services to drive business value and support customer goals
Build production-ready applications leveraging our serverless LLM APIs, including multimodal models (text, vision, audio) and domain-specific models
Provide technical expertise in prompt engineering, RAG architectures, model selection, and inference optimization
Collaborate with product and engineering teams to surface customer feedback and shape the platform roadmap
Guide customers in scaling from POC to production with a focus on performance, reliability, and cost efficiency

We expect you to have:

5+ years of experience in ML/AI systems, with at least 2 years focused on LLMs and generative AI
Deep knowledge of the LLM ecosystem, including model architectures and fine-tuning approaches
Hands-on experience with:

+ Prompt engineering and LLM pipeline development, including evaluation

+ Agentic frameworks such as Langchain, Langsmith, smolagents, or equivalent

+ Vector databases and RAG implementation patterns

+ Deploying LLM-powered applications using APIs from OpenAI, Anthropic, or open-source models

Strong Python programming skills
Excellent communication skills, with the ability to clearly explain technical concepts to diverse audiences

It would be an added bonus if you have:

Experience with inference frameworks and libraries (e.g., vLLM, SGLang, TensorRT-LLM, Transformers)
Familiarity with inference optimization techniques such as quantization, batching, caching, and routing
Work with multimodal AI models (e.g., vision-language, speech)
Proficiency with DevOps tools (Docker, Kubernetes)
Contributions to open-source ML/AI projects

Preferred technical stack:

Programming Languages – Python
ML Frameworks and Libraries – vLLM, SGLang, TensorRT-LLM, Transformers, OpenAI/Anthropic SDKs
Frameworks for Agentic Pipelines – Langchain / Langsmith / smolagents / equivalent
API and Web Frameworks – FastAPI, Flask
MLOps and DevOps tools – Kubernetes (K8s), Docker, Git
Cloud Platforms – AWS (SageMaker, Bedrock), GCP (Vertex AI), Azure (Azure ML)

What we offer

Competitive salary and comprehensive benefits package.
Opportunities for professional growth within Nebius.
Flexible working arrangements.
A dynamic and collaborative work environment that values initiative and innovation.

We’re growing and expanding our products every day. If you’re up to the challenge and are excited about AI and ML as much as we are, join us!

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

AWS
Python
GCP
PyTorch
LLM
Kubernetes
Transformers
RAG
Prompt Engineering
Docker
Generative AI
FastAPI
LangChain
vLLM
TensorRT-LLM

Возможные вопросы на собеседовании

Проверка практического опыта оптимизации производительности и стоимости инференса.

Какие стратегии оптимизации инференса (квантование, батчинг, кэширование) вы бы предложили клиенту для снижения задержек в высоконагруженном приложении?

Оценка навыков проектирования сложных систем на базе LLM.

Опишите ваш опыт проектирования RAG-систем: как вы решали проблемы релевантности поиска и галлюцинаций модели?

Проверка владения современным стеком для создания ИИ-агентов.

В чем, по вашему мнению, основные преимущества и недостатки использования LangChain по сравнению с написанием кастомных агентных пайплайнов на Python?

Оценка способности работать с мультимодальными данными.

С какими сложностями вы сталкивались при интеграции Vision-Language моделей в продакшн-решения?

Проверка навыков взаимодействия с клиентами и приоритизации.

Как вы подходите к сбору обратной связи от клиентов для формирования дорожной карты продукта (Product Roadmap)?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Откликайтесь
на вакансии с ИИ

Senior ML Solutions Architect - Token Factory

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Описание вакансии

The role

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие стратегии оптимизации инференса (квантование, батчинг, кэширование) вы бы предложили клиенту для снижения задержек в высоконагруженном приложении?

Опишите ваш опыт проектирования RAG-систем: как вы решали проблемы релевантности поиска и галлюцинаций модели?

В чем, по вашему мнению, основные преимущества и недостатки использования LangChain по сравнению с написанием кастомных агентных пайплайнов на Python?

С какими сложностями вы сталкивались при интеграции Vision-Language моделей в продакшн-решения?

Как вы подходите к сбору обратной связи от клиентов для формирования дорожной карты продукта (Product Roadmap)?

Похожие вакансии

ML разработчик (Senior)

Senior / Middle+ Data Scientist

MlOps / Python Backend Engineer (ML)

Data Scientist Senior

Senior/Middle Data Engineer

Senior Data Scientist

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Senior ML Solutions Architect - Token Factory

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в nebius уже сейчас

Описание вакансии

The role

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие стратегии оптимизации инференса (квантование, батчинг, кэширование) вы бы предложили клиенту для снижения задержек в высоконагруженном приложении?

Опишите ваш опыт проектирования RAG-систем: как вы решали проблемы релевантности поиска и галлюцинаций модели?

В чем, по вашему мнению, основные преимущества и недостатки использования LangChain по сравнению с написанием кастомных агентных пайплайнов на Python?

С какими сложностями вы сталкивались при интеграции Vision-Language моделей в продакшн-решения?

Как вы подходите к сбору обратной связи от клиентов для формирования дорожной карты продукта (Product Roadmap)?

Похожие вакансии

ML разработчик (Senior)

Senior / Middle+ Data Scientist

MlOps / Python Backend Engineer (ML)

Data Scientist Senior

Senior/Middle Data Engineer

Senior Data Scientist

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ