Страна: США
Зарплата: 6 000 $ – 10 000 $

+500% приглашений

Откликайтесь
на вакансии с ИИ

InternВ офисеКонтракт

Research Intern – Reinforcement Learning (RL) - Onsite

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Высокий балл обусловлен работой в перспективной сфере Agentic AI, сильной командой (ex-Google/Meta) и стадией роста компании (Series C). Это отличный старт карьеры для исследователя в области ML.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Стажировка требует глубоких знаний в области математики, теории вероятностей и основ обучения с подкреплением (RL). Работа с реальными производственными данными и библиотеками вроде Verl или Tinker делает позицию технически сложной даже для интерна.

Анализ зарплаты

Медиана96 000 $

Рынок72 000 $ – 120 000 $

Для позиции стажера-исследователя в области ИИ в районе залива Сан-Франциско (Bay Area) типичная оплата составляет от $40 до $70 в час. Предложенный диапазон соответствует рыночным стандартам для топовых AI-стартапов.

I am writing to express my strong interest in the Research Intern position at Level AI, specifically focusing on Reinforcement Learning. As a student deeply invested in the intersection of RL and Large Language Models, I am excited by Level AI's vision of building custom Small Language Models (SLMs) and agentic systems for customer experience workflows. My background in probability and optimization, combined with my hands-on experience with RL environments, aligns perfectly with your goal of modeling real-world interaction traces.

I have previously worked with RL training libraries and have a keen interest in multi-agent systems and simulation frameworks. The opportunity to work on production-grade Agentic AI systems alongside a team with expertise from Amazon and Google is incredibly motivating. I am eager to contribute to your RLHF and model alignment efforts, helping to turn complex interaction data into high-performing, autonomous agents.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в levelai уже сейчас

Присоединяйтесь к команде экспертов из Google и Meta, чтобы создавать будущее автономных AI-агентов — откликайтесь прямо сейчас!

Описание вакансии

🚀 Build the next generation of Agentic AI with us

Our platform combines conversation intelligence, multimodal understanding, and agentic AI systems to power both human agents and autonomous AI agents across the entire customer experience lifecycle.

A core part of this vision is our investment in custom Small Language Models (SLMs)—purpose-built for CX workflows—paired with reinforcement learning systems that continuously improve decision-making in real-world environments.

We’re looking for a Research Intern (Reinforcement Learning) to join us in shaping this future.

What you’ll do

Design and build reinforcement learning environments that model real-world customer interaction workflows.
Design RL agents that learn from these environments using real-world interaction data, rewards, and feedback loops
Define reward models and feedback loops using real-world signals (outcomes and human feedback)
Enable learning from production data by structuring interaction traces into training-ready datasets for offline and online learning
Experiment with multi-agent systems and simulation frameworks for complex coordination and decision-making
Collaborate with engineering and product teams to deploy, evaluate, and iterate on learning systems in production at scale.

What we’re looking for

Currently pursuing (or recently completed) a degree in Computer Science, AI, Machine Learning, or related field
Strong understanding of reinforcement learning fundamentals
Familiarity with RL environments and training libraries such as Verl and Tinker
Strong foundation in probability, math, and optimization
Passion for building real-world AI systems

Nice to have

Experience with RLHF, LLM/SLM fine-tuning, or model alignment
Exposure to agent-based systems or multi-agent RL
Prior research, projects, or publications in RL or applied ML
Experience working with large-scale or production datasets

Why Level AI

Work on production-grade Agentic AI systems used by leading enterprises
Build alongside a team with deep expertise from Amazon, Google, and Meta
Be part of a fast-growing Series C AI company.
Direct exposure to 0→1 AI innovation in CX and decisioning systems

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Reinforcement Learning
Machine Learning
Python
Probability
Optimization
RLHF
Large Language Models
Multi-agent Reinforcement Learning

Возможные вопросы на собеседовании

Проверка базового понимания RL, необходимого для моделирования сред.

В чем разница между On-policy и Off-policy обучением, и какой подход лучше подходит для обучения на исторических данных взаимодействия с клиентами?

Вакансия предполагает работу с обратной связью от людей.

Как бы вы спроектировали функцию вознаграждения (reward function) для AI-агента, который должен решать проблему клиента, минимизируя при этом время разговора?

Упоминание библиотек Verl и Tinker в вакансии требует понимания инструментов.

Был ли у вас опыт работы с фреймворками для RL (например, Gymnasium, Ray Rllib или Verl)? Расскажите о самом сложном окружении, которое вы настраивали.

Работа с SLM и RLHF указана как преимущество.

Как методы RLHF (Reinforcement Learning from Human Feedback) могут быть адаптированы для улучшения работы узкоспециализированных малых языковых моделей (SLMs)?

Вакансия включает работу с многоагентными системами.

С какими основными проблемами (например, нестационарность) вы сталкиваетесь при обучении нескольких агентов в одной среде, и как их можно решить?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

СШАот 6 000 $

Откликайтесь
на вакансии с ИИ

Research Intern – Reinforcement Learning (RL) - Onsite

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в levelai уже сейчас

Описание вакансии

What you’ll do

What we’re looking for

Nice to have

Why Level AI

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

В чем разница между On-policy и Off-policy обучением, и какой подход лучше подходит для обучения на исторических данных взаимодействия с клиентами?

Как бы вы спроектировали функцию вознаграждения (reward function) для AI-агента, который должен решать проблему клиента, минимизируя при этом время разговора?

Был ли у вас опыт работы с фреймворками для RL (например, Gymnasium, Ray Rllib или Verl)? Расскажите о самом сложном окружении, которое вы настраивали.

Как методы RLHF (Reinforcement Learning from Human Feedback) могут быть адаптированы для улучшения работы узкоспециализированных малых языковых моделей (SLMs)?

С какими основными проблемами (например, нестационарность) вы сталкиваетесь при обучении нескольких агентов в одной среде, и как их можно решить?

Похожие вакансии

Специалист по сборке чат-ботов

Стажёр AI / ML Engineer (Astra Linux)

Стажёр в команду разработки AI-инфраструктуры фронтенда Яндекс 360

TeamLead MLOps / DevOps (Пайплайны)

Стажёр в команду NLP / RL (GigaChat)

Middle-разработчик (AI-инженер)

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Research Intern – Reinforcement Learning (RL) - Onsite

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в levelai уже сейчас

Описание вакансии

What you’ll do

What we’re looking for

Nice to have

Why Level AI

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

В чем разница между On-policy и Off-policy обучением, и какой подход лучше подходит для обучения на исторических данных взаимодействия с клиентами?

Как бы вы спроектировали функцию вознаграждения (reward function) для AI-агента, который должен решать проблему клиента, минимизируя при этом время разговора?

Был ли у вас опыт работы с фреймворками для RL (например, Gymnasium, Ray Rllib или Verl)? Расскажите о самом сложном окружении, которое вы настраивали.

Как методы RLHF (Reinforcement Learning from Human Feedback) могут быть адаптированы для улучшения работы узкоспециализированных малых языковых моделей (SLMs)?

С какими основными проблемами (например, нестационарность) вы сталкиваетесь при обучении нескольких агентов в одной среде, и как их можно решить?

Похожие вакансии

Специалист по сборке чат-ботов

Стажёр AI / ML Engineer (Astra Linux)

Стажёр в команду разработки AI-инфраструктуры фронтенда Яндекс 360

TeamLead MLOps / DevOps (Пайплайны)

Стажёр в команду NLP / RL (GigaChat)

Middle-разработчик (AI-инженер)

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ