- Страна
- США
- Зарплата
- 6 000 $ – 10 000 $
Откликайтесь
на вакансии с ИИ

Research Intern – Reinforcement Learning (RL) - Onsite
Высокий балл обусловлен работой в перспективной сфере Agentic AI, сильной командой (ex-Google/Meta) и стадией роста компании (Series C). Это отличный старт карьеры для исследователя в области ML.
Сложность вакансии
Стажировка требует глубоких знаний в области математики, теории вероятностей и основ обучения с подкреплением (RL). Работа с реальными производственными данными и библиотеками вроде Verl или Tinker делает позицию технически сложной даже для интерна.
Анализ зарплаты
Для позиции стажера-исследователя в области ИИ в районе залива Сан-Франциско (Bay Area) типичная оплата составляет от $40 до $70 в час. Предложенный диапазон соответствует рыночным стандартам для топовых AI-стартапов.
Сопроводительное письмо
I am writing to express my strong interest in the Research Intern position at Level AI, specifically focusing on Reinforcement Learning. As a student deeply invested in the intersection of RL and Large Language Models, I am excited by Level AI's vision of building custom Small Language Models (SLMs) and agentic systems for customer experience workflows. My background in probability and optimization, combined with my hands-on experience with RL environments, aligns perfectly with your goal of modeling real-world interaction traces.
I have previously worked with RL training libraries and have a keen interest in multi-agent systems and simulation frameworks. The opportunity to work on production-grade Agentic AI systems alongside a team with expertise from Amazon and Google is incredibly motivating. I am eager to contribute to your RLHF and model alignment efforts, helping to turn complex interaction data into high-performing, autonomous agents.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в levelai уже сейчас
Присоединяйтесь к команде экспертов из Google и Meta, чтобы создавать будущее автономных AI-агентов — откликайтесь прямо сейчас!
Описание вакансии
🚀 Build the next generation of Agentic AI with us
Our platform combines conversation intelligence, multimodal understanding, and agentic AI systems to power both human agents and autonomous AI agents across the entire customer experience lifecycle.
A core part of this vision is our investment in custom Small Language Models (SLMs)—purpose-built for CX workflows—paired with reinforcement learning systems that continuously improve decision-making in real-world environments.
We’re looking for a Research Intern (Reinforcement Learning) to join us in shaping this future.
What you’ll do
- Design and build reinforcement learning environments that model real-world customer interaction workflows.
- Design RL agents that learn from these environments using real-world interaction data, rewards, and feedback loops
- Define reward models and feedback loops using real-world signals (outcomes and human feedback)
- Enable learning from production data by structuring interaction traces into training-ready datasets for offline and online learning
- Experiment with multi-agent systems and simulation frameworks for complex coordination and decision-making
- Collaborate with engineering and product teams to deploy, evaluate, and iterate on learning systems in production at scale.
What we’re looking for
- Currently pursuing (or recently completed) a degree in Computer Science, AI, Machine Learning, or related field
- Strong understanding of reinforcement learning fundamentals
- Familiarity with RL environments and training libraries such as Verl and Tinker
- Strong foundation in probability, math, and optimization
- Passion for building real-world AI systems
Nice to have
- Experience with RLHF, LLM/SLM fine-tuning, or model alignment
- Exposure to agent-based systems or multi-agent RL
- Prior research, projects, or publications in RL or applied ML
- Experience working with large-scale or production datasets
Why Level AI
- Work on production-grade Agentic AI systems used by leading enterprises
- Build alongside a team with deep expertise from Amazon, Google, and Meta
- Be part of a fast-growing Series C AI company.
- Direct exposure to 0→1 AI innovation in CX and decisioning systems
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- Machine Learning
- Large Language Models
- Optimization
- Reinforcement Learning
- RLHF
- Probability
- Multi-agent Reinforcement Learning
Возможные вопросы на собеседовании
Проверка базового понимания RL, необходимого для моделирования сред.
В чем разница между On-policy и Off-policy обучением, и какой подход лучше подходит для обучения на исторических данных взаимодействия с клиентами?
Вакансия предполагает работу с обратной связью от людей.
Как бы вы спроектировали функцию вознаграждения (reward function) для AI-агента, который должен решать проблему клиента, минимизируя при этом время разговора?
Упоминание библиотек Verl и Tinker в вакансии требует понимания инструментов.
Был ли у вас опыт работы с фреймворками для RL (например, Gymnasium, Ray Rllib или Verl)? Расскажите о самом сложном окружении, которое вы настраивали.
Работа с SLM и RLHF указана как преимущество.
Как методы RLHF (Reinforcement Learning from Human Feedback) могут быть адаптированы для улучшения работы узкоспециализированных малых языковых моделей (SLMs)?
Вакансия включает работу с многоагентными системами.
С какими основными проблемами (например, нестационарность) вы сталкиваетесь при обучении нескольких агентов в одной среде, и как их можно решить?
Похожие вакансии
Стажер Менеджер по ИИ-инструментам
Стажёр Prompt Engineer
Product Builder Trainee, AI-Native
AI-инженер (Middle+)
A.I. Engineering Intern (Colombia)
AI-инженер (Middle+) & Node.js
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- США
- Зарплата
- 6 000 $ – 10 000 $