- Страна
- США
- Зарплата
- 189 000 $ – 290 000 $
Откликайтесь
на вакансии с ИИ

Senior Machine Learning Engineer - Scene Understanding
Исключительная возможность работать над передовыми технологиями в лидирующей компании в сфере беспилотников. Высокая зарплата, работа с уникальными данными и сильная инженерная культура делают эту вакансию очень привлекательной.
Сложность вакансии
Роль требует глубоких экспертных знаний в области VLM/VLA моделей и опыта работы с крупномасштабными пайплайнами данных. Высокая сложность обусловлена необходимостью внедрения передовых исследований в реальные системы с жесткими требованиями к задержке.
Анализ зарплаты
Предлагаемый диапазон $189k–$290k полностью соответствует и даже несколько превышает рыночные стандарты для Senior ML ролей в Кремниевой долине, особенно в узкоспециализированной нише автономного транспорта.
Сопроводительное письмо
I am writing to express my strong interest in the Senior Machine Learning Engineer position within the Scene Understanding team at Zoox. With a solid background in developing and deploying large-scale Vision-Language models and a deep expertise in PyTorch and production ML pipelines, I am eager to contribute to the perception capabilities of your autonomous robotaxis. My experience in post-training stacks, including Continual Pre-training and Supervised Fine-Tuning, aligns perfectly with your mission to enhance real-time hazard detection and driving suggestions.
Throughout my career, I have focused on bridging the gap between cutting-edge research and real-world application. I am particularly impressed by Zoox's ground-up approach to autonomous mobility and the integration of Vision-Language-Action (VLA) models into the driving stack. I am confident that my technical skills in dataset strategy and ML infrastructure, combined with my passion for robotics, will allow me to make immediate contributions to the Perception team and help Zoox achieve its goal of safe, efficient urban mobility.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в zoox уже сейчас
Присоединяйтесь к Zoox, чтобы создавать будущее автономного транспорта с помощью передовых VLA-моделей!
Описание вакансии
The Perception team at Zoox creates the "eyes and ears" of our self-driving robots. Navigating safely and efficiently in complex environments requires detecting, classifying, tracking, and understanding various attributes of surrounding objects—all in real-time and with exceptional accuracy.
As an engineer in the Scene Understanding team, you will develop advancedVision-Language-Action (VLA) models that perceive our vehicle's surroundings to identify hazards and make driving suggestions. You will utilize VLA models for detecting rare events and ensuring safe driving in these situations. You'll work with state-of-the-art machine learning models that operate in real-time on our robotaxi platform with minimal latency. Collaborating with world-class engineers and researchers across sensors, planning, and other teams, you'll have access to premium sensor data and cutting-edge infrastructure to validate your algorithms in real-world conditions.
In this role, you will...
- Design and train Vision-Language-Action (VLA) solutions for robotaxis
- Lead end-to-end data strategy, including mining, auto-labeling, and dataset construction to power our ML flywheel
- Lead the full post-training stack for VLMs and VLAs, including Continual Pre-training (CPT) on domain-specific driving data, Supervised Fine-Tuning (SFT) for instruction following.
- Utilize our large-scale data pipelines and ML infrastructure to research, prototype, and deploy solutions that improve driving behavior
- Partner with cross-functional teams to integrate perception signals
Qualifications
- MS or PhD in Computer Science or related field
- Background in deep learning solutions for VLM and VLA models
- Track record in post-training large-scale models, CPT, SFT, RL
- Hands-on experience with production ML pipelines, including dataset creation, training frameworks, and metrics
- Expertise in Python libraries (PyTorch, NumPy, Pandas, VLLM)
Bonus Qualifications
- Deep knowledge of cutting-edge computer vision techniques
- Publications in top-tier conferences (CVPR, ICCV, RSS, ICRA)
- Experience with integrating large language models to various tasks.
About Zoox
Zoox is developing the first ground-up, fully autonomous vehicle fleet and the supporting ecosystem required to bring this technology to market. Sitting at the intersection of robotics, machine learning, and design, Zoox aims to provide the next generation of mobility-as-a-service in urban environments. We’re looking for top talent that shares our passion and wants to be part of a fast-moving and highly execution-oriented team.
Accommodations
If you need an accommodation to participate in the application or interview process please reach out to accommodations@zoox.com or your assigned recruiter.
*A Final Note:*
You do not need to match every listed expectation to apply for this position. Here at Zoox, we know that diverse perspectives foster the innovation we need to be successful, and we are committed to building a team that encompasses a variety of backgrounds, experiences, and skills.
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- NumPy
- Pandas
- PyTorch
- Machine Learning
- Computer Vision
- Deep Learning
- Natural Language Processing
- Reinforcement Learning
- vLLM
- Vision Language Models
- Vision-Language-Action models
Возможные вопросы на собеседовании
Проверка понимания специфики обучения моделей на данных из реального мира.
Как вы подходите к стратегии Continual Pre-training (CPT) для адаптации базовых VLM к специфическим условиям вождения?
Оценка навыков работы с данными для обучения моделей.
Опишите ваш опыт создания пайплайнов автоматической разметки (auto-labeling) для редких событий на дороге.
Проверка умения оптимизировать тяжелые модели для работы в реальном времени.
Какие методы оптимизации задержки (latency) вы применяли при деплое VLA-моделей на встраиваемые платформы?
Оценка понимания современных техник дообучения.
В чем заключаются основные сложности при реализации Supervised Fine-Tuning (SFT) для следования инструкциям в контексте автономного вождения?
Проверка навыков интеграции различных модальностей.
Как эффективно объединить визуальные признаки с текстовыми токенами для принятия решений в задачах Vision-Language-Action?
Похожие вакансии
AI Engineer (CV & Navigation)
Senior / Lead LLM Engineer
Middle, Middle+, Senior GenAI/LLM Разработчик
Senior Python AI Developer
GenAI/LLM Разработчик
Middle / Senior GenAI Engineer (CV)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- США
- Зарплата
- 189 000 $ – 290 000 $