yandex
cerebrassystems
Страна
Канада
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
ГибридПолная занятость

ML Performance Benchmarking Engineer

Оценка ИИ

Исключительная возможность работать с уникальным "железом" и участвовать в партнерстве с OpenAI. Высокий балл за инновационность продукта и потенциал влияния на всю индустрию ИИ.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Роль требует глубоких знаний на стыке софта и железа, а также опыта работы с высоконагруженными системами. Сложность обусловлена уникальностью архитектуры Wafer-Scale Engine, которая не имеет аналогов на рынке.

Анализ зарплаты

Медиана145 000 $
Рынок115 000 $ – 180 000 $
Оценка ИИ

Предлагаемая позиция в Торонто соответствует уровню топовых технологических компаний. Рыночные оценки для инженеров такого профиля в Канаде начинаются от 130k CAD для специалистов среднего уровня и могут превышать 200k CAD для экспертов, учитывая дефицит кадров на стыке ML и системного программирования.

Сопроводительное письмо

I am writing to express my strong interest in the ML Performance Benchmarking Engineer position at Cerebras Systems. Having followed Cerebras' groundbreaking work in wafer-scale integration, I am inspired by your mission to move beyond the constraints of traditional GPU architectures. My background in building automated infrastructure and optimizing system throughput aligns perfectly with the goals of the Inference Core Platform group.

In my previous experience, I have focused on developing robust telemetry systems and performance analysis pipelines that bridge the gap between hardware capabilities and software efficiency. I am particularly excited about the opportunity to work on the WSE-3 and contribute to the benchmarking infrastructure that informs critical engineering decisions. I thrive in fast-paced environments where deep-diving into complex system bottlenecks is the norm, and I am eager to bring my analytical mindset to the Toronto team to help scale the world's fastest AI inference solution.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в cerebrassystems уже сейчас

Присоединяйтесь к команде, создающей самое быстрое в мире решение для инференса ИИ на уникальной архитектуре Cerebras!

Описание вакансии

Cerebras Systems builds the world's largest AI chip, 56 times larger than GPUs. Our novel wafer-scale architecture provides the AI compute power of dozens of GPUs on a single chip, with the programming simplicity of a single device. This approach allows Cerebras to deliver industry-leading training and inference speeds and empowers machine learning users to effortlessly run large-scale ML applications, without the hassle of managing hundreds of GPUs or TPUs.  

Cerebras' current customers include top model labs, global enterprises, and cutting-edge AI-native startups. OpenAI recently announced a multi-year partnership with Cerebras, to deploy 750 megawatts of scale, transforming key workloads with ultra high-speed inference.

Thanks to the groundbreaking wafer-scale architecture, Cerebras Inference offers the fastest Generative AI inference solution in the world, over 10 times faster than GPU-based hyperscale cloud inference services. This order of magnitude increase in speed is transforming the user experience of AI applications, unlocking real-time iteration and increasing intelligence via additional agentic computation.

About The Role

The Inference Core Platform group is at the heart of Cerebras' mission to deliver the world’s fastest AI inference. Our team builds the foundational software and hardware infrastructure that powers low-latency, high-speed, high-throughput deployment on the Cerebras Wafer-Scale Engine (WSE). We are responsible for the full stack—from model compilation and scheduling down to custom hardware kernels and driver development.

The Platform Benchmarking team plays a pivotal role in shaping the performance and scalability of AI inference on one of the most advanced computing systems ever built. We drive the bring-up of core inference capabilities and deliver performance improvements at every stage of development – from early prototyping to production deployment.

We're looking for passionate engineers to join us in redefining the limits of AI inference. If you thrive on building systems that measure, analyze, and optimize performance at scale, this is your opportunity to make a transformative impact on the future of AI.

Scope of the team includes:

  • Core Inference Observability – Design and implement end-to-end telemetry systems across the software stack, providing deep visibility into inference performance and enabling rapid iteration before and after deployment.
  • Benchmarking Infrastructure – Architect, build, and scale the automation that generates, analyzes, and visualizes performance data used to inform business decisions across engineering and leadership.
  • Performance Analysis – Dive deep into system behavior, dissect performance bottlenecks, and deliver actionable insights that directly influence which features ship and how they evolve.
  • Feature Integration – Partner closely with Core Platform teams to define rigorous testing methodologies that validate inference features for peak performance.

Skills & Qualifications

  • Bachelor’s or Master’s degree in Computer Engineering, Systems Engineering, or a related field.
  • Proficiency in Python and/or C++ programming.
  • Proven experience in building and scaling automated infrastructure.
  • Strong background in throughput and performance optimization techniques, especially in complex, large-scale systems.
  • Excellent problem-solving skills and a strong analytical mindset.
  • Demonstrated ability to dive deep into new domains.
  • Ability to work in a fast-paced, ambiguous, and collaborative environment.

Preferred Skills & Qualifications

  • Familiarity with problem-solving at the intersection of hardware and software.
  • Hands-on experience with AI workloads and architectures is a plus.

Location

  • On-site or hybrid at our Toronto office

Why Join Cerebras

People who are serious about software make their own hardware. At Cerebras we have built a breakthrough architecture that is unlocking new opportunities for the AI industry. With dozens of model releases and rapid growth, we’ve reached an inflection  point in our business. Members of our team tell us there are five main reasons they joined Cerebras:

  1. Build a breakthrough AI platform beyond the constraints of the GPU.
  2. Publish and open source their cutting-edge AI research.
  3. Work on one of the fastest AI supercomputers in the world.
  4. Enjoy job stability with startup vitality.
  5. Our simple, non-corporate work culture that respects individual beliefs.

Read our blog: Five Reasons to Join Cerebras in 2026.

Apply today and become part of the forefront of groundbreaking advancements in AI!


Cerebras Systems is committed to creating an equal and diverse environment and is proud to be an equal opportunity employer.We celebrate different backgrounds, perspectives, and skills. We believe inclusive teams build better products and companies. We try every day to build a work environment that empowers people to do their best work through continuous learning, growth and support of those around them.


This website or its third-party tools process personal data. For more details, click here to review our CCPA disclosure notice.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • C++
  • Python
  • Machine Learning
  • Systems Engineering
  • Automation
  • Benchmarking
  • Performance Optimization
  • Telemetry

Возможные вопросы на собеседовании

Проверка понимания фундаментальных ограничений текущих решений и преимуществ архитектуры Cerebras.

Как отсутствие задержек на передачу данных между чипами в архитектуре Wafer-Scale влияет на методику измерения пропускной способности (throughput) по сравнению с кластерами GPU?

Оценка навыков проектирования систем мониторинга.

Опишите, как бы вы спроектировали систему телеметрии для отслеживания производительности ядер в реальном времени, минимизируя при этом накладные расходы (overhead) на саму систему измерения?

Проверка аналитических способностей и умения находить узкие места.

Если модель показывает высокую теоретическую производительность, но низкую реальную скорость инференса, какие шаги вы предпримете для локализации проблемы между компилятором, драйвером и кастомными ядрами?

Оценка опыта автоматизации.

Расскажите о самом сложном пайплайне автоматизации тестирования производительности, который вы создавали. С какими проблемами масштабируемости вы столкнулись?

Проверка владения инструментарием.

Какие инструменты профилирования в Python и C++ вы считаете наиболее эффективными для анализа задержек (latency) в распределенных системах и почему?

Похожие вакансии

более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

cerebrassystems
Страна
Канада