yandex
T
togetherai
Страна
Нидерланды
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
LeadВ офисеПолная занятость

Lead/Manager Site Reliability Engineering Team (Amsterdam)

ИИОценка ИИ

Исключительно привлекательная вакансия в одной из самых перспективных ИИ-компаний мира. Работа в Амстердаме, участие в разработке передовой инфраструктуры и сильная инженерная культура делают это предложение топовым на рынке.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
ИИОценка ИИ

Высокая сложность обусловлена необходимостью совмещать глубокие технические знания (Kubernetes, Terraform, Ansible) с управленческими навыками и опытом работы в on-call ротации. Работа в сфере ИИ-инфраструктуры требует понимания распределенных систем на экспертном уровне.

Анализ зарплаты

Медиана115 000 €
Рынок95 000 € – 140 000 €
ИИОценка ИИ

Зарплата в объявлении не указана, но для позиции Lead SRE в Амстердаме в технологическом секторе (особенно в AI) рыночные показатели значительно выше средних по городу. Ожидаемый диапазон включает базовый оклад и, как правило, опционы компании.

Сопроводительное письмо

I am writing to express my strong interest in the Lead Site Reliability Engineer position at Together AI. With over 7 years of experience in SRE and a proven track record of leading engineering teams, I am drawn to Together AI’s mission of making AI systems more accessible through open-source innovation and co-designed infrastructure. My expertise in Kubernetes, Terraform, and Ansible, combined with my experience in managing high-availability distributed systems, aligns perfectly with your goal of scaling to a massive number of concurrent users.

In my previous roles, I have successfully led teams through complex production incidents and implemented robust monitoring and observability frameworks that significantly improved system reliability. I am particularly impressed by Together AI's contributions to research like FlashAttention and RedPajama, and I am eager to apply my pragmatic engineering approach to ensure the stability and performance of your cutting-edge AI infrastructure. I look forward to the possibility of discussing how my leadership and technical skills can contribute to the continued growth of your Amsterdam-based team.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в togetherai уже сейчас

Присоединяйтесь к лидерам в области ИИ-инфраструктуры и возглавьте SRE-направление в Амстердаме!

Описание вакансии

About the Role

Lead a team of Site Reliability Engineer (SRE) at Together based out of our office in Amsterdam, you  and the SRE team are responsible for keeping all user-facing services and production systems running smoothly. You are a blend of a pragmatic operator and a software engineer that applies sound engineering principles, operational discipline, and mature automation to our operating environments and codebase.

You specialize in systems (operating systems, storage subsystems, networking), while implementing best practices for availability, reliability and scalability, with varied interests in algorithms and distributed systems.

Responsibilities

  • Be on an on-call (PagerDuty) rotation to respond to incidents that impact availability
  • Manage, develop and coach the SRE Team.
  • Build and run our infrastructure with Ansible, Terraform, and Kubernetes to enable scaling to a massive number of concurrent users
  • Build monitoring systems to ensure the highest quality service for our customers
  • Design and implement operational processes (such as deployments and upgrades)
  • Debug production issues across all services and levels of the stack
  • Identify improvements for the product architecture from the reliability, performance and availability perspectives
  • Plan the growth of Together AI’s infrastructure

Requirements

  • 7+ years of professional SRE or related experience
  • Ideally 2 years as a Lead SRE
  • Bachelor's degree in Computer Science or a related field or equivalent work experience
  • Expert knowledge of Ansible (roles, playbooks), Terraform, and Kubernetes
  • Proficiency in programming/scripting languages
  • Direct experience in monitoring and observability practices
  • Advanced knowledge of cloud services
  • Ability to thrive in a collaborative environment involving different stakeholders and subject matter experts

About Together AI

Together AI is a research-driven artificial intelligence company. We believe open and transparent AI systems will drive innovation and create the best outcomes for society, and together we are on a mission to significantly lower the cost of modern AI systems by co-designing software, hardware, algorithms, and models. We have contributed to leading open-source research, models, and datasets to advance the frontier of AI, and our team has been behind technological advancement such as FlashAttention, Hyena, FlexGen, and RedPajama. We invite you to join a passionate group of researchers and engineers in our journey in building the next generation AI infrastructure.

Equal Opportunity

Together AI is an Equal Opportunity Employer and is proud to offer equal employment opportunity to everyone regardless of race, color, ancestry, religion, sex, national origin, sexual orientation, age, citizenship, marital status, disability, gender identity, veteran status, and more.

Please see our privacy policy at https://www.together.ai/privacy

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • Python
  • Terraform
  • Kubernetes
  • Site Reliability Engineering
  • Distributed Systems
  • Observability
  • Go
  • Ansible
  • Cloud Services

Возможные вопросы на собеседовании

Проверка опыта управления командой и развития инженеров.

Расскажите о вашем опыте руководства SRE-командой: как вы выстраиваете процессы обучения и менторства для своих подчиненных?

Оценка навыков антикризисного управления и технической экспертизы в критических ситуациях.

Опишите самый сложный инцидент в вашей практике. Как вы координировали действия команды и какие шаги предприняли для предотвращения повторения ситуации?

Проверка понимания принципов масштабирования инфраструктуры для ИИ-нагрузок.

Какие специфические вызовы для надежности систем вы видите при масштабировании инфраструктуры для обучения и инференса больших языковых моделей?

Оценка практических навыков работы с ключевым стеком компании.

Как вы организуете структуру Terraform-модулей и Ansible-ролей для обеспечения консистентности среды при быстром росте количества узлов в кластере?

Проверка понимания методологии SRE и управления качеством сервиса.

Как вы определяете и внедряете SLIs/SLOs для новых сервисов, и как вы действуете, если бюджет ошибок (Error Budget) исчерпан?

Похожие вакансии

B
BCA
170 000 ₽ – 200 000 ₽

Ведущий сетевой инженер / Руководитель сетевой инфраструктуры (оператор связи / ISP)

LeadУдалённо
BGP · OSPF · ISP · Network Administration · Routing & Switching · Network Security
+6 навыков
ЛТ
Лайв Тайпинг
250 000 ₽ – 330 000 ₽

Сеньор / Тимлид Системный архитектор

LeadУдалённо
System Architecture · iOS · Android · Web Development · Team Leadership · System Engineering
+6 навыков
Z
Zentist
Не указана

Principal RPA Engineer / RPA Engineering Lead

LeadУдалённо
RPA · SaaS · Automation · Engineering Management · Architecture
+5 навыков
ОИ
ООО ИТ-Экспертиза
Не указана

Ведущий системный инженер (Руководитель группы)

LeadУдалённо
Linux · Systemd · GitLab CI · Docker · Grafana · CI/CD
+6 навыков
НП
НТЦ ПРОТЕЙ
до 300 000 ₽

Ведущий инженер внедрения и поддержки виртуальной инфраструктуры

LeadВ офисе
OpenStack · Linux · BGP · KVM · Virtualization · QEMU
+6 навыков
Д
Джетлин
160 000 ₽ – 240 000 ₽

Middle+ Инженер внедрения

MiddleУдалённо
Active Directory · DNS · DHCP · NTP · AltLinux · RED OS · Astra Linux · Ansible · Salt · SAN · LANS
+11 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

T
togetherai
Страна
Нидерланды