yandex
togetherai
Страна
Нидерланды
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
LeadВ офисеПолная занятость

Lead/Manager Site Reliability Engineering Team (Amsterdam)

Оценка ИИ

Исключительно привлекательная вакансия в одной из самых перспективных ИИ-компаний мира. Работа в Амстердаме, участие в разработке передовой инфраструктуры и сильная инженерная культура делают это предложение топовым на рынке.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена необходимостью совмещать глубокие технические знания (Kubernetes, Terraform, Ansible) с управленческими навыками и опытом работы в on-call ротации. Работа в сфере ИИ-инфраструктуры требует понимания распределенных систем на экспертном уровне.

Анализ зарплаты

Медиана115 000 €
Рынок95 000 € – 140 000 €
Оценка ИИ

Зарплата в объявлении не указана, но для позиции Lead SRE в Амстердаме в технологическом секторе (особенно в AI) рыночные показатели значительно выше средних по городу. Ожидаемый диапазон включает базовый оклад и, как правило, опционы компании.

Сопроводительное письмо

I am writing to express my strong interest in the Lead Site Reliability Engineer position at Together AI. With over 7 years of experience in SRE and a proven track record of leading engineering teams, I am drawn to Together AI’s mission of making AI systems more accessible through open-source innovation and co-designed infrastructure. My expertise in Kubernetes, Terraform, and Ansible, combined with my experience in managing high-availability distributed systems, aligns perfectly with your goal of scaling to a massive number of concurrent users.

In my previous roles, I have successfully led teams through complex production incidents and implemented robust monitoring and observability frameworks that significantly improved system reliability. I am particularly impressed by Together AI's contributions to research like FlashAttention and RedPajama, and I am eager to apply my pragmatic engineering approach to ensure the stability and performance of your cutting-edge AI infrastructure. I look forward to the possibility of discussing how my leadership and technical skills can contribute to the continued growth of your Amsterdam-based team.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в togetherai уже сейчас

Присоединяйтесь к лидерам в области ИИ-инфраструктуры и возглавьте SRE-направление в Амстердаме!

Описание вакансии

About the Role

Lead a team of Site Reliability Engineer (SRE) at Together based out of our office in Amsterdam, you  and the SRE team are responsible for keeping all user-facing services and production systems running smoothly. You are a blend of a pragmatic operator and a software engineer that applies sound engineering principles, operational discipline, and mature automation to our operating environments and codebase.

You specialize in systems (operating systems, storage subsystems, networking), while implementing best practices for availability, reliability and scalability, with varied interests in algorithms and distributed systems.

Responsibilities

  • Be on an on-call (PagerDuty) rotation to respond to incidents that impact availability
  • Manage, develop and coach the SRE Team.
  • Build and run our infrastructure with Ansible, Terraform, and Kubernetes to enable scaling to a massive number of concurrent users
  • Build monitoring systems to ensure the highest quality service for our customers
  • Design and implement operational processes (such as deployments and upgrades)
  • Debug production issues across all services and levels of the stack
  • Identify improvements for the product architecture from the reliability, performance and availability perspectives
  • Plan the growth of Together AI’s infrastructure

Requirements

  • 7+ years of professional SRE or related experience
  • Ideally 2 years as a Lead SRE
  • Bachelor's degree in Computer Science or a related field or equivalent work experience
  • Expert knowledge of Ansible (roles, playbooks), Terraform, and Kubernetes
  • Proficiency in programming/scripting languages
  • Direct experience in monitoring and observability practices
  • Advanced knowledge of cloud services
  • Ability to thrive in a collaborative environment involving different stakeholders and subject matter experts

About Together AI

Together AI is a research-driven artificial intelligence company. We believe open and transparent AI systems will drive innovation and create the best outcomes for society, and together we are on a mission to significantly lower the cost of modern AI systems by co-designing software, hardware, algorithms, and models. We have contributed to leading open-source research, models, and datasets to advance the frontier of AI, and our team has been behind technological advancement such as FlashAttention, Hyena, FlexGen, and RedPajama. We invite you to join a passionate group of researchers and engineers in our journey in building the next generation AI infrastructure.

Equal Opportunity

Together AI is an Equal Opportunity Employer and is proud to offer equal employment opportunity to everyone regardless of race, color, ancestry, religion, sex, national origin, sexual orientation, age, citizenship, marital status, disability, gender identity, veteran status, and more.

Please see our privacy policy at https://www.together.ai/privacy

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • Python
  • Terraform
  • Kubernetes
  • Site Reliability Engineering
  • Distributed Systems
  • Observability
  • Go
  • Ansible
  • Cloud Services

Возможные вопросы на собеседовании

Проверка опыта управления командой и развития инженеров.

Расскажите о вашем опыте руководства SRE-командой: как вы выстраиваете процессы обучения и менторства для своих подчиненных?

Оценка навыков антикризисного управления и технической экспертизы в критических ситуациях.

Опишите самый сложный инцидент в вашей практике. Как вы координировали действия команды и какие шаги предприняли для предотвращения повторения ситуации?

Проверка понимания принципов масштабирования инфраструктуры для ИИ-нагрузок.

Какие специфические вызовы для надежности систем вы видите при масштабировании инфраструктуры для обучения и инференса больших языковых моделей?

Оценка практических навыков работы с ключевым стеком компании.

Как вы организуете структуру Terraform-модулей и Ansible-ролей для обеспечения консистентности среды при быстром росте количества узлов в кластере?

Проверка понимания методологии SRE и управления качеством сервиса.

Как вы определяете и внедряете SLIs/SLOs для новых сервисов, и как вы действуете, если бюджет ошибок (Error Budget) исчерпан?

Похожие вакансии

k2spacecorporation
140 000 $ – 200 000 $

Principal RFIC Layout Designer

LeadУдалённоСША
RFIC Layout · FinFET · SoC Integration · DRC · LVS · ERC · EMIR · ESD · Floorplanning · Parasitic Extraction · Mixed-Signal Design · Cadence Virtuoso
+12 навыков
includedhealth
120 050 $ – 202 891 $

Sr. Lead Solutions Engineer

LeadУдалённоСША
SQL · Data Architecture · Technical Account Management · Project Management · Mentoring · Cross-functional Leadership
+6 навыков
JETLYN
350 000 ₽ – 450 000 ₽

C++ Developer (System Programming / COM & RPC)

SeniorУдалённоРоссия
C++ · COM · DCOM · RPC · POSIX · Linux · Socket Programming · Multithreading · Wireshark · WINE
+10 навыков
pinterest
242 634 $ – 499 541 $

Principal Engineer, Compute Platform

LeadУдалённоСША
Kubernetes · Distributed Systems · GPU · Cloud Computing · Multi-cloud · Infrastructure as Code · Capacity Planning · SRE · Containerization · Scalability
+10 навыков
afresh
134 000 $ – 181 000 $

Lead Solutions Engineer

LeadУдалённоСША
SQL · Excel · ETL · Data Architecture · Predictive Analytics · Project Management · Stakeholder Management · Data Modeling · AI · Machine Learning
+10 навыков
budderfly
22 $ – 40 $

Service Excellence HVAC/R Lead Technician (Greenville, SC)

LeadУдалённоСША
HVAC · Refrigeration · HVAC controls · Lennox Core Controllers · Carrier SystemVu · Electrical Troubleshooting · Mechanical Maintenance · Energy Management
+8 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

togetherai
Страна
Нидерланды