yandex
gruve
Страна
США
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
SeniorВ офисеПолная занятость

Senior Site Reliability Engineer

Оценка ИИ

Отличная вакансия в перспективном стартапе, работающем на стыке AI и инфраструктуры. Высокий балл за работу с передовыми технологиями (LLM, GPU) и возможность занять лидерскую позицию на раннем этапе развития компании.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена требованиями к глубокому опыту (6–9 лет), знанию специфики GPU-инфраструктуры и ML Ops, а также необходимостью лидерских качеств для управления инцидентами и менторства.

Анализ зарплаты

Медиана195 000 $
Рынок165 000 $ – 240 000 $
Оценка ИИ

Зарплата в объявлении не указана, но для позиции Senior SRE в таких локациях, как Redwood City (Кремниевая долина) и Нью-Джерси, рыночные ставки являются одними из самых высоких в мире. Стартапы на стадии активного финансирования обычно предлагают конкурентоспособные оклады в сочетании с опционами.

Сопроводительное письмо

I am writing to express my strong interest in the Senior Site Reliability Engineer position at Gruve. With over 7 years of experience in platform engineering and a deep expertise in Kubernetes and cloud infrastructure, I am excited about the opportunity to lead reliability strategies for your AI-driven enterprise solutions. My background in automating complex environments and managing high-scale observability stacks aligns perfectly with Gruve's mission to transform businesses through advanced technology.

In my previous roles, I have successfully architected resilient systems and led incident management processes that significantly improved system uptime and team response times. I am particularly drawn to Gruve's focus on GPU infrastructure and ML Ops, as I have been actively working on optimizing model lifecycle workflows and performance tuning. I am confident that my technical leadership and passion for building scalable, reliable systems will make a significant contribution to your growing team in Redwood City or Edison.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в gruve уже сейчас

Присоединяйтесь к Gruve, чтобы проектировать надежную инфраструктуру для ИИ-решений будущего и работать с передовыми GPU-системами!

Описание вакансии

About Gruve

Gruve is an innovative software services startup dedicated to transforming enterprises to AI powerhouses. We specialize in cybersecurity, customer experience, cloud infrastructure, and advanced technologies such as Large Language Models (LLMs). Our mission is to assist our customers in their business strategies utilizing their data to make more intelligent decisions. As a well-funded early-stage startup, Gruve offers a dynamic environment with strong customer and partner networks.

About the Role

This role leads reliability strategy and architectural improvements across infrastructure, GPU systems, observability, ML Ops and IT Ops. Mentor engineers, manage high-severity incidents, and drive SLO governance.  You will work with other SRE engineers to set up, maintain, and troubleshoot the stack from bare metal through the application layer. 

Key Responsibilities

  • Architect reliability improvements across Kubernetes, GPU infrastructure, ML Ops, networking, and monitoring.
  • Lead incident management, blameless post-mortems, and error-budget policies.
  • Drive automation, IaC, and reliability tooling at scale.
  • Oversee metrics, logs, tracing, and dashboards; ensure actionable alerting.
  • Integrate GPU operators/exporters and model lifecycle workflows for inference platforms.
  • Mentor junior and mid-level SREs and guide cross-team initiatives.

Basic Qualifications

  • 6–9 years of SRE or platform engineering experience.
  • Expert Kubernetes operations and cloud platform experience (AWS/GCP/Azure).
  • Advanced networking and security fundamentals.
  • Strong coding background (Python, Go, or Java).
  • Deep observability knowledge (Prometheus, Grafana, ELK / Fluentd).

Preferred Qualifications

  • GPU reference architecture expertise and performance tuning.
  • Experience with chaos engineering, capacity planning, and multi-region design.

*This is an onsite, full-time position with Gruve. The role is open at our Redwood City, California, and Edison, New Jersey offices.*

Why Gruve

At Gruve, we foster a culture of innovation, collaboration, and continuous learning. We are committed to building a diverse and inclusive workplace where everyone can thrive and contribute their best work. If you’re passionate about technology and eager to make an impact, we’d love to hear from you.

Gruve is an equal opportunity employer. We welcome applicants from all backgrounds and thank all who apply; however, only those selected for an interview will be contacted.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • Kubernetes
  • AWS
  • Google Cloud Platform
  • Azure
  • Python
  • Go
  • Java
  • Prometheus
  • Grafana
  • ELK stack
  • Fluentd
  • Infrastructure as Code
  • MLOps
  • GPU
  • Networking
  • Security

Возможные вопросы на собеседовании

Проверка опыта работы с критической инфраструктурой для ИИ-нагрузок.

Расскажите о вашем опыте настройки и оптимизации GPU-операторов в Kubernetes для задач инференса моделей.

Оценка навыков управления надежностью и процессами.

Как вы внедряли политики бюджетов ошибок (error budgets) и SLO в командах, которые ранее их не использовали?

Проверка технических навыков в области сетевого взаимодействия и безопасности.

С какими наиболее сложными сетевыми проблемами в многорегиональных облачных архитектурах вы сталкивались и как их решали?

Оценка лидерских качеств и культуры работы с инцидентами.

Опишите ваш подход к проведению 'беспристрастных' (blameless) пост-мортемов после критических сбоев.

Проверка навыков автоматизации.

Какие инструменты IaC вы предпочитаете для масштабирования инфраструктуры и как вы обеспечиваете их надежность при работе в большой команде?

Похожие вакансии

klaviyo
148 000 $ – 222 000 $

Senior Software Engineer - Devx

SeniorГибридСША
Python · Django · React · FastAPI · PostgreSQL · MySQL · Redis · ClickHouse · RabbitMQ · Celery · Apache Pulsar · AWS · Microservices · CI/CD · REST · gRPC · React Query
+17 навыков
inversionspace
140 000 $ – 165 000 $

Senior Software Engineer (DevOps)

SeniorВ офисеСША
Python · Bash · Ansible · Terraform · AWS · Git · GitLab · Jenkins · Linux · Docker · Kubernetes · Bazel · CMake · C++ · Rust
+15 навыков
inversionspace
72 800 $ – 108 160 $

Senior Build & Integration Technician

SeniorВ офисеСША
Aerospace · Metal Fabrication · Welding · Hydraulics · Electrical Troubleshooting · CAD · SolidWorks · NX · Creo · Testing · Rigging
+11 навыков
alpaca
Не указана

Staff Site Reliability Engineer, Streaming

SeniorУдалённоСША
Go · Kubernetes · RabbitMQ · Redpanda · Prometheus · Linux · Kafka · Loki · Tempo · Distributed Tracing · eBPF · SRE
+12 навыков
lightspeedhq
Не указана

Senior SRE - Data

SeniorГибридКанада
Google Cloud Platform · Terraform · Ansible · Puppet · Golang · Bash · Kubernetes · Docker · PostgreSQL · MySQL · GitHub Actions · CI/CD · Linux · Networking · IAM
+15 навыков
motional
149 000 $ – 198 500 $

Senior Software Engineer, Command Center

SeniorГибридСША
Golang · Python · SQL · NoSQL · AWS · Docker · Terraform · Distributed Systems · Cloud Services · ClickHouse
+10 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

gruve
Страна
США