yandex
G
gruve
Страна
США
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
SeniorВ офисеПолная занятость

Senior Site Reliability Engineer

ИИОценка ИИ

Отличная вакансия в перспективном стартапе, работающем на стыке AI и инфраструктуры. Высокий балл за работу с передовыми технологиями (LLM, GPU) и возможность занять лидерскую позицию на раннем этапе развития компании.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
ИИОценка ИИ

Высокая сложность обусловлена требованиями к глубокому опыту (6–9 лет), знанию специфики GPU-инфраструктуры и ML Ops, а также необходимостью лидерских качеств для управления инцидентами и менторства.

Анализ зарплаты

Медиана195 000 $
Рынок165 000 $ – 240 000 $
ИИОценка ИИ

Зарплата в объявлении не указана, но для позиции Senior SRE в таких локациях, как Redwood City (Кремниевая долина) и Нью-Джерси, рыночные ставки являются одними из самых высоких в мире. Стартапы на стадии активного финансирования обычно предлагают конкурентоспособные оклады в сочетании с опционами.

Сопроводительное письмо

I am writing to express my strong interest in the Senior Site Reliability Engineer position at Gruve. With over 7 years of experience in platform engineering and a deep expertise in Kubernetes and cloud infrastructure, I am excited about the opportunity to lead reliability strategies for your AI-driven enterprise solutions. My background in automating complex environments and managing high-scale observability stacks aligns perfectly with Gruve's mission to transform businesses through advanced technology.

In my previous roles, I have successfully architected resilient systems and led incident management processes that significantly improved system uptime and team response times. I am particularly drawn to Gruve's focus on GPU infrastructure and ML Ops, as I have been actively working on optimizing model lifecycle workflows and performance tuning. I am confident that my technical leadership and passion for building scalable, reliable systems will make a significant contribution to your growing team in Redwood City or Edison.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в gruve уже сейчас

Присоединяйтесь к Gruve, чтобы проектировать надежную инфраструктуру для ИИ-решений будущего и работать с передовыми GPU-системами!

Описание вакансии

About Gruve

Gruve is an innovative software services startup dedicated to transforming enterprises to AI powerhouses. We specialize in cybersecurity, customer experience, cloud infrastructure, and advanced technologies such as Large Language Models (LLMs). Our mission is to assist our customers in their business strategies utilizing their data to make more intelligent decisions. As a well-funded early-stage startup, Gruve offers a dynamic environment with strong customer and partner networks.

About the Role

This role leads reliability strategy and architectural improvements across infrastructure, GPU systems, observability, ML Ops and IT Ops. Mentor engineers, manage high-severity incidents, and drive SLO governance.  You will work with other SRE engineers to set up, maintain, and troubleshoot the stack from bare metal through the application layer. 

Key Responsibilities

  • Architect reliability improvements across Kubernetes, GPU infrastructure, ML Ops, networking, and monitoring.
  • Lead incident management, blameless post-mortems, and error-budget policies.
  • Drive automation, IaC, and reliability tooling at scale.
  • Oversee metrics, logs, tracing, and dashboards; ensure actionable alerting.
  • Integrate GPU operators/exporters and model lifecycle workflows for inference platforms.
  • Mentor junior and mid-level SREs and guide cross-team initiatives.

Basic Qualifications

  • 6–9 years of SRE or platform engineering experience.
  • Expert Kubernetes operations and cloud platform experience (AWS/GCP/Azure).
  • Advanced networking and security fundamentals.
  • Strong coding background (Python, Go, or Java).
  • Deep observability knowledge (Prometheus, Grafana, ELK / Fluentd).

Preferred Qualifications

  • GPU reference architecture expertise and performance tuning.
  • Experience with chaos engineering, capacity planning, and multi-region design.

*This is an onsite, full-time position with Gruve. The role is open at our Redwood City, California, and Edison, New Jersey offices.*

Why Gruve

At Gruve, we foster a culture of innovation, collaboration, and continuous learning. We are committed to building a diverse and inclusive workplace where everyone can thrive and contribute their best work. If you’re passionate about technology and eager to make an impact, we’d love to hear from you.

Gruve is an equal opportunity employer. We welcome applicants from all backgrounds and thank all who apply; however, only those selected for an interview will be contacted.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • AWS
  • Azure
  • Python
  • Kubernetes
  • Prometheus
  • Grafana
  • MLOps
  • Google Cloud Platform
  • Infrastructure as Code
  • Networking
  • Security
  • Java
  • Go
  • ELK stack
  • GPU
  • Fluentd

Возможные вопросы на собеседовании

Проверка опыта работы с критической инфраструктурой для ИИ-нагрузок.

Расскажите о вашем опыте настройки и оптимизации GPU-операторов в Kubernetes для задач инференса моделей.

Оценка навыков управления надежностью и процессами.

Как вы внедряли политики бюджетов ошибок (error budgets) и SLO в командах, которые ранее их не использовали?

Проверка технических навыков в области сетевого взаимодействия и безопасности.

С какими наиболее сложными сетевыми проблемами в многорегиональных облачных архитектурах вы сталкивались и как их решали?

Оценка лидерских качеств и культуры работы с инцидентами.

Опишите ваш подход к проведению 'беспристрастных' (blameless) пост-мортемов после критических сбоев.

Проверка навыков автоматизации.

Какие инструменты IaC вы предпочитаете для масштабирования инфраструктуры и как вы обеспечиваете их надежность при работе в большой команде?

Похожие вакансии

C
Centicore
340 000 ₽ – 360 000 ₽

Ведущий DevOps-инженер

SeniorУдалённо
Ansible · Terraform · Kubernetes · Kafka · Jenkins · CI/CD · GitOps · Python · MongoDB · MinIO · VictoriaMetrics · ELK stack · Highload · LLM
+14 навыков
А
Артвелл
190 000 ₽ – 210 000 ₽

Senior DevOps

SeniorУдалённо
DevOps · CI/CD · Helm · Kubernetes · OpenShift · DevSecOps · Monitoring · Logging · OpenID Connect · IAM
+10 навыков
T
TopSelection
280 000 ₽ – 300 000 ₽

Senior DevOps (ML-инфраструктура / GPU)

SeniorУдалённо
Kubernetes · Docker · Terraform · MLflow · Kubeflow · Airflow · DVC · Triton Inference Server · TorchServe · CUDA · GPU · Bash · Python · Prometheus · Grafana · Zabbix · MLOps
+17 навыков
TS
Top Selection
256 000 ₽ – 280 000 ₽

Data Platform Engineer / Big Data SRE (Linux)

SeniorУдалённо
Linux · RHEL · CentOS · Ubuntu · Arenadata DB · Greenplum · Apache Kafka · ClickHouse · PostgreSQL · SQL · Bash · Python · Ansible · Terraform · Prometheus · Grafana · ELK · OpenSearch · Docker · Kubernetes · Hadoop · Apache Spark · Apache Flink · Apache Airflow
+24 навыков
MD
Mad Devs
3 500 $ – 5 000 $

Senior DevOps / Voice Infrastructure Engineer

SeniorУдалённо
Asterisk · FreeSWITCH · Kamailio · OpenSIPS · SIP · RTP · SRTP · WebRTC · GCP · AWS · Kubernetes · Terraform · Docker · GitHub Actions · ArgoCD · Prometheus · Grafana · Victoria Metrics · Kafka · PostgreSQL · ClickHouse
+21 навыков
NDA
200 000 ₽ – 250 000 ₽

Инженер по сопровождению и тестированию (Middle+/Senior)

SeniorУдалённо
Linux · Red Hat · Debian · Express · Bell DPC · CommuniGate Pro · VK WorkSpace · Load Testing · Shell Scripting · Configuration Management
+10 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

G
gruve
Страна
США