Страна: США

+500% приглашений

Откликайтесь
на вакансии с ИИ

SeniorВ офисеПолная занятость

Senior Site Reliability Engineer

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Отличная вакансия в перспективном стартапе, работающем на стыке AI и инфраструктуры. Высокий балл за работу с передовыми технологиями (LLM, GPU) и возможность занять лидерскую позицию на раннем этапе развития компании.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Высокая сложность обусловлена требованиями к глубокому опыту (6–9 лет), знанию специфики GPU-инфраструктуры и ML Ops, а также необходимостью лидерских качеств для управления инцидентами и менторства.

Анализ зарплаты

Медиана195 000 $

Рынок165 000 $ – 240 000 $

Зарплата в объявлении не указана, но для позиции Senior SRE в таких локациях, как Redwood City (Кремниевая долина) и Нью-Джерси, рыночные ставки являются одними из самых высоких в мире. Стартапы на стадии активного финансирования обычно предлагают конкурентоспособные оклады в сочетании с опционами.

I am writing to express my strong interest in the Senior Site Reliability Engineer position at Gruve. With over 7 years of experience in platform engineering and a deep expertise in Kubernetes and cloud infrastructure, I am excited about the opportunity to lead reliability strategies for your AI-driven enterprise solutions. My background in automating complex environments and managing high-scale observability stacks aligns perfectly with Gruve's mission to transform businesses through advanced technology.

In my previous roles, I have successfully architected resilient systems and led incident management processes that significantly improved system uptime and team response times. I am particularly drawn to Gruve's focus on GPU infrastructure and ML Ops, as I have been actively working on optimizing model lifecycle workflows and performance tuning. I am confident that my technical leadership and passion for building scalable, reliable systems will make a significant contribution to your growing team in Redwood City or Edison.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в gruve уже сейчас

Присоединяйтесь к Gruve, чтобы проектировать надежную инфраструктуру для ИИ-решений будущего и работать с передовыми GPU-системами!

Описание вакансии

About Gruve

Gruve is an innovative software services startup dedicated to transforming enterprises to AI powerhouses. We specialize in cybersecurity, customer experience, cloud infrastructure, and advanced technologies such as Large Language Models (LLMs). Our mission is to assist our customers in their business strategies utilizing their data to make more intelligent decisions. As a well-funded early-stage startup, Gruve offers a dynamic environment with strong customer and partner networks.

About the Role

This role leads reliability strategy and architectural improvements across infrastructure, GPU systems, observability, ML Ops and IT Ops. Mentor engineers, manage high-severity incidents, and drive SLO governance. You will work with other SRE engineers to set up, maintain, and troubleshoot the stack from bare metal through the application layer.

Key Responsibilities

Architect reliability improvements across Kubernetes, GPU infrastructure, ML Ops, networking, and monitoring.
Lead incident management, blameless post-mortems, and error-budget policies.
Drive automation, IaC, and reliability tooling at scale.
Oversee metrics, logs, tracing, and dashboards; ensure actionable alerting.
Integrate GPU operators/exporters and model lifecycle workflows for inference platforms.
Mentor junior and mid-level SREs and guide cross-team initiatives.

Basic Qualifications

6–9 years of SRE or platform engineering experience.
Expert Kubernetes operations and cloud platform experience (AWS/GCP/Azure).
Advanced networking and security fundamentals.
Strong coding background (Python, Go, or Java).
Deep observability knowledge (Prometheus, Grafana, ELK / Fluentd).

Preferred Qualifications

GPU reference architecture expertise and performance tuning.
Experience with chaos engineering, capacity planning, and multi-region design.

*This is an onsite, full-time position with Gruve. The role is open at our Redwood City, California, and Edison, New Jersey offices.*

‍

Why Gruve

At Gruve, we foster a culture of innovation, collaboration, and continuous learning. We are committed to building a diverse and inclusive workplace where everyone can thrive and contribute their best work. If you’re passionate about technology and eager to make an impact, we’d love to hear from you.

Gruve is an equal opportunity employer. We welcome applicants from all backgrounds and thank all who apply; however, only those selected for an interview will be contacted.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Kubernetes
AWS
Google Cloud Platform
Azure
Python
Go
Java
Prometheus
Grafana
ELK stack
Fluentd
Infrastructure as Code
MLOps
GPU
Networking
Security

Возможные вопросы на собеседовании

Проверка опыта работы с критической инфраструктурой для ИИ-нагрузок.

Расскажите о вашем опыте настройки и оптимизации GPU-операторов в Kubernetes для задач инференса моделей.

Оценка навыков управления надежностью и процессами.

Как вы внедряли политики бюджетов ошибок (error budgets) и SLO в командах, которые ранее их не использовали?

Проверка технических навыков в области сетевого взаимодействия и безопасности.

С какими наиболее сложными сетевыми проблемами в многорегиональных облачных архитектурах вы сталкивались и как их решали?

Оценка лидерских качеств и культуры работы с инцидентами.

Опишите ваш подход к проведению 'беспристрастных' (blameless) пост-мортемов после критических сбоев.

Проверка навыков автоматизации.

Какие инструменты IaC вы предпочитаете для масштабирования инфраструктуры и как вы обеспечиваете их надежность при работе в большой команде?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

США

Откликайтесь
на вакансии с ИИ

Senior Site Reliability Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в gruve уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о вашем опыте настройки и оптимизации GPU-операторов в Kubernetes для задач инференса моделей.

Как вы внедряли политики бюджетов ошибок (error budgets) и SLO в командах, которые ранее их не использовали?

С какими наиболее сложными сетевыми проблемами в многорегиональных облачных архитектурах вы сталкивались и как их решали?

Опишите ваш подход к проведению 'беспристрастных' (blameless) пост-мортемов после критических сбоев.

Какие инструменты IaC вы предпочитаете для масштабирования инфраструктуры и как вы обеспечиваете их надежность при работе в большой команде?

Похожие вакансии

DevOps Engineer (Senior)

Инженер-программист DevOps [Senior]

DevOps (senior)

DevOps Senior

Senior DevOps

DevOps

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Senior Site Reliability Engineer

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в gruve уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Расскажите о вашем опыте настройки и оптимизации GPU-операторов в Kubernetes для задач инференса моделей.

Как вы внедряли политики бюджетов ошибок (error budgets) и SLO в командах, которые ранее их не использовали?

С какими наиболее сложными сетевыми проблемами в многорегиональных облачных архитектурах вы сталкивались и как их решали?

Опишите ваш подход к проведению 'беспристрастных' (blameless) пост-мортемов после критических сбоев.

Какие инструменты IaC вы предпочитаете для масштабирования инфраструктуры и как вы обеспечиваете их надежность при работе в большой команде?

Похожие вакансии

DevOps Engineer (Senior)

Инженер-программист DevOps [Senior]

DevOps (senior)

DevOps Senior

Senior DevOps

DevOps

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ