- Страна
- Россия
Откликайтесь
на вакансии с ИИ

Технический лидер SRE
Cloud.ru — топовый работодатель в РФ с аккредитацией и сложными технологическими задачами. Позиция техлида предлагает высокий уровень влияния на продукт и работу с передовым стеком в сфере AI и Cloud.
Сложность вакансии
Роль техлида требует не только глубоких технических знаний в SRE и DevOps, но и навыков координации команд, управления инцидентами и внедрения сложных методологий вроде Chaos Engineering. Высокая ответственность за стабильность всей облачной платформы.
Анализ зарплаты
Зарплата в объявлении не указана, но для позиции Tech Lead SRE в Москве рыночный диапазон значительно выше среднего по IT-сектору. Cloud.ru как крупный игрок обычно предлагает конкурентные условия, соответствующие верхним границам рынка.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Cloud.ru уже сейчас
Присоединяйтесь к команде Cloud.ru и станьте ключевым экспертом по надежности облачных систем!
Описание вакансии
**Технический лидер SRE
Cloud․ru — аккредитованная IT-компания в сфере облачных и AI-технологий**
Обязанности
• Проектировать, разрабатывать, внедрять и поддерживать SLO/SLI для всех сервисов;
• Участвовать в устранении инцидентов - в связке со смежными командами устранять сбои и предотвращать их повторение
• Участвовать в заполнении и разборе постмортемов
• Расследовать причины инцидентов (RCA);
• Разрабатывать и выполнять меры, направленные на предотвращение повторных инцидентов;
• Развивать мониторинг и алертинг - разработка, обогащение, настройка метрик, логов, трейсов, алертов, дашбордов, ранбуков (и их регулярный анализ/рефакторинг)
• Автоматизировать рутинную работу
• Ревьюить и помогать дорабатывать DRP, участвовать в качестве координатора в DRT, поддерживать DRP в актуальном состоянии;
• участвовать в разработке и оптимизации процессов, используемых в работе
• Встраивать в процессы практики: observability by default, alerting as code, runbooks, SLO/SLA/SLI
• Помогать командам строить отказоустойчивые сервисы: autoscaling, failover, chaos engineering
• Обеспечивать внутреннюю экспертизу по стабильности, метрикам, инцидентам и error budgets
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- SRE
- Incident Management
- Observability
- SLO
- Chaos Engineering
- Monitoring
- SLI
- Alerting
- Autoscaling
- RCA
- DRP
- Failover
Возможные вопросы на собеседовании
Проверка понимания фундаментальных концепций SRE и умения балансировать между скоростью разработки и стабильностью.
Как вы определяете Error Budget для нового сервиса и какие действия предпринимаете, когда он исчерпан?
Оценка опыта в обеспечении наблюдаемости систем и автоматизации алертинга.
Расскажите о вашем опыте реализации подхода Alerting as Code: какие инструменты использовали и как это упростило работу команды?
Проверка навыков кризис-менеджмента и предотвращения повторных сбоев.
Опишите самый сложный инцидент в вашей практике: как проводился RCA и какие меры были приняты для предотвращения рецидива?
Оценка готовности кандидата к проактивному тестированию систем на отказоустойчивость.
Как бы вы организовали процесс Chaos Engineering в крупной облачной компании, чтобы не навредить реальным пользователям?
Проверка лидерских качеств и умения внедрять изменения в процессы других команд.
Как вы убеждаете команды разработки внедрять практики observability by default, если они сосредоточены только на фичах?
Похожие вакансии
SRE Lead
SRE Lead (MLOps)
Infrastructure Team Lead
Главный DevOps-инженер
Infrastructure Team Lead
Team Lead MLOps/DevOps (Banking / ML-Platform)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Россия