- Страна
- ОАЭ
- Зарплата
- 5 500 $ – 8 200 $
Откликайтесь
на вакансии с ИИ

Site Reliability Engineer (SRE)
Привлекательное предложение с высокой зарплатой в долларах и возможностью релокации в Абу-Даби. Работа с передовыми AI-технологиями и сложной инфраструктурой интересна для профессионального роста, хотя требует высокой автономности и готовности к дежурствам.
Сложность вакансии
Высокая сложность обусловлена требованием глубоких знаний bare metal (без облаков), необходимостью тюнинга БД и сетей на низком уровне, а также обязательным релокейтом в ОАЭ. Работа с air-gapped окружениями и AI-инфраструктурой добавляет специфических вызовов.
Анализ зарплаты
Предлагаемая зарплата в $8000-8200 на руки при работе в офисе в Абу-Даби соответствует верхнему сегменту рынка для Senior SRE в регионе MENA. Удаленная вилка ($5500-6000) также конкурентоспособна для международного рынка, учитывая отсутствие налогов в ОАЭ при релокации.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Aleria LLC уже сейчас
Если вы готовы к релокации в Абу-Даби и глубокой работе с bare metal инфраструктурой, откликайтесь прямо сейчас!
Описание вакансии
Публикатор: Andrey
Обсуждение: @devops_jobs
Ищу SRE себе в команду.
Формат: удаленно(2 месяца испытательного), обязателен релок после 2 месяцев в Абу Даби
Занятость: full-time
Локация: Абу Даби
Вилка: 5500-6.000$ remote, 8.000-8200$ onsite
Компания: Aleria LLC
Контакт: Откликнуться
Site Reliability Engineer
Aleria — компания из Абу-Даби, разрабатывающая AI-продукты для клиентов в ОАЭ и по всему миру. Небольшая команда, быстрый рост. Работаем на bare metal, без облака. Нужен инженер, который понимает каждый слой — от NIC до Kubernetes pod — и отвечает за то, чтобы всё это работало стабильно под нагрузкой и не падало посреди ночи.
Чем предстоит заниматься:
Обеспечивать надёжность и доступность сервисов на bare metal с Kubernetes поверх железа
Строить и поддерживать observability (Prometheus, Grafana, Loki): метрики, дашборды, алерты, SLO/SLI
Реагировать на инциденты, проводить post-mortem и устранять причины, а не симптомы
Тюнить PostgreSQL и другие БД под продакшен-нагрузку, искать боттлнеки
Поддерживать CI/CD (GHES, ArgoCD), снижать время и риск деплоев
Сетевая инфраструктура: маршрутизация, сегментация, балансировка нагрузки, безопасность
On-premise и air-gapped поставки (~10%)
Capacity planning и работа над снижением toil
Безопасность, которая не тормозит команду
Взаимодействие с командой разработки и инженерами клиентов
Требования:
Глубокий опыт bare metal — без облачных абстракций
Понимание внутреннего устройства Kubernetes, а не только манифестов
Опыт устранения продакшен-инцидентов под давлением, умение быстро находить root cause
Тюнинг БД под нагрузкой (приоритет — PostgreSQL)
Опыт построения observability и систем алертинга с нуля
Опыт on-prem и air-gapped развёртываний
Сети: L2/L3, routing, firewall, VPN
Продакшен Linux troubleshooting
Подход security-mindset с балансом на скорость доставки
Высокая автономность при работе с незнакомым стеком
Видение инфраструктуры за пределами текущей задачи
Английский B2+
Будет плюсом:
Опыт с GPU-кластерами для AI
Ceph/ZFS/распределённые хранилища
Опыт hardening/compliance для гос. заказчиков
Air-gap CI/CD
Не ищем:
YAML-инженеров, которые только применяют готовые манифесты. Нужен человек, который понимает, что происходит под капотом — и готов первым встать ночью, если что-то упало.
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Kubernetes
- Bare Metal
- Prometheus
- Grafana
- Loki
- PostgreSQL
- CI/CD
- ArgoCD
- Linux
- Networking
- Ceph
- ZFS
- GPU
Возможные вопросы на собеседовании
Проверка понимания работы K8s без облачных провайдеров.
Расскажите о вашем опыте развертывания и эксплуатации Kubernetes на bare metal: какие CNI и CSI вы использовали и с какими проблемами сталкивались?
Вакансия предполагает работу с БД под нагрузкой.
Какие параметры PostgreSQL вы бы изменили в первую очередь при возникновении проблем с производительностью записи (I/O wait) на выделенном сервере?
Проверка навыков траблшутинга на низком уровне.
Опишите процесс отладки сетевой связности между подами в разных нодах, если стандартные средства диагностики показывают, что пакеты теряются на уровне L3.
Важный аспект для on-premise решений компании.
В чем заключаются основные сложности организации CI/CD в air-gapped окружении и как вы их решали?
Проверка SRE-мышления.
Как вы определяете SLO для критического сервиса и какие метрики в Prometheus будут наиболее репрезентативны для отслеживания ошибок, не связанных с HTTP-кодами?
Похожие вакансии
DevOps Middle
DevOps Engineer (Senior)
DevOps Middle/Middle+
Инженер-программист DevOps [Senior]
DevOps (senior)
DevOps Senior
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!