yandex
growe
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
УдалённоПолная занятость

System Reliability Engineer/DevOps

Оценка ИИ

Привлекательная вакансия для опытных инженеров благодаря современному стеку технологий и фокусу на SRE-практики. Компания ценит результат и предлагает работу в динамичной среде, хотя график 24/7 может подойти не всем.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена широким стеком технологий (AWS, Kubernetes, Terragrunt, VictoriaMetrics) и требованием участия в дежурствах 24/7. Позиция требует глубоких знаний в сетевых технологиях и безопасности.

Анализ зарплаты

Медиана5 500 $
Рынок4 000 $ – 7 500 $
Оценка ИИ

Зарплата в объявлении не указана, но для SRE/DevOps инженера с опытом от 3 лет на глобальном рынке (Remote) вилка обычно составляет $4,500–$7,000. Предложение будет зависеть от глубины знаний AWS и Kubernetes.

Сопроводительное письмо

I am writing to express my strong interest in the System Reliability Engineer/DevOps position at Growe. With over 3 years of experience in managing complex cloud infrastructures, I have developed a deep expertise in AWS services, Kubernetes, and Infrastructure as Code using Terraform and Terragrunt. My background in implementing robust monitoring solutions with VictoriaMetrics and Grafana, combined with a proactive approach to incident management, aligns perfectly with your team's mission to ensure high availability and scalability.

I am particularly drawn to Growe's culture of driving results and embracing change. In my previous roles, I have successfully optimized CI/CD pipelines using GitLab CI and FluxCD, and I am eager to bring my skills in automation and performance tuning to your Cloud Infrastructure Operations department. I am confident that my technical proficiency and problem-solving mindset will contribute significantly to the reliability and security of your services.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в growe уже сейчас

Присоединяйтесь к команде Growe и станьте ключевым звеном в обеспечении надежности высоконагруженных систем!

Описание вакансии

Growe welcomes those who are excited to:
  • Ensure availability, performance, and scalability of infrastructure and services through monitoring, automation, and operational best practices;
  • Lead incident response, perform root cause analysis, and implement recovery and long-term fixes;
  • Manage infrastructure using Terraform, Terragrunt, and automation tools for consistency and repeatability;
  • Implement and maintain metrics, logs, and tracing solutions (Prometheus, Grafana, Loki, VictoriaMetrics, CloudWatch) to ensure system visibility;
  • Identify bottlenecks, tune systems, and improve infrastructure performance;
  • Monitor resources, forecast growth, and implement scaling strategies;
  • Integrate security best practices into IaC, CI/CD pipelines, and deployments;
  • Support vulnerability management;
  • Participate in 24/7 rotations (once a week) for timely resolution of critical incidents;
  • Work with DevOps, PRE, development, and security teams to improve reliability and design resilient systems;
  • Maintain operational runbooks, incident reports, and system documentation.
We need your professional experience:
  • 3+ years in a DevOps, SRE, or related role;
  • Strong hands-on experience with AWS services including EC2, ECS, EKS, RDS, DocumentDB, ElastiCache, Keyspaces, S3, EBS, VPC, Route53, KMS, ACM, and CloudWatch;
  • Proficiency with Terraform, Terragrunt, and Atlantis for reproducible and version-controlled infrastructure;
  • Experience with GitLab CI, FluxCD, Argo Rollouts, and automation tools (Ansible, Python, Bash);
  • Solid experience with Docker, Kubernetes (AWS EKS), and Helm (including custom templates, ChartMuseum);
  • Familiarity with cluster add-ons such as KEDA, VPA, Karpenter, External-DNS, ingress-nginx, aws-alb-controller, and ebs-csi-driver;
  • Hands-on experience with Grafana, VictoriaMetrics stack, Tempo, metrics exporters, Pingdom, AWS CloudWatch, and alerting systems like PagerDuty, VMAlert, and Alertmanager;
  • Proficiency with Grafana Loki, OpenSearch, and Vector Agent for centralized logging;
  • Strong understanding of networking concepts, AWS networking (VPC, Network Firewall, Transit Gateway, Site-to-Site VPN), identity and access management, certificate management (ACM, Vault, SOPS), and application security best practices;
  • Familiarity with Cloudflare services, including caching, DNS, and Workers;
  • Exposure to AWS Cost Explorer, KubeCost, and custom cost export tools;
  • Certifications: AWS, Terraform, Kubernetes, or Helm are a plus.
We appreciate if you have those personal features:
  • Problem-Solving Mindset: Approaches complex issues methodically and finds practical solutions under pressure;
  • Analytical Thinking: Able to interpret metrics, logs, and system behavior to make informed decisions;
  • Attention to Details: Ensures accuracy in infrastructure changes, configurations, and deployment processes;
  • Adaptability: Comfortable learning new tools, technologies, and adjusting to changing environments;
  • Collaboration & Teamwork: Works effectively with cross-functional teams and communicates clearly;
  • Ownership & Responsibility: Takes accountability for tasks, incidents, and service reliability;
  • Continuous Learning: Keeps up-to-date with DevOps, SRE, cloud, and security best practices;
  • Effective Communication: Can explain technical concepts clearly to both technical and non-technical stakeholders.
We are seeking those who align with our core values:
  • GROWE TOGETHER: Our team is our main asset. We work together and support each other to achieve our common goals;
  • DRIVE RESULT OVER PROCESS: We set ambitious, clear, measurable goals in line with our strategy and driving Growe to success;
  • BE READY FOR CHANGE: We see challenges as opportunities to grow and evolve. We adapt today to win tomorrow.
+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • AWS
  • Terraform
  • Terragrunt
  • Kubernetes
  • Docker
  • Helm
  • GitLab CI
  • FluxCD
  • Argo Rollouts
  • Prometheus
  • Grafana
  • VictoriaMetrics
  • Loki
  • Ansible
  • Python
  • Bash
  • Cloudflare
  • Karpenter
  • Vault

Возможные вопросы на собеседовании

Проверка опыта работы с IaC в сложных окружениях.

Расскажите о вашем опыте использования Terragrunt для управления несколькими окружениями. Как вы структурируете код для минимизации дублирования?

Оценка навыков траблшутинга и работы под давлением.

Опишите самый сложный инцидент, который вы расследовали. Какие инструменты мониторинга (Loki, VictoriaMetrics) помогли найти первопричину?

Проверка знаний специфических инструментов Kubernetes.

Как вы настраиваете масштабирование в EKS? Был ли у вас опыт работы с Karpenter или KEDA для оптимизации ресурсов?

Оценка понимания сетевой безопасности в облаке.

Как вы организуете безопасное взаимодействие между сервисами в AWS VPC, используя Transit Gateway и Network Firewall?

Проверка навыков оптимизации затрат.

Какие стратегии вы применяли для снижения затрат на облачную инфраструктуру AWS без ущерба для производительности?

Похожие вакансии

kaizengaming
Не указана

Site Reliability | DevOps Engineer

В офисе
Kubernetes · Docker · Terraform · Ansible · Jenkins · GitLab CI · Prometheus · Grafana · Python · Go · Java · .NET · Bash · PowerShell · Kafka · RabbitMQ · PostgreSQL
+17 навыков
kaizengaming
Не указана

Site Reliability Operations Manager

Гибрид
SRE · Incident Management · Networking · TCP/IP · Infrastructure · Cloud Computing · Monitoring · Alerting · SLA · Root Cause Analysis · Capacity Planning
+11 навыков
kaizengaming
Не указана

Database Administrator

Гибрид
Microsoft SQL Server · PostgreSQL · MongoDB · CockroachDB · Azure · Git · GitLab · High Availability · Database Administration · Performance Tuning
+10 навыков
kaizengaming
Не указана

Process Automation Engineer

Гибрид
JavaScript · API Integration · Puppeteer · RPA · Agile · Problem Solving
+6 навыков
admios
Не указана

Python Cloud Engineer

Удалённо
Python · AWS · Git · Agile · Scrum · Unit Testing · Integration Testing · API Development · Microservices · Cloud Architecture
+10 навыков
jetbrains
Не указана

Cloud Infrastructure Engineer (Kineto)

УдалённоНидерланды
Google Cloud Platform · Kubernetes · Knative · Istio · Terraform · Terragrunt · Flux · Helm · PostgreSQL · Prometheus · Grafana · Loki · GitHub Actions · TeamCity · SRE · GitOps · Linux
+17 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

growe