yandex
icapitalnetwork
Страна
Португалия
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
HeadУдалённоПолная занятость

Site Reliability Engineer - Vice President

Оценка ИИ

Отличная вакансия для опытного SRE-лидера. Привлекательный пакет бенефитов (100% оплата страховки, опционы), удаленный формат работы и высокая значимость роли в структуре компании делают это предложение очень конкурентоспособным.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена уровнем позиции (Vice President) и требованием более 7 лет опыта. Роль сочетает в себе глубокую техническую экспертизу в Kubernetes и AWS с лидерскими качествами для управления инцидентами и внедрения стандартов на уровне всей компании.

Анализ зарплаты

Медиана85 000 €
Рынок70 000 € – 110 000 €
Оценка ИИ

Зарплата для позиции Vice President в Лиссабоне обычно находится в верхнем сегменте рынка. Учитывая, что iCapital — американская финтех-компания, можно ожидать компенсацию выше среднего по Португалии, дополненную бонусами и акциями.

Сопроводительное письмо

I am writing to express my strong interest in the Site Reliability Engineer - Vice President position at iCapital. With over 7 years of experience in SRE and infrastructure engineering, I have a proven track record of implementing robust SLO/SLI frameworks and scaling Kubernetes-based environments. My expertise in Terraform and 'monitoring as code' aligns perfectly with your goal of standardizing observability and reducing operational toil.

In my previous roles, I have successfully led incident response as an Incident Commander and driven systemic improvements through detailed postmortems. I am particularly drawn to iCapital’s mission of democratizing alternative investments and would welcome the opportunity to apply my technical leadership to enhance the reliability and performance of your platform. I am confident that my experience with AWS, OpenTelemetry, and distributed systems debugging will make me a valuable asset to your Platform Infrastructure team.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в icapitalnetwork уже сейчас

Присоединяйтесь к iCapital в качестве SRE Vice President и возглавьте развитие надежности глобальной финтех-платформы!

Описание вакансии

About the Role

The Site Reliability Engineering team at iCapital is fundamental to ensuring our platform delivers consistent, reliable service to our client base. As a Site Reliability Engineer, you'll work at the intersection of software engineering and operations, applying engineering principles to infrastructure challenges. You'll be responsible for designing and implementing systems that scale efficiently, architecting observability solutions that provide actionable insights, and building automation that enhances our platform's reliability. This role requires someone who thinks systematically about reliability, can translate business requirements into technical implementations, and thrives on making complex systems more robust.

Responsibilities:

  • Define, implement, and iterate service level objectives (SLOs) and service level indicators (SLIs) that reflect customer and business expectations.
  • Lead monitoring and alerting standardization through “monitors as code” (Terraform preferred), including quality gates such as severity, ownership, and runbook links.
  • Develop observability standards across metrics, logs, and traces, including instrumentation and dependency mapping patterns (OpenTelemetry where applicable).
  • Lead technical evaluations and PoCs for observability platforms and integrations; define success criteria and migration approach for adoption.
  • Define and implement reliability and operability standards for Kubernetes-based services, including scaling patterns, resource constraints, rollout safety, and baseline dashboards and alerts as part of service onboarding.
  • Drive automation to eliminate toil, improve repeatability, and accelerate recovery (incident workflows, runbooks, and remediation where appropriate).
  • Serve as Incident Commander for high-severity incidents, lead postmortems, and drive systemic improvements through action items and measurable follow-through using established tooling workflows.
  • Participate in on-call rotations with a focus on improving reliability, reducing alert noise, and increasing signal quality over time.

Qualifications:

  • 7+ years in SRE or related roles, with evidence of technical seniority across multiple services and teams.
  • Strong experience with AWS and container orchestration (Kubernetes) in production environments.
  • Demonstrated experience defining SLOs/SLIs and using them to drive operational and engineering decisions.
  • Proven ability to design and implement observability solutions that produce actionable insights while reducing alert fatigue and operational noise.
  • Strong IaC skills (Terraform preferred) and the ability to build reusable automation and standards (monitoring as code, configuration patterns).
  • Familiarity with common data stores and managed services (e.g., Postgres, MongoDB, DynamoDB) and how they fail in distributed systems.
  • Experience with at least two observability stacks (Prometheus/Grafana, New Relic, Splunk, CloudWatch, ELK, etc.) and driving standardization across them.
  • Strong incident response skills, including leading retrospectives/postmortems and improving reliability through systematic follow-up.
  • Strong debugging skills across distributed systems and production environments, including performance and reliability investigations.
  • Clear written and verbal communication skills with the ability to influence engineering teams through standards, tooling, and practical guidance.

Employees in this role will work fully remote. Every department has different needs, and some positions will be designated in-office jobs, based on their function.

Benefits

iCapital offers a comprehensive benefits package that includes a total compensation program consisting of competitive salary, annual performance bonus, and equity for all full-time employees; healthcare with 100% employer-paid health and dental insurance; and generous paid time off (PTO).

For additional information on iCapital Network, please visit https://www.icapitalnetwork.com/about-us  Twitter: @icapitalnetwork | LinkedIn: https://www.linkedin.com/company/icapital-network-inc

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • SRE
  • Kubernetes
  • AWS
  • Terraform
  • SLO
  • SLI
  • OpenTelemetry
  • Prometheus
  • Grafana
  • PostgreSQL
  • MongoDB
  • DynamoDB
  • Incident Management

Возможные вопросы на собеседовании

Проверка опыта управления надежностью через бизнес-метрики.

Расскажите о вашем опыте внедрения SLO/SLI: как вы определяли пороговые значения и как реагировали на исчерпание бюджета ошибок?

Оценка навыков автоматизации и использования IaC.

Как бы вы организовали процесс 'monitors as code' с использованием Terraform для крупной микросервисной архитектуры?

Проверка лидерских качеств в кризисных ситуациях.

Опишите самый сложный инцидент, где вы выступали в роли Incident Commander. Какие системные изменения были внедрены по итогам постмортема?

Оценка понимания современных стандартов наблюдаемости.

Каков ваш подход к внедрению OpenTelemetry в существующую распределенную систему? С какими основными трудностями вы сталкивались?

Проверка технических знаний Kubernetes в продакшене.

Какие стратегии масштабирования и ограничения ресурсов вы считаете критически важными для обеспечения отказоустойчивости сервисов в K8s?

Похожие вакансии

roku
Не указана

Software Engineer Intern, Observability

InternГибридВеликобритания
Kubernetes · Istio · Envoy · Docker · CI/CD · Large Language Models · Python · Go · Observability · Prometheus · Grafana
+11 навыков
roku
Не указана

Software Engineer Intern, Observability

InternГибридВеликобритания
Kubernetes · Docker · Large Language Models · DevOps · CI/CD · Python · Go · Prometheus · Grafana · Istio · Envoy
+11 навыков
globalrelay
Не указана

Lead DevOps (iOS)

LeadГибридВеликобритания
iOS · DevOps · CI/CD · Jenkins · Ansible · Docker · Podman · Kubernetes · Python · Bash · Swift · Xcode · Prometheus · Grafana · Loki · Mimir · Puppet · VMware
+18 навыков
globalrelay
Не указана

Intermediate/Senior DevOps

SeniorГибридВеликобритания
Python · Bash · Linux · Docker · Podman · Kubernetes · Jenkins · Ansible · Helm · Kafka · Prometheus · Grafana · Loki · Git · Maven · Java · Groovy
+17 навыков
globalrelay
Не указана

Infrastructure Engineer - L3

SeniorВ офисеВеликобритания
Azure · Active Directory · Microsoft Exchange · Terraform · PowerShell · Bicep · ARM templates · DNS · DHCP · SQL · SAML · OpenID Connect · Azure Firewall · Azure Front Door · Kubernetes · Helm · CI/CD · ISO 27001 · NIST
+19 навыков
jetbrains
Не указана

Senior Software Engineer - Infrastructure (Toolbox App)

SeniorУдалённоГермания
Java · Kotlin · Spring Framework · PostgreSQL · Redis · Amazon S3 · CI/CD · Infrastructure · Backend Development
+9 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

icapitalnetwork
Страна
Португалия