- Страна
- США
Откликайтесь
на вакансии с ИИ

Staff Site Reliability Engineer, Streaming
Отличная вакансия в быстрорастущем финтехе с серьезным финансированием и современным стеком. Удаленный формат работы, конкурентный соцпакет и работа над сложными инженерными задачами делают её крайне привлекательной.
Сложность вакансии
Роль уровня Staff требует глубокой экспертизы в распределенных системах, брокере сообщений Redpanda/RabbitMQ и языке Go. Высокая сложность обусловлена необходимостью работы с высоконагруженными финтех-системами и низким временем задержки.
Анализ зарплаты
Зарплата в вакансии не указана, но для уровня Staff SRE в американских финтех-компаниях на удаленке рынок предлагает очень высокие компенсации. Указанные бонусы (опционы, стипендии) подтверждают премиальный уровень позиции.
Сопроводительное письмо
I am writing to express my strong interest in the Staff Site Reliability Engineer (Streaming) position at Alpaca. With over 5 years of experience in performance engineering and a deep focus on message brokers like RabbitMQ and Redpanda, I have a proven track record of maintaining high-availability distributed systems. My proficiency in Go and Kubernetes, combined with a data-driven approach to SLIs/SLOs, aligns perfectly with your mission to provide robust brokerage infrastructure.
In my previous roles, I have successfully optimized large-scale streaming stacks and implemented comprehensive observability using Prometheus and distributed tracing. I am particularly drawn to Alpaca’s commitment to open-source and its dynamic, globally distributed team. I am confident that my technical expertise in troubleshooting complex performance issues and my accountability in incident management will contribute significantly to the reliability of your institutional-grade APIs.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в alpaca уже сейчас
Присоединяйтесь к Alpaca, чтобы строить будущее финтех-инфраструктуры на мировом уровне!
Описание вакансии
Who We Are:
Alpaca is a US-headquartered self-clearing broker-dealer and brokerage infrastructure for stocks, ETFs, options, crypto, fixed income, 24/5 trading, and more. Our recent Series D funding round brought our total investment to over $320 million, fueling our ambitious vision.
Amongst our subsidiaries, Alpaca is a licensed financial services company, serving hundreds of financial institutions across 40 countries with our institutional-grade APIs. This includes broker-dealers, investment advisors, wealth managers, hedge funds, and crypto exchanges, totalling over 9 million brokerage accounts.
Our global team is a diverse group of experienced engineers, traders, and brokerage professionals who are working to achieve our mission of opening financial services to everyone on the planet. We're deeply committed to open-source contributions and fostering a vibrant community, continuously enhancing our award-winning, developer-friendly API and the robust infrastructure behind it.
Alpaca is proudly backed by top-tier global investors, including Portage Ventures, Spark Capital, Tribe Capital, Social Leverage, Horizons Ventures, Unbound, SBI Group, Derayah Financial, Elefund, and Y Combinator.
Our Team Members:
We're a dynamic team of 230+ globally distributed members who thrive working from our favorite places around the world, with teammates spanning the USA, Canada, Japan, Hungary, Nigeria, Brazil, the UK, and beyond!
We're searching for passionate individuals eager to contribute to Alpaca's rapid growth. If you align with our core values—Stay Curious, Have Empathy, and Be Accountable—and are ready to make a significant impact, we encourage you to apply.
Your Role:
As a Site Reliability Engineer (SRE) at Alpaca, you will be responsible for ensuring the reliability, scalability, and performance of our systems and services. You will work closely with development, operations and DevOps teams to build and maintain robust applications, ensuring they run smoothly and efficiently. This role requires a blend of software engineering and operations skills, with a strong ability to troubleshoot technical issues and resolve problems before they impact our users.
Things You Get To Do:
- Triage difficult technical problems and implement solutions
- Enhance our RabbitMQ and Redpanda observability stack by defining Service Level Objectives (SLOs) and alerts, as well as implementing profiling and logging.
- Improving our RabbitMQ and Redpanda clients' reliability.
- Incident Management: Respond to and resolve incidents in a timely manner, conducting post-incident reviews to identify and implement improvements.
- Collaboration: Work closely with development teams to ensure new features and services are designed with reliability and scalability in mind.
- Capacity Planning: Monitor system capacity and performance, making recommendations and implementing changes to handle future growth.
Who you are (must-haves):
- 5+ years of experience in Site Reliability Engineering, Performance Engineering, or similar roles.
- 5+ years of experience with message brokers similar to Kafka, RabbitMQ, and Redpanda.
- Proven track record of managing and maintaining large-scale, high-availability, and high-performance distributed systems.
- Experience designing and implementing SLIs, SLOs, and SLAs for internal and third-party systems with comprehensive alerting and monitoring.
- Strong ability to work independently, lead and deliver on large tasks, and collaborate with other members of the organization or external partners.
- Significant production experience with Kubernetes.
- Proficient with Go.
- Proficient with Prometheus.
- Proficient with Linux.
- Experience with troubleshooting message broker performance issues.
Who You Might Be (Nice-to-Haves):
- Knowledgeable in trading/fintech domains.
- Experience with low-latency systems.
- Experience with Loki and Tempo.
- Experience with distributed tracing.
- Experience with the USE method.
- Experience with perf, bpf, pprof.
How We Take Care of You:
- Competitive Salary & Stock Options
- Health Benefits
- New Hire Home-Office Setup: One-time USD $500
- Monthly Stipend: USD $150 per month via a Brex Card
Alpaca is proud to be an equal opportunity workplace dedicated to pursuing and hiring a diverse workforce.
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Go
- Kubernetes
- RabbitMQ
- Redpanda
- Prometheus
- Linux
- Kafka
- Loki
- Tempo
- Distributed Tracing
- eBPF
- SRE
Возможные вопросы на собеседовании
Позиция сфокусирована на стриминге, поэтому важно понимать опыт кандидата с конкретными инструментами.
Расскажите о самом сложном инциденте с производительностью RabbitMQ или Redpanda, который вы расследовали. Какие инструменты профилирования вы использовали?
Вакансия требует навыков разработки на Go для улучшения клиентов брокеров сообщений.
Какие паттерны в Go вы считаете наиболее эффективными для написания отказоустойчивых клиентов к брокерам сообщений?
Одной из задач является внедрение SLO для стека обсервабилити.
Как бы вы подошли к определению SLI и SLO для системы распределенного стриминга, чтобы минимизировать ложные срабатывания алертов?
Работа в Alpaca связана с финансовыми операциями, где важна каждая миллисекунда.
Каков ваш опыт работы с низкоуровневой отладкой в Linux (perf, bpf) для поиска узких мест в задержках (latency)?
Роль Staff подразумевает лидерство и взаимодействие с другими командами.
Опишите случай, когда вам нужно было убедить команду разработки изменить архитектуру сервиса ради повышения его надежности.
Похожие вакансии
Senior Software Engineer - Devx
Senior Software Engineer (DevOps)
Senior Build & Integration Technician
Senior SRE - Data
Chief DevSecOps Engineer
Senior DevOps Engineer
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- США