yandex
X
xai
Страна
США
Зарплата
180 000 $ – 440 000 $
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
SeniorВ офисеПолная занятость

Site Reliability Engineer - US Government

Оценка ИИ

Исключительная возможность работать в одной из самых амбициозных ИИ-компаний мира над критически важными проектами. Высокий уровень компенсации и работа с передовыми технологиями (GPU, Kubernetes) делают вакансию крайне привлекательной для топ-инженеров.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена необходимостью наличия действующего допуска Top Secret и глубоких знаний в области GPU-инфраструктуры и Kubernetes. Работа предполагает высокую ответственность в закрытых государственных средах и до 50% командировок.

Анализ зарплаты

Медиана220 000 $
Рынок160 000 $ – 350 000 $
Оценка ИИ

Предлагаемая вилка $180k–$440k значительно превышает средние рыночные показатели для SRE, что объясняется требованием допуска Top Secret и уникальностью задач xAI. Верхняя граница диапазона соответствует уровню Principal Engineer в компаниях Big Tech.

Сопроводительное письмо

I am writing to express my strong interest in the Site Reliability Engineer position for the US Government Team at xAI. With over five years of experience in managing large-scale Kubernetes environments and a deep proficiency in Infrastructure-as-Code tools like Terraform and Ansible, I am confident in my ability to contribute to your mission of building secure and scalable AI infrastructure. My background includes extensive work with bare metal and hybrid cloud architectures, which aligns perfectly with the technical demands of this role.

Having maintained an active Top Secret security clearance, I understand the unique challenges and responsibilities associated with high-security government projects. I am particularly excited about the opportunity to apply my expertise in GPU hardware optimization and observability to support xAI’s large-scale AI workloads. I thrive in fast-paced, flat organizations where initiative and technical excellence are prioritized, and I am eager to bring my proactive problem-solving approach to your team in Palo Alto or Washington, D.C.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в xai уже сейчас

Присоединяйтесь к xAI, чтобы строить инфраструктуру будущего для самых ответственных государственных проектов!

Описание вакансии

About xAI

xAI’s mission is to create AI systems that can accurately understand the universe and aid humanity in its pursuit of knowledge. Our team is small, highly motivated, and focused on engineering excellence. This organization is for individuals who appreciate challenging themselves and thrive on curiosity. We operate with a flat organizational structure. All employees are expected to be hands-on and to contribute directly to the company’s mission. Leadership is given to those who show initiative and consistently deliver excellence. Work ethic and strong prioritization skills are important. All employees are expected to have strong communication skills. They should be able to concisely and accurately share knowledge with their teammates.

ABOUT THE ROLE:

We are seeking a highly skilled Senior Infrastructure Engineer to join our US Government Team, focused on designing, building, and operating secure, scalable infrastructure for critical government projects. In this role, you will develop and manage training and inference clusters, as well as highly reliable applications, across bare metal, classified cloud, and hybrid cloud architectures. You will leverage your expertise in Kubernetes and GPU hardware to deliver robust, secure systems that support large-scale AI workloads while meeting stringent federal compliance requirements. This role demands a passion for automation, observability, and ensuring system integrity in a fast-paced, high-security environment.

RESPONSIBILITIES:

  • Develop and optimize software to provision and manage xAI’s infrastructure across on-premise, virtual machine, and classified cloud environments, enabling efficient scaling for US government initiatives.
  • Enhance the reliability, performance, and cost-effectiveness of infrastructure to support large-scale AI and application workloads in secure, classified settings.
  • Collaborate with xAI engineers to understand workload requirements and design tailored solutions that meet government-specific needs and compliance standards.
  • Implement robust observability, monitoring, and security practices to ensure the integrity, availability, and confidentiality of critical systems, adhering to federal protocols.
  • Manage storage infrastructure using Infrastructure-as-Code (IaC) tools such as Pulumi, Terraform, or Ansible, with a focus on secure data handling.
  • Drive system reliability through incident management, postmortems, and the definition of clear SLAs and SLOs, while maintaining security and compliance.
  • This is an in-person role based in Palo Alto, CA or Washington, DC, with up to 50% travel required.

BASIC QUALIFICATIONS:

  • Active Top Secret (TS) security clearance.
  • 5+ years of experience as an Infrastructure Engineer, Site Reliability Engineer, or similar role, with a focus on building and maintaining reliable, scalable systems, preferably in secure or government environments.
  • Proficiency in managing storage infrastructure with IaC tools such as Pulumi, Terraform, or Ansible.
  • Deep understanding of the Kubernetes stack, including CNI, CRI, CSI, and related components.
  • Demonstrated ability to improve system reliability through incident management, postmortems, and defining SLAs/SLOs.
  • Excellent communication and documentation skills, with the ability to handle sensitive information concisely and accurately.

PREFERRED SKILLS AND EXPERIENCE:

  • Deep familiarity with installing and using GPU hardware, including setting up drivers, debugging issues, and ensuring reliability.
  • Experience with high-traffic web or mobile application workloads, including optimizing Kubernetes for large-scale deployments in classified or federal settings.
  • Familiarity with chaos engineering, capacity planning, or similar practices for ensuring system resilience in government projects.
  • Proficiency with tools such as Kyverno, ArgoCD, or Go programming for infrastructure automation.
  • Strong sense of ownership, curiosity, and enthusiasm for tackling complex technical challenges in secure environments.
  • Passion for problem-solving and a proactive drive to deliver impactful results while adhering to security protocols.
  • Certifications in security-related fields (e.g., CISSP) or experience in secure federal environments.

COMPENSATION AND BENEFITS:

$180,000 - $440,000 USD

Base salary is just one part of our total rewards package at xAI, which also includes equity, comprehensive medical, vision, and dental coverage, access to a 401(k) retirement plan, short & long-term disability insurance, life insurance, and various other discounts and perks.

xAI is an equal opportunity employer. For details on data processing, view ourRecruitment Privacy Notice.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • Terraform
  • Kubernetes
  • SRE
  • Infrastructure as Code
  • Observability
  • Chaos Engineering
  • Go
  • Ansible
  • ArgoCD
  • GPU
  • Pulumi

Возможные вопросы на собеседовании

Роль требует работы с секретными данными и соблюдения федеральных протоколов безопасности.

Расскажите о вашем опыте работы в средах с высоким уровнем безопасности и о том, как вы обеспечивали соблюдение стандартов комплаенса?

Вакансия подразумевает поддержку крупномасштабных ИИ-нагрузок.

С какими специфическими проблемами вы сталкивались при развертывании и оптимизации GPU-кластеров для обучения нейросетей?

xAI активно использует IaC для управления инфраструктурой.

Каков ваш опыт использования Pulumi или Terraform для управления bare-metal серверами в сравнении с облачными ресурсами?

SRE-культура в xAI строится на надежности и быстром реагировании.

Опишите самый сложный инцидент, которым вы управляли: как вы проводили postmortem и какие меры внедрили для предотвращения повторения?

Компания ценит плоскую структуру и личную инициативу.

Приведите пример, когда вы самостоятельно выявили проблему в архитектуре и довели решение до внедрения без прямого указания руководства.

Похожие вакансии

N
NeuroVision
300 000 ₽ – 500 000 ₽

DevOps Engineer / Blockchain & AI Infrastructure Engineer

SeniorУдалённоРоссия
DevOps · Blockchain · Artificial Intelligence · Computer Vision · NVIDIA GPU · CUDA · TensorRT · Kubernetes · Bare Metal · CI/CD
+10 навыков
O
OUTKOD
270 000 ₽ – 320 000 ₽

Devops senior

SeniorУдалённоРоссия
Linux · FreeIPA · Active Directory · TCP/IP · SMTP · IMAP · LDAP · DNS · PKI · Bash · OpenID Connect · Astra Linux
+12 навыков
D
DstLab
240 000 ₽ – 280 000 ₽

Devops Middle+/Senior

SeniorУдалённоРоссия
Kubernetes · Redis · Kafka · Keycloak · PostgreSQL · MonetDB · VK Cloud · GitLab CI · ArgoCD · HashiCorp Vault · Prometheus · Grafana · ELK stack · Linux
+14 навыков
КТ
Комплексные технологии
200 000 ₽ – 220 000 ₽

DevOps Middle +/ Senior

SeniorУдалённоРоссия
SQL · Kubernetes · Docker · Ansible · Prometheus · Grafana · ELK stack · CI/CD · Java · Go · C++ · Bash · Terraform · SonarQube · SAST · Python · Linux · Windows Server · Cisco · MikroTik · Fortinet · Ubiquiti · TCP/IP · DNS · DHCP · BGP · OSPF · VLAN · NAT · Zero Trust · RBAC · SIEM · Zabbix · Wazuh · PowerShell · VMware · Proxmox · Hyper-V · KVM
+39 навыков
WG
WMT Group
300 000 ₽ – 400 000 ₽

Senior DevOps/Mlops

SeniorУдалённоРоссия
Docker · Helm · Jenkins · GitLab CI · Python · Airflow · JupyterHub · MLflow · Seldon Core · CUDA · Kubernetes · Hadoop · Apache Spark · Apache Kafka · ELK stack · LLM · Computer Vision
+17 навыков
HR
Hi, Rockits!
300 000 ₽ – 400 000 ₽

Senior DevOps/SRE Engineer (On-Premise инфраструктура)

SeniorУдалённоРоссия
Kubernetes · Ansible · Terraform · GitLab CI/CD · PostgreSQL · Redis · RabbitMQ · ElasticSearch · Prometheus · Grafana · Linux · Go · Python · Kafka · Vault · NATS · Bash
+17 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

X
xai
Страна
США
Зарплата
180 000 $ – 440 000 $