yandex
T
tenstorrent
Страна
США
Зарплата
100 000 $ – 500 000 $
+500% приглашений

Откликайтесь
на вакансии с ИИ

Ускорим процесс поиска работы
SeniorГибридПолная занятость

Sr. Software Engineer, Observability and Telemetry

Оценка ИИ

Исключительная возможность работать в одной из самых инновационных компаний в сфере ИИ-железа. Высокий диапазон компенсации и работа с передовыми технологиями (RISC-V, суперкомпьютеры) делают вакансию крайне привлекательной.


Вакансия из Quick Offer Global, списка международных компаний
Пожаловаться

Сложность вакансии

ЛегкоСложно
Оценка ИИ

Высокая сложность обусловлена необходимостью глубоких знаний C++ на стыке с низкоуровневым железом и распределенными системами. Кандидат должен понимать архитектуру RISC-V и уметь работать с огромными объемами данных в реальном времени.

Анализ зарплаты

Медиана210 000 $
Рынок175 000 $ – 280 000 $
Оценка ИИ

Указанный в вакансии диапазон ($100k - $500k) крайне широк и покрывает уровни от Junior до Staff/Principal. Рыночная медиана для Senior-позиции в Кремниевой долине составляет около $190k-220k базовой части, что полностью соответствует предложению компании.

Сопроводительное письмо

I am writing to express my strong interest in the Senior Software Engineer position for Observability and Telemetry at Tenstorrent. With a deep background in C++ development and a passion for building high-performance distributed systems, I am excited by the opportunity to contribute to your mission of revolutionizing AI compute clusters. My experience in designing telemetry pipelines and working with time-series databases aligns perfectly with your goal of scaling TT-Telemetry to handle massive operational data.

Throughout my career, I have focused on bridging the gap between low-level hardware metrics and high-level observability platforms like Prometheus and Grafana. I am particularly drawn to Tenstorrent's innovative use of RISC-V architecture and the challenge of ensuring sub-minute problem resolution across thousands of compute nodes. I am confident that my technical skills in C++ and my first-principles approach to networking and data structures will allow me to make an immediate impact on your distributed telemetry stack.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в tenstorrent уже сейчас

Присоединяйтесь к команде Tenstorrent и создавайте будущее систем мониторинга для мощнейших ИИ-кластеров в мире!

Описание вакансии

Tenstorrent is leading the industry on cutting-edge AI technology, revolutionizing performance expectations, ease of use, and cost efficiency. With AI redefining the computing paradigm, solutions must evolve to unify innovations in software models, compilers, platforms, networking, and semiconductors. Our diverse team of technologists have developed a high performance RISC-V CPU from scratch, and share a passion for AI and a deep desire to build the best AI platform possible. We value collaboration, curiosity, and a commitment to solving hard problems. We are growing our team and looking for contributors of all seniorities.

Tenstorrent is building the world’s fastest, most efficient AI compute clusters. Our modular RISC-V and AI processors can snap together into a single, massively parallel distributed supercomputer consisting of thousands of compute nodes. As we scale, the volume and complexity of operational data grows by orders of magnitude. Observability and telemetry are key to ensuring our customers can resolve problems in minutes rather than hours. The telemetry team owns our proprietary telemetry infrastructure, spanning from the device level to the infrastructure needed to drive dashboards, monitoring systems, and orchestration.

This role ishybrid, based out of Santa Clara, CA; Austin, TX; or Toronto, ON.

We welcome candidates at various experience levels for this role. During the interview process, candidates will be assessed for the appropriate level, and offers will align with that level, which may differ from the one in this posting.

Who You Are

  • Strong C++ engineer and comfortable working in both low-level environments and distributed systems design.
  • Experience building atop observability platforms such as Prometheus, OpenTelemetry, Grafana, ClickHouse, or similar technologies.
  • Solid understanding of data structures for manipulating large volumes of data.
  • Familiarity with SQL databases, with time-series databases a plus.
  • Curious about networking and communication across large clusters and comfortable reasoning from first principles while challenging industry conventions.

What We Need

  • Architect, implement, and maintain TT-Telemetry, our C++-based service for collecting and exporting device-level metrics.
  • Interface with internal engineering teams to build a deep understanding of Tenstorrent’s architecture and identify and surface useful metrics.
  • Design efficient built-in web GUIs for observing device- and cluster-level state, diagnosing problems, and monitoring utilization.
  • Design ingestion pipelines for industry standard telemetry systems (e.g., Prometheus).
  • Help define the long-term architecture of Tenstorrent’s distributed telemetry stack.

What You Will Learn

  • How large-scale AI clusters are architected from the networking layer up.
  • The performance characteristics of custom AI hardware and RISC-V processors at scale.
  • How telemetry and observability considerations impact the design of next-gen AI accelerators.
  • How to design and architect a world-class telemetry and observability platform from the ground up.

Compensation for all engineers at Tenstorrent ranges from $100k - $500k including base and variable compensation targets. Experience, skills, education, background and location all impact the actual offer made.

Tenstorrent offers a highly competitive compensation package and benefits, and we are an equal opportunity employer.

This offer of employment is contingent upon the applicant being eligible to access U.S. export-controlled technology.  Due to U.S. export laws, including those codified in the U.S. Export Administration Regulations (EAR), the Company is required to ensure compliance with these laws when transferring technology to nationals of certain countries (such as EAR Country Groups D:1, E1, and E2).   These requirements apply to persons located in the U.S. and all countries outside the U.S.  As the position offered will have direct and/or indirect access to information, systems, or technologies subject to these laws, the offer may be contingent upon your citizenship/permanent residency status or ability to obtain prior license approval from the U.S. Commerce Department or applicable federal agency.  If employment is not possible due to U.S. export laws, any offer of employment will be rescinded.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Создайте идеальное резюме с помощью ИИ-агента

Навыки

  • C++
  • SQL
  • Prometheus
  • Grafana
  • OpenTelemetry
  • Networking
  • Distributed Systems
  • Data Structures
  • ClickHouse
  • Time Series Databases
  • RISC-V

Возможные вопросы на собеседовании

Проверка навыков оптимизации C++ для систем с высокой нагрузкой.

Как бы вы оптимизировали сбор метрик в C++, чтобы минимизировать влияние (overhead) на основную производительность ИИ-процессора?

Оценка опыта работы с распределенными системами и инструментами мониторинга.

Опишите ваш опыт проектирования конвейеров обработки данных для Prometheus или ClickHouse в масштабе тысяч узлов.

Проверка понимания специфики временных рядов.

Какие структуры данных наиболее эффективны для хранения и агрегации телеметрии в оперативной памяти перед отправкой в БД?

Оценка способности решать проблемы на стыке софта и сети.

С какими сетевыми узкими местами вы сталкивались при передаче больших объемов телеметрии в кластере и как их решали?

Проверка архитектурного мышления.

Как спроектировать систему алертинга, которая избегает 'шторма уведомлений' при массовом сбое в распределенном суперкомпьютере?

Похожие вакансии

N
NeuroVision
300 000 ₽ – 500 000 ₽

DevOps Engineer / Blockchain & AI Infrastructure Engineer

SeniorУдалённоРоссия
DevOps · Blockchain · Artificial Intelligence · Computer Vision · NVIDIA GPU · CUDA · TensorRT · Kubernetes · Bare Metal · CI/CD
+10 навыков
O
OUTKOD
270 000 ₽ – 320 000 ₽

Devops senior

SeniorУдалённоРоссия
Linux · FreeIPA · Active Directory · TCP/IP · SMTP · IMAP · LDAP · DNS · PKI · Bash · OpenID Connect · Astra Linux
+12 навыков
D
DstLab
240 000 ₽ – 280 000 ₽

Devops Middle+/Senior

SeniorУдалённоРоссия
Kubernetes · Redis · Kafka · Keycloak · PostgreSQL · MonetDB · VK Cloud · GitLab CI · ArgoCD · HashiCorp Vault · Prometheus · Grafana · ELK stack · Linux
+14 навыков
КТ
Комплексные технологии
200 000 ₽ – 220 000 ₽

DevOps Middle +/ Senior

SeniorУдалённоРоссия
SQL · Kubernetes · Docker · Ansible · Prometheus · Grafana · ELK stack · CI/CD · Java · Go · C++ · Bash · Terraform · SonarQube · SAST · Python · Linux · Windows Server · Cisco · MikroTik · Fortinet · Ubiquiti · TCP/IP · DNS · DHCP · BGP · OSPF · VLAN · NAT · Zero Trust · RBAC · SIEM · Zabbix · Wazuh · PowerShell · VMware · Proxmox · Hyper-V · KVM
+39 навыков
WG
WMT Group
300 000 ₽ – 400 000 ₽

Senior DevOps/Mlops

SeniorУдалённоРоссия
Docker · Helm · Jenkins · GitLab CI · Python · Airflow · JupyterHub · MLflow · Seldon Core · CUDA · Kubernetes · Hadoop · Apache Spark · Apache Kafka · ELK stack · LLM · Computer Vision
+17 навыков
HR
Hi, Rockits!
300 000 ₽ – 400 000 ₽

Senior DevOps/SRE Engineer (On-Premise инфраструктура)

SeniorУдалённоРоссия
Kubernetes · Ansible · Terraform · GitLab CI/CD · PostgreSQL · Redis · RabbitMQ · ElasticSearch · Prometheus · Grafana · Linux · Go · Python · Kafka · Vault · NATS · Bash
+17 навыков
более 1000 офферов получено
4.9

1000+ офферов получено

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

T
tenstorrent
Страна
США
Зарплата
100 000 $ – 500 000 $