- Страна
- Сербия
Откликайтесь
на вакансии с ИИ

Sr Engineer, Server Inference
Исключительная возможность работать в одной из самых инновационных компаний в сфере ИИ-железа под руководством легенд индустрии. Высокая оценка за уникальность задач и потенциал роста.
Сложность вакансии
Высокая сложность обусловлена необходимостью глубоких знаний как в бэкенд-разработке, так и в специфике работы ML-моделей на уровне железа. Также накладываются строгие требования экспортного контроля США.
Анализ зарплаты
Зарплата в объявлении не указана, но Tenstorrent заявляет о высококонкурентном пакете. Для Белграда уровень Senior Engineer в международных продуктовых компаниях обычно находится в диапазоне 4500–7000 евро нетто.
Сопроводительное письмо
I am writing to express my strong interest in the Senior Server Inference Engineer position at Tenstorrent. With a solid background in backend engineering and a deep interest in machine learning infrastructure, I am excited by Tenstorrent’s mission to revolutionize AI computing through custom silicon and high-performance RISC-V CPUs. My experience in designing scalable APIs and optimizing production environments aligns perfectly with your team's goals of building the software layer that powers state-of-the-art inference.
In my previous roles, I have focused on solving performance bottlenecks and implementing robust system designs using Python and Docker. I am particularly drawn to this role because of the opportunity to work at the intersection of hardware and software, optimizing end-to-end ML inference. I am eager to bring my expertise in clean software architecture and my passion for performance optimization to the Inference Server Technologies team in Belgrade.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в tenstorrent уже сейчас
Присоединяйтесь к команде Tenstorrent в Белграде, чтобы создавать будущее ИИ-инфраструктуры на базе инновационных процессоров RISC-V!
Описание вакансии
Tenstorrent is leading the industry on cutting-edge AI technology, revolutionizing performance expectations, ease of use, and cost efficiency. With AI redefining the computing paradigm, solutions must evolve to unify innovations in software models, compilers, platforms, networking, and semiconductors. Our diverse team of technologists have developed a high performance RISC-V CPU from scratch, and share a passion for AI and a deep desire to build the best AI platform possible. We value collaboration, curiosity, and a commitment to solving hard problems. We are growing our team and looking for contributors of all seniorities.
Join our Inference Server Technologies team, where we develop software that powers state-of-the-art AI inferencing on Tenstorrent’s cutting-edge hardware. Our team builds the layer that works on top of the Tenstorrent ML libraries - designing APIs, deploying workloads, and benchmarking end-to-end inference speed. You’ll help us shape how developers consume and scale model execution on Tenstorrent’s stack.
This role is hybrid based in Belgrade, Serbia.
We welcome candidates at various experience levels. During the interview process, candidates will be assessed for the appropriate level, and offers will align with that level, which may differ from the one in this posting.
Who You Are
- An engineer who enjoys designing modern APIs and improving how ML models are deployed in production.
- Curious about performance gains through techniques like batching, caching, and model parallelism.
- Passionate about clean software architecture and effective abstraction layers.
- Motivated to deliver backend systems that developers trust and rely on.
What We Need
- Backend engineers who enjoy solving performance bottlenecks and scaling infrastructure.
- Experience with web technologies, protocols, and system design.
- Familiarity with Python, Docker, and Linux-based environments.
- Strong coding practices and a clear ability to break down complex problems into high-quality, maintainable code.
What You Will Learn
- How to optimize end-to-end ML inference on custom silicon.
- Strategies for building scalable, reliable software interfaces for real-world AI applications.
- How to shape the experience developers have when using Tenstorrent’s hardware for AI workloads.
Tenstorrent offers a highly competitive compensation package and benefits, and we are an equal opportunity employer.
This offer of employment is contingent upon the applicant being eligible to access U.S. export-controlled technology. Due to U.S. export laws, including those codified in the U.S. Export Administration Regulations (EAR), the Company is required to ensure compliance with these laws when transferring technology to nationals of certain countries (such as EAR Country Groups D:1, E1, and E2). These requirements apply to persons located in the U.S. and all countries outside the U.S. As the position offered will have direct and/or indirect access to information, systems, or technologies subject to these laws, the offer may be contingent upon your citizenship/permanent residency status or ability to obtain prior license approval from the U.S. Commerce Department or applicable federal agency. If employment is not possible due to U.S. export laws, any offer of employment will be rescinded.
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- Linux
- Docker
- Backend Development
- System Design
- API Design
- Machine Learning Infrastructure
- RISC-V
- Model Parallelism
- Batching
Возможные вопросы на собеседовании
Проверка понимания архитектуры систем инференса и способов повышения пропускной способности.
Как бы вы реализовали эффективную стратегию батчинга (batching) для запросов к ML-модели в высоконагруженной системе?
Оценка навыков проектирования API для разработчиков.
Какие принципы вы считаете ключевыми при проектировании API, которое должно скрывать сложность взаимодействия с кастомным оборудованием?
Проверка опыта работы с контейнеризацией и деплоем.
Опишите ваш опыт оптимизации Docker-образов для ML-приложений. Какие нюансы возникают при работе с GPU или специализированными ускорителями?
Оценка понимания параллелизма в контексте ИИ.
В чем разница между model parallelism и data parallelism, и в каких случаях стоит использовать каждый из подходов при инференсе?
Проверка навыков отладки производительности в Linux.
Какие инструменты и методики вы используете для поиска узких мест (bottlenecks) в производительности бэкенд-системы на базе Linux?
Похожие вакансии
AI Engineer (CV & Navigation)
Senior / Lead LLM Engineer
Middle, Middle+, Senior GenAI/LLM Разработчик
Senior Python AI Developer
GenAI/LLM Разработчик
Middle / Senior GenAI Engineer (CV)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Сербия