- Страна
- Узбекистан
- Зарплата
- 3 500 $ – 5 000 $
Откликайтесь
на вакансии с ИИ

Software Engineer ML (Production / Speech & Audio)
Привлекательная зарплата в долларах, работа на международный рынок (США/Канада) и сильный инженерный стек. Единственный минус — обязательный переезд в Ташкент на первые месяцы.
Сложность вакансии
Высокая сложность обусловлена необходимостью глубоких знаний в специфической нише (Audio/Speech), умением работать с низкоуровневой оптимизацией (latency, ONNX) и готовностью к временному релокейту.
Анализ зарплаты
Предлагаемая вилка $3500–$5000 соответствует верхнему сегменту рынка для Middle+/Senior ML-инженеров в СНГ и Восточной Европе, особенно учитывая специфику работы с аудио.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь уже сейчас
Присоединяйтесь к международному VoIP-проекту и внедряйте ML-решения в высоконагруженный продакшн!
Описание вакансии
#ML #Production #ONNX #Remote
Software Engineer ML (Production / Speech & Audio)
Компания: Международный продуктовый IT-проект (VoIP / Cloud Telephony) Занятость: Полная занятость
Формат: Гибрид (офис в Ташкенте на 2–3 месяца → далее полная удаленка) ЗП: старт от $3500 до $5000 (обсуждается индивидуально)
Мы - продуктовая команда, создающая интеллектуальную экосистему облачной телефонии для рынков США и Канады. Наш продукт - это отказоустойчивая платформа с миллионными оборотами трафика. ML у нас - не вспомогательная фича, а фундамент системы, работающий в режиме real-time. Мы ищем инженера, который досконально понимает внутреннюю архитектуру аудио-моделей и готов отвечать за их работу в высоконагруженном продакшене.
Чем предстоит заниматься:
- Развитие системы AMD (Answering Machine Detection): дообучение и тюнинг моделей для классификации звонков (отличие человека от автоответчиков/IVR) в режиме реального времени.
- Full-cycle разработка: от сбора и «грязной» разметки аудиоданных до деплоя и калибровки порогов в продакшене.
- Интеграция в Core-продукт: перенос ML-компонентов в backend-инфраструктуру (C# / SIP / RTP стек) через ONNX Runtime.
- Оптимизация latency: борьба за миллисекунды в условиях стриминга аудио.
- Deep Analysis: поиск ошибок и разбор сложных edge cases в реальных сценариях звонков.
- Исследования (R&D): эксперименты с шумоподавлением, VAD и новыми архитектурами для обработки речи.
Наш стек: Python, C# wav2vec 2.0, Whisper, HuggingFace Transformers MFCC, эмбеддинги, спектрограммы ONNX / ONNX Runtime, Quantization SIP / RTP, Windows / Linux
Мы ожидаем:
- 2+ года опыта в ML в продакшене (когда ваша модель реально работала с пользователями).
- Практический опыт со Speech/Audio: понимание того, как устроены аудио-фичи и современные архитектуры обработки звука.
- Инженерный подход (QA-mindset): вам искренне интересно «копаться» в аномалиях данных и проверять систему на прочность.
- Понимание классики и современности: Fine-tuning, Transfer Learning и умение работать с метриками (Precision/Recall, ROC-AUC, Calibration).
- Способность работать end-to-end: от сырого файла до оптимизированного инференса.
Что важно:
- Инженерная автономность: мы ценим тех, кто сам находит проблему и доводит решение до продакшена.
- Бэкграунд: мы очень приветствуем кандидатов, пришедших в ML из Backend или QA, нам важна культура кода и тестирования.
- Готовность к динамике: проект растет, задач много, и они напрямую влияют на бизнес.
Будет плюсом:
- Опыт в Speech/Audio domain (ASR, VAD, Audio Classification).
- Понимание специфики VoIP и потоковой обработки данных.
- Опыт работы с MLOps и инструментами мониторинга моделей.
Условия:
- Обязательный оффлайн-онбординг в Ташкенте (2-3 месяца) для погружения в продукт, далее полная удаленная работа.
- Реальные production-задачи в международном продукте с высокой нагрузкой.
- Возможность профессионального роста и пересмотра компенсации по мере усложнения задач.
- Работа в команде с сильной инженерной экспертизой и отсутствием бюрократии.
📩 CV в Telegram: Откликнуться
--
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- C++
- ONNX
- ONNX Runtime
- Whisper
- HuggingFace Transformers
- Machine Learning
- Deep Learning
- Audio Processing
- SIP
- RTP
- Linux
Возможные вопросы на собеседовании
Проверка понимания специфики real-time обработки аудио.
Как вы подходите к оптимизации latency при инференсе тяжелых моделей вроде Whisper в условиях стриминга?
Оценка опыта работы с ключевой задачей вакансии — классификацией звонков.
Какие признаки (features) помимо спектрограмм вы бы использовали для детекции автоответчиков (AMD)?
Проверка навыков работы с ONNX, который указан в стеке.
С какими сложностями вы сталкивались при квантовании (quantization) аудио-моделей для ONNX Runtime?
Оценка инженерного мышления и умения работать с аномалиями.
Расскажите о самом сложном edge case в вашей практике работы с аудио-данными и как вы его решили.
Проверка понимания метрик качества.
Как вы калибруете пороги классификации, если бизнес-требования минимизируют False Positives (ошибочное принятие человека за бота)?
Похожие вакансии
MLOps Engineer (Senior)
Data Scientist (AutoML)
Team Lead MLOps / Tech Lead
Data Science / ML Engineer
Data инженер Middle+ Senior
AI/ML Engineer
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Узбекистан
- Зарплата
- 3 500 $ – 5 000 $