- Страна
- Казахстан
- Зарплата
- от 800 000 ₽
Откликайтесь
на вакансии с ИИ

Computer Vision Research Engineer
Интересные и наукоемкие задачи на стыке CV, Audio и NLP. Однако, жесткое требование работы в офисе в Астане и отсутствие вилки (указан только 'от') могут снижать привлекательность для части кандидатов.
Сложность вакансии
Высокая сложность обусловлена необходимостью глубоких знаний в мультимодальном анализе (видео + аудио), опытом работы с RAG/LLM и специфической областью детекции психофизиологических состояний. Требуется опыт от 3 лет и готовность работать исключительно в офисе.
Анализ зарплаты
Предложенная зарплата от 800 000 тенге является конкурентной для рынка Казахстана для уровня Middle/Senior ML-инженера, однако для узких специалистов в области мультимодальных данных и RAG рыночные максимумы могут быть выше.
Сопроводительное письмо
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в Виктори-Технолоджи уже сейчас
Присоединяйтесь к команде Виктори-Технолоджи и создавайте инновационные решения в области LegalTech и анализа эмоций!
Описание вакансии
#вакансия #астана #оффлайн #workITkz #dsml, #computervision
Должность: Computer Vision Research Engineer
Компания: Виктори-Технолоджи
Город: Астана
Занятость: оффлайн
Оплата: от 800 000 тг.
Описание вакансии:
Обязанности:
- Разработка и внедрение ML-моделей для анализа видео и аудио данных;
- Детекция и классификация эмоций и психофизиологических состояний (стресс, ложь, страх, гнев, нервозность) на основе мимики, микродвижений, жестов, тембра голоса и интонации;
- Построение пайплайнов для предварительной обработки видео/аудио, извлечения признаков (landmarks, аудио-эмбеддингов, спектрограмм);
- Разработка и внедрение моделей с использованием CNN, RNN, Transformer, Audio/Video Fusion, LLM/RAG-архитектур для интерпретации результатов;
- Разработка методик валидации моделей, включая синхронизацию аудио и видео, cross-validation, оценку метрик (accuracy, precision, recall, F1-score);
- Эксперименты с различными нейросетевыми архитектурами (Vision Transformers, Audio Transformers, Bi-LSTM/GRU);
- Исследование методов интерпретируемости и объяснимости моделей для юридически значимых выводов (Explainable AI);
- Проведение ревью кода существующих ML-моделей и оценка качества реализации;
- Оптимизация, улучшение и изменение архитектуры моделей для повышения точности, стабильности и производительности;
- Поддержка моделей в продакшн-среде, мониторинг результатов и устранение багов;
- Разработка API и механизмов для передачи интерпретированных результатов моделей в действующие системы.
Требования:
- Опыт работы 3+ лет в ML/CV/NLP/RAG, предпочтительно в проектах с анализом видео/аудио;
- Глубокое понимание компьютерного зрения, обработки аудио и мультимодальных данных;
- Опыт работы с PyTorch/TensorFlow;
- Опыт разработки и внедрения CNN, RNN, Transformer, Vision/Audio Transformers, multimodal fusion;
- Практические знания по подготовке данных, аугментации, извлечению признаков (landmarks, спектрограммы, embeddings);
- Опыт работы с RAG-архитектурой или LLM для интерпретации результатов ML-моделей;
- Опыт интеграции ML-моделей через API с внешними системами;
- Опыт работы с пайплайнами ML, MLOps, Docker.
Условия:
- Работа в офисе в районе Президентского парка, без удаленки;
- Проекты в области LegalTech и цифровизации;
- Живые задачи, быстрые решения и пространство для инициативы;
- Оформление в штат, испытательный срок 3 месяца;
- График: 5/2, 9:00–18:00.
Контакты:
Telegram Откликнуться
Whatsapp 87077111920
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Computer Vision
- Machine Learning
- PyTorch
- TensorFlow
- CNN
- RNN
- Transformer
- LLM
- RAG
- MLOps
- Docker
- API
- NLP
Возможные вопросы на собеседовании
Вакансия предполагает работу с видео и аудио одновременно. Важно понимать, как кандидат объединяет эти потоки данных.
Расскажите о вашем опыте реализации Multimodal Fusion. Какие стратегии объединения признаков (early vs late fusion) вы использовали для синхронизации аудио и видео?
В LegalTech критически важна интерпретируемость результатов.
Какие методы Explainable AI (XAI) вы применяли на практике, чтобы обосновать выводы модели для конечного пользователя или юридической экспертизы?
Работа связана с анализом мимики и микровыражений.
С какими библиотеками для извлечения facial landmarks вы работали и как решали проблему зашумленных данных или плохого освещения?
Упоминается использование RAG для интерпретации результатов.
Как именно вы интегрировали RAG-архитектуру с выходами CV-моделей для генерации текстовых отчетов или интерпретаций?
Проект требует работы в продакшн-среде.
Опишите ваш типичный стек MLOps: как вы организуете мониторинг качества моделей после деплоя и процесс их дообучения на новых данных?
Похожие вакансии
Python-разработчик (AI)
Вайбкодер (AI-агенты)
Разработчик с фокусом на интеграцию LLM и AI-технологий
Middle/Senior AI-разработчик
AI креативный менеджер
Старший LLM-разработчик в сервис Нейроюрист
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!