+500% приглашений

Откликайтесь
на вакансии с ИИ

УдалённоПолная занятость

Mobile ML Engineer (LLM, Edge AI)

Name: Quick Offer — сервис для поиска работы на hh.ru
Brand: Quick Offer
SKU: quick-offer-saas
Availability: InStock
Rating: 4.9 (682 reviews)

Это уникальная возможность работать с cutting-edge технологиями (Edge AI) в востребованной нише. Проект предлагает сложные инженерные вызовы и работу с новейшим железом, что гарантирует профессиональный рост.

Вакансия из Quick Offer Global, списка международных компаний

Пожаловаться

Сложность вакансии

ЛегкоСложно

Роль требует редкого сочетания навыков: глубокого понимания ML-моделей (особенно LLM) и специфики мобильной разработки с учетом ограничений железа (NPU, ANE). Задачи по квантизации и оптимизации инференса на устройствах относятся к категории повышенной сложности.

Анализ зарплаты

Медиана450 000 ₽

Рынок350 000 ₽ – 600 000 ₽

В вакансии не указана зарплата, но для специалистов уровня Senior в области Mobile ML на российском и международном рынках вилка обычно начинается от 400 000 рублей и выше. Учитывая узкую специализацию (Edge AI/LLM), компенсация может быть значительно выше среднего по рынку.

Меня крайне заинтересовала вакансия Mobile ML Engineer, так как работа с Edge AI и локальным запуском LLM — это сейчас самый передний край технологий. У меня есть глубокий интерес к оптимизации моделей и работе с мобильным железом, включая NPU и специализированные фреймворки вроде CoreML и llama.cpp.

В моем опыте я всегда уделял внимание производительности и ограничениям ресурсов, что критически важно для on-device решений. Я уверен, что мой опыт в квантизации моделей и понимание архитектуры мобильных процессоров позволят мне внести значимый вклад в развитие вашего продукта и сделать AI по-настоящему персональным и быстрым.

+250% к просмотрам

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в ITCharm уже сейчас

Присоединяйтесь к созданию будущего персонального ИИ и запускайте LLM прямо на смартфонах!

Описание вакансии

#vacancy#AI#MobileAI#EdgeAI#LLM#iOS#Android

Mobile ML Engineer (LLM, Edge AI) / Remote

О компании и проекте

Команда делает AI, который работает прямо на телефоне пользователя.

Большие языковые модели запускаются локально на iOS/Android - без облака, без задержек и без перегрева устройства.

Стек Edge AI, LLM, CoreML, TFLite, ExecuTorch, llama.cpp, quantization, mobile inference

Почему стоит рассмотреть

• Настоящий челлендж — встроить AI в обычный смартфон, открывая эру персональных AI на устройстве

• Реальный cutting-edge: on-device AI / edge ML

• Работа с реальным железом (iPhone, Snapdragon, NPU)

• Глубокая оптимизация моделей под ограничения устройства

Пригодится

• В идеале - опыт с on-device / mobile / edge AI и запуск моделей на iPhone / Android

• Квантизация моделей (INT4 / INT8 / GGUF)

• ExecuTorch / llama.cpp / MLC-LLM / CoreML / TFLite

• Понимание mobile hardware (ANE, Snapdragon, NPU)

Полное описание и отклик Откликнуться

Вопросы в тг Откликнуться.

+400% к собеседованиям

Создайте идеальное резюме с помощью ИИ-агента

Навыки

LLM
iOS
Android
Edge AI
CoreML
NPU
Quantization
llama.cpp
TFLite
ExecuTorch
Mobile Inference
MLC-LLM

Возможные вопросы на собеседовании

Важно понимать, как кандидат справляется с потерей точности при сжатии весов.

Какие методы квантизации (например, GPTQ, AWQ) вы использовали для LLM и как вы оценивали влияние INT4 на перплексию модели?

Проверка практического опыта работы с мобильными фреймворками.

В чем основные отличия и сложности при портировании моделей через ExecuTorch по сравнению с классическим TFLite?

Оптимизация под конкретное железо — ключевой навык.

Как бы вы оптимизировали использование памяти при запуске модели на 7B параметров на устройстве с 8 ГБ оперативной памяти?

Проверка понимания аппаратной части.

Как распределить вычисления между CPU, GPU и NPU (Apple Neural Engine) для достижения минимальной задержки (latency)?

Работа с библиотеками для локального инференса.

Был ли у вас опыт работы с llama.cpp или MLC-LLM? Какие основные узкие места вы встречали при их интеграции в мобильное приложение?

Устали искать работу? Мы найдём её за вас

Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!

Откликайтесь
на вакансии с ИИ

Mobile ML Engineer (LLM, Edge AI)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в ITCharm уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы квантизации (например, GPTQ, AWQ) вы использовали для LLM и как вы оценивали влияние INT4 на перплексию модели?

В чем основные отличия и сложности при портировании моделей через ExecuTorch по сравнению с классическим TFLite?

Как бы вы оптимизировали использование памяти при запуске модели на 7B параметров на устройстве с 8 ГБ оперативной памяти?

Как распределить вычисления между CPU, GPU и NPU (Apple Neural Engine) для достижения минимальной задержки (latency)?

Был ли у вас опыт работы с llama.cpp или MLC-LLM? Какие основные узкие места вы встречали при их интеграции в мобильное приложение?

Похожие вакансии

AI Engineer (Agents)

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Разработчик AI-инфраструктуры (Python)

Middle+ / Senior AI / LLM Engineer

Лид AI подсистем (Lead AI)

Устали искать работу? Мы найдём её за вас

Откликайтесьна вакансии с ИИ

Mobile ML Engineer (LLM, Edge AI)

Анализ зарплаты

Сопроводительное письмо

Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в ITCharm уже сейчас

Описание вакансии

Создайте идеальное резюме с помощью ИИ-агента

Навыки

Возможные вопросы на собеседовании

Какие методы квантизации (например, GPTQ, AWQ) вы использовали для LLM и как вы оценивали влияние INT4 на перплексию модели?

В чем основные отличия и сложности при портировании моделей через ExecuTorch по сравнению с классическим TFLite?

Как бы вы оптимизировали использование памяти при запуске модели на 7B параметров на устройстве с 8 ГБ оперативной памяти?

Как распределить вычисления между CPU, GPU и NPU (Apple Neural Engine) для достижения минимальной задержки (latency)?

Был ли у вас опыт работы с llama.cpp или MLC-LLM? Какие основные узкие места вы встречали при их интеграции в мобильное приложение?

Похожие вакансии

AI Engineer (Agents)

AI-разработчик / вайбкодер

Инженер по искусственному интеллекту

Разработчик AI-инфраструктуры (Python)

Middle+ / Senior AI / LLM Engineer

Лид AI подсистем (Lead AI)

Устали искать работу? Мы найдём её за вас

Откликайтесь
на вакансии с ИИ