- Страна
- Франция
Откликайтесь
на вакансии с ИИ

Senior AI Data Engineer (x/f/m)
Отличная вакансия в ведущем европейском health-tech единороге с сильным социальным пакетом и работой над передовыми AI-продуктами. Высокий балл за технологический стек и значимость миссии компании.
Сложность вакансии
Высокая сложность обусловлена требованиями к глубоким знаниям в специфических областях: векторные БД, RAG-архитектуры и работа с медицинскими данными в GCP. Процесс отбора включает многоэтапные технические интервью и системный дизайн.
Анализ зарплаты
Зарплата для Senior Data Engineer в Париже в сфере AI обычно выше среднего по рынку. Doctolib предлагает конкурентоспособные условия, соответствующие топовым технологическим компаниям Франции.
Сопроводительное письмо
I am writing to express my strong interest in the Senior AI Data Engineer position at Doctolib. With over 5 years of experience in building robust data architectures and a deep specialization in GCP, I am excited about the opportunity to contribute to the development of your AI Medical Companion. My background in designing RAG-based systems and managing vector databases aligns perfectly with your team's mission to deliver scalable and safe AI models.
In my previous roles, I have successfully implemented complex data pipelines using Airflow and BigQuery, ensuring high data quality and compliance for sensitive workloads. I am particularly impressed by Doctolib's commitment to transforming healthcare and would welcome the chance to apply my expertise in NoSQL systems and LLM data foundations to help your team accelerate AI experimentation and deployment.
Составьте идеальное письмо к вакансии с ИИ-агентом

Откликнитесь в doctolib уже сейчас
Присоединяйтесь к Doctolib, чтобы создавать будущее цифрового здравоохранения с помощью передовых AI-технологий!
Описание вакансии
What you’ll do
At Doctolib, we're on a mission to transform healthcare through the power of AI. As a Senior Data Engineer, you'll play a key role in building and optimizing the data foundations within the AI Team to deliver safe, scalable, and impactful models.
You will join a dedicated team working on data infrastructure for LLM, VLM and RAG-based systems, powering our new AI Medical Companion.
Your work will ensure that our engineers and data scientists can train, evaluate, and deploy AI models efficiently on high-quality, well-structured, and compliant data.
Your responsibilities include but are not limited to:
- Ensure high standards of data quality for AI model inputs.
- Design, build, and maintain scalable data pipelines on Google Cloud Platform (GCP) for AI and machine learning use cases.
- Implement data ingestion and transformation frameworks that power Retrieval systems and training datasets for LLMs and multimodal models.
- Architect and manage NoSQL and Vector Databases to store and retrieve embeddings, documents, and model inputs efficiently.
- Collaborate with ML and platform teams to define data schemas, partitioning strategies, and governance rules that ensure privacy, scalability, and reliability.
- Integrate unstructured and structured data sources (text, speech,image, documents, metadata) into unified data models ready for AI consumption.
- Optimize performance and cost of data pipelines using GCP native services (BigQuery, Dataflow, Pub/Sub, Cloud Storage, Vertex AI).
- Contribute to data quality and lineage frameworks, ensuring AI models are trained on validated, auditable, and compliant datasets.
- Continuously evaluate and improve our data stack to accelerate AI experimentation and deployment.
Who you are
You could be our next teammate if you have:
- Master’s or Ph.D. degree in Computer Science, Data Engineering, or a related field.
- 5+ years of experience in Data Engineering, ideally supporting AI or ML workloads.
- Strong experience with the GCP data ecosystem
- Proficiency in Python and SQL, with experience in data pipeline orchestration (e.g., Airflow, Dagster, Cloud Composer).
- Deep understanding of NoSQL systems (e.g., MongoDB) and vector databases (e.g., FAISS, Vector Search).
- Experience designing data architectures for RAG, embeddings, or model training pipelines.
- Knowledge of data governance, security, and compliance for sensitive or regulated data.
- Familiarity with W&B / MLflow / Braintrust / DVC for experiment tracking and dataset versioning (extract snapshots, change tracking, reproducibility).
- Familiarity with (Docker, Kubernetes) and CI/CD for data workflows.containerized environments
- A collaborative mindset and passion for building the data foundations of next-generation AI systems.
What we offer
- Free health insurance for you and your children
- Parent Care Program: receive one additional month of leave on top of the legal parental leave
- Free mental health and coaching services through our partner Moka.care
- For caregivers and workers with disabilities, a package including remote policy adaptations, extra days off, and psychological support
- Work from EU countries and the UK for up to 10 days per year, thanks to our flexibility days policy
- Work Council subsidy to refund part of your sport club membership or creative class
- Up to 14 days of RTT
- Lunch voucher with Swile card
The interview process
- HR Screen
- Technical Deep Dive
- System Design
- Behavioral Interview
- Reference check and criminal records check
Offer!
Создайте идеальное резюме с помощью ИИ-агента

Навыки
- Python
- LLM
- SQL
- Kubernetes
- CI/CD
- RAG
- Google Cloud Platform
- Docker
- BigQuery
- Airflow
- MLflow
- Google Cloud Pub/Sub
- Vertex AI
- Dagster
- MongoDB
- Weights & Biases
- DVC
- FAISS
- Vector Search
- Dataflow
- Google Cloud Storage
Возможные вопросы на собеседовании
Проверка опыта работы с ключевой технологией для LLM-приложений.
Расскажите о вашем опыте проектирования и оптимизации векторных баз данных для RAG-систем. С какими проблемами производительности вы сталкивались?
Оценка навыков работы с облачной инфраструктурой, указанной в вакансии.
Как бы вы спроектировали масштабируемый пайплайн обработки неструктурированных данных (текст, изображения) в GCP для обучения мультимодальных моделей?
Важно для сферы здравоохранения (GDPR, медицинская тайна).
Какие стратегии управления данными и обеспечения безопасности вы применяете при работе с чувствительными медицинскими данными?
Проверка владения инструментами воспроизводимости ML-экспериментов.
Как вы организуете версионирование наборов данных и отслеживание происхождения данных (lineage) с помощью таких инструментов, как DVC или MLflow?
Оценка навыков системного проектирования.
Спроектируйте систему для real-time инъекции данных в векторный индекс. Как вы обеспечите консистентность и отказоустойчивость?
Похожие вакансии
AI Engineer (CV & Navigation)
Senior / Lead LLM Engineer
Middle, Middle+, Senior GenAI/LLM Разработчик
Senior Python AI Developer
GenAI/LLM Разработчик
Middle / Senior GenAI Engineer (CV)
1000+ офферов получено
Устали искать работу? Мы найдём её за вас
Quick Offer улучшит ваше резюме, подберёт лучшие вакансии и откликнется за вас. Результат — в 3 раза больше приглашений на собеседования и никакой рутины!
- Страна
- Франция