Intelligence Artificielle

Context engineering et IA embarquée : ce qui change vraiment pour l’infrastructure tech

Context engineering, RAG, IA embarquée sur NPU et microcontrôleurs : comment ces tendances redessinent l’infrastructure cloud, edge et device en 2025.

Tom

09 nov. 2025 • 7 min read

En 2023–2024, tout le monde parlait de prompt engineering.
En 2025, les grosses équipes produit parlent surtout de deux choses :

context engineering (comment on nourrit les modèles)
IA embarquée / on-device (où on les fait tourner)

En clair : on ne se bat plus seulement sur quel modèle on utilise, mais sur ce qu’on lui donne comme contexte… et sur quel type de machine il va inférer (GPU de datacenter, NPU de PC, microcontrôleur, smartphone, etc.).

Dans cet article, on revient sur ces deux tendances macro-tech et ce que ça change pour l’infra.

1. Du prompt engineering au context engineering

Le prompt engineering, c’est l’art de rédiger des instructions efficaces pour un modèle.
Le context engineering, c’est plus large : c’est la discipline qui consiste à concevoir tout ce qui accompagne le prompt :

instructions système
documents récupérés par RAG (search, vector DB, GraphRAG…)
définitions d’outils et schémas de fonctions
résumé de conversation, historique, métadonnées
contraintes de sécurité, provenance, etc.

Plusieurs auteurs décrivent le context engineering comme :

l’art de fournir au LLM exactement ce dont il a besoin, au bon moment, dans le bon format, sous une contrainte de budget de tokens et de robustesse en production.

On en parle dans des guides RAG récents (Towards AI, Neo4j, Agenta, Memgraph, blog-ossiaconseil).

Concrètement, ça amène trois idées fortes côté infra :

Le contexte devient une ressource à budgeter au même titre que le GPU.
Les systèmes de retrieval (RAG, GraphRAG) deviennent critiques, pas juste un add-on.
On a besoin de logging fin et versionning du contexte (pour expliquer “avec quoi” une réponse a été produite).

2. Long context, RAG, GraphRAG : la bataille de la mémoire

Aujourd’hui, les LLM “sérieux” arrivent avec des fenêtres de contexte massives (millions de tokens) et des techniques pour gérer ces séquences longues (Vellum LLM Leaderboard, rapport long-context, article sur long-context vs RAG).

En parallèle, la communauté infra a compris que :

un RAG naïf (on jette des chunks dans une fenêtre) ne suffit plus ;
il faut des architectures plus fines :
- hybrid retrieval (BM25 + dense + rerank),
- GraphRAG (graphe de connaissances + RAG),
- chunking intelligent, parent/child chunks, etc.
  (Neo4j – advanced RAG, Pinecone RAG guide, Iamdave – token splitting).

Le context engineering, en pratique, c’est donc :

Collect → Clean → Split → Embed → Store → Retrieve → Rerank,
mais avec une vraie gouvernance : budget de tokens, métriques de qualité, tests de non-régression.
Décider ce qu’on garde en mémoire longue (logs, résumés, vecteurs, graphes) et ce qu’on oublie.
Utiliser des approches émergentes type mémoire augmentée avec budget comme BudgetMem, qui gère une mémoire hiérarchique avec politiques d’écriture sélective et contraintes de budget sur des déploiements limités en ressources (BudgetMem).

Tout ça a un impact direct sur l’infra :

Besoin de vector DB performantes, de graph DB (pour GraphRAG) et de caches spécialisés (context cache).
Besoin de couches de caching côté inference – NVIDIA pousse par exemple son stack NIM + TensorRT-LLM avec microservices et cache d’inférence pour réduire la latence de warm-up (NVIDIA NIM, NIM Operator 3.0 – cache intelligent).
Besoin d’observabilité centrée contexte : pouvoir dire “quelle version de la base vecteur et quels documents exacts ont été utilisés pour cette réponse”.

3. IA embarquée : du datacenter au NPU, puis au microcontrôleur

En parallèle, l’IA quitte le datacenter et descend partout :

PC “Copilot+” avec NPU 40–45 TOPS (Snapdragon X Elite / X Plus, X2, etc.) capables de faire tourner du GenAI en local
(Qualcomm, Microsoft – Copilot+ PCs, fiche FR Copilot+, Computex 2025 – NPUs 45 TOPS, Canalys / Zones PDF, Snapdragon X Series 2025).
Apple M4 / M4 Pro / Max avec Neural Engine jusqu’à 38 TOPS pour Apple Intelligence on-device (Apple newsroom, fiche Apple M4).
Smartphones “AI-ready” au-delà de 30 TOPS NPU, capables de faire tourner du GenAI en local (LLMs, diffusion, etc.) (IDC, article NPUs vs TPUs).
Gemini Nano sur Android 15, via le service AICore, exécuté sur TPU / NPU, pour la génération de texte, de résumé ou de réponses offline (Android dev – Gemini Nano, Greenspector – impact environnemental de l’IA locale).

Côté IoT et embarqué :

Les microcontrôleurs Edge AI explosent – marché projeté à ~7,5 Md$ autour de 2025, croissance >20 %/an, grâce à l’intégration d’IP NPU dans des MCU (MarketReportAnalytics – Edge AI microcontrollers, Ceva 2025 Edge AI Report, Future Market Insights – NPU IP pour MCU).
STMicro sort sa série STM32N6, premier MCU explicitement pensé pour l’IA en edge (vision, audio) avec des modèles de ML locaux pour l’industriel et le grand public (Reuters – STM32N6).
Des roadmaps européennes détaillent comment l’Edge AI devient un pilier de l’industrie (automobile, manufacturing, santé, smart cities) (EPoSS Edge AI roadmap, NXP – AI processors at the edge).

Des rapports 2025 rappellent :

que 93 % des industriels prévoient d’intégrer l’IA dans leurs opérations,
que l’Edge AI sur capteurs/machines devient le standard pour la maintenance prédictive, le contrôle qualité, la sécurité (Ceva report, Promwad – Edge AI devices, Tronel – trends embedded 2025).

4. “Context engineering” + IA embarquée : ce que ça change dans l’infra

Ces deux tendances se rencontrent et changent la façon de concevoir les systèmes.

4.1. L’infra devient context-centric

Côté back-end, l’empilement ressemble de plus en plus à ça :

gros modèles (ou modèles moyens) en cloud GPU ou on-prem,
layer de context engineering : RAG, GraphRAG, knowledge graphs, caches, mémoire hiérarchique,
observabilité du contexte (quel chunk, quel graphe, quelle version).

Les acteurs comme Neo4j, Pinecone, Memgraph, etc. positionnent leurs solutions comme briques de contexte, pas juste “bases de données” (Neo4j – AI systems, Neo4j – advanced RAG, Memgraph toolkit GraphRAG).

Côté infra, ça se traduit par :

autant de travail sur les données que sur les modèles ;
des équipes “LLMOps” qui gèrent
- versions de contextes,
- métriques de qualité RAG,
- budget tokens,
- stratégies de compression / summarization, etc. (Agenta).

4.2. L’infra devient hybride cloud + edge

Avec l’IA embarquée, de plus en plus de pipelines ressemblent à :

Device / Edge :
- petit modèle (SLM) spécialisé,
- inference temps réel sur NPU / MCU,
- collecte de signaux, pré-filtrage des données.
Cloud :
- modèles plus gros,
- traitements lourds (training, fine-tuning, analytics),
- agrégation globale, mémoire long terme.

Exemples typiques :

Un smartphone qui exécute Gemini Nano pour la saisie intelligente, la correction ou le résumé local, et n’envoie au cloud que des requêtes plus complexes ou anonymisées (Gemini Nano, Greenspector).
Un PC Copilot+ qui fait tourner un SLM en NPU pour le Recall, la recherche locale, la transcription, et appelle des modèles plus gros en cloud pour la génération longue ou la recherche Internet (Microsoft – Copilot+, Qualcomm – X Elite, Canalys/ Zones).
Un capteur industriel avec microcontrôleur AI qui fait du pré-filtrage/ détection d’anomalie sur place, et ne remonte au cloud que les événements critiques (STMicro, Ceva Edge report).

5. Pour les équipes infra / produit : comment s’adapter ?

5.1. Côté “context engineering”

Quelques chantiers prioritaires :

Cartographier le contexte
- d’où viennent vos données (sources, index, graphes) ?
- quels types de contextes sont injectés (docs, logs, tools, résumés) ?
Mettre en place un pipeline RAG industrialisé
- collecte → nettoyage → chunking → embeddings → stockage → retrieval → rerank
- tester différentes stratégies de splitting et de métadonnées (How to structure data for RAG).
Ajouter de l’observabilité “contexte”
- logguer les IDs de documents utilisés,
- versionner les schémas de chunks,
- suivre des métriques type “hit rate”, “context overflow”, “hallucination rate”.
Penser mémoire hiérarchique
- mémoire courte (fenêtre LLM),
- mémoire intermédiaire (session store, cache),
- mémoire longue (vector DB, graphe, data warehouse),
- et éventuellement des approches de mémoire sélective comme BudgetMem pour les environnements limités (BudgetMem).

5.2. Côté IA embarquée / edge

Identifier les use cases qui bénéficient vraiment de l’on-device
- respect de la vie privée,
- latence (temps réel),
- fonctionnement offline,
- coût cloud.
Choisir la bonne cible matérielle
- smartphone >30 TOPS NPU,
- PC NPU 40–80 TOPS,
- microcontrôleur AI pour les capteurs,
  (IDC smartphones, Riley – on-device AI, Tronel embedded 2025).
Mettre en place une stratégie modèle hybride
- SLM embarqué pour les tâches fréquentes & privées ;
- grand modèle cloud pour les cas complexes ou cross-utilisateurs.
Gérer la cohérence des contextes entre device et cloud
- quelles données restent localement,
- lesquelles sont synchronisées (et comment),
- quelles contraintes de souveraineté / compliance.

6. En résumé : l’infra tech devient “context-aware” et “device-aware”

Deux grandes forces tirent l’infra en 2025 :

le context engineering : la bataille se déplace de “quel modèle on appelle” vers “quel contexte on lui donne, comment on le structure, comment on l’observe”.
l’IA embarquée : de plus en plus de calcul se fait sur NPUs, microcontrôleurs et SoC, avec le cloud comme backplane plutôt que point unique.

Cela veut dire, très concrètement, que les stacks infra gagnantes seront celles qui :

traitent le contexte comme une ressource de première classe (avec tooling, métriques, pipelines, caches) ;
exploitent le matériel là où il est (GPU / TPU dans le cloud, NPU sur le device, MCU en edge) plutôt que d’essayer de tout faire au même endroit ;
savent orchestrer un workflow hybride où contexte et compute se déplacent intelligemment entre cloud, edge et device.

On n’est plus seulement en train de construire des LLM apps,
on est en train de redessiner toute l’infrastructure autour de deux questions :

Quel contexte j’envoie au modèle ?
Sur quelle machine il doit tourner pour que ce soit rapide, robuste et soutenable ?

Les équipes qui prennent ces deux sujets au sérieux maintenant auront une vraie longueur d’avance sur les produits IA de 2026–2027.

Sources

Wikipedia – Prompt engineering
Towards AI – Context engineering for LLMs: build reliable, production-ready RAG systems
Neo4j – Build Smarter AI Systems With Context
Neo4j – Advanced RAG techniques for high-performance LLM applications
Agenta – Top techniques to manage context length in LLMs
Iamdave – How to structure data for RAG: the role of token splitting
Memgraph – SQL2Graph + Unstructured2Graph: GraphRAG toolkit
NVIDIA – Mastering LLM techniques: inference optimization with NIM
NVIDIA – Deploy scalable AI inference with NVIDIA NIM Operator 3.0.0
BudgetMem – Learning selective memory policies for cost-efficient LLM deployments
Qualcomm – Snapdragon X Elite
Microsoft – Introducing Copilot+ PCs
Microsoft FR – Copilot+ PCs
Apple – M4 Pro et M4 Max
Wikipédia – Apple M4
Android – Gemini Nano
Greenspector – Environmental impact of local text AI
IDC – The future of next-gen AI smartphones
RileyLearning – The rise of on-device AI on NPUs and Copilot PCs
Tronel – Tronel’s 2025 embedded trends outlook
Promwad – Edge AI in embedded devices 2025
Ceva – 2025 Edge AI Technology Report
MarketReportAnalytics – Edge AI microcontrollers 2025–2033
Future Market Insights – NPU IP for MCU market
EPoSS / Smart Systems Integration – Artificial Intelligence at the Edge – Roadmap 2025
NXP – AI processors at the edge: trends and solutions
Reuters – STMicro launches edge AI microcontroller