Définition complète de IA Générative
Publiée le septembre 24, 2025
Publiée le septembre 24, 2025
L’IA générative regroupe les méthodes d’apprentissage automatique qui visent à modéliser la distribution des données texte,image,audio,videˊo,code,etc.texte, image, audio, vidéo, code, etc. afin de générer de nouveaux échantillons plausibles. Formellement, un modèle génératif apprend pθ(x)p_\theta(x) (ou pθ(x∣c)p_\theta(x \mid c) conditionnée par un contexte cc) à partir d’un corpus d’entraînement, puis échantillonne de nouvelles instances x\*x^\* qui respectent les régularités statistiques apprises.
En clair : au lieu de juste prédire ou classer, on crée du contenu conforme au style et aux structures des données d’origine.
Objectif : apprendre la “forme” des données (leur distribution) pour pouvoir en produire de nouvelles variantes crédibles.
Deux questions clés :
Comment apprendre p(x)p(x) ? (optimisation, fonction de perte, architecture)
Comment échantillonner ? (procédure de génération, contrôle du style et de la diversité)
Types de modèles :
À vraisemblance explicite (on maximise une borne ou la log-vraisemblance)
Implications adversariales (on ne calcule pas p(x)p(x), on “trompe” un discriminateur)
Basés sur le bruit (on apprend à débruiter progressivement pour échantillonner)
Transformers autoregressifs (LLM)
Principe : prédire le prochain token p(xt∣x<t)p(x_t \mid x_{<t}).
Forces : texte, code, multimodal récent; très bons à la composition et au conditionnement par “prompt”.
Contrôle : température, top-k, top-p (nucleus), contraintes de format (JSON), outils externes (RAG, fonctions).
GANs (Generative Adversarial Networks)
Principe : un générateur produit des exemples, un discriminateur tente de les distinguer du réel; jeu à somme nulle.
Forces : images haute fidélité, style et détail;
Limites : instabilités d’entraînement, mode collapse, métriques parfois fragiles.
VAEs (Variational Autoencoders)
Principe : encoder xx en un espace latent zz, reconstruire xx depuis zz avec une régularisation probabiliste.
Forces : latents interprétables, interpolation fluide, génération conditionnelle.
Diffusion / Score-based models
Principe : apprendre à retirer du bruit ajouté en plusieurs étapes; à l’inférence, on débruite pour échantillonner.
Forces : excellente qualité pour l’image, vidéo/3D en progrès; contrôle fin via classifier-free guidance, ControlNet.
Normalizing Flows
Principe : transformer une distribution simple en distribution complexe via transformations bijectives; log-densité exacte.
Forces : vraisemblance calculable;
Limites : contraintes architecturales pour rester inversibles.
Energy-based models (EBM)
Principe : définir une fonction d’énergie dont le minimum correspond aux données probables; échantillonnage par MCMC.
Forces : cadre théorique général;
Limites : échantillonnage parfois coûteux.
Préparation des données : nettoyage, déduplication, filtrage qualité, équilibrage des domaines, gestion des droits (copyright), PII.
Objectifs d’entraînement :
Next-token prediction (LLM)
Denoising (diffusion, VAEs)
Adversarial loss (GAN)
Optimisation : Adam/AdamW, plan de LR, gradient clipping, mixed precision; scaling laws (qualité ∝ taille modèle × données × compute).
Fine-tuning & spécialisation :
SFT (Supervised Fine-Tuning) sur démonstrations haute qualité.
PEFT (LoRA/QLoRA, adapters) pour réduire coûts mémoire/compute.
RAG (Retrieval-Augmented Generation) pour ancrer les réponses sur des sources vérifiables.
Préférences humaines : RLHF / RLAIF ou alternatives DPO/IPO/ORPO pour contrôler style, sécurité et utilité.
Échantillonnage (texte) : température (diversité), top-k (taille du vocabulaire candidat), top-p (masse de probabilité).
Contraintes de sortie : guided decoding, grammaires/JSON Schema, beam search (quand on privilégie la cohérence déterministe).
Contrôle images/vidéos (diffusion) : classifier-free guidance, ControlNet, image-to-image, inpainting, IP-Adapter.
Outils & agents : fonction-calling, outils externes (recherche, code), toolformer-like; planification et exécution en boucles (agentic).
Performance : quantification (8-bit, 4-bit), KV cache, MoE (mixture-of-experts), batching, distillation, speculative decoding.
Texte : perplexité (proxy de fluence), ROUGE/BLEU (résumés/trad), BERTScore/COMET, évals humaines (précision, utilité).
Image : FID, KID, IS, CLIPScore; évaluations perceptuelles humaines.
Factualité & sécurité : taux d’hallucination, exactitude sur open-book, robustesse au prompt injection, toxicité/biais.
Conformité au format : validité JSON/SQL, schémas stricts, exactitude sur contraintes (unités, plages de valeurs).
Contenu & productivité : rédaction assistée, résumé, traduction, génération d’assets visuels, storyboarding.
Code & données : aide à la programmation, génération de tests, migration/modernisation, synthèse de données pour équilibrer des jeux d’entraînement.
Opérations & support : assistants internes, RAG sur bases documentaires, SOP dynamiques, chatbots conformes.
Design, R&D, industrie : CAO assistée, prototypes visuels, simulation (données synthétiques), détection d’anomalies.
Santé/Sciences : design moléculaire, imagerie, littératie scientifique (avec garde-fous forts).
Finance/Assurance : génération de rapports, extraction structurée de documents, what-if (avec modèles dédiés et contrôle strict).
Hallucinations (LLM) : réponses fluides mais fausses si non ancrées (RAG) ou mal contraintes.
Biais & représentativité : données historiques → biais reproduits; nécessité de debiasing et d’évaluations ciblées.
Sécurité : prompt injection, data exfiltration, jailbreaks; besoin de red teaming continu.
Propriété intellectuelle & droits : provenance des données, copyright, licensing; gestion des logos/visages.
Données sensibles & confidentialité : PII, secrets; differential privacy, synthetic data avec précautions.
Coûts & empreinte : compute/énergie; arbitrages entre taille du modèle et valeur métier.
Cycle de vie responsable : model cards, data sheets, journalisation des prompts, traçabilité des versions.
Contrôles avant mise en prod : évaluation hors-domaine, tests d’attaque (sécurité), guardrails, rate limiting.
Ancrage documentaire (RAG) : citations/justifications, source grounding, gestion des mises à jour.
Authenticité des médias : filigranes, C2PA (provenance), content authenticity.
Cadres réglementaires : principes d’IA de confiance (équité, explicabilité, robustesse) et exigences croissantes (ex. obligations par niveau de risque).
Multimodal natif (texte-image-audio-vidéo-capteurs) et raisonnement outillé (code, recherche, outils métiers).
Modèles spécialistes vs “foundation” : combiner un LLM généraliste + experts légers via routing/MoE.
Efficience : small language models performants sur domaines ciblés, quantifiés et adaptés on-prem/edge.
Génération contrainte : sorties structurées (JSON/SQL), intégration directe dans workflows et bases.
Sécurité de nouvelle génération : détection d’attaques de prompt, content moderation contextuelle, policy engines.
Autoregressif : génère un token à la fois, conditionné sur l’historique.
Température : contrôle la diversité (haut = plus créatif, bas = plus conservateur).
Top-k / Top-p : restreignent l’espace des candidats pour stabiliser le style.
LoRA/PEFT : affiner un grand modèle avec peu de paramètres entraînables.
RAG : récupérer des documents pertinents et en ancrer la génération.
Diffusion : génération par débruitage progressif d’un signal bruité.
FID : métrique de qualité d’images générées (proximité statistique du réel).
Cadrer l’usage : cas métier, risques, métriques de valeur.
Choisir l’approche : LLM + RAG ? Diffusion ? VAE ?
Données & droits : qualité, gouvernance, conformité.
Expérimenter : prompting + contraintes + garde-fous.
Évaluer : qualité, factualité, sécurité, coût.
Industrialiser : monitoring, feedback loop, mises à jour.