10 Datasets

Chaque modele Snake a son propre dataset d'entrainement. Voici ce qu'ils contiennent, comment ils interagissent avec le produit, et d'ou viendront les vraies donnees.

Comment les datasets deviennent un benchmark

Offre fournisseur (prix, delai, MOQ, conditions, fiabilite)
  │
  ├─ supplier_score → Optimal / Acceptable / Outlier ← le verdict global
  ├─ outlier_prix → Normal / Outlier ← alerte prix
  ├─ outlier_delai → Normal / Outlier ← alerte delai
  ├─ outlier_moq → Normal / Outlier ← alerte MOQ
  ├─ tendance_prix → Stable / Hausse / Baisse / Volatile ← contexte marche
  ├─ fiabilite → High / Medium / Low ← confiance livraison
  ├─ conditions_rating → Favorable / Standard / Defavorable ← impact tresorerie
  ├─ competitivite → Competitive / Average / Uncompetitive ← position marche
  ├─ risque_approvisionnement → Low / Medium / High ← risque operationnel
  └─ recommandation → Maintenir / Developper / Negocier / Exclure ← action

  = Classement + Spider + Outliers + Strategie + XAI audit

Les 10 predictions composent un profil fournisseur complet. L'acheteur voit un tableau avec 10 dimensions independantes — chacune expliquee par les clauses SAT du modele Snake.

Vue d'ensemble

Dataset	Rows	Classes	AUROC	Acc	Role dans le benchmark
supplier_score	3362	3	0.9715	85.6%	Classement global
outlier_prix	3000	2	0.9517	95.7%	Alerte prix anormal
outlier_delai	3000	2	0.9385	94.0%	Alerte delai anormal
outlier_moq	3000	2	0.9412	94.8%	Alerte MOQ anormal
tendance_prix	3000	4	0.9841	96.7%	Contexte tendance marche
fiabilite	3000	3	0.9634	97.3%	Score fiabilite fournisseur
conditions_rating	3000	3	0.9731	96.3%	Impact conditions de paiement
competitivite	3000	3	0.9333	95.7%	Position prix vs marche
risque_approvisionnement	3000	3	0.9552	96.0%	Evaluation risque supply chain
recommandation	3000	4	0.9734	94.5%	Action a prendre

Les 10 datasets

supplier_score

3362 rows 28 features AUROC 0.9715

Optimal 49% Acceptable 37% Outlier 13%

Le verdict global. Score composite prix*delai*fiabilite*MOQ*conditions. C'est la premiere colonne du classement — le rang du fournisseur en decoule directement.

→ Donnees reelles: evaluations fournisseurs ERP (SAP QM), decisions d'achat historiques, ratings internes.

outlier_prix

3000 rows 28 features AUROC 0.9517

Normal 60% Outlier 40%

Detecte les prix anormaux (>30% d'ecart vs moyenne marche). Se retrouve dans les alertes outliers du benchmark. V1→V2: de 0% recall a 93.9% par reequilibrage.

→ Donnees reelles: historique prix par article cross-factories, indices matieres premieres (soude, silice, energie).

outlier_delai

3000 rows 28 features AUROC 0.9385

Normal 50% Outlier 50%

Detecte les delais anormaux (>40% au-dessus de la moyenne). Sur articles a fort volume, un delai outlier = risque de rupture de stock. Nourrit les alertes rouges du benchmark.

→ Donnees reelles: dates de livraison prevues vs reelles (logs reception ERP), lead times contractuels.

outlier_moq

3000 rows 28 features AUROC 0.9412

Normal 58% Outlier 42%

Detecte les MOQ disproportionnees (>80% au-dessus de la moyenne). MOQ 500 quand le volume mensuel est 100 = 5 mois de stock = immobilisation capital.

→ Donnees reelles: catalogues fournisseurs (MOQ par article), volumes commandes reels, couts de stockage.

tendance_prix

3000 rows 28 features AUROC 0.9841

Volatile 40% Hausse 25% Stable 18% Baisse 17%

Contexte marche. Un fournisseur "cher" sur un marche en hausse est peut-etre le dernier a avoir verrouille un prix fixe. Change l'interpretation du benchmark.

→ Donnees reelles: historique prix 6 mois par article (factures), indices matieres, cotations fournisseurs trimestrielles.

fiabilite

3000 rows 28 features AUROC 0.9634

High 18% Medium 70% Low 13%

Nourrit le 3eme axe du spider chart. Un fournisseur pas cher avec une fiabilite Low ne sera jamais rang 1 — le modele supplier_score le penalise via le score_fiabilite.

→ Donnees reelles: taux de conformite livraison, taux qualite (controle reception), historique litiges. KPIs standards ERP.

conditions_rating

3000 rows 28 features AUROC 0.9731

Favorable 43% Standard 19% Defavorable 38%

Impact tresorerie. Des conditions a 90j sur un gros volume = tresorerie immobilisee. Se retrouve dans les faiblesses du classement et dans le 5eme axe du spider.

→ Donnees reelles: conditions contractuelles (AP), delais de paiement reels, encours fournisseur.

competitivite

3000 rows 28 features AUROC 0.9333

Competitive 12% Average 68% Uncompetitive 19%

Position prix relative au marche. Nourrit les "forces" (Prix competitif) et "faiblesses" (Prix non competitif) du classement. Distinct d'outlier_prix: etre 15% au-dessus n'est pas un outlier, mais c'est Uncompetitive.

→ Donnees reelles: prix cross-factories Monce (VIT, Monce, VIP, Euro, TGVI), moyennes sectorielles.

risque_approvisionnement

3000 rows 29 features AUROC 0.9552

Low 17% Medium 61% High 22%

Evaluation risque supply chain. Combine delai, fiabilite, MOQ, et concentration du marche. Se retrouve dans les forces/faiblesses et dans la recommandation globale (dual sourcing si risque eleve).

→ Donnees reelles: historique ruptures, diversite fournisseurs par categorie, sante financiere fournisseur, facteurs logistiques.

recommandation

3000 rows 28 features AUROC 0.9734

Maintenir 33% Developper 14% Negocier 33% Exclure 20%

L'action concrete. Nourrit directement la synthese fournisseurs et la recommandation globale. Un fournisseur classe "Exclure" ne sera jamais recommande pour du sourcing actif — mais peut etre cite comme levier de negociation.

→ Donnees reelles: decisions d'achat passees (renouvellement, onboarding, renegociation, exclusion), workflows procurement, historique contrats.

De synthetique a reel

Tous les datasets sont actuellement synthetiques — generes par des regles metier (V2, equilibrees). Les features sont reelles dans leur structure, les labels sont derives de formules calibrees sur le domaine. Pour passer en production:

Source synthetique	Source reelle	Effort
score_composite formule	Evaluations fournisseurs ERP	Export SAP/Sage + mapping
taux_livraison_conforme random	Logs reception ERP	SQL + agrégation mensuelle
prix_marche_moyen genere	Cross-factory data.aws.monce.ai	API call + moyenne glissante
nb_litiges random	Module qualite ERP	Compteur par fournisseur/an
historique_mois random	Date premiere commande ERP	1 champ

L'architecture ne change pas. Seules les donnees d'entrainement sont remplacees. Regenerer les 10 modeles: python train_models.py (~90 secondes).