10 Datasets

Chaque modele Snake a son propre dataset d'entrainement. Voici ce qu'ils contiennent, comment ils interagissent avec le produit, et d'ou viendront les vraies donnees.

Comment les datasets deviennent un benchmark

Offre fournisseur (prix, delai, MOQ, conditions, fiabilite)
  │
  ├─ supplier_scoreOptimal / Acceptable / Outlier ← le verdict global
  ├─ outlier_prixNormal / Outlier ← alerte prix
  ├─ outlier_delaiNormal / Outlier ← alerte delai
  ├─ outlier_moqNormal / Outlier ← alerte MOQ
  ├─ tendance_prixStable / Hausse / Baisse / Volatile ← contexte marche
  ├─ fiabiliteHigh / Medium / Low ← confiance livraison
  ├─ conditions_ratingFavorable / Standard / Defavorable ← impact tresorerie
  ├─ competitiviteCompetitive / Average / Uncompetitive ← position marche
  ├─ risque_approvisionnementLow / Medium / High ← risque operationnel
  └─ recommandationMaintenir / Developper / Negocier / Exclure ← action
      
  = Classement + Spider + Outliers + Strategie + XAI audit

Les 10 predictions composent un profil fournisseur complet. L'acheteur voit un tableau avec 10 dimensions independantes — chacune expliquee par les clauses SAT du modele Snake.

Vue d'ensemble

DatasetRowsClassesAUROCAccRole dans le benchmark
supplier_score336230.971585.6%Classement global
outlier_prix300020.951795.7%Alerte prix anormal
outlier_delai300020.938594.0%Alerte delai anormal
outlier_moq300020.941294.8%Alerte MOQ anormal
tendance_prix300040.984196.7%Contexte tendance marche
fiabilite300030.963497.3%Score fiabilite fournisseur
conditions_rating300030.973196.3%Impact conditions de paiement
competitivite300030.933395.7%Position prix vs marche
risque_approvisionnement300030.955296.0%Evaluation risque supply chain
recommandation300040.973494.5%Action a prendre

Les 10 datasets

supplier_score

3362 rows 28 features AUROC 0.9715
Optimal 49% Acceptable 37% Outlier 13%

Le verdict global. Score composite prix*delai*fiabilite*MOQ*conditions. C'est la premiere colonne du classement — le rang du fournisseur en decoule directement.

→ Donnees reelles: evaluations fournisseurs ERP (SAP QM), decisions d'achat historiques, ratings internes.

outlier_prix

3000 rows 28 features AUROC 0.9517
Normal 60% Outlier 40%

Detecte les prix anormaux (>30% d'ecart vs moyenne marche). Se retrouve dans les alertes outliers du benchmark. V1→V2: de 0% recall a 93.9% par reequilibrage.

→ Donnees reelles: historique prix par article cross-factories, indices matieres premieres (soude, silice, energie).

outlier_delai

3000 rows 28 features AUROC 0.9385
Normal 50% Outlier 50%

Detecte les delais anormaux (>40% au-dessus de la moyenne). Sur articles a fort volume, un delai outlier = risque de rupture de stock. Nourrit les alertes rouges du benchmark.

→ Donnees reelles: dates de livraison prevues vs reelles (logs reception ERP), lead times contractuels.

outlier_moq

3000 rows 28 features AUROC 0.9412
Normal 58% Outlier 42%

Detecte les MOQ disproportionnees (>80% au-dessus de la moyenne). MOQ 500 quand le volume mensuel est 100 = 5 mois de stock = immobilisation capital.

→ Donnees reelles: catalogues fournisseurs (MOQ par article), volumes commandes reels, couts de stockage.

tendance_prix

3000 rows 28 features AUROC 0.9841
Volatile 40% Hausse 25% Stable 18% Baisse 17%

Contexte marche. Un fournisseur "cher" sur un marche en hausse est peut-etre le dernier a avoir verrouille un prix fixe. Change l'interpretation du benchmark.

→ Donnees reelles: historique prix 6 mois par article (factures), indices matieres, cotations fournisseurs trimestrielles.

fiabilite

3000 rows 28 features AUROC 0.9634
High 18% Medium 70% Low 13%

Nourrit le 3eme axe du spider chart. Un fournisseur pas cher avec une fiabilite Low ne sera jamais rang 1 — le modele supplier_score le penalise via le score_fiabilite.

→ Donnees reelles: taux de conformite livraison, taux qualite (controle reception), historique litiges. KPIs standards ERP.

conditions_rating

3000 rows 28 features AUROC 0.9731
Favorable 43% Standard 19% Defavorable 38%

Impact tresorerie. Des conditions a 90j sur un gros volume = tresorerie immobilisee. Se retrouve dans les faiblesses du classement et dans le 5eme axe du spider.

→ Donnees reelles: conditions contractuelles (AP), delais de paiement reels, encours fournisseur.

competitivite

3000 rows 28 features AUROC 0.9333
Competitive 12% Average 68% Uncompetitive 19%

Position prix relative au marche. Nourrit les "forces" (Prix competitif) et "faiblesses" (Prix non competitif) du classement. Distinct d'outlier_prix: etre 15% au-dessus n'est pas un outlier, mais c'est Uncompetitive.

→ Donnees reelles: prix cross-factories Monce (VIT, Monce, VIP, Euro, TGVI), moyennes sectorielles.

risque_approvisionnement

3000 rows 29 features AUROC 0.9552
Low 17% Medium 61% High 22%

Evaluation risque supply chain. Combine delai, fiabilite, MOQ, et concentration du marche. Se retrouve dans les forces/faiblesses et dans la recommandation globale (dual sourcing si risque eleve).

→ Donnees reelles: historique ruptures, diversite fournisseurs par categorie, sante financiere fournisseur, facteurs logistiques.

recommandation

3000 rows 28 features AUROC 0.9734
Maintenir 33% Developper 14% Negocier 33% Exclure 20%

L'action concrete. Nourrit directement la synthese fournisseurs et la recommandation globale. Un fournisseur classe "Exclure" ne sera jamais recommande pour du sourcing actif — mais peut etre cite comme levier de negociation.

→ Donnees reelles: decisions d'achat passees (renouvellement, onboarding, renegociation, exclusion), workflows procurement, historique contrats.

De synthetique a reel

Tous les datasets sont actuellement synthetiques — generes par des regles metier (V2, equilibrees). Les features sont reelles dans leur structure, les labels sont derives de formules calibrees sur le domaine. Pour passer en production:

Source synthetiqueSource reelleEffort
score_composite formuleEvaluations fournisseurs ERPExport SAP/Sage + mapping
taux_livraison_conforme randomLogs reception ERPSQL + agrégation mensuelle
prix_marche_moyen genereCross-factory data.aws.monce.aiAPI call + moyenne glissante
nb_litiges randomModule qualite ERPCompteur par fournisseur/an
historique_mois randomDate premiere commande ERP1 champ

L'architecture ne change pas. Seules les donnees d'entrainement sont remplacees. Regenerer les 10 modeles: python train_models.py (~90 secondes).