Chaque modele Snake a son propre dataset d'entrainement. Voici ce qu'ils contiennent, comment ils interagissent avec le produit, et d'ou viendront les vraies donnees.
Les 10 predictions composent un profil fournisseur complet. L'acheteur voit un tableau avec 10 dimensions independantes — chacune expliquee par les clauses SAT du modele Snake.
| Dataset | Rows | Classes | AUROC | Acc | Role dans le benchmark |
|---|---|---|---|---|---|
| supplier_score | 3362 | 3 | 0.9715 | 85.6% | Classement global |
| outlier_prix | 3000 | 2 | 0.9517 | 95.7% | Alerte prix anormal |
| outlier_delai | 3000 | 2 | 0.9385 | 94.0% | Alerte delai anormal |
| outlier_moq | 3000 | 2 | 0.9412 | 94.8% | Alerte MOQ anormal |
| tendance_prix | 3000 | 4 | 0.9841 | 96.7% | Contexte tendance marche |
| fiabilite | 3000 | 3 | 0.9634 | 97.3% | Score fiabilite fournisseur |
| conditions_rating | 3000 | 3 | 0.9731 | 96.3% | Impact conditions de paiement |
| competitivite | 3000 | 3 | 0.9333 | 95.7% | Position prix vs marche |
| risque_approvisionnement | 3000 | 3 | 0.9552 | 96.0% | Evaluation risque supply chain |
| recommandation | 3000 | 4 | 0.9734 | 94.5% | Action a prendre |
Le verdict global. Score composite prix*delai*fiabilite*MOQ*conditions. C'est la premiere colonne du classement — le rang du fournisseur en decoule directement.
→ Donnees reelles: evaluations fournisseurs ERP (SAP QM), decisions d'achat historiques, ratings internes.
Detecte les prix anormaux (>30% d'ecart vs moyenne marche). Se retrouve dans les alertes outliers du benchmark. V1→V2: de 0% recall a 93.9% par reequilibrage.
→ Donnees reelles: historique prix par article cross-factories, indices matieres premieres (soude, silice, energie).
Detecte les delais anormaux (>40% au-dessus de la moyenne). Sur articles a fort volume, un delai outlier = risque de rupture de stock. Nourrit les alertes rouges du benchmark.
→ Donnees reelles: dates de livraison prevues vs reelles (logs reception ERP), lead times contractuels.
Detecte les MOQ disproportionnees (>80% au-dessus de la moyenne). MOQ 500 quand le volume mensuel est 100 = 5 mois de stock = immobilisation capital.
→ Donnees reelles: catalogues fournisseurs (MOQ par article), volumes commandes reels, couts de stockage.
Contexte marche. Un fournisseur "cher" sur un marche en hausse est peut-etre le dernier a avoir verrouille un prix fixe. Change l'interpretation du benchmark.
→ Donnees reelles: historique prix 6 mois par article (factures), indices matieres, cotations fournisseurs trimestrielles.
Nourrit le 3eme axe du spider chart. Un fournisseur pas cher avec une fiabilite Low ne sera jamais rang 1 — le modele supplier_score le penalise via le score_fiabilite.
→ Donnees reelles: taux de conformite livraison, taux qualite (controle reception), historique litiges. KPIs standards ERP.
Impact tresorerie. Des conditions a 90j sur un gros volume = tresorerie immobilisee. Se retrouve dans les faiblesses du classement et dans le 5eme axe du spider.
→ Donnees reelles: conditions contractuelles (AP), delais de paiement reels, encours fournisseur.
Position prix relative au marche. Nourrit les "forces" (Prix competitif) et "faiblesses" (Prix non competitif) du classement. Distinct d'outlier_prix: etre 15% au-dessus n'est pas un outlier, mais c'est Uncompetitive.
→ Donnees reelles: prix cross-factories Monce (VIT, Monce, VIP, Euro, TGVI), moyennes sectorielles.
Evaluation risque supply chain. Combine delai, fiabilite, MOQ, et concentration du marche. Se retrouve dans les forces/faiblesses et dans la recommandation globale (dual sourcing si risque eleve).
→ Donnees reelles: historique ruptures, diversite fournisseurs par categorie, sante financiere fournisseur, facteurs logistiques.
L'action concrete. Nourrit directement la synthese fournisseurs et la recommandation globale. Un fournisseur classe "Exclure" ne sera jamais recommande pour du sourcing actif — mais peut etre cite comme levier de negociation.
→ Donnees reelles: decisions d'achat passees (renouvellement, onboarding, renegociation, exclusion), workflows procurement, historique contrats.
Tous les datasets sont actuellement synthetiques — generes par des regles metier (V2, equilibrees). Les features sont reelles dans leur structure, les labels sont derives de formules calibrees sur le domaine. Pour passer en production:
| Source synthetique | Source reelle | Effort |
|---|---|---|
| score_composite formule | Evaluations fournisseurs ERP | Export SAP/Sage + mapping |
| taux_livraison_conforme random | Logs reception ERP | SQL + agrégation mensuelle |
| prix_marche_moyen genere | Cross-factory data.aws.monce.ai | API call + moyenne glissante |
| nb_litiges random | Module qualite ERP | Compteur par fournisseur/an |
| historique_mois random | Date premiere commande ERP | 1 champ |
L'architecture ne change pas. Seules les donnees d'entrainement sont remplacees. Regenerer les 10 modeles: python train_models.py (~90 secondes).