J'ai voulu utiliser l'architecture de ChatGPT pour prédire la consommation électrique - voici ce qui s'est passé
Comme beaucoup de data scientists débutants, j'étais persuadée que les technologies récentes surpassaient forcément les anciennes. Les Transformers, ces réseaux de neurones qui font tourner ChatGPT et révolutionnent l'intelligence artificielle depuis 2017, devaient logiquement écraser les LSTM, une architecture inventée en 1997. Vingt ans d'écart, des milliards de dollars d'investissement, des publications scientifiques par milliers — le match semblait joué d'avance. Dans mon cas, ça ne s'est pas passé comme prévu.
Le défi : anticiper la consommation pour optimiser les achats d'énergie

Pour mon tout premier projet de deep learning, j'ai travaillé sur un cas concret : prédire la consommation électrique d'un foyer 24 heures à l'avance. Derrière ce problème technique se cache un enjeu économique majeur. Les opérateurs de smart grids achètent chaque jour de l'électricité sur le marché spot européen (EPEX) pour livraison le lendemain. Une prévision trop haute, c'est du gaspillage. Trop basse, ce sont des pénalités. Dans le scénario fictif de mon projet, ces erreurs représentaient 62 millions d'euros de pertes annuelles.
J'ai utilisé un dataset réel de l'UCI : quatre années de mesures minute par minute d'un foyer à Sceaux, en banlieue parisienne. Après agrégation horaire et feature engineering — variables météo, encodage cyclique des heures, lags de consommation — j'avais 34 000 heures de données et 34 variables prédictives.
Le face-à-face : LSTM contre Transformer
J'ai construit deux modèles. Le LSTM, d'abord : deux couches, 38 000 paramètres, architecture classique mais éprouvée. Puis le Transformer : mécanisme d'attention, encodage positionnel, 70 000 paramètres — l'artillerie lourde.
Les résultats bruts semblaient donner raison au Transformer. Son erreur moyenne (MAE) atteignait 0.4086 kW contre 0.4145 kW pour le LSTM. Un avantage de 1.4%. Victoire ? Pas si vite.
La métrique qui change tout : l'overfitting
En creusant les résultats, j'ai découvert un signal d'alarme. L'écart entre la performance en entraînement et en test — ce qu'on appelle la pourcentage d'overfitting ((validation_loss − train_loss)/train_loss)) — atteignait 6.62% pour le Transformer contre seulement 1.63% pour le LSTM. Autrement dit, le Transformer avait tendance à mémoriser les données d'entraînement plutôt qu'à apprendre les vrais patterns sous-jacents.
En production, face à des données inédites, ce comportement peut être catastrophique. Un modèle qui généralise mal est un modèle dangereux.
De plus, le LSTM s'entraînait en moins de 2 minutes contre plus de 7 pour le Transformer. Plus simple, plus rapide, plus robuste : le choix était fait.
Ce que j'en retiens
Dans ce contexte précis — un seul foyer, quatre années de données, des patterns de consommation relativement réguliers — le LSTM s'est révélé plus adapté. Le Transformer a probablement besoin de datasets plus volumineux ou de séquences plus complexes pour exprimer tout son potentiel. C'est d'ailleurs ce que suggère la littérature scientifique : l'attention brille sur les longues dépendances et les grands volumes de données, moins sur les séries temporelles courtes et structurées.
Mon modèle LSTM final permet d'économiser environ 28 millions d'euros par an en réduisant les erreurs de prévision de 45%. Je suis fière de ce résultat pour un premier projet deep learning.
Un appel aux experts
Cela dit, je reste une débutante dans ce domaine. Si vous êtes un professionnel expérimenté et que vous voyez des pistes d'amélioration — sur l'architecture du Transformer, les hyperparamètres, ou la stratégie d'entraînement — je serais ravie d'en discuter. Le notebook complet et la méthodologie détaillée sont disponibles ici. N'hésitez pas à me contacter, par mail (giuliagovernatori@hotmail.com) ou en commentant mon post linkedin (link).
