C.04 - Procédures multi-modèle
Pourquoi l'approche multi-modèle ?
Les procédures multi-modèle consistent à valoriser les résultats de plusieurs modèles pour élaborer une simulation ou une prévision. Cette méthode est notamment employée en hydrologie pour prendre en compte l'incertitude sur la structure des modèles, c'est-à-dire sur la représentation mathématique des processus impliqués dans la relation Pluie – Débit. Cette représentation imparfaite des processus (hydrologiques ou autres) a les conséquences suivantes :
- les faiblesses d'un modèle donné empêchent d'avoir l'assurance de l'existence d'un jeu de paramètres « parfait ». Il n'est même pas sûr qu'un ensemble fini de jeux de paramètres soit suffisant pour rendre compte de l'ensemble des situations devant être simulées par le modèle.
- pour un modèle donné, plusieurs jeux de paramètres peuvent conduire à des performances optimale (concept d'équifinalité, discuté entre autres par Beven et Binley, 1992).
- plusieurs modèles, bien que très différents dans leurs structures, peuvent conduire à des performances globales équivalentes (Perrin, 2000; Marchandise, 2007)
Si les performances de différents modèles (ou paramétrisations d'un modèle) peuvent apparaître sensiblement égales (en moyenne), il peut être souhaitable de valoriser les différents comportements de ces modèles (ou paramétrisations), dans la mesure où chacun(e) d'entre eux renvoie à un comportement possible du bassin modélisé (réponse hydrologique). L'approche multi-modèle est une méthode, parmi d'autres (Fiche 4.1), qui y concourt.
Différentes études ont montré que l'approche multi-modèle était plus apte à capter l'étendue de l'incertitude structurelle qu'un ensemble généré à partir d'un modèle unique. Les procédures multi-modèle permettent de répondre à deux objectifs :
- améliorer la prévision déterministe ;
- fournir une évaluation de l'incertitude due aux imperfections des modèles.
Comment combiner au mieux plusieurs modèles ?
L'utilisation la plus simple des sorties de plusieurs modèles consiste à les afficher simultanément, ce qui permet au prévisionniste de réaliser une analyse subjective et qualitative de l'incertitude.
Au delà de l'affichage des différentes sorties, plusieurs stratégies de combinaison des sorties de plusieurs modèles existent. Elles peuvent fournir :
- une combinaison déterministe des résultats des modèles (une N + 1e prévision, fonction des prévisions des N modèles) ;
- une combinaison probabiliste qui apporte également une information sur l'incertitude (due à la modélisation).
Combinaisons purement déterministes
Combinaisons fixes dans le temps
De nombreuses approches consistent en le calcul d'une moyenne simple (SMA [1]) ou pondérée (WMA) des sorties des N modèles.
Dans le cas d'une moyenne pondérée, différentes méthodes permettent de calculer les poids aj. L'une des plus simples consiste en la résolution d'un système multi-linéaire (régression sur les performances des différents modèles).
Des combinaisons non linéaires sont également proposées, c'est par exemple le cas de réseaux de neurones artificiels (Shamseldin, 1997).
Combinaisons évoluant dans le temps
Il est également possible d’adapter la combinaison à la situation hydrologique en cours pour tirer le meilleur profit des modèles les plus performants sur les derniers pas de temps.
Exemple 1. Une telle méthode est proposée par Shamseldin et O'Connor (1999) qui calculent les poids d'une fonction de transfert linéaire (LTFM) en fonction de l'erreur sur les p derniers pas de temps des différents modèles : ces poids minimisent l'erreur sur le débit prévu résultant de la combinaison multi-modèle sur ces derniers pas de temps.
Exemple 2. (procédure multi-modèle implémentée dans SOPHIE). Roche et Tarmin (1986) puis Loumagne et al. (1995) ont proposé une procédure multi-modèle pour les bassins de la Vézère et de la Garonne amont. Dans cette méthode, le débit prévu s'exprime comme une somme pondérée des débits prévus avec des poids variables dans le temps :
L'originalité de l'approche réside dans le calcul du poids de chaque modèle au pas de temps t ; il suppose que le modèle peut fonctionner dans deux configurations différentes :
- le modèle est dans une situation hydrologique et d'alimentation en données équivalentes aux conditions dans lequel il a été calé ;
- le modèle évolue dans une situation hydrologique non rencontrée dans le calage ou est alimenté par des données dont la qualité douteuse n'a pas été identifiée (la procédure exclut par ailleurs de l'ensemble les modèles non alimentés ou mal-alimentés en données, cas de figure devant être considéré en prévision opérationnelle).
La première situation est rendue par un poids fixe tandis que la seconde situation fait intervenir un poids variable dans le temps (terme non stationnaire permettant à la procédure de s'adapter aux nouvelles configurations). Le poids total s'écrit donc:
Le terme non stationnaire permet de faire baisser ou augmenter l’importance d’un modèle dans la pondération de façon progressive.
Pour calculer les poids stationnaires, on fait l'hypothèse que les erreurs des différents modèles ne sont pas corrélées entre elles. Si Vi désigne la variance du ie modèle sur les données de calage, le poids stationnaire du modèle est défini par :
Le calcul des poids non stationnaires est fonction des performances du ie modèle sur les derniers pas de temps. Afin de stabiliser le calcul du poids évolutif, Loumagne et al. (1995) proposent un lissage des erreurs antérieures et de l’erreur à l’instant t :
Nous remarquons que le poids évolutif attribué à la prévision à t + Δt est calculé à partir des écarts quadratiques de l’instant t. On considère donc que le meilleur modèle à t+Δt est le meilleur modèle à t.
Les résultats de la prévision étaient peu influencés par la variation des constantes α et β (Roche et Tamin, 1986). Des valeur moyennes ont donc été adoptées pour le bassin de la Garonne .
On accorde ainsi autant d’importance aux erreurs passées qu’aux erreurs récentes, le fonctionnement normal et le fonctionnement récent sont également conséquents dans le calcul du poids.
L'avantage d'une telle méthode est de tenir compte à la fois des performances a priori des modèles mais également de leur performance actuelle.
[1] SMA : Simple Model Averaging ; WMA : Weighted Model Averaging