Datengrundlage
Für die Analyse werden Jahresmittel der bodennahen Temperatur verwendet. Die Daten des dekadischen Klimavorhersagesystems von MiKlip (MiKlip-System) bestehen aus Vorhersagen, welche zur Bewertung des Systems in der Vergangenheit gestartet wurden (retrospektive Vorhersagen) und den Vorhersagen für die nächsten zehn Jahre. Das Vorhersagesystem besteht aus einem Initialisierungs-Schema, welches Beobachtungsdaten berücksichtigt, und dem globalen Zirkulationsmodells MPI-ESM (Müller et al., 2012; Pohlmann et al., 2013; Marotzke et al., 2016). Die Vorhersagen werden in der 'PreopHR'-Konfiguration mit MPI-ESM 1.2 durchgeführt. Die Daten beinhalten zehn Ensemble-Mitglieder, welche jährlich in den Jahren 1960-2018 initialisiert wurden. Die Simulationen haben jeweils eine Vorhersagelänge von zehn Jahren. Für eine räumlich höher aufgelöste Auswertung über Europa (13°W-30°O und 35°-75°N) werden die Daten des Globalmodells mit Hilfe des regionalen Klimamodells CCLM5 dynamisch regionalisiert (Rockel et al., 2008; Mieruch et al., 2014).
Mit den Daten des Globalmodells wird neben der globalen Auswertung zusätzlich der Bereich des Nord-Atlantiks (NA) von 60°-10°W und 50°-65°N untersucht. Als Beobachtungsdatensatz dient hierfür HadCRUT4 (Morice et al., 2012), welcher auf einem globalen 5°x5° Gitter von 1960-2018 vorliegt. Für das Jahr 2018 werden nur die Anomalien von Januar bis November verwendet, da zur Zeit der Veröffentlichung der Dezember noch nicht zur Verfügung stand. Zur Bewertung der Vorhersagegüte des regionalen Modells findet ein Vergleich mit dem Beobachtungsdatensatz CRU TS 4.01 (Harris et al., 2014) von 1960-2017 statt. Die Modelldaten des Vorhersagesystems werden zur einheitlichen Bewertung ebenfalls auf das Gitter der Beobachtungen interpoliert (5°x5° bzw 0.5°x0.5°). Die Analyse der Daten wird zum Einen für jeden Gitterpunkt durchgeführt, als auch für räumliche Mittel der entsprechenden Regionen, d.h. globales Mittel und NA für die Daten des Globalmodells sowie Mittel der Europa Region für das Regionalmodell.
Temperaturanomalien, Biasadjustierung, und räumliche und zeitliche Mittelung
In der Vorhersage des Modells als auch in den Beobachtungen werden Temperaturanomalien bezüglich des Zeitraums 1981-2010 (WMO-Referenzzeitraum) verwendet. Die systematische Temperaturabweichung zwischen Modell und Beobachtung (Bias) ändert sich im allgemeinen mit der Vorhersagezeit (Modelldrift). Dieses funktionale Verhalten wird mit Hilfe der Hindcasts abgeschätzt, um die systematischen Abweichungen zu adjustieren (Pasternack et al., 2018). Dabei wird zusätzlich angenommen, dass sich das funktionale Verhalten des Bias mit der Initialisierungszeit ändert. Die Adjustierung wird für den Zeitraum von 1960-2017 trainiert und auf die Hindcasts und die Vorhersage angewendet. Das Verfahren von Pasternack et al. (2018) adjustiert neben der mittleren Abweichung (Bias), die bedingte Abweichung (Conditional Bias) und die Streubreite des Ensembles. Letzteres wird getan, um zu gewährleisten, dass die Unsicherheit der Vorhersage durch die Streubreite abgebildet wird.
Die adjustierten Temperaturanomalien werden für die dekadische Vorhersage jeweils für laufende Mittel über vier Jahre analysiert. Es werden somit Vorhersagen für die Vorhersagezeiten Jahr 1-4, 2-5, 3-6, …, 7-10 Jahre erstellt. Für die Jahresvorhersage wird ausschließlich das Jahresmittel des ersten Vorhersagejahres ausgewertet.
Für die Bildung der räumlichen Mittel der Regionen (globales Mittel, NA, Europa) wird sowohl für die Beobachtung als auch Modellsimulationen die gleiche räumliche Maske verwendet, die Daten nur an den Gitterpunkten berücksichtigt, an denen für den gesamten Evaluierungszeitraum ausreichend Beobachtungsdaten vorhanden waren.
Bewertung der Vorhersagegüte
Die Bewertung der Vorhersagegüte findet mit Hilfe der retrospektiven Vorhersagen aus dem MiKlip-System statt, welche für die Vergangenheit durchgeführt wurden. Der maximale Zeitraum, der für die Bewertung für alle untersuchten Vorhersagezeiten (Jahr 1-4 bis Jahr 7-10) vorliegt, beträgt 1967-2017. Um die Güte zu bewerten, werden die retrospektiven Vorhersagen in der Vergangenheit mit den Beobachtungen verglichen. Für Gitterpunkte, an denen im Bewertungszeitraum keine Beobachtungen vorliegen (missing values), kann keine Bewertung vorgenommen werden. Diese Gitterpunkte werden auf der Karte grau dargestellt. Die Güte der dekadischen Vorhersage wird jeweils der Güte einer Referenzvorhersage in der Vergangenheit gegenübergestellt. Die Differenz dieser Vorhersagegüten, d.h. die Verbesserung der Vorhersage gegenüber der Referenzvorhersage, wird als Gütemaß [Angabe in %] bezeichnet. Wenn das dekadische Vorhersagesystem und die Referenzvorhersage die gleiche Güte haben, beträgt der Gütemaß 0%. Der Wert 100% hingegen beschreibt eine perfekte dekadische Vorhersage. Als Referenzvorhersagen werden sowohl die Klimatologie der Beobachtung der Jahre 1981-2010 als auch die nicht-initialisierten historischen Klimaprojektionen verwendet, welche sich von dem dekadischen Vorhersagesystem nur durch das nicht vorhandene Initialisierungs-Schema unterscheiden. Zum Test, inwieweit die Verbesserung der Vorhersage gegenüber der Referenzvorhersage zufälligen Schwankungen unterliegt (Signifikanztest), wird ein 'bootstrapping' Verfahren angewendet. Dafür werden aus den Jahren des Bewertungszeitraums 1000 Mal zufällige Jahre mit Zurücklegen gezogen und ebenfalls bewertet. Das Signifikanzniveau beträgt 95%.
Vorhersage des Ensemble-Mittelwertes
Aus den einzelnen Ensemble-Mitgliedern wird ein Ensemble-Mittelwert erstellt, mit dem sowohl die Vorhersage als auch die Bewertung der Güte vorgenommen wird. Für die räumlichen Mittel wird zusätzlich zu dem Ensemble-Mittelwert das 10. und 90. Perzentil der Ensemble-Verteilung dargestellt. Das Maß, mit dem die Vorhersagegüte des Ensemble-Mittelwertes in der Vergangenheit bestimmt wird, ist der Gütemaß des mittleren quadratischen Fehlers zwischen Vorhersage und Beobachtung (MSESS) (Goddard et al., 2013; Illing et al., 2014; Kadow et al., 2015). Der MSESS bewertet, ob die dekadische Vorhersage die Beobachtungen besser reproduzieren kann als die Referenzvorhersagen der Klimatologie (Abb. 1) und der nicht-initialisierten historischen Klimaprojektionen (Abb. 2).
Probabilistische Vorhersage
Für die probabilistische Vorhersage wird der Zeitraum 1981-2010 in drei äquivalente Häufigkeitsbereiche der Temperatur eingeteilt (Temperatur niedriger als normal, normal und höher als normal). Basierend auf der Verteilung der Ensemble-Simulationen lässt sich bestimmen mit welcher Wahrscheinlichkeit das Vorhersage-Ensemble für die betrachteten Vorhersagezeiten (Jahr 1-4, …, Jahr 7-10) in eine der drei Kategorien fällt. Wegen der geringen Anzahl der Ensemble Mitglieder findet die Berechnung der Wahrscheinlichkeiten dabei mit einem Dirichlet-Multinomial Modell mit flachem Dirichlet prior statt (Agresti and Hitchcock; 2005).
Das Maß mit dem die Vorhersagegüte der dekadischen Vorhersage im Vergleich zu Beobachtungen in der Vergangenheit bestimmt wird, ist der Gütemaß für die klassifizierte Wahrscheinlichkeit (RPSS) (Ferro 2007; Ferro et al., 2008), welcher die Übereinstimmung der Klassenzuordnung überprüft. Der RPSS bewertet, ob die dekadische Vorhersage die Beobachtungen besser reproduzieren kann als die Referenzvorhersagen der Klimatologie (Abb. 3) und der nicht-initialisierten historischen Klimaprojektionen (Abb. 4).
Referenzen
Agresti, Alan, and David B. Hitchcock, 2005: Bayesian inference for categorical data analysis." Statistical Methods and Applications, 14.3, 297-330.
Boer, G. J.; Smith, D. M.; Cassou, C.; Doblas-Reyes, F.; Danabasoglu, G.; Kirtman, B.; Kushnir, Y.; Kimoto, M.; Meehl, G. A.; Msadek, R.; Mueller, W. A.; Taylor, K. E.; Zwiers, F.; Rixen, M.; Ruprich-Robert, Y. & Eade, R., 2016: The Decadal Climate Prediction Project (DCPP) contribution to CMIP6, Geoscientific Model Development, 9, 3751-3777, 10.5194/gmd-9-3751-2016
Ferro, C.A.T., 2007: Comparing Probabilistic forecasting systems with the brier score. – Wea. Forecast. 22(5), 1076–1088, DOI: 10.1175/WAF1034.1.
Ferro, C.A.T., D.S. Richardson, A.P. Weigel, 2008: On the effect of ensemble size on the discrete and continuous ranked probability scores. – Meteor. Appl. 15, 19–24, DOI:10.1002/met.45.
Goddard, L.; Kumar, A.; Solomon, A.; Smith, D.; Boer, G.; Gonzalez, P.; Kharin, V.; Merryfield, W.; Deser, C.; Mason, S.; Kirtman, B.; Msadek, R.; Sutton, R.; Hawkins, E.; Fricker, T.; Hegerl, G.; Ferro, C.; Stephenson, D.; Meehl, G.; Stockdale, T.; Burgman, R.; Greene, A.; Kushnir, Y.; Newman, M.; Carton, J.; Fukumori, I. & Delworth, T., 2013: A verification framework for interannual-to-decadal predictions experiments, Climate Dynamics, Springer-Verlag,, 40, 245-272, 10.1007/s00382-012-1481-2
Harris, I., Jones, P.D., Osborn, T.J. and Lister, D.H., 2014: Updated high-resolution grids of monthly climatic observations – the CRU TS3.10 Dataset. Int. J. Climatol., 34: 623–642. doi: 10.1002/joc.3711
Illing, S.; Kadow, C.; Kunst, O.; & Cubasch, U., 2014. MurCSS: A Tool for Standardized Evaluation of Decadal Hindcast Systems. Journal of Open Research Software. 2(1), p.e24., doi:10.5334/jors.bf
Kadow, C.; Illing, S.; Kunst, O.; Rust, H. W.; Pohlmann, H.; Müller, W. A. & Cubasch, U., 2015: Evaluation of forecasts by accuracy and spread in the MiKlip decadal climate prediction system, Meteorologische Zeitschrift, Schweizerbart Science Publishers, 10.1127/metz/2015/0639
Marotzke, J.; Müller, W. A.; Vamborg, F. S. E.; Becker, P.; Cubasch, U.; Feldmann, H.; Kaspar, F.; Kottmeier, C.; Marini, C.; Polkova, I.; Prömmel, K.; Rust, H. W.; Stammer, D.; Ulbrich, U.; Kadow, C.; Köhl, A.; Kröger, J.; Kruschke, T.; Pinto, J. G.; Pohlmann, H.; Reyers, M.; Schröder, M.; Sienz, F.; Timmreck, C. & Ziese, M., 2016: MiKlip - a National Research Project on Decadal Climate Prediction, Bulletin of the American Meteorological Society, 10.1175/BAMS-D-15-00184.1
Mieruch, S., Feldmann, H., Schädler, G., Lenz, C.-J., Kothe, S., and Kottmeier, C., 2014: The regional MiKlip decadal forecast ensemble for Europe: the added value of downscaling, Geosci. Model Dev., 7, 2983-2999, doi:10.5194/gmd-7-2983-2014
Morice, C. P., J. J. Kennedy, N. A. Rayner, and P. D. Jones, 2012: Quantifying uncertainties in global and regional temperature change using an ensemble of observational estimates: The HadCRUT4 dataset, J. Geophys. Res., 117, D08101, doi:10.1029/2011JD017187
Müller, W. A., J. Baehr, H. Haak, J. H. Jungclaus, J. Kröger, D. Matei, D. Notz, H. Pohlmann, J.-S. von Storch, and J. Marotzke, 2012: Forecast skill of multi-year seasonal means in the decadal prediction system of the Max Planck Institute for Meteorology. Geophys. Res. Lett., doi:10.1029/2012GL053326 .
Pasternack, A., Bhend, J., Liniger, M. A., Rust, H. W., Müller, W. A., and Ulbrich, U., 2017. Parametric Decadal Climate Forecast Recalibration (DeFoReSt 1.0), Geosci. Model Dev. Discuss., doi.org/10.5194/gmd-2017-162, in review (accepted for the journal Geoscientific Model Development (GMD)).
Pohlmann, H., W. A. Müller, K. Kulkarni, M. Kameswarrao, D. Matei, F. S. E. Vamborg, C. Kadow, S. Illing, J. Marotzke, 2013: Improved forecast skill in the tropics in the new MiKlip decadal climate predictions. Geophys. Res. Lett., 40, 5798-5802, doi:10.1002/2013GL058".
Rockel, B., Will, A., and A. Hense, 2008: The Regional Climate Model COSMO-CLM (CCLM), Meteorol. Z., 17, 347- 348, doi:10.1127/0941-2948/2008/0309