Dans son rapport « Calcul et données. Nouvelles perspectives pour la simulation à haute performance »,, l’Académie des technologies alerte sur l’importance des nouvelles technologies de simulation numérique, fondées à la fois sur la modélisation (calcul scientifique) et sur l’intelligence artificielle (apprentissage automatique).
Le développement très rapide des méthodes d’apprentissage automatique, et en particulier de l’apprentissage profond souvent appelé intelligence artificielle, a permis d’obtenir des résultats remarquables dans de multiples domaines : reconnaissance d’images ou de la parole, étude des réseaux sociaux, véhicules autonomes, imagerie médicale, etc… Ces méthodes statistiques, qui nécessitent de recourir à de très nombreuse données (big data) pour entraîner les modèles d’apprentissage, sont-elles le nouveau paradigme pour les besoins de simulation nécessaires à prévision, à la recherche scientifique, au développement technologique ?
La seule approche disponible jusqu’à un passé récent consistait à s’appuyer sur les lois scientifiques du monde de la physique, de la chimie, de la biologie, décrivant les systèmes étudiés. Les versions numériques, ou discrétisées, de ces lois déterministes sont utilisées pour construire un modèle, le plus souvent très lourd, dont la résolution est confiée à un super-ordinateur. La simulation numérique fonde ainsi les scénarios climatiques, commande la conception des avions et de beaucoup d’autres objets industriels. Ce calcul scientifique, cette simulation numérique, peuvent-ils continuer à progresser au rythme soutenu qu’ils ont connu jusqu’à présent ?
La complémentarité entre approches statistiques et déterministes, entre intelligence artificielle et simulation numérique, est, pour l’Académie des technologies, la source d’un accroissement significatif des capacités de chacune de ces approches et la matrice de nouvelles méthodes, hybridées entre calcul et données.
L’intelligence artificielle peut en effet inclure dans son approche statistique, comme contraintes à respecter, des lois scientifiques ou des savoirs préexistants. La simulation numérique peut quant à elle utiliser l’apprentissage automatique pour représenter statistiquement, à partir d’une grande masse de données d’apprentissage, des phénomènes trop fins ou trop complexes pour être numérisés directement à partir de lois scientifiques. On conçoit alors que, pour les systèmes complexes, la reproduction et la prévision de leur fonctionnement soient magnifiées par de nouvelles méthodes hybrides statistico-déterministes.
Les outils pour mettre en œuvre ces nouvelles méthodes existent : le traitement en masse des données a nécessité l’utilisation d’une nouvelle catégorie de processeurs, moins gourmands en énergie et particulièrement adaptés à ces usages. Ces « accélérateurs » sont maintenant intégrés, à côté des processeurs plus traditionnels, dans les architectures des super-ordinateurs les plus puissants. Le rassemblement au sein d’un même cœur de calcul de ces deux sortes de processeurs permet à la fois d’atteindre des puissances de calcul qui seront très bientôt dans la gamme de 1018 opérations par seconde (l’exascale), à un coût énergétique acceptable, et aussi de mettre en œuvre les nouvelles méthodes hybrides associant intelligence artificielle et calcul scientifique
Les compétences nécessaires au développement de ces méthodes associeront connaissances des mathématiques appliquées, de la science des données et de la statistique, de la science sous-jacente au domaine d’étude, et mise en œuvre de ces méthodes sur les nouvelles architectures des super-ordinateurs les plus puissants, nécessitant maîtrise de l’informatique et du parallélisme massif. Les formations initiales comme les formations continues aptes à former de tels spécialistes commencent à être mises en place, mais toutefois à un niveau encore insuffisant.
Dans son rapport « Calcul et données. Nouvelles perspectives pour la simulation à haute performance », l’Académie des technologies développe ces différents points et formule six recommandations :
- renforcer le développement de méthodes hybrides, associant physique de base et apprentissage ;
- s’appuyer sur des infrastructures matérielles permettant à la fois le calcul scientifique et le traitement des données ;
- améliorer la validation et l’explication des résultats des simulations ;
- organiser un meilleur partage des données entre utilisateurs potentiels ;
- promouvoir une formation hybride adaptée et bien reconnaître les métiers associés ;
- aider à la transition des grands codes déjà développés sur la base du calcul scientifique.