This page lists some opportunities to work with me on academic research projects. For more information, please also visit the following pages: IAP Job opportunities and Working in the Aquila Consortium.
I currently do not have formal openings, but please feel free to contact me for details on projects at any level (internship, PhD, postdoc).
Master internship and PhD studentship opportunity (Spring 2024)
High-performance information extraction from cosmic web probes
Last update: 11-10-2023(English version) Physical cosmology has brilliantly interwoven high-energy physics and observational astronomy to sketch the history of the Universe’s evolution from the Big Bang to its present state. Yet, lingering mysteries still beckon, primarily concerning dark energy, the cause of the Universe's accelerated expansion, and the elusive masses of neutrino particles. Recent advances in statistical cosmology show the potential of going beyond traditional methodologies centred around correlation functions to unveil these secrets. The INFOCW project, funded by the Agence Nationale de la Recherche (ANR), seeks to employ models that predict the complete map of the large-scale structure as seen by ESA’s Euclid satellite, a recently launched space observatory. Through the synergy of cosmological simulations, data science, and astrophysical observations, the project promises to bring forth innovations that harness information trapped in the cosmic web—the Universe's grandest observable structure.
Identifying and extracting the maximum amount of cosmological information from cosmic maps is still a largely open problem and will play a pivotal role in INFOCW. The goal of this master internship and PhD project is to tackle this task. In the first phase of the project, we will utilise physically and statistically motivated cosmic web probes. We will then optimise the extraction of cosmological information using automatically defined statistical summaries of galaxy catalogues, i.e. machine-aided definition of probes.
The student will gain insights into cosmological modelling, work with large astronomical data sets, and recent advances in machine learning. They will play a role in scaling up data models, optimising information extraction from the cosmic web, and enriching the scientific yield from Euclid data analysis. They will work within the Aquila Consortium and take part in some projects of the Euclid Consortium.
We are looking for candidates with:
- A strong background in cosmology and/or astrophysics,
- Good computational abilities, preferably some familiarity with at least Python,
- A willingness to learn, and to work collaboratively.
We are seeking to appoint the same candidate for a master internship (dates at the candidate's convenience from February 2024) followed by a three-year PhD studentship from October 2024, subject to satisfactory performance. Both positions are based in the large-scale structure and distant Universe group of the Institut d'Astrophysique de Paris (IAP). Supervision will be provided by Florent Leclercq (principal investigator of INFOCW) & Guilhem Lavaux. Funding for research expenses (travel, small equipment) is provisioned.
Application files must contain a CV and a transcript of record for all higher education programmes. They should be addressed to Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). One or more letters of recommendation (optional) can be sent directly by their authors to the same addresses. Review of applications will begin on 6 November 2023, and continue until the positions are filled. Full consideration will be given to applications sent by 15 December 2023.
CNRS and Sorbonne Université are equal-opportunity institutions. Applications from under-represented groups in science are particularly encouraged.
Extraction d'information haute performance des sondes de la toile cosmique
(Version française) La cosmologie physique mêle brillamment la physique des hautes énergies et l’astronomie observationnelle pour retracer l’histoire de l’évolution de l’Univers depuis le Big Bang jusqu’à son état actuel. Pourtant, des mystères demeurent, principalement concernant l'énergie noire, la cause de l'expansion accélérée de l'Univers, et les masses des neutrinos, qui restent à mesurer. De récents progrès en cosmologie statistique montrent le potentiel d’aller au-delà des méthodologies traditionnelles basées sur les fonctions de corrélation pour tenter de répondre à ces questions. Le projet INFOCW, financé par l’Agence Nationale de la Recherche (ANR), cherche à utiliser des modèles qui prédisent la carte complète de la structure à grande échelle de l'Univers, vue par le satellite Euclid de l’ESA, un observatoire spatial récemment lancé. Grâce à la synergie des simulations cosmologiques, de la science des données, et des observations astrophysiques, le projet produira des innovations qui exploiteront l'information contenue dans la toile cosmique, la plus grande structure observable de l'Univers.
Identifier et extraire le maximum d’information cosmologique à partir de cartes cosmiques reste un problème encore largement ouvert et jouera un rôle central dans INFOCW. L'objectif de ce stage de master et de ce projet de doctorat est de s'attaquer à cette tâche. Dans la première phase du projet, nous utiliserons des sondes de la toile cosmique motivées physiquement et statistiquement. Nous optimiserons ensuite l’extraction d’information cosmologique à l’aide de résumés statistiques des catalogues de galaxies définis automatiquement, c’est-à-dire de sondes définies par apprentissage automatique.
L'étudiante ou l'étudiant va acquérir des connaissances sur la modélisation cosmologique, l'exploitation de grands jeux de données astronomiques, et les progrès récents en apprentissage automatique. Elle/il jouera un rôle dans la mise à l’échelle des modèles de données, dans l’optimisation de l’extraction d’information de la toile cosmique, et dans l’exploitation scientifique des données d’Euclid. Elle/il travaillera au sein du Consortium Aquila et participera à certains projets du Consortium Euclid.
Nous recherchons des candidates et des candidats avec :
- Une solide formation en cosmologie et/ou en astrophysique,
- De bonnes capacités en informatique, de préférence une familiarité avec au moins Python,
- Une volonté d'apprendre et de travailler en collaboration.
Nous cherchons à recruter la/le même candidate/candidat pour un stage de master (dates à convenir à partir de février 2024), suivi d'un doctorat de trois ans à partir d'octobre 2024, sous réserve de performances satisfaisantes. Les deux postes sont basés dans le groupe Grandes structures et Univers profond de l'Institut d'Astrophysique de Paris (IAP). L'encadrement sera assuré par Florent Leclercq (chercheur coordinateur d'INFOCW) et Guilhem Lavaux. Le financement des dépenses de recherche (déplacements, petit matériel) est prévu.
Les dossiers de candidature doivent contenir un CV et un relevé de notes pour l'ensemble du parcours en enseignement supérieur. Ils doivent être addressés à Florent Leclercq (florent.leclercq@iap.fr) & Guilhem Lavaux (guilhem.lavaux@iap.fr). Une ou plusieurs lettres de recommendation (facultatives) peuvent être adressées directement par leurs auteurs aux mêmes adresses. Les candidatures reçues seront examinées à partir du 6 novembre 2023 jusqu’à ce que les postes soient pourvus. Pour être pleinement pris en considération, les dossiers devront être envoyés avant le 15 décembre 2023.
Le CNRS et Sorbonne Université sont engagés en faveur de l'égalité des chances. Les candidatures issues de groupes sous-représentés en science sont particulièrement encouragées.
Related links and literature / Liens connexes et littérature:
- The large-scale structure and distant Universe group of the IAP: http://www.iap.fr/recherche/groupes/groupes-1.php?nom=grandestruct
- The Aquila Consortium: https://www.aquila-consortium.org
- The Euclid mission: https://www.euclid-ec.org
- F. Leclercq, J. Jasche, B. Wandelt,
Bayesian analysis of the dynamic cosmic web in the SDSS galaxy survey , JCAP 6, 15 (2015), arXiv:1502.02690 [astro-ph.CO] - F. Leclercq, G. Lavaux, J. Jasche, B. Wandelt,
Comparing cosmic web classifiers using information theory , JCAP 8, 27 (2016), arXiv:1606.06758 [astro-ph.CO] - J. Alsing, B. Wandelt,
Generalized massive optimal data compression , MNRAS Letters 476, L60-L64 (2018), arXiv:1712.00012 [astro-ph.CO] - T. Charnock, G. Lavaux, B.D. Wandelt,
Automatic physical inference with information maximizing neural networks , Phys. Rev. D 97, 083004 (2018), arXiv:1802.03537 [astro-ph.IM] - T. L. Makinen, T. Charnock, J. Alsing, B.D. Wandelt,
Lossless, scalable implicit likelihood inference for cosmological fields , JCAP 11, 049 (2021), arXiv:2107.07405 [astro-ph.CO]
Internship opportunity – Major in Astrophysics (Spring 2023)
A new machine learning technique to extract cosmological information from galaxy surveys
Last update: 20-09-2022(English version) Upcoming years will see the dawn of an era of wide and deep observations of the sky. Among them, large-scale surveys of galaxies such as Euclid, Rubin, and Roman hold the promise of answering the most outstanding cosmological questions: the nature of dark energy, the masses of neutrinos, the processes driving cosmic inflation, and the presence of gravitational waves. Unfortunately, because of various observational and theoretical challenges, the extraction of this information is very challenging. For this reason, modern cosmology is at the forefront of high-performance data analysis and machine learning techniques.
The goal of this interdisciplinary project is to develop a novel "simulation-based inference" (SBI) technique to extract cosmological information from astronomical data. It will consist in deriving and implementing an expression for the approximate likelihood of the problem, checking for model mis-specification, and compressing the observed data in a massive and optimal fashion. We will then combine this procedure with a realistic simulator of galaxy observations to test its performance at recovering target cosmological parameters. Ultimately, the developed method will be an important tool for the extraction of physical information from Euclid data, which has the potential to influence the design of future data analysis pipelines.
The student will get experience of cosmology, astronomical observations, statistical modelling, and handling of large simulated datasets. They should be comfortable with computing (preferably, experience with python and git). This work could naturally lead to a PhD project in cosmology and/or data science, for example in the large-scale structure and distant Universe group of the Institut d'Astrophysique de Paris (IAP).
Une nouvelle technique de machine learning pour extraire l'information cosmologique des relevés de galaxies
(Version française) Les prochaines années verront le début d'une nouvelle ère d'observations larges et profondes du ciel. Parmi les données attendues, les relevés de galaxies à grande échelle comme Euclid, Rubin et Roman promettent de répondre à certaines des plus importantes questions cosmologiques : la nature de l'énergie noire, les masses de neutrinos, les processus à l'origine de l'inflation cosmique et la présence d'ondes gravitationnelles. Malheureusement, en raison de divers défis observationnels et théoriques, l'extraction de ces informations est très difficile. Pour cette raison, la cosmologie moderne est à la pointe des techniques d'analyse de données haute performance (high-performance data analysis, HPDA) et d'apprentissage automatique (machine learning).
L'objectif de ce projet interdisciplinaire est de développer une nouvelle technique "d'inférence basée sur la simulation" (simulation-based inference, SBI) pour extraire des informations cosmologiques à partir de données astronomiques. Il consistera à développer et à implémenter une expression de la vraisemblance approximative du problème, à vérifier les erreurs de spécification du modèle et à compresser les données observées de manière massive et optimale. Nous combinerons ensuite cette procédure avec un simulateur réaliste d'observations de galaxies pour tester ses performances à récupérer les paramètres cosmologiques cibles. Une fois mature, la méthode développée sera un outil important pour l'extraction d'informations physiques à partir de données Euclid, ce qui a le potentiel d'influencer la conception de futurs pipelines d'analyse de données.
L'étudiante ou l'étudiant va acquérir une expérience de la cosmologie, des observations astronomiques, de la modélisation statistique et de la manipulation de grands ensembles de données simulées. Elle/il devra être à l'aise avec le développement en informatique (de préférence, une expérience avec python et git). Ce travail pourrait naturellement déboucher sur une thèse en cosmologie et/ou science des données, par exemple dans le groupe Grandes Structures et Univers Profond de l'Institut d'Astrophysique de Paris (IAP).
Liens connexes et littérature / Related links and literature:
- The Aquila Consortium for Bayesian large-scale structure inference: https://www.aquila-consortium.org/
- The Euclid mission: https://www.euclid-ec.org
- The SELFI (Simulator Expansion for Likelihood-Free Inference) algorithm: F. Leclercq, W. Enzi, J. Jasche, A. Heavens,
Primordial power spectrum and cosmology from black-box galaxy surveys , MNRAS 490, 4237 (2019), arXiv:1902.10149 [astro-ph.CO] - The pySELFI code: http://pyselfi.florent-leclercq.eu
- The BOLFI (Bayesian Optimisation for Likelihood-Free Inference) algorithm: F. Leclercq,
Bayesian optimisation for likelihood-free cosmological inference , Physical Review D 98, 063511 (2018), arXiv:1805.07152 [astro-ph.CO] - Massive optimal data compression: J. Alsing, B. Wandelt,
Generalized massive optimal data compression , MNRAS Letters 476, L60-L64 (2018), arXiv:1712.00012 [astro-ph.CO]
Internship opportunity – Major in Information Science (Spring 2023)
Bayesian inference with expensive and imperfect data models
Last update: 20-09-2022(English version) Surveys of the cosmic large-scale structure carry rich scientific opportunities. Advancing the research frontier requires solving unique and challenging statistical problems, to unlock the information content of massive and complex data vectors. The recently-proposed machine learning technique BOLFI (Bayesian optimisation for likelihood-free inference) makes inference of complex Bayesian hierarchical models under the constraint of a very limited simulation budget possible. Unfortunately, its use is currently hampered by several theoretical and practical challenges.
The goal of this interdisciplinary project is to upgrade the BOLFI algorithm for the extraction of information distributed in massive and heterogeneous data, in the context of expensive and imperfect data models. Motivating problems and applications will come from upcoming galaxy survey data such as Euclid. We will address several issues, including: (i) the parallel acquisition of simulations when only a limited number of noisy likelihood evaluations can be obtained, (ii) the robustification of the technique against model mis-specification, (iii) the definition of summary statistics that maximise the extraction of information, e.g. via information-maximising neural networks (IMNN). The proposed algorithm will be applied to the inference of cosmological parameters using a realistic simulator. Ultimately, the developed method will be an important tool for the extraction of physical information from Euclid data, which has the potential to influence the design of future data analysis pipelines.
The student will get experience of statistical modelling, machine learning, data mining, cosmology, and astronomical observations. They should be comfortable with computing (preferably, experience with python and git). This work could naturally lead to a PhD project in data science and/or cosmology, for example in the large-scale structure and distant Universe group of the Institut d'Astrophysique de Paris (IAP).
Inférence bayésienne avec des modèles de données coûteux et imparfaits
(Version française) L'étude de la structure à grande échelle de l'Univers offre de riches opportunités scientifiques. Faire progresser la frontière de la recherche nécessite de résoudre des problèmes statistiques uniques et difficiles, afin de extraire l'information de vecteurs de données massifs et complexes. La technique d'apprentissage automatique récemment proposée BOLFI (Bayesian optimisation for likelihood-free inference) rend possible l'inférence de modèles bayésiens hiérarchiques complexes sous la contrainte d'un budget en simulations très limité. Malheureusement, son utilisation est actuellement entravée par plusieurs défis théoriques et pratiques.
L'objectif de ce projet interdisciplinaire est de faire évoluer l'algorithme BOLFI pour l'extraction de l'information distribuée dans des données massives et hétérogènes, dans le cadre de modèles de données coûteux et imparfaits. Les motivations et les applications proviendront des futures données de relevés de galaxies tel qu'Euclid. Nous aborderons plusieurs problèmes, notamment : (i) l'acquisition parallèle de simulations lorsque seul un nombre limité d'évaluations de vraisemblance bruitées peut être obtenu, (ii) la robustification de la technique contre les erreurs de spécification du modèle, (iii) la définition de résumés statistiques qui maximisent l'extraction d'information, par exemple via les réseaux de neurones maximisant l'information (information-maximising neural networks, IMNN). L'algorithme proposé sera appliqué à l'inférence de paramètres cosmologiques à l'aide d'un simulateur réaliste. Une fois mature, la méthode développée sera un outil important pour l'extraction d'informations physiques à partir de données Euclid, ce qui a le potentiel d'influencer la conception de futurs pipelines d'analyse de données.
L'étudiante ou l'étudiant va acquérir une expérience de la modélisation statistique, de l'apprentissage automatique, de la fouille de données, de la cosmologie et des observations astronomiques. Elle/il devra être à l'aise avec le développement en informatique (de préférence, une expérience avec python et git). Ce travail pourrait naturellement déboucher sur une thèse en science des données et/ou en cosmologie, par exemple dans le groupe Grandes Structures et Univers Profond de l'Institut d'Astrophysique de Paris (IAP).
Liens connexes et littérature / Related links and literature:
- The Aquila Consortium for Bayesian large-scale structure inference: https://www.aquila-consortium.org/
- The Euclid mission: https://www.euclid-ec.org
- The BOLFI (Bayesian Optimisation for Likelihood-Free Inference) algorithm: M. U. Gutmann, J. Corander,
Bayesian Optimization for Likelihood-Free Inference of Simulator-Based Statistical Models , Journal of Machine Learning Research 17, 1 (2016), arXiv:1501.03291 [stat.ML]; F. Leclercq,Bayesian optimisation for likelihood-free cosmological inference , Physical Review D 98, 063511 (2018), arXiv:1805.07152 [astro-ph.CO] - M. Järvenpää, M. Gutmann, A. Vehtari, P. Marttinen,
Parallel Gaussian process surrogate Bayesian inference with noisy likelihood evaluations , Bayesian Analysis 16, 147-178 (2021), arXiv:1905.01252 [stat.ML] - F. Leclercq,
Simulation-based inference of Bayesian hierarchical models while checking for model misspecification , 19-07-2022, 41st MaxEnt2022 Conference, Institut Henri Poincaré, Paris, France slides proceedings - T. Charnock, G. Lavaux, B. D. Wandelt,
Automatic physical inference with information maximising neural networks , Physical Review D 97, 083004 (2018), arXiv:1802.03537 [astro-ph.IM]; T. L. Makinen, T. Charnock, J. Alsing, B. D. Wandelt,Lossless, Scalable Implicit Likelihood Inference for Cosmological Fields , Journal of Cosmology and Astroparticle Physics 11, 049 (2021), arXiv:2107.07405 [astro-ph.CO]