Projets

Projets #

Voici quelques projets, plus ou moins reliés à mon travail, et dont certains pourraient je l’espère vous intéresser.

FileFinder #

Github PyPi

Trouvez des fichiers grâce à la structure de leur nom de fichier, avec une syntaxe simple mais puissante. Utile pour gérer des bases de données constituées de beaucoup de fichiers, pour de multiples dates ou paramètres; par exemple ici la date et la profondeur:

finder = Finder('/root_folder/', '%(Y)/SST_%(Y)%(m)%(d)_%(depth:fmt=.1f).nc')
files = finder.get_files()

Tol-colors #

Github PyPi

Un paquet qui donne accès à des sets de couleurs pour des lignes ou des cartes, tous adaptés aux personnes daltoniennes. Ces jeux de couleurs ont été créés par Paul Tol, je les ai seulement rendus accessibles sur Pypi. Ci-dessous un des set de couleurs disponible (‘vibrant’):

échantillon de couleurs du set dit 'vibrant'

Data-assistant #

Gitlab

Démarrez un projet d’analyse de données:

  • Obtenez vos paramètres à partir d’un fichier de configuration ou depuis la ligne de commande. Validez-les par rapport à une définition structurée facile à rédiger, extensible, et qui permet de documenter chaque paramètre.
  • Déclarez des jeux de données de manière flexible afin de gérer des paramètres variables, de multiples fichiers, la lecture/écriture des données, etc.
  • Configurez Dask soit sur une machine locale, soit de manière distribuée sur un cluster (en utilisant dask-jobqueue).

Heterogeneity-Index #

Gitlab

Une bibliothèque Python pour calculer l’Heterogeneity Index – tel que défini dans Haëck et al. (2023) et Liu & Levine (2016) – ainsi que certains diagnostics associés (détection de fronts, statistiques de variables dans et hors des fronts).

On peut considérer ce projet comme un exemple d’algorithme complexe de détection de fronts, implémenté en Python mais restant compétitif grâce à Numba. Il peut fonctionner sur des tableaux numpy, dask ou xarray. Ce projet pourrait fournir une base à d’autres méthodes de détection de fronts, qui pourraient y être incluses.

Xarray-histogram #

Github

J’utilise fréquemment des histogrammes comme résultats intermédiaires pour réduire le volume de données à analyser. J’ai un peu exploré des moyens de construire efficacement des histogrammes sur de grands ensembles de données. Il s’agit ici d’une tentative d’utiliser Boost Histogram et son équivalent Dask dask-histogram.

J’ai constaté des calculs plus rapides qu’avec numpy ou xhistogram, mais je ne suis présentement pas certain si c’est toujours le cas pour des données très volumineuses.

VisibleEarth Homepage #

Github

De quoi avoir comme page d’accueil la dernière image de NASA VisibleEarth en pleine résolution.

Dateloop #

Github

Une simple commande bash pour créer des ensembles de dates. Utile pour des opérations sur des ensembles de dates.

$> dateloop 20010227 20010301 -f %Y-%m-%d
2001-02-27 2001-02-28 2001-03-01