Le Vatican choisit un format open source pour la numérisation de sa bibliothèque

La question du choix du format de fichier dans un projet de numérisation est un point crucial, et qui plus est, lorsque ce projet concerne les documents rarissimes de la bibliothèque de la Cité du Vatican.

En 2010, le Vatican s'est lancé dans un projet pharaonique : numériser tous les ouvrages de sa bibliothèque qui existe depuis 1451, soit environ 40 millions de pages. (Lire l'article de l'époque Préserver des manuscrits du XVe siècle pour les générations futures.)

Le projet de "préservation numérique à long terme" doit d'une part avoir toutes les garanties possibles sur la longévité des données numérisées et de l'autre permettre la divulgation des manuscrits à de nombreux utilisateurs dans le monde.

Un objectif de pérennité

Il doit durer une dizaine d'années. Il consiste en l'indexation des 82 000 documents de la bibliothèque. Lorsque tout sera terminé, l'on estime à 45 pétaoctets de données soit 45 000 téraoctets (ou 45 000 000 Go) le poids de cette bibliothèque numérique.

Lors de la conférence du spécialiste du big data EMC, la EMC World 2015 de Las Vegas, le CIO du Vatican Luciano Ammenti est revenu sur le choix du format de numérisation.

La solution : l'open source

"Nous voulions créer quelque chose, et ce, non pas pour nous, mais pour les générations futures, quelque chose qui sera encore et toujours lisible et consultable dans cent ans par tout un chacun dans le monde", explique Luciano Ammenti cité par V3.

La question principale au début du projet a donc été le choix du format de conservation des textes. Le Vatican a opté pour un format image open source, qui ne nécessite pas de plates-formes propriétaires pour être lu.

"Nous les sauvegardons en tant qu'image car ce type de format à une durée de vie plus longue qu'un fichier. Vous ne devez pas compter sur PowerPoint ou Word pour lire les documents et, dans 50 ans, les manuscrits pourront toujours être consultés", précise Luciano Ammenti.

Selon Luciano Ammenti, souvent le format privilégié pour l'archivage à l'heure actuelle est le format TIFF. Or cela pose plusieurs problèmes. Le format TIFF n'est pas open source et la dernière mise à jour date de 1998.

Le format FITS, le plus complet

C'est finalement le format FITS (Flexible Image Transport System) qui a été choisi. Plutôt méconnu, ce format a été développé à la NASA pour stocker des images et des données astronomiques et astrophysiques.

Fits tourne en 64 bits, gère toutes les tailles de fichiers sans limites de poids, supporte la visualisation 3D et est régulièrement mis à jour. De plus un fichier FITS peut contenir de nombreuses extensions qui contiennent des informations comme des données sur les rayons X.

Les données numérisées sont disponibles en ligne gratuitement sur le site du Vatican. Le système distribue les fichiers à la demande, en utilisant un processus de conversion de format FITS à TIFF, à PTIFF ou à d'autres formats open source.

Plus d'articles sur le thème