La Bibliothèque apostolique du Vatican souhaite préserver et partager ses 82 000 documents. Pour cela, un grand projet de numérisation a été lancé il y a cinq ans.
L'objectif était de mettre en place une infrastructure informatique sécurisée, souple et innovante pour être efficace, tout en améliorant la visibilité des documents à travers les systèmes et le centre de données. La bibliothèque du Vatican travaille depuis 2013 avec l'entreprise américaine EMC, spécialisée dans le big data.
Lors de la conférence EMC World qui s'est tenue début mai à Las Vegas, Luciano Ammenti CIO de la bibliothèque du Vatican, a détaillé la mise en place de ce projet colossal.
1 - La numérisation
L'une des premières étapes a consisté à sélectionner rigoureusement le matériel de travail. Ainsi, les analyses préliminaires à la numérisation ont permis de sélectionner des scanners italiens Métis, qui sont équipés de capteurs CCD trilinéaire, conçus et fabriqués par Kodak.
Ensuite une vérification stricte de la qualité de la numérisation obtenue a été mis en place. Les contrôles de qualité sont inspirés par le standard appelé UTT (Universal Test Target). Ce standard open source permet d'avoir un aperçu de la qualité des images numérisées à partir de tout type de scanner et d'appareil photo numérique, suivant les normes ISO actuelles.
2 - La sauvegarde
Lorsque les données ont été recueillies au format image FITS (lire Le Vatican choisit un format open source...), les centres de données BAV (Biblioteca Apostolica Vaticana) répartissent et gèrent les données unifiées sur une plate-forme FITS.
Pour assurer le stockage, les images sont enregistrées dans différents types de bases de données : dans une base "Write Once Read Many" (WORM) qui est une technique permettant l'écriture de données mais pas leur effacement, dans une base dédiée au travail et dans une autre spécifiquement réservée au partage en ligne.
3 - La distribution
Les données numérisées sont disponibles en ligne gratuitement sur le site du Vatican. Le système permet d'accéder aux fichiers demandés, en utilisant un processus de conversion du format FITS à TIFF, à PTIFF ou à d'autres formats open source.
Aujourd'hui, 4 400 documents sur les 82 000 du projet ont été numérisés. Et le projet devrait durer encore quatre à cinq ans.