Archiviste numérique
26 mars 2018
Jean-Séverin Lair (DINSIC) : « Nous inventons ensemble le métier d'archiviste numérique »
Jean-Séverin Lair, directeur du Programme Vitam à la DINSIC, doit prévoir un archivage de très nombreuses données de faibles volumes unitaires.
Sous la double tutelle de la DINSIC et du CIAF, trois ministères (Culture, Armées, Affaires Etrangères) mènent avec trois SSII (Smile, Thalès Services et Linagora) le programme Vitam, un back office d'archivage open-source basé sur Java, Elasticsearch et MongoDB. Malgré la complexité du programme et les nombreuses contraintes juridiques, Vitam est entièrement mené en méthodes agiles.
La version 1 vient d'être livrée pour mise en production : le programme Vitam (Valeurs immatérielles transmises aux archives pour mémoire) entre ainsi véritablement en fonctionnement. Mené sous la double tutelle du CIAF (Comité Interministériel aux Archives de France) et de la DINSIC (la « DSI groupe de l'Etat » : Direction Interministérielle du Numérique et du Système d'Information et de Communication), Vitam est un programme visant à la création d'une solution pour l'archivage probant des archives de l'Etat. Malgré toute une série de difficultés, Vitam a été mené en mode agile. Conçu au départ pour les trois ministères pilotant le programme pour leur propre usage (Armées, Affaires Etrangères, Culture), Vitam a reçu un financement dans le cadre des investissements d'avenir à condition de devenir une solution totalement réutilisable par qui le voudrait.
Vitam se décompose en fait en quatre sous-programmes. Le premier, sans doute le plus important et en tous cas la base de tout, est le logiciel de back office à créer, le « Vitam coeur » ou le « socle Vitam ». Réalisé en open-source, il est sous licence Cecill v2.1 compatible GNU GPL, garantissant ainsi sa réutilisation par qui le voudra. Viennent ensuite trois implémentations pour les ministères initiateurs du projet : le projet Adamant au ministère de la Culture, Saphir aux Affaires Etrangères et Archipel aux Armées. Enfin, un dernier projet porté par le CIAF concerne l'accompagnement des autres services et entités qui souhaiteraient utiliser Vitam. Si le socle Vitam est commun, chaque implémentation vise à gérer le processus métier d'archivage selon les règles de chaque entité utilisatrice et suppose qu'il y ait un front-office spécifique adapté. Pour mutualiser cette partie, il n'est pas impossible que certains process d'archivages soient rapprochés entre entités.
Sommaire
Beaucoup de petites données[modifier]
« Il n'existait aucune solution sur le marché répondant à nos besoins » insiste Jean-Séverin Lair, directeur du Programme Vitam à la DINSIC et ancien DSI du Ministère de la Culture. Au départ, il s'agira de gérer cent millions d'objets pour un total de 100 To. En effet, une simple note de service ne pèse pas très lourd mais doit être traitée de manière individuelle. Très rapidement, le nombre d'objets à traiter est appelé à se compter en milliards. Mais, en regard de ce nombre, les volumes resteront presque modestes. A l'inverse, l'Institut National Audiovisuel gère des dizaines de Po mais seulement quelques millions d'objets de fort volume (des vidéos).
A cela s'ajoutent des obligations considérables, notamment d'origine réglementaire. Certains documents peuvent ainsi être classifiés Secret Défense. La gestion des droits est une problématique majeure. Mais ce n'est pas tout. L'archivage vise, pour commencer, à conserver les données. Certes. Ensuite, il faut pérenniser les données. Jean-Séverin Lair constate : « si on ressort un train binaire vingt ans après, encore faut-il que les logiciels pour le lire existent encore. » Il faut donc conserver l'original à des fins probantes mais bien, aussi, convertir fichier par fichier avant que le format utilisé ne devienne totalement obsolète. Bien entendu, les métadonnées devront tracer précisément tout ce qui est arrivé à la donnée. Enfin, l'organisation des archives doit permettre d'indexer et de rechercher une donnée, toujours avec une valeur probante. « Avec l'ensemble des acteurs du programme, nous inventons le métier d'archiviste numérique » relève Jean-Séverin Lair. Il complète : « la transformation numérique commence tout juste à atteindre les archives car, jusqu'à présent, il y avait toujours des points de repère papier. Ces points de repère vont totalement disparaître. » Depuis 1982, les Archives Nationales disposaient de Constance, un stockage sur bandes avec référencement manuel du contenu des bandes. Ce genre de procédé, innovant pour l'époque, n'est plus suffisant aujourd'hui que le numérique n'est plus accessoire mais l'essentiel voire la totalité.
Des méthodes innovantes pour traiter juridiquement de l'archivage[modifier]
Validé par le Comité Interministériel aux Archives de France le 1er juillet 2013, puis par la DINSIC le 4 septembre 2013, le lancement du programme Vitam a été politiquement décidé le 9 mars 2015 par deux ministres, Fleur Pellerin, alors ministre de la Culture, et Thierry Mandon, secrétaire d'État à la réforme de l'État. Le lancement réel du programme a eu lieu en Avril 2016. « Il nous a fallu un an pour nous organiser avec des équipes provenant des trois ministères initiateurs et passer les marchés publics nécessaires » explique Jean-Séverin Lair. Les marchés ont été passés par les services du Premier Ministre, auxquels appartient la DINSIC. Mais comment mener un programme agile alors qu'une administration ne peut pas avoir recours à des informaticiens en régie ? « Nous payons au point de user story livré : à chaque itération, on pèse ce qui a été livré en termes de complexité de développement et on paye en conséquence » répond Jean-Séverin Lair. Trois lots ont été attribués : deux équipes agiles permanentes (aujourd'hui, seule Linagora demeure sur ce lot), une équipe de soutien et d'expertise avec apport de ressources complémentaires si besoin (lot attribué à Smile) et enfin un lot intégration/packaging/test confié à Thalès Services. Chaque sprint est mené sur trois semaines, une release étant publiée tous les cinq sprints. Enfin, les versions sont publiées une à deux fois par an.
Pouvoir ainsi travailler avec des SSII sur un programme agile n'était pas la seule difficulté. Vitam est avant tout une solution logicielle. Et chaque implémentation dans une entité archiveuse doit donc être unitairement homologuée selon les règles de l'ANSSI. Mais comme les programmes interministériels avec la même problématique pourraient se multiplier dans les années à venir, les responsables de Vitam ont travaillé avec l'ANSSI pour construire une « homologation de référence », ce qui est une nouveauté méthodologique. Chaque implémentation sera donc homologuée séparément mais en s'appuyant sur l'homologation de référence afin de la rendre plus simple et rapide.
Une solution ultra-modulaire[modifier]
Quand on parle d'archivage sur des dizaines voire des centaines d'années surgit une difficulté évidente. Et Jean-Séverin Lair la résume simplement : « je ne sais pas du tout ce que sera l'informatique dans vingt ans. » Pour contourner cette difficulté, le socle Vitam est totalement modulaire. Chaque module interagit via API. Et les services externes (comme les implémentations Adamant, Saphir et Archipel) s'interfacent aussi via API avec le socle. « Chaque module peut changer de technologie sans impacter le reste et nous avons systématiquement recherché la moindre adhérence technique possible » martèle Jean-Séverin Lair. Vitam possède deux interfaces, une pour l'administration de l'outil et une autre pour mener des démonstrations et des tests d'archivage mais qui s'appuient toujours sur les API.
Pour l'heure, techniquement, le coeur Vitam est construit sur du Java avec ElasticSearch comme moteur d'indexation et de recherche, et MongoDB comme base de données. « Le nombre d'enregistrements excluait une base SQL classique » tranche Jean-Séverin Lair. La solution logicielle utilise du stockage standard. Vue les souches embarquées, le socle Vitam requiert, de base, onze serveurs virtuels pour fonctionner.
Les utilisateurs se multiplient[modifier]
Vitam a été conçu pour traiter de très grosses quantités de petits documents. Il répond aux besoins des trois ministères initiateurs du projet. Mais rien n'interdit de l'utiliser pour l'archivage intermédiaire. Quatre entités sont ainsi d'ores et déjà impliquées officiellement : le Ministère de la Transition Ecologique et Solidaire, l'ANSES (Agence Nationale de Sécurité Sanitaire), l'ASP (Agence des Services de Paiement) et le CINES (Centre Informatique National de l'Enseignement Supérieur). Au delà, d'autres entités devraient également se munir de Vitam pour gérer leurs archives. Jean-Séverin Lair avertit cependant : « c'est un outil qui requiert une DSI d'une certaine taille ». Pour l'heure, les Archives Départementales ont leurs propres outils. Mais il n'est pas exclu que certaines mutualisent leurs moyens pour se doter de Vitam.
La version 1 du socle Vitam qui vient d'être publiée permet le versement d'archives avec valeur probante (et traçabilité stricte des opérations menées, y compris en matière de métadonnées, dans un « journal métier »), la recherche et l'accès aux données ainsi que les premières fonctions d'audit (intégrité et cohérence). La version 2 est attendue pour la fin 2018. Elle complétera la partie audit et permettra des traitements de fond comme l'élimination ou la transformation de format. Enfin, une version 3 sera publiée en 2019.
L'archivage public en France
Il existe trois niveaux d'archivage. Ce qui est un peu improprement appelé « archivage courant » est en fait de la donnée encore active. Vient ensuite l'archivage intermédiaire : les dossiers sont clos mais peuvent faire l'objet de contrôles ou de contentieux. La durée d'archivage intermédiaire peut être assez brève (deux ans), parfois très longue (80 ans pour un dossier de carrière). Au delà, l'archive devient « définitive » et n'est plus conservée que pour des raisons historiques, de mémoire, de recherche, de statistiques, etc.
Sous le pilotage normatif du Comité Interministériel aux Archives de France, les archives courantes et intermédiaires sont conservées par chaque opérateur tandis que les archives définitives sont transmises à un office spécialisé. Le Ministère des Armées et le Ministère des Affaires Etrangères archivent pour leur propre compte, le reste étant géré par les Archives Nationales, dépendant du Ministère de la Culture, pour ce qui concerne les opérateurs et services administratifs nationaux ainsi que le gouvernement et parfois certains fonds complémentaires privés à valeur historique. Les services déconcentrés et les collectivités locales archivent aux différentes Archives Départementales dont ils dépendent. Enfin, certains corps constitués ont leur propre archivage (Assemblée Nationale, Sénat...).
Note sur le projet Vitam[modifier]
Vitam est un programme copiloté par le CIAF et la DINSIC, la « DSI groupe » de l'Etat, de construction d'un socle d'archivage open-source. Il est financé et supporté par trois ministères et est disponible en open-source, donc utilisable par des entreprises privées. Et son développement mutualisé s'opère en méthodes agiles avec une totale implication des métiers.
Les Ministères des Affaires Etrangères, de la Culture et des Armées collaborent, en y consacrant une douzaine d'agents, pour construire un socle commun d'archivage open-source. Le développement est financé à hauteur de 16 millions d'euros dans le cadre du programme d'investissement d'avenir (PIA). Les déploiements seront, eux, pris en charge par chaque administration utilisatrice. Porté par la DINSIC (Direction interministérielle du numérique et du système d'information et de communication, la « DSI groupe » de l'Etat), co-piloté entre la DINSIC et le CIAF (comité interministériel aux Archives de France), le programme, baptisé Vitam, est dirigé par l'ancien DSI du Ministère de la Culture, Jean-Séverin Lair. Ce programme suit des logiques générales mises en avant par la DINSIC comme la mutualisation des développements et l'open-source (garantie que les deniers publics seront dépensés une seule fois pour un développement donné et réutilisable). La licence utilisée (Cecill v2.1 compatible GNU GPL) permet d'ailleurs aux entreprises privées de bénéficier du produit développé grâce aux deniers publics.
Vitam (Valeurs immatérielles transmises aux archives pour mémoire) s'intègre dans les projets de plates-formes d'archivages ministérielles comme Saphir aux Affaires Etrangères, ArchiPél NG au Ministère des Armées ou Adamant aux Archives de France. Il a été validé par le Comité interministériel aux Archives de France le 1er juillet 2013, par la DINSIC le 4 septembre 2013 et effectivement lancé le 9 mars 2015, le programme Vitam devrait aboutir en 2020 avec sa version finale. Prochainement, la première version du produit va entrer en capacité de production. Le 26 septembre 2017, les équipes du programme ont préparé, avec d'autres acteurs de l'informatique publique, l'interconnexion du socle avec des logiciels courants, notamment de mails et de collaboration.
Un socle pour l'archivage[modifier]
Vitam n'est en effet pas un logiciel de sauvegarde pour postes de travail. C'est un socle technique pour l'archivage de données volumineuses. Il ne possède donc pas de vraie interface utilisateur (en dehors d'un démonstrateur minimaliste) ou de client natif. Il s'interopère, via des API, avec des logiciels devant archiver leurs données (logiciels métier, serveurs de mails, PGI...) ou des clients divers de sauvegarde. L'archive ainsi constituée peut être définitive (scellée), courante ou intermédiaire.
La plate-forme assurera, pour de très gros volumes de documents numériques, des fonctionnalités avancées de gestion des archives : métadonnées, indexation, gestion des infrastructures de stockage, transformation des fichiers, recherche et consultation, gestion sécurisée de l'ensemble du cycle vie des archives... Les API permettent à tous les systèmes connectés de verser des documents, de rechercher ceux-ci sur les méta-données et les journaux, et enfin d'y accéder.
Co-création en méthodes agiles[modifier]
Si le programme est le fruit d'une mutualisation débouchant sur un progiciel non-lié à un type d'infrastructure de stockage, il n'en demeure pas moins un outils issu de besoins métiers d'administrations. Vitam revendique une primauté comme premier grand projet interministériel en méthode agile au sein de l'Etat. De fait, il a été créé avec des cycles courts (trois semaines par itération) de développement impliquant les métiers concernés.