FI/4/99

SIRANAU
ou le stockage de masse d'archives numériques audio

Emmanuel.Buff@epfl.ch , DI-Laboratoire de Bases de données
www: http://lbdwww.epfl.ch/f/research/siranau/
& http://www.siranau.ch/

«J'aimerais stocker une grande quantité de sons numériques». Derrière cette demande qui peut sembler anodine se cache toute une foultitude de questions comme:

Dans le cadre du projet SIRANAU (Système Intégré Radiophonique d'Archivage Numérique AUdio) nous avons été confrontés à nombre de ces questions. A l'initiative de ce projet CTI (Commission pour la Technologie et Innovation), la Radio Suisse Romande (RSR) cherchait à archiver les sons qu'elle utilise. Dans ce dessein, différents organismes ont travaillé pour résoudre les nombreux problèmes qui n'ont pas manqué de se présenter: RSR, Laboratoire de Bases de Données (DI ­ LBD), Hewlett-Packard et la Phonothèque Nationale avec VOCS (Voix de la culture suisse).

Bien que fortement liées et interdépendantes, nous allons essayer de répondre à ces questions, l'une après l'autre.

Quoi stocker ?

La question peut sembler incongrue: ce sont des sons ! Mais à y regarder de plus près, il y a différents sons, selon leur qualité, leur provenance, leur usage (actuel ou ultérieur). Il y a également ce qui accompagne les sons: la documentation du son, le contexte dans lequel il a été produit, ses auteurs, interprètes, intervenants, l'historique technique du fichier (manipulation, traitement, restauration,) mais aussi une photo, une image ou une couverture du programme du concert, Ces dernières informations, appelées documents annexes, ont une importance non négligeable dans le cadre d'archives patrimoniales nationales.

Attardons nous sur le fichier sonore lui-même. Celui-ci peut résulter d'une numérisation d'archive existante bien entendu. Cela coule de source pour des archives, mais d'autres sources sont à prendre en considération comme les différents outils de production numériques utilisés (DALET ou NUMISYS) par les différentes chaînes radio de la RSR qui génèrent un grand nombre de documents sonores, les différents supports [qui contiennent les sons sous des formats différents bien souvent] les sons provenant d'enregistrement sur le terrain, Mais bien plus encore, il est nécessaire de stocker les sons dans un format en adéquation avec l'environnement qui va les réutiliser. Ce qui nous amène tout naturellement à la question suivante.

Comment stocker ?

Sans anticiper les prochaines questions, cela dépend également de l'usage que l'on veut en faire, mais également de sa pérennité, de son coût, Il existe actuellement différents types de supports à disposition, répondant plus ou moins aux cahiers des charges.

Chacun de ces supports a des spécificités propres qui le prédestinent à un domaine plutôt qu'à un autre.

Indépendamment du choix du support, il y a aussi le type d'accès:

De par le fait d'archives sonores (ou vidéos) la taille des fichiers à stocker est un critère qui prime sur le nombre de fichiers eux-mêmes. Quoi qu'il en soit, au bout du compte, cela fait plusieurs téraoctets, voire pétaoctets (1015 octets) à stocker.

Selon la combinaison de ces critères, sans oublier le coût, le média le plus adapté est sélectionné. Concrètement cela nous a amené à choisir des disques MOD 5"1/2 (Magnéto-Optique Disque ou Disque Optique Numérique) de 2,6 Go puis 5,2 Go avec robot manipulateur (HP SureStore 600 fx / 1200 ex) pour le stockage principal. Les sauvegardes, les fichiers les plus gros et les moins accédés sont stockés quant à eux sur des bandes magnétiques numériques de type DLT IV avec robot manipulateur (BreeceHill). Pour compléter le tout, un espace de disque dur fait office de mémoire cache pour augmenter la vitesse d'accès aux derniers documents accédés. Un logiciel de gestion hiérarchique (LGH ou HSM) s'avère être un précieux outil pour peu que l'on puisse paramétrer au mieux les politiques de sauvegarde, restitution et gestion d'espace. Dans le même ordre d'idées, une bonne politique de mémoire cache est indispensable pour des gains de temps et de capacités de réseaux. Mais cela permet également de pouvoir mettre rapidement à disposition un document sonore en mettant en place une mémoire cache centralisée et une mémoire cache par type de chaîne radio. Ainsi les accès aux documents demandés par la chaîne d'information (Info), différents des jingles de Couleur 3 (radio musicale), seront d'autant plus rapides. Aux sons ainsi stockés en mémoire, on peut aussi associer des outils de travail (Smart Proxy) qui autorisent des accès aux documents sonores encore plus rapides et performants.

Média

Succinctement, le choix des MOD se justifie par des temps d'accès rapide, tout en ayant une fiabilité dans le temps que les CD-R, par exemple, n'ont pas: point crucial, s'il en est, pour des archives patrimoniales nationales. Le compromis (temps d'accès, pérennité, coût) semble satisfaisant d'autant plus que le média fait l'objet de recommandations de la part de différentes administrations nationales pour les questions d'archivages et que le support opto-magnétique fait l'objet quant à lui de recherches des plus prometteuses concernant le stockage de masse.

Le choix des bandes DLT semble avoir posé plus de problèmes de fiabilités mécaniques et magnétiques (à long terme) et demande à être remplacé par une des nombreuses solutions de stockage sur cartouches magnétiques numériques. La fiabilité d'une cartouche, par rapport à une bande, semble l'emporter, mais une trop grande capacité par média peut se révéler peu favorable au regard du temps d'accès (pour les fichiers sur bandes (et cartouches) magnétiques l'accès est linéaire (l'un après l'autre), ce qui est beaucoup plus lent pour des supports de grandes capacités et des fichiers en fin de media, que des accès immédiats comme sur les disques [CD, DVD, MOD,...]). et de volume perdu et à restaurer en cas de problèmes.

Base de Données

Dans le cas d'archives sonores, l'approche orientée objet correspond le mieux. Sachant que la documentation d'un son est déjà stockée dans des bases de données existantes, la base de données SIRANAU contiendra toutes les informations concernant le fichier sonore. Il faut garder également à l'esprit la contrainte d'être le plus ouvert possible sur les techniques de l'avenir. C'est dans cette optique que nous avons utilisé IUS d'Informix qui par sa technique de DataBlade permettrait de faire des requêtes sur le son lui-même (rechercher un son de cloche par exemple). On peut même imaginer une reconnaissance de la parole dans l'avenir. Par la suite nous avons opté pour PostGreSQL pour des raisons académiques.

Pour quels usage et utilisateur ?

Sans nullement juger ce qui doit être gardé en archive et ce qui ne doit pas l'être, nous sommes confrontés bien rapidement au format du fichier sonore. Dans le contexte du projet SIRANAU et la RSR, quatre formats ont été retenus, répondant chacun à un usage spécifique:

Cette approche permet, dans un compromis délais, coûts de réseau et qualité de service le plus optimal possible, de répondre aux deux types d'utilisations de ces archives:

Modularité de SIRANAU

Dans quel environnement ?

Dans le cas du prototype SIRANAU, les contraintes de temps pour les recherches et écoutes des documents sonores sont de 2 minutes. Ce temps est facilement respecté pour les documents parlés (interview) qui constituent la plus grande part des archives. Cela est nettement moins facile pour les documents musicaux et encore moins pour les opéras en particulier. Pour ce faire, la technologie du streaming est utilisée afin de permettre une écoute quasi immédiate sans attendre le chargement total du fichier sonore sur le poste de travail multimédia.

Lors de la mise en place de solutions de stockage numériques de masse, il est important de prendre en compte le côté standardisation des solutions retenues. Il peut être concevable de changer de support de média au bout de 5 ans dans le milieu de grande consommation ou secteur de pointe, mais il devient très périlleux d'ignorer ce point au risque de se retrouver dans un cul-de-sac lors de l'arrêt de fabrication du média (propriétaire) de la part du constructeur, en position de monopole par exemple. Devoir alors changer toutes les archives, fussent-elles numériques, pour conserver la qualité de service est inimaginable à l'échelle d'archives nationales, sur ce type de contraintes.

De plus, ce type d'archivage s'intègre généralement dans un environnement de travail (informatique) déjà existant. Dès lors, des contraintes externes viennent s'ajouter, et dans le cas de SIRANAU à la RSR la modularité de notre solution nous a permis de résoudre les problèmes un à un et de pouvoir évoluer facilement dans le temps (Cf. Schéma ci-dessous).

Une partie des informations textuelles relatives aux documents sonores existe déjà dans des bases de données documentaires, Basis+ en l'occurrence (CAPRI, PHONO+). Charge à nous de pouvoir interagir avec celles-ci et les intégrer, via un pilote ODBC-JDBC par exemple, tandis que les informations propres aux fichiers sonores (taille, format, localisation, ) se trouvent dans la base de données SIRANAU (SGBD).

A cheval avec la partie «Pour quels usage et utilisateur?», l'interface utilisateur ne doit pas être oubliée pour autant. Pour ce projet, il nous a semblé judicieux de doter l'utilisateur d'une interface facile et conviviale pouvant être implémentée sur tous les postes de travail actuels. Dès lors une interface de type WWW apparaît comme incontournable. Les derniers navigateurs WWW ne nécessitant même plus qu'un adaptateur doive être rajouté pour écouter les sons.

Pour combien de temps ?

Le cahier des charges initial demandait une solution à l'échelle du demi-siècle. Dans le monde informatique, beaucoup plus que dans le monde des archives, il est évident qu'une telle échelle de temps est impossible à prendre en compte à sa pleine mesure. Cependant il nous est apparu évident que le support devait pouvoir passer les outrages du temps le plus facilement possible. C'est pour cela que le support disque MOD 5"1/2 a été retenu pour le stockage de masse principal. En dehors du fait que le média lui-même est bien plus fiable que les autres supports optiques actuels, il a des contraintes mieux adaptées (rafraîchissement des données, du support, durée de vie du support) à notre cahier des charges.

Cela peut sembler évident, mais le fait de disposer d'archives sous format numérique permet une facilité de migration et un passage vers d'autres supports, tout comme une maintenance, insoupçonnés avec des supports analogiques. Ce gain en temps, coûts et qualité de l'information est à l'heure actuelle difficilement chiffrable et donc malheureusement souvent oublié lors des budgets pour le passage au numérique. Dans le même ordre d'idées, il ne faut pas non plus oublier de prévoir des migrations technologiques et leur coût, afin de pouvoir bénéficier d'un support toujours plus rapide, performant et moins cher au bout du compte.

Conclusion

Dans le cadre du projet SIRANAU, nombre de problèmes insoupçonnés au début sont apparus. Chaque problème a pu trouver une solution, ou une ébauche de solution par défaut de temps et moyens. Les questions au tout début de cet article représentent les grands points clés plutôt qu'une liste exhaustive des points qui ont été abordés tout au long de ces deux ans de travaux. Il y a encore beaucoup à dire sur les systèmes d'acquisition, les passerelles entre archives et outils de production numérique, droit des utilisateurs et des fichiers, la gestion des droits d'auteur, des systèmes de sauvegardes et de restaurations en cas de pannes, etc.

retour au sommaire du Flash informatique du mois de mai 1999
retour à la page principale des Flash informatique
Vos commentaires
© FI-4-99 du 11 mai 1999