Par Mohamed Ali Mahjoub - Depuis de nombreuses années, de nombreux pays se sont investis dans un courant de diffusion et de partage en ligne des informations publiques. On vise trois objectifs majeurs: primo, il s’agit de renforcer la transparence de l’action administrative et de la vie démocratique, secundo il s’agit d’identifier des leviers d’amélioration de l’organisation et de la gestion publiques, et tertio susciter l’innovation économique par la création de nouveaux services. En Tunisie aussi,un effort important commence à être déployé dans ce sens. Aujourd'hui, cette numérisation devrait être une des priorités de la politique de notre pays. Il s’agit, en particulier, d’une exigence pour les contenus culturels et éducatifs. En effet, l’enjeu est la présence de notre pays et de la langue arabe sur les réseaux, au service d’objectifs stratégiques, économiques et culturels. Disposant de richesses culturelles exceptionnelles, les contenus culturels doivent tenir en Tunisie une place de premier plan. Toutefois, l’accomplissement de tels objectifs exige une volonté et surtout des moyens humains et financiers.

1. Les manuscrits historiques arabes: mémoire du pays

La majorité des pays développés ont pris conscience de la valeur de leur héritage culturel contenu dans les manuscrits. Si jadis, les manuscrits anciens ont longtemps été considérés comme de simples collections de documents ordinaires, aujourd’hui, cette prise de conscience a donné lieu à des projets de numérisation de différents degrés d’ampleur et d’envergure. En Tunisie, diverses collections regorgent de manuscrits arabes écrits plusieurs siècles auparavant couvrant plusieurs disciplines (fig. 1). Contenant des documents d’une valeur inestimable, beaucoup d’historiens en Tunisie et à l’étranger s’y intéressent. Les manuscrits ont un rôle plus qu’important puisqu’ils apportent beaucoup de lumière sur les événements qui ont fait l’histoire du notre pays. Un tel patrimoine constitue une archive pour l’histoire du pays; il mérite une meilleure valorisation.

Fig. 1 : Exemple d’un document manuscrits ancien (site de la bibliothèque nationale)

En dépit des efforts consentis, les conditions de stockage de fonds manuscrits ne sont pas toujours adaptées aux besoins de ces documents. Cet héritage, constitué au cours des siècles, a subi toutes sortes de dégradations, certaines dues à divers phénomènes, ainsi plusieurs types de détériorations peuvent affecter ces documents. A la spécificité des documents anciens s’ajoutent des problèmes liés à la qualité (fig. 2).

Fig. 2 : Exemples de phénomènes affectant les documents manuscrits anciens

2. Objectif: la numérisation

Contrairement aux documents imprimés, la numérisation des manuscrits est une pratique récente, de plus en plus développée grâce aux nouvelles technologies de traitement de l’information. Néanmoins, pas passez de travaux de recherche universitaire portent sur le traitement électronique (indexation, recherche web, transcription, etc.) des manuscrits arabes anciens. Pourtant, ce traitement, même complexe soit-il, peut faciliter et élargir l'accès en ligne à un patrimoine riche d’un intérêt universel.

Les principaux objectifs de la numérisation sont en effet connus : il s’agit de préserver les collections existantes en fournissant un support de substitution de qualité aux documents originaux, de les valoriser en profitant des multiples possibilités offertes pour cela par l’informatique, afin de favoriser la recherche par des moyens nouveaux. Principalement, ce qui intéresse dans la numérisation c’est la valeur ajoutée qu’elle apporte par rapport à ce qui existait déjà : un meilleur confort de lecture, la mise en évidence avec les couleurs, la possibilité de tourner les pages, une diffusion dans le temps et l’espace démultipliée, une recherche avancée et en temps réel, etc. Par ailleurs, et contrairement aux préjugés, elle ne vient que rarement en concurrence des outils traditionnels.

Bien au contraire, elle est plutôt perçue et utilisée comme un complément : les expositions virtuelles, qui prolongent les expositions physiques, en sont un bon exemple. A titre d’exemple, le site du Musée du Louvre atteint plus 20 000 visites par jour en moyenne, soit autant que le musée lui-même. Par-contre, ce qu’il faut savoir, c’est que tout programme de numérisation nécessite la mise en œuvre de moyens techniques, financiers et humains importants. La numérisation est en effet loin de se réduire à la seule saisie numérique des images ou des textes. L’investissement qu’elle requiert en amont et en aval, tant sur le plan humain que financier, est une donnée essentielle à prendre en compte. Ce sont des paramètres qui peuvent aisément doubler ou tripler le temps de réalisation d’un projet, et sont aussi déterminants dans la réussite.

3. Problèmes techniques et voie de solution

La numérisation est une procédure qui consiste en la dématérialisation du support physique. Le captage de la structure physique d’un document génère une image, c’est le mode image. Ce dernier présente la difficulté de recherche d'information plein texte. Pour pallier cette difficulté, des logiciels de reconnaissance de caractères (OCR) sont utilisés dans le but de transformer l'image en texte (mode texte). Si la fonction de recherche d'information plein texte parait attrayante, son obtention se révèle comme un problème difficile, dont les résultats de réussite n'atteignent jamais des taux élevés. Un travail supplémentaire de correction s'avère souvent, nécessaire dans la majorité des cas. Cette difficulté devient encore plus importante quand il s'agit des manuscrits anciens Arabes, qui présentent une calligraphie très variée et une qualité de support souvent de très mauvaise qualité.

Bien que la mise en place de la plateforme informatique de numérisation des manuscrits arabes anciens ne représente pas un handicap, l'accès en ligne aux contenus de ce type de documents devient un problème de taille. En effet, l'accès en ligne à un manuscrit numérisé suppose un système d'indexation robuste avec lequel pourra se faire une recherche en temps réel selon divers critères d'accès. D’où apparaît la nécessité d'une indexation efficace et représentative, qui devra décrire d'une manière univoque le contenu d'un manuscrit. Malheureusement, cette indexation devient problématique dès qu'il s'agit de manuscrits anciens Arabes, ce qui nous oriente vers la recherche d'autres types de systèmes pour indexer ces manuscrits.

L'objectif visé reste toujours la mise au point d’un système pour l'extraction et l'exploitation des informations de structure et de contenu. L’idée est de développer un système qui servira d'aide à la transcription de ce type de documents en permettant à l'utilisateur de transcrire les zones textuelles localisées, d'une manière automatique (ou semi-automatique), et de générer le document de vérité terrain qui pourrait être exploité pour des raisons d'indexation ou d'évaluation automatique de systèmes de reconnaissance (fig. 3). L'utilisateur aura la possibilité par la suite d'éditer et corriger une transcription en cas d'erreur.

Fig. 3 : Interface d’une application de transcription semi-automatique (master de recherche de Abdelaziz Lebben ENSIT 2012)

a) Image originale b) image améliorée c) sélection automatique des mots à transcrire d) texte transcrit

La transcription automatique reste pour le moment un rêve un peu lointain, mais déjà les avantages de la transcription semi-automatique sont multiples : Tout d’abord c’est relativement rapide, ensuite, c’est un moyen efficace pour permettre aux lecteurs contemporains, d'accéder aux contenus des manuscrits dont ils ne maîtrisent pas le style calligraphique. Ce qui peut être un avantage supplémentaire, pour une initiation à tout type de calligraphie. Aussi, l'accès au manuscrit grâce à une partie de son contenu est une option très recherchée, puisqu’une fois le manuscrit transcrit, un système de recherche plein texte sera facile à mettre en place. Enfin le format texte des documents étant facilement téléchargeable, la transcription des manuscrits permettra de ce fait, un accès rapide au manuscrit proprement dit.

Derrière tout ce travail de numérisation et de transcription ce sont, par ailleurs, de nouveaux métiers, de nouveaux emplois et de nouvelles startups qui seront créés ainsi que de nouveaux services qui seront offerts au public.

4. Conclusion

Les projets de numérisation de fonds liés au patrimoine culturel sont des projets de valorisation dont beaucoup d’acteurs venant de la société civile et même des organismes privés sont maintenant des acteurs majeurs. Malheureusement, les pays en voie de développement font face à des difficultés quant à la gestion de leur patrimoine culturel dans son ensemble. Cette gestion souffre de deux problèmes : le manque de stratégie nationale claire et structurée et un manque de projets et de moyens de financement. La gestion des manuscrits anciens en Tunisie est un exemple parfait de cette situation. Heureusement qu’en matière de recherche scientifique, il y a une prise de conscience remarquable de l’importance du sujet et des opportunités qu’on pourrait saisir. Plusieurs des structures de recherche en Tunisie, possèdent une expertise très riche dans le domaine de l’analyse des documents en général, et sont prêts à relever le défi à travers des mécanismes et projets fédérés de collaboration entre plusieurs acteurs pour mettre au point une stratégie à moyen et long terme. Mais, nos responsables politiques sont-ils conscients de l’importance du sujet ? Sont-ils conscients que, derrière les enjeux de la numérisation du patrimoine culturel, se profilent ceux de la société de demain ? Espérons-le.

Mohamed Ali Mahjoub

Professeur à l’ENIS