Pénurie de données (ou pas)

22/03/2019 par Moissinac

De nombreux outils de traitements de données s’avèrent d’autant plus pertinents qu’ils ont un très grand nombre de données à traiter. La question qui se pose pour Data&Musée est une possible insuffisance de quantité, au moins pour certains types de données. Va-t-on avoir de nombreux visiteurs qui visitent plusieurs musées dans l’année? Se déplacent-ils aussi dans les Monuments de France? et bien d’autres questions analogues.

Faire face à la pénurie?

Une hypothèse plus ou moins explicite du projet Data&Musée est que l’exploitation et le traitement de grands ensembles de données de natures diverses va nous permettre de mettre au jour des indicateurs permettant d’améliorer l’analyse des actions culturelles, d’enrichir les possibilités, de proposer des recommandations.

Le constat actuel (au 1/11/2018) est la disponibilité de relativement peu de données, peu interconnectées ne permettant pas aux ‘data analysts’ d’utiliser efficacement les méthodes dont ils disposent. De plus, nous cherchons de nouveaux partenaires et la démarche concernant la collecte de données est toujours longue, avec des freins d’ordre psychologique, juridique, structurels…

Comment remédier à cette situation?

Deux voies sont suivies:

s’appliquer à récolter plus de données en provenance des partenaires du projet, actuels – CMN et Paris Musées- ou futurs, en établissant des partenariats avec d’autres musées et monuments,
récolter des données d’autres sources qui, croisées avec les données des partenaires du projet, peuvent enrichir les interprétations: données géographiques, événements, …

Une pénurie, vraiment?

Par rapport, à des exemples d’ensembles de données utilisés dans des travaux phares du traitement de données -travaux sur DBPedia, apprentissage sur des grandes bases d’images…-, nos données sont modestes, mais pas ridicules.

A titre d’exemple, nous devrions avoir au moins:

plus 20000 réponses par an dans des livres d’or électronique (ce nombre est en progression d’année en année),
des milliers de données de billetterie électronique collectées chaque semaine,
des données d’actualité de chaque site partenaire

Nous allons établir en avril 2019 un état des lieux des volumes de données prévisibles.

Auteur : Moissinac

Maitre de conférence à Télécom Paris, Département Image, Données, Signal - Groupe Multimédia Jean-Claude Moissinac a mené des recherches sur les techniques avancées pour la production, le transport, la représentation et l’utilisation des documents multimédia. Ces travaux d'abord ont évolué vers la représentation sémantique de données liées au multimédia (process de traitement de médias, description d'adaptations de média, description formelle d'interactions utilisateurs). Aujourd'hui, les travaux portent sur la constitution de graphes de connaissances. Principaux axes de recherche actuel : représentations sémantiques de connaissances, constitution de graphes de connaissances, techniques d'apprentissage automatique sur ces graphes