
Le concept d’appariement
Les similitudes entre les signaux, les modes de traitement, les ressentis; l’existence au niveau neurologique de mécanismes de coordination suggèrent que des correspondances peuvent être établies entre les sons et les images.
La danse est un exemple de liaison entre le son et la proprioception.
Est-il possible d’associer des images à des sons et réciproquement, comme on associe des mouvements à des rythmes, à des mélodies?
Jusqu’à quel niveau de sophistication formelle peut-on aller?
Des correspondances simples sont possibles: intensité-luminosité; rythme – densité de traits … Mais peut-on aller plus loin et mettre en rapport des éléments plus « sémantiques »? Ceci peut-il nous apprendre quelque chose sur les sentiments de beauté, d’harmonie, de nostalgie suscités par des œuvres; sur des styles d’auteurs, leurs spécificités …? Cette question soutend l ’ensemble des travaux et réflexions présentés dans ce site.
Les techniques d’appariement utilisées dans la plupart des ajustements opérés utilisent une même logique. Des points définissent des formes et ces formes observées dans des espaces différents (visuels, auditifs, gustatifs) peuvent être appariées. L’association se fait en cherchant à respecter les distances entre les éléments au sein des mêmes espaces: lorsque deux phrases musicales sont proches, les images correspondantes doivent l’être également; la matrice des distances entre les 4 phrases musicales de Happy Birthday to you – pour reprendre un exemple utilisé dans nos explorations – doit donc être aussi similaire que possible à la matrice des distances entre les images correspondantes (à une transformation linéaire près).
Formulation mathématique
Ceci peut se formuler en toute généralité de manière plus mathématique
C est l’ensemble {c1, c2, c3 … cN} des segments musicaux, dit ensemble cible. |C| = N
d est une dissimilarité définie sur C.
S est l’ensemble des images, dit ensemble source. |S| > N
d’ est une dissimilarité définie sur S.
f est une application injective de C sur S, l’image de C – notée f (C) – est donc un sous-ensemble de S d’effectif N. La distance entre ce sous-ensemble et C sera mesurée par

λ représente un facteur de correction d’échelle car les dissimilarités d et d’ n’utilisent pas a priori la même unité de mesure. Il impose simplement que les dissimilarités moyennes soient les mêmes dans C et f(C). Ce facteur a un caractère relativement arbitraire et d’autres choix pourraient être considérés pour rendre les deux métriques comparables.
La fonction f définit un appariement de S à C et l’élément s = f(c) est dit apparié à c.
L’injection f qui minimise Δ définit l’appariement optimal recherché. Dans la plupart des cas une recherche exhaustive n’est pas possible car le nombre de cas à considérer est trop important. Par exemple, pour un morceau de musique subdivisé en 20 segments et un dossier de 100 images, 1.3 x 1039 different possibilities doivent être considérées.