Innovation Pédagogique et transition
Institut Mines-Telecom

Une initiative de l'Institut Mines-Télécom avec un réseau de partenaires

En avant la musique… numérique

24 juin 2018 par binaire Coopérer 815 visites 0 commentaire

Un article repris de http://binaire.blog.lemonde.fr/2018...

La musique, traditionnellement très influencée par les mathématiques, ne pouvait qu’être profondément transformée par l’informatique. Depuis l’amatrice de Yukulélé qu’une application accompagne dans son apprentissage, jusqu’au grand compositeur qui invente de nouveaux sons, l’informatique s’est installée dans la musique. Binaire a demandé à un informaticien-musicien, Philippe Rigaux, Professeur d’informatique au CNAM, de nous expliquer ce qu’il en est. Serge Abiteboul et Marie-Agnès Enard. Cet article est publié en collaboration avec The Conversation.

Philippe Rigaux (site web perso)

L’informatique musicale

L’informatique est maintenant omniprésente dans notre existence. Elle nous fournit des outils, traitement de texte, tableur, pour faciliter des tâches autrefois totalement manuelles, d’innombrables sources d’information accessibles en quelques clics, et, de plus en plus, des algorithmes capables d’effectuer à notre place certaines actions dites « intelligentes », celles qui demanderaient a priori un effort de réflexion de notre part. Cette puissance peut-elle s’étendre au domaine de la création artistique ? À l’écriture d’une fiction, à la production d’une œuvre ou à la composition d’une pièce musicale ? Inversement, une création artistique est-elle analysable par une machine ? Peut-on comprendre comment elle est conçue, et tirer parti de cette compréhension pour effectuer des comparaisons, identifier le style, fournir des mécanismes de recherche basés sur le contenu, ou des interfaces intelligentes ?

La musique, domaine qui nous intéresse ici, a depuis très longtemps une affinité particulière avec les sciences en général, et la science des nombres en particulier. Pour des raisons que nous allons tenter d’expliquer, aussi bien la représentation de la musique que certains aspects de son processus de création semblent relever d’une approche dont l’intuition était formulée ainsi, dès 1842, par Ada Lovelace, une pionnière de l’informatique :

Supposant, par exemple, que les relations fondamentales entre la hauteur du son dans la science de l’harmonie et la composition musicale sont liées aux expressions et adaptations logiques, la machine pourrait composer de manière scientifique et élaborée des morceaux de musique de n’importe quelle longueur ou degré de complexité. Ada Lovelace. Sketch of the Analytical Engine Invented by Charles Babbage. in Scientific Memoirs, Vol 3 (1842)

Dès l’apparition des premiers calculateurs, la perspective de représenter le matériau sonore sous une forme numérique, et de le manipuler par des procédés calculatoires, a donc suscité un intérêt qui ne s’est jamais démenti.

Musique, numérique et calcul

Un son est une onde vibrant à une certaine fréquence. Il est très facile avec un logiciel spécialisé de créer des sons et d’analyser automatiquement leur propriété. Notre premier exemple utilise le logiciel libre Audacity pour créer un son pur correspondant au la du diapason, et afficher un diagramme montrant sur l’axe horizontal la densité des oscillations par unité de temps.

Le la 440Hz engendré avec le logiciel libre Audacity.

Bien sûr, un son est rarement constitué d’une fréquence pure, il comprend des fréquences secondaires ou harmoniques dont la répartition est l’un des éléments qui participent au timbre perçu par l’auditeur. Le même logiciel nous permet de décomposer le spectre des harmoniques du timbre d’un instrument (ici, le même la joué au piano).

Ces diagrammes nous montrent un autre paramètre important, l’intensité, représentée sur l’axe vertical par l’amplitude de la courbe. L’intensité d’un son (et de ses harmoniques) peut varier.

Un la 440Hz joué au piano.

Enfin la durée des sons est un autre paramètre qui intervient dans une organisation sonore. Ces quatre propriétés, fréquence, durée, timbre et intensité, constituent l’espace créatif dans lequel on produit (et on décrit) une œuvre musicale. Toutes correspondent à des valeurs quantitatives, et sont donc naturellement propres à une représentation numérique. Ces valeurs sont, de plus, à la fois simples et en nombre limité, car aussi bien l’espace des fréquences que celui des durées sont discrétisés. Les durées, par exemple, sont des fractions de la pulsation musicale : 1/2, 1/3, 1/4, 1/6, 1/8, pour l’essentiel.

La décomposition spectrale en harmoniques du son précédent,

La combinaison des sons obéit elle aussi à des principes mathématiques de proportionnalité. Deux sons dont les fréquences sont dans un rapport de 2 à 1 forment ainsi une octave, l’intervalle le plus simple, le plus “consonant”. Les intervalles les plus « naturels » ou « purs » sont obtenus par généralisation de ce principe. On obtient la quinte (3/2), la quarte (4/3) par complément de la quinte, la tierce dite majeure (5/4), la tierce dite mineure (6/5), etc. Au prix de quelques ajustements (dont l’étude nous mènerait très loin), le système occidental identifie ainsi 12 sons différents dans une octave.

Le matériau de base est donc assez restreint, et les informations utilisées, toutes quantifiables, sont liées par des rapports arithmétiques forts. C’est sur ce matériau que s’est développée l’écriture musicale, dont la richesse repose donc sur les combinaisons des hauteurs et des durées disponibles, et sur des principes de composition (variables selon les styles) basés en partie sur des règles formelles régissant ces combinaisons.

Ce qui nous intéresse ici, c’est que, dans une certaine mesure, ces principes et règles peuvent s’exprimer en termes de valeurs numériques et de rapports arithmétiques. Cela explique l’attractivité de la science du traitement de l’information et du calcul qu’est l’informatique pour la représentation, la production ou l’analyse de contenus musicaux.

Informatique musicale et création

Tout d’abord, le développement conjoint de l’électronique et de l’informatique a permis l’élaboration de nouveaux sons et leur intégration à la création musicale. Il est maintenant possible, avec des logiciels libres et intuitifs, de créer de nouveaux sons ou d’en enregistrer, de les transformer, d’effectuer des montages, sans trop de frais ou d’effort. Les professionnels disposent de systèmes très sophistiqués dont l’un des effets est de déplacer l’attention des créateurs vers des paramètres relativement négligés dans la notation traditionnelle.

Le timbre, par exemple, et de manière plus générale la production du son, étaient, jusqu’au développement des dispositifs électroniques, indiqués assez sommairement par la mention de l’instrument/voix, et donc délégués au musicien. Un timbre est caractérisé par les fréquences secondaires associées à chaque son fondamental, par leurs intensités respectives, par leur variation sur la durée d’une même note. Les systèmes électroniques de production sonore développés depuis les années 1960 autorisent un contrôle complet des paramètres du timbre, et permettent la recherche, la production, la transmission de nouveaux timbres constitués d’assemblages complexes de sons et de bruits divers, parfois eux-mêmes capturés dans le monde réel. L’informatique tient dans ce cadre un rôle modeste d’outil de contrôle des dispositifs et de leurs paramètres. Elle est à ce titre omniprésente dans les studios d’enregistrement et de production musicale, quel que soit le style.

Plus intéressantes (pour notre domaine) sont les applications aux procédés d’écriture des méthodes de traitement de l’information et de calcul. Pour les compositeurs de musique dite savante, l’informatique a ouvert la perspective d’étendre et d’enrichir les méthodes usuelles de représentation et de création. Il faut introduire ici la notation occidentale, illustrée par le très simple exemple de la figure suivante.

Une partition très simple.


C’est un système de symboles qui encode graphiquement les quatre paramètres évoqués en introduction. Les durées sont représentées sur un axe horizontal (avec une symbolisation, blanches, noires, correspondant aux valeurs discrètes déjà évoquées), les fréquences sur un axe vertical (avec un système de grille correspondant à l’échelle des degrés). L’intensité et le timbre, traités secondairement, ne sont présents que sous la forme d’annotations plus ou moins précises : « très doux » pour la première, ou indication de l’instrument (ici, la voix « Basse ») pour le second.

Disposer d’un système élaboré de représentation de la musique est l’une des conditions de la conception et de la transmission d’œuvres complexes telles que celles, par exemple, impliquant plusieurs musiciens jouant de manière synchronisée des parties indépendantes, ou encore celles basées sur des formes sophistiquées comprenant des reprises, des changements de rythme, d’effectifs, etc. Il n’en reste pas moins que la notation n’est pas la musique. Une large part de l’interprétation reste indéterminée (le tempo par exemple, mais aussi d’autres aspects comme le phrasé) et implique la mobilisation de connaissances culturelles et stylistiques souvent complexes. Non seulement une partie des intentions du compositeur n’est pas reportée dans la notation et relève de ces connaissances implicites, mais on peut de plus considérer que les limites du codage constituent un frein aux ambitions créatrices.

Un premier apport de l’informatique est donc de permettre un élargissement considérable de la complexité de description d’une œuvre, bien au-delà des éléments de la sémiologie graphique usuelle, de préserver et de transmettre cette description.

Voici un motif très simple, le carillon de Big Ben.

Le carillon de Big Ben

Numériquement il correspond à la séquence (1, 1, 1, 1) pour le rythme, et (494, 392, 440, 294) pour les fréquences. Voici quelques transformations de ce motif.

Mutations d’un motif

Toutes ces transformations peuvent s’exprimer, informatiquement, sous la forme d’opérations appliquées à l’une des structures de données les plus courantes : la liste. L’augmentation, par exemple, double simplement toutes les valeurs de la liste des durées ; l’imitation rétrograde inverse la liste ; l’inversion effectue une symétrie, chaque intervalle descendant devenant ascendant et réciproquement. Enfin la transposition est équivalente, pour les fréquences, à l’augmentation pour les rythmes : on applique un facteur qui déplace toutes les valeurs de la liste sur les degrés de l’échelle. La séquence des fréquences pour le motif transposé est (659, 523, 587, 392). On peut vérifier qu’un rapport de 4/3, correspondant à un intervalle de quarte, a été appliqué à chaque valeur du motif pour obtenir la transposition.

La composition (mathématique) de ces opérations est à la base de techniques de composition (musicale) d’une grande complexité formelle. Il ne s’agit bien entendu que d’un cadre au sein duquel peut s’épanouir la créativité des artistes compositeurs, lesquels ont d’ailleurs progressivement cherché à s’en affranchir le plus possible.

Les calculateurs donnent à ce type de procédé une ampleur et une facilité de mise en œuvre sans précédent. La figure suivante montre un exemple de multiplication d’une formule rythmique selon des rapports très complexes, les résultats pouvant ensuite être synchronisés pour créer des œuvres polyphoniques dotées d’une forte cohérence interne.

Un exemple de transformation algébrique d’une structure rythmique avec le logiciel OpenMusic. La cellule rythmique (en haut) est répliquée et transformée par homothéties. Remerciements également à K. Haddad pour cette figure.

Cette approche reste encore proche du modèle traditionnel, avec une notation plus complexe mais basée sur les principes anciens de discrétisation. En étendant l’idée de création musicale fondée sur des structures mathématiques, et en la combinant avec un système de production sonore électronique, on s’affranchit de ces dernières limites. L’œuvre de Iannis Xenakis est représentative de cette tendance. Le lecteur est invité à consulter le site qui présente un bel échantillon de créations faisant appel à des procédures mathématiques. L’exemple, entre autres, montre que la notation devient alors une forme d’illustration graphique du monde sonore, et partie intégrante de l’œuvre.

Enfin, l’informatique permet d’aller au-delà des paramètres habituels de la notation. L’espace est par exemple une nouvelle dimension prise en compte par des compositeurs de la seconde moitié du XXe siècle comme Xenakis, Ligeti, Nono et Boulez. La distribution des sources sonores dans l’espace selon des règles précises aboutit à une nouvelle perception pour l’auditeur.

Systèmes interactifs et temps réel

Outre les nouveaux horizons ouverts par les extensions de la représentation musicale et sa génération par calcul, déjà évoquée ci-dessus, une autre piste a consisté à introduire l’ordinateur comme acteur interagissant dans la création au même titre que les « vrais » musiciens. On peut, dès la conception d’une œuvre, définir le rôle du programme informatique et son mode d’intervention au moment de l’exécution. Cela peut consister par exemple à ponctuer le discours musical par des interventions plus ou moins aléatoires, dans le but d’amener une réaction des autres interprètes.

Dans des approches moins expérimentales, l’interaction consiste à analyser et à réagir en temps réel à l’interprétation de l’œuvre par les autres musiciens. Certaines applications sont tout à fait pragmatiques, comme par exemple la possibilité pour un violoniste d’être accompagné automatiquement par son ordinateur portable pendant qu’il répète son concerto préféré (Voir à ce propos l’entretien sur Binaire d’Arshia Cont). D’autres sont de nature plus créative, comme des systèmes d’improvisation en temps réel qui dialoguent avec un musicien en reprenant ses phrases et en élaborant de nouvelles variations, à la manière d’un partenaire. Ce dernier exemple débouche sur une palette de défis scientifiques et technologiques communs à de nombreuses problématiques de l’informatique musicale : comment analyser et « comprendre » un flux de signal audio ? Comment identifier les caractéristiques d’un discours musical issu d’un musicien improvisateur ? Comment apprendre à produire, à partir de ces caractéristiques, un véritable dialogue avec l’instrumentiste, autrement dit un discours complémentaire, similaire, mais différent ? Comment enfin effectuer tout cela en temps réel, pour obtenir un système véritablement interactif ?

Gestion et analyse de contenus musicaux

Inversons maintenant la perspective en considérant cette fois non pas la création mais l’analyse d’œuvres existantes. Le problème peut être résumé de la manière suivante : étant donnée une source musicale, disons un enregistrement audio, quelles sont les méthodes informatiques qui permettent d’en extraire des informations, et de construire sur ces informations des applications pertinentes ?

Certaines de ces applications sont extrêmement généralistes et sans doute connues de la lectrice ou du lecteur. Shazam, par exemple, vous permet de retrouver le titre d’une piste enregistrée en soumettant simplement à l’application un extrait audio de ce même enregistrement. C’est un bon exemple de l’apport des capacités de traitement de l’information à très grande échelle. Une approche très naïve, ou celle d’un être humain livré à ses seuls moyens, consisterait à passer en revue les millions d’enregistrements existants, et à les écouter un à un. Cela prendrait un temps… certain. Voyons comment obtenir le même résultat à peu près instantanément. Tout d’abord, chaque signal audio est traité de manière à en extraire une “empreinte digitale” (fingerprint) compacte, ce qui réduit considérablement la taille des données à examiner. Ces empreintes sont ensuite placées dans une structure de données – un index – associée à un algorithme de recherche qui va très rapidement identifier les quelques candidats susceptibles d’être appariés à l’extrait audio. On a réduit drastiquement l’espace et le temps de recherche, grâce à des méthodes générales d’optimisation de ces ressources (structures, algorithmes) qui sont au cœur de la science informatique depuis ses débuts. En les associant à une ingénierie adaptée au problème traité, on obtient des résultats spectaculaires : quelques secondes au plus pour identifier un morceau de musique à partir d’un extrait d’une dizaine de secondes.

C’est spectaculaire, certes, mais malgré tout assez limité : Shazam permet de retrouver un enregistrement particulier d’une chanson, mais pas la même chanson si l’orchestration, le chanteur, le tempo change. Et il est encore moins envisageable d’utiliser la même approche pour trouver des chansons “semblables” ou “du même genre”. Il faut donc utiliser des méthodes différentes si on veut satisfaire une autre application très courante, celle consistant à vous recommander, sur votre plate-forme de diffusion (streaming) préférée, des contenus similaires à ceux que vous avez déjà écoutés.

Cela suppose d’être capable d’extraire des éléments caractéristiques de ces derniers : la durée, le tempo, le rythme, les accords, l’instrumentation, voire des notions plus complexes comme le style. Ces éléments correspondent à autant de dimensions descriptives d’un contenu audio, ce dernier pouvant alors être représenté par une sorte de vecteur. Il reste à évaluer la distance entre vecteurs pour déterminer le degré de similarité et être en mesure d’effectuer des classifications, des regroupements, et donc des recommandations (Voir l’article de Binaire sur les techniques de recommandation).

La méthodologie est classique et utilisée dans bien d’autres domaines. La grande différence tient aux contenus considérés, textuels dans les cas usuels, constitués de signaux audio numérisés pour le domaine qui nous concerne. La niveau de difficulté est bien plus élevé.

Regardons plus précisément comment on pourrait identifier un “style”, information sans doute très utile pour un système de recommandation. Le style est une notion assez difficile à définir précisément, ce qui constitue un encouragement à recourir, comme pour beaucoup d’autres problèmes de traitement de données, à des solutions basées sur l’apprentissage automatique. On donne à la machine un ensemble d’exemples d’un style donné, et la machine « apprend » de ces exemples en construisant progressivement une représentation de ce qui caractérise ce style, sans que personne n’ait eu, à un moment donné, à formaliser ces caractéristiques, construites donc uniquement par induction.

Recommandation, classification, apprentissage : on retrouve pour cette partie de l’informatique musicale des techniques qui relèvent globalement de ce qui est maintenant dénommé la science des données. L’idée générale est d’extraire des informations de nature statistique à partir d’un grand nombre d’exemples et d’en inférer des “modèles” des données traitées. Ce qui fait la particularité, encore une fois, du domaine musical, c’est la structure particulière de son contenu, constitué d’une numérisation d’ondes sonores produites de manière organisée. Ce qui nous ramène aux considérations initiales sur ce qu’est la musique, et sur l’ambition qu’on peut se fixer d’utiliser l’informatique pour retrouver l’organisation d’un discours musical dissimulé dans un document audio numérique.

Idéalement, un tel processus serait capable d’identifier chaque instrument et de reconstituer son discours musical : lignes mélodiques, accords, structures rythmiques. En d’autres termes, il produirait la notation musicale décrivant l’enregistrement.

Une telle méthode de transcription automatique n’existe pas encore de manière vraiment fiable, mais fait l’objet d’actives recherches. Elle permettra par exemple l’assistance à l’écriture, la numérisation de l’immense corpus des partitions existantes et leur mise à disposition sous forme de données ouvertes, ou d’aider à l’analyse de musiques non notées (improvisations, musiques traditionnelles).

Philippe Rigaux, CNAM Paris

Note : l’auteur remercie chaleureusement, C. Davy-Rigaux, R. Fournier-S’niehotta et F. Jacquemard pour leur relecture et leurs suggestions.

 

Licence : CC by-nd

Portfolio

Documents joints

Répondre à cet article

Qui êtes-vous ?
[Se connecter]
Ajoutez votre commentaire ici

Ce champ accepte les raccourcis SPIP {{gras}} {italique} -*liste [texte->url] <quote> <code> et le code HTML <q> <del> <ins>. Pour créer des paragraphes, laissez simplement des lignes vides.

Suivre les commentaires : RSS 2.0 | Atom