Research Projects

On this website, you find a short description of the projects I have been involved in over the last years.

DFG-Projekt (Reinhart Koselleck-Projekt): LEARN [MU 2686/15-1; Grant No. 500643750] (2023 - 2028)

DFG Teaser_LEARN

Learning with Music Signals: Technology Meets Education

The revolution in music distribution, storage, and consumption has fueled tremendous interest in developing techniques and tools for organizing, analyzing, retrieving, and presenting music-related data. As a result, the field of music information retrieval (MIR) has matured over the last 20 years into an independent research area related to many different disciplines, including signal processing, machine learning, information retrieval, musicology, and the digital humanities. This project aims to break new ground in technology and education in these disciplines using music as a challenging and instructive multimedia domain. The project is unique in its way of approaching and exploring the concept of learning from different angles. First, learning from data, we will build on and advance recent deep learning (DL) techniques for extracting complex features and hidden relationships directly from raw music signals. Second, by learning from the experience of traditional engineering approaches, our objective is to understand better existing and to develop more interpretable DL-based systems by integrating prior knowledge in various ways. In particular, as a novel strategy with great potential, we want to transform classical model-based MIR approaches into differentiable multilayer networks, which can then be blended with DL-based techniques to form explainable hybrid models that are less vulnerable to data biases and confounding factors. Third, in collaboration with domain experts, we will consider specialized music corpora to gain a deeper understanding of both the music data and our models' behavior while exploring the potential of computational models for musicological research. Fourth, we will examine how music may serve as a motivating vehicle to make learning in technical disciplines such as signal processing or machine learning an interactive pursuit. Through our holistic approach to learning, we want to achieve significant advances in the development of explainable hybrid models and reshape how recent technology is applied and communicated in interdisciplinary research and education.

Lernen mit Musiksignalen: Technologie trifft Ausbildung

Die erheblichen Fortschritte in der Art, wie wir Musik verbreiten, speichern und nutzen, haben ein großes Interesse an der Entwicklung von Techniken und Werkzeugen zum Organisieren, Analysieren, Abrufen, Suchen und Präsentieren musikbezogener Daten hervorgerufen. Infolgedessen hat sich das Gebiet des Music Information Retrieval (MIR) in den letzten 20 Jahren zu einem eigenständigen Forschungsgebiet mit Bezug zu ganz unterschiedlichen Disziplinen wie der Signalverarbeitung, dem Maschinellen Lernen, des Information Retrieval, den Musikwissenschaften und den Digital Humanities entwickelt. Dieses Projekt hat zum Ziel, neue Wege in der Technologieentwicklung und Ausbildung in diesen Disziplinen zu beschreiten, wobei die Musik als herausfordernde und instruktive Domäne multimedialer Daten dient. Die Einzigartigkeit des Projekts besteht darin, dass wir uns dem Konzept des Lernens aus verschiedenen Blickwinkeln annähern. Erstens werden wir neuartige Techniken des maschinellen Lernens, basierend auf Deep Learning (DL), erforschen, um komplexe Merkmale und verborgene Beziehungen direkt aus den Musiksignalen zu extrahieren. Zweitens besteht unser Ziel darin, aus den Erfahrungen traditioneller Ingenieursansätze zu lernen, um zum einen bestehende DL-basierte Systeme besser zu verstehen und zum anderen durch Integration von Vorwissen interpretierbarer Systeme zu entwickeln. Als neuartige Strategie mit großem Potenzial wollen wir insbesondere klassische modellbasierte MIR-Ansätze in differenzierbare Multilayer-Netzwerke überführen. Diese sollen dann mit DL-basierten Techniken zu erklärbaren Hybridmodellen, die weniger anfällig für Ungleichgewichte in den Daten (data bias) und Störfaktoren (confounding factors) sind, fusioniert werden. Drittens werden wir in Zusammenarbeit mit Domänenexperten spezialisierte Musikkorpora betrachten, um ein tieferes Verständnis sowohl der Musikdaten als auch des Verhaltens unserer Modelle zu erlangen und gleichzeitig das Potenzial von computerbasierten Methoden für die musikwissenschaftliche Forschung zu untersuchen. Viertens soll uns die Musik als motivierendes Medium dienen, um das Lernen in technischen Disziplinen wie der Signalverarbeitung oder dem maschinellen Lernen interaktiv zu gestalten. Durch unseren ganzheitlichen Ansatz des Lernens wollen wir nicht nur erhebliche Fortschritte bei der Entwicklung erklärbarer Hybridmodelle erzielen, sondern auch die Anwendung und Vermittlung neuer Technologien in interdisziplinärer Forschung und Lehre von Grund auf umgestalten.

DFG-Projekt: GVM+ [MU 2686/13-2; Grant No. 401198673] (2023 - 2026)

DFG Teaser_GVM%2B

Computational Analysis of Georgian Vocal Music and Beyond

In the project's first phase (initial proposal), our main objective was to advance ethnomusicological research focusing on traditional Georgian vocal music by employing computational methods from audio signal processing and music information retrieval (MIR). By developing novel computational tools applied to a concrete music scenario, we explored the potential of computer-assisted methods for reproducible and corpus-driven research within the humanities. Furthermore, by systematically processing and annotating unique collections of field recordings, we contributed to the preservation and dissemination of the rich Georgian musical heritage. In the second phase of the project (renewal proposal), we broaden our perspective and set ourselves new goals. First, we will systematically expand and improve our computational tools for analyzing vocal music by combining traditional model-based and recent data-driven approaches. In particular, we want to achieve substantial progress in notoriously difficult MIR tasks such as estimating multiple fundamental frequencies and analyzing harmonic and melodic intonation aspects in polyphonic singing. To explore the scalability and applicability of our methods, we go beyond traditional Georgian vocal music and consider other corpora of recorded singing, including Western choral music, children's songs, and traditional music from different musical cultures. Another fundamental goal for the project's second phase is to explore the potential of novel contact microphones that overcome some limitations of the previously used headset and larynx microphones. We plan to use sensors to minimize external acoustic noise while offering high sensitivity to body vibrations in a frequency range between a few Hertz and 2200 Hertz. Comprising the fundamental frequency of the vibrations caused by the larynx (as well as several overtones), this extensive frequency range enables the analysis of speech and singing as well as of body vibrations as low as the heartbeat. Such novel technology will lay the basis for generating high-quality training data as required for recent MIR techniques based on deep learning and open new paths for investigating how singers synchronize some of their body functions (e.g., heartbeat variability, respiration) during singing.

Computergestützte Analyse georgischer Vokalmusik und darüber hinaus

In der ersten Projektphase (Erstantrag) bestand unser Hauptziel darin, die musikethnologische Forschung mit Schwerpunkt auf traditionelle georgische Vokalmusik durch Einsatz rechnergestützter Methoden der Audiosignalverarbeitung und des Music Information Retrieval (MIR) voranzutreiben. Hierbei wurde durch Betrachtung konkreter Anwendungsszenarien das Potential dieser Methoden für reproduzierbare, korpusbasierte Studien innerhalb der Geisteswissenschaften ausgelotet. Weiterhin leisteten wir durch die systematische Aufarbeitung einer einzigartigen multimodalen Sammlung von Feldaufnahmen einen Beitrag zur Bewahrung und Verbreitung des reichen georgischen Musikerbes. In der zweiten Projektphase (Fortsetzungsantrag) erweitern wir unseren Blickwinkel erheblich mit neuen Zielsetzungen. Erstens entwickeln wir unsere computergestützten Analysewerkzeuge weiter, indem wir traditionelle modellbasierte und aktuelle datengetriebene Verfahren kombinieren. Hierbei wollen wir wesentliche Fortschritte bei notorisch schwierigen MIR-Fragestellungen wie der simultanen Schätzung mehrerer Grundfrequenzen und der harmonischen und melodischen Intonationsanalyse für polyphone Gesangsaufnahmen erzielen. Um die Skalierbarkeit und Anwendbarkeit unserer Methoden zu untersuchen, gehen wir über die traditionelle georgische Vokalmusik hinaus und betrachten weitere Korpora von Gesangsaufnahmen, darunter westliche Chormusik, Kinderlieder und traditionelle Musik verschiedener Musikkulturen. Als ein weiteres zentrales Ziel wollen wir neuartige Kontaktmikrofone entwickeln, um hierdurch einige Einschränkungen der zuvor verwendeten Headset- und Kehlkopfmikrofone zu überwinden. Hierbei sollen hochsensitive Körpervibrationssensoren zum Einsatz kommen, durch die eine Erfassung hochfrequenter Kehlkopfschwingungen zur Analyse von Sprache und Gesang (bis zu 2200 Hertz) und eine synchrone Messung tieffrequenter Körperschwingungen wie dem Herzschlag ermöglicht werden (während Außengeräusche keine Störungen verursachen). Diese neuartige Aufnahmetechnologie legt die Grundlage für die Erzeugung qualitativ hochwertiger Trainingsdaten, wie sie für aktuelle MIR-Techniken auf Grundlage von Deep Learning erforderlich sind. Weiterhin wollen wir das Potential dieser Technologien im Kontext komplexer Fragestellungen der musikalischen Interaktion, wie zum Beispiel der Synchronisation von Herzschlagvariabilität und Atmung beim gemeinsamen Singen ausloten.

Cooperating Partners

DFG-Projekt: ISAD [MU 2686/11-2, AB 675/2-2; Grant No. 350953655] (2022 - 2025)

DFG Teaser_ISAD2

Informed Sound Activity Detection in Music and Audio Signals

In music information retrieval (MIR), the development of computational methods for analyzing, segmenting, and classifying music signals is of fundamental importance. In the project's first phase (2017-2020), we explored fundamental techniques for detecting characteristic sound events present in a given music recording. Here, our focus was on informed approaches that exploit musical knowledge in the form of score information, instrument samples, or musically salient sections. We considered concrete tasks such as locating audio sections with a specific timbre or instrument, identifying monophonic themes in complex polyphonic music recordings, and classifying music genres or playing styles based on melodic contours. We tested our approaches within complex music scenarios, including instrumental Western classical music, jazz, and opera recordings. In this second phase of the project, our goals are significantly extended. First, we go beyond the music scenario by considering environmental sounds as a second challenging audio domain. As a central methodology, we explore and combine the benefits of model-based and data-driven techniques to learn task-specific sound event representations. Furthermore, we investigate hierarchical approaches to simultaneously incorporate, exploit, learn, and capture sound events that manifest on different temporal scales and belong to hierarchically ordered categories. An overarching goal of the project's second phase is to develop explainable deep learning models that provide a better understanding of the structural and acoustic properties of sound events.

Informierte Klangquellenerkennung in Musik- und Audiosignalen

Im Bereich des Music Information Retrieval (MIR) ist die Entwicklung von computergestützten Methoden zur Analyse, Segmentierung und Klassifizierung von Musiksignalen von grundlegender Bedeutung. In der ersten Projektephase (2017-2020) untersuchten wir grundlegende Techniken zur Erkennung charakteristischer Klangereignisse, die in einer gegebenen Musikaufnahme vorhanden sind. Dabei lag unser Fokus auf Ansätzen, die musikalisches Wissen in Form von Notentextinformationen, Klangbeispielen oder musikalisch repräsentativen Musikpassagen nutzen. Zentrale Aufgabenstellungen bestanden im Auffinden von Audioabschnitten mit einer bestimmten Klangfarbe oder Instrumentierung, die Erkennung monophoner Themen in polyphonen Musikaufnahmen und die Klassifizierung von Musikstilen oder Spielweisen anhand melodischer Konturmerkmale. Die entwickelten Erkennungsverfahren wurden im Rahmen komplexer Musikszenarien (u.a. klassische Musik, Jazzmusik und Opernaufnahmen) experimentell getestet und ausgewertet. In der zweiten Projektphase erweitern wir unsere Ziele erheblich. Erstens betrachten wir neben dem Musikszenario die Erkennung von Umwelt- und Umgebungsgeräusche als zweite komplexe Audiodomäne. Zweitens kombinieren wir, als unsere zentrale Methodik, Aspekte von modellbasierten und datengetriebenen Verfahren, um aufgabenspezifische Darstellungsformen von Klangereignissen zu lernen. Darüber hinaus verfolgen wir integrative und hierarchische Strategien, um Schallereignisse auf verschiedenen Zeitskalen und hinsichtlich hierarchisch angeordneter Kategorien zu erfassen und zu analysieren. Unser übergeordnetes Ziel der zweiten Projektphase ist es, erklärbare und nachvollziehbare Deep-Learning-Modelle zu entwickeln, die ein besseres Verständnis der strukturellen und akustischen Eigenschaften von Klangquellen ermöglichen.

DFG-Projekt: SeReCo [MU 2686/10-2; Grant No. 328416299] (2021 - 2024)

DFG Teaser_SeReCo2

Source Separation and Restoration of Sound Components in Music Recordings (SeReCo)

This is a follow-up project, which continues the previous DFG-funded project "Source Separation and Restoration of Drum Sound Components in Music Recordings" [MU 2686/10-1] aiming at the development of techniques for separating and restoring sound events as occurring in complex music recordings. In the first phase ([MU 2686/10-1]), we focused on percussive sound sources, where we decomposed a drum recording into individual drum sound events. Using Non-Negative Matrix Factor Deconvolution (NMFD) as our central methodology, we studied how to generate and integrate audio- and score-based side information to guide the decomposition. We tested our approaches within concrete application scenarios, including audio remixing (redrumming) and swing ratio analysis of jazz music. In the second phase of the project ([MU 2686/10-2]), our goals are significantly extended. First, we want to go beyond the drum scenario by considering other challenging music scenarios, including piano music (e.g., Beethoven Sonatas, Chopin Mazurkas), piano songs (e.g., Klavierlieder by Schubert), and string music (e.g., Beethoven String Quartets). In these scenarios, our goal is to decompose a music recording into individual note-related sound events. As our central methodology, we develop a unifying audio decomposition framework that combines classical signal processing and machine learning with recent deep learning (DL) approaches. Furthermore, we adopt generative DL techniques for improving the perceptual quality of restored sound events. As a general goal, we investigate how prior knowledge, such as score information can be integrated into DL-based learning to improve the interpretability of the trained models.

Quellentrennung und Wiederherstellung von Klangkomponenten in Musikaufnahmen

Dieses Projekt ist eine Fortsetzung von [MU 2686/10-1] mit dem Ziel, Techniken zur Trennung und Wiederherstellung von Klangereignissen, wie sie bei komplexen Musikaufnahmen auftreten, zu entwickeln. In der ersten Phase ([MU 2686/10-1]) konzentrierten wir uns auf die Separation von Schlagzeugaufnahmen in individuelle Schlagzeugklangkomponenten. Unter Verwendung von Techniken der nicht-negativen Matrixzerlegung haben wir systematisch untersucht, wie sich Audio- und Notentext-basierte Seiteninformation generieren, integrieren und zur Steuerung der Zerlegung ausnutzen lässt. Unsere Verfahren wurden im Kontext konkreter Anwendungsszenarien wie dem Audio-Remixing (Redrumming) und der Swing-Analyse von Jazzmusik getestet. In der zweiten Projektphase ([MU 2686/10-2]) erweitern wir unsere Ziele erheblich. Zunächst gehen wir über das Schlagzeugszenario hinaus, indem wir andere komplexe Musikszenarien betrachten, einschließlich Klaviermusik (z.B. Beethoven-Sonaten, Chopin-Mazurkas), Klavierlieder (z. B. von Schubert) und Streichmusik (z.B. Beethoven-Streichquartette). In diesen Szenarien besteht unser Ziel darin, eine Musikaufnahme in einzelne notenbezogene Klangereignisse zu zerlegen. Als zentrale Methodik kombinieren wir klassische Techniken der Signalverarbeitung und des maschinellen Lernens mit aktuellen Deep-Learning-Ansätzen (DL). Weiterhin entwickeln wir generative DL-basierte Methoden, um die perzeptuelle Qualität der separierten Klangereignisse zu verbessern. Als ein übergeordnetes Ziel widmen wir uns der Frage, wie sich musikalische Vorkenntnisse in DL-basierte Lernverfahren integrieren lassen, um auf diese Weise die Interpretierbarkeit der trainierten Modelle zu verbessern.

DFG-Projekt: CAS [MU 2686/7-2, KL 864/4-2; ; Grant No. 252013209] (2019 - 2022)

DFG Teaser_CAS

Computer-Assisted Analysis of Harmonic Structures (CAS)

This is a follow-up project continuing the previous DFG-funded project "Computergestützte Analyse harmonischer Strukturen" [MU 2686/7-1, KL 864/4-1]. Our interdisciplinary project deals with the development of automated techniques for the analysis of harmonic structures. On a broader level, we aim at investigating to which extent musicology may benefit from using computer-based methods and, vice versa, musicological research may introduce new scientific challenges into computer science. In addition to the development of computer-based analysis techniques, our further goal is to explore novel navigation and visualization concepts that allow researchers to browse, search, and analyze large music collections with regard to harmonic structures in an intuitive and interactive way. The concepts are paradigmatically developed, verified, and discussed on the basis of concrete music corpora. In particular, in the case of the tetralogy "Der Ring des Nibelungen" by Richard Wagner, unknown structural relationships may be discovered, thus gaining new musicological insights. In this follow-up project, we significantly extend the objectives of the previous project. By considering further parameters, we aim at expanding and refining the harmonic analyses. In addition to harmonic structures, musical aspects such as motifs, instrumentation, and performance practice as well as their interrelations are subject of our computer-assisted analyses. The two main corpora prepared in the first project phase, Beethoven's piano sonatas and Wagner's "Ring" (including the symbolically encoded scores and annotated music recordings), provide an excellent basis for these subsequent studies. The continuation of the project shall deepen a spirit of openness, mutual interest, and long-term thinking, which may serve as a positive example of interdisciplinary collaboration in the field of Digital Humanities.

Computergestützte Analyse harmonischer Strukturen

Dieses Projekt ist eine Fortsetzung von dem Projekt zum Thema "Computergestützte Analyse harmonischer Strukturen" [MU 2686/7-1, KL 864/4-1]. In diesem interdisziplinären Projekt soll am Beispiel der automatisierten Analyse harmonischer Strukturen erprobt werden, inwieweit informatische Methoden gewinnbringend im Bereich der Musikwissenschaft eingesetzt werden können und inwieweit musikwissenschaftliche Fragestellungen zu neuen Herausforderungen in der Informatik führen. Neben computerbasierten Methoden und Werkzeugen zur Harmonieanalyse sind neuartige Visualisierungs- und Navigationskonzepte zu erforschen, die es erlauben, große Musikdatenbestände hinsichtlich harmonischer Strukturen auf interaktive Weise zu durchsuchen und zu analysieren. Die zu entwickelnden Konzepte werden paradigmatisch anhand von konkreten Werkzyklen entwickelt, verifiziert und diskutiert. Insbesondere soll im Fall der Tetralogie "Der Ring des Nibelungen" von Richard Wagner auch musikwissenschaftliches Neuland bei der Erforschung bisher verborgener struktureller Bezüge betreten werden. In der zweiten Projektphase werden die Zielstellungen des Projekts signifikant erweitert. Durch die Miteinbeziehung weiterer Parameter sollen die harmonischen Analysen ausgeweitet und verfeinert werden. Neben harmonischen Strukturen sollen weitere musikalische Aspekte wie Motivik, Instrumentierung und Aufführungspraxis sowie deren Wechselbeziehungen Gegenstand der computergestützten Analyse werden. Die in der ersten Projektphase erarbeiteten Datensammlungen zu Beethovens Klaviersonaten und Wagners "Ring" inklusive der symbolisch kodierten Notentexte und annotierten Musikaufnahmen stellen hierfür eine exzellente Grundlage dar. Durch die Fortsetzung des Projekts soll der durch ein großes Maß an Offenheit, gegenseitigem Interesse und langfristigem Denken geprägte Austausch der Kooperationspartner weitergeführt werden und als Beispiel eines erfolgreichen interdisziplinären Dialogs im Bereich der "Digital Humanities" dienen.

Cooperating Partners

DFG-Projekt: GVM [MU 2686/13-1, SCHE 280/20-1] (2018 - 2022)

DFG Teaser_GVM

Computational Analysis of Traditional Georgian Vocal Music (GVM)

Georgia has a rich cultural heritage. Its traditional polyphonic vocal music, which has been acknowledged as Intangible Cultural Heritage by the UNESCO in 2001, is one of the most prominent examples. Being an orally transmitted culture, most of the sources are available as field recordings (often with rather poor audio quality). Musicological research using these sources has usually been conducted on the basis of notated musical scores, which were obtained by manually transcribing the audio material. Such approaches are problematic since important tonal cues and performance aspects are likely to get lost in the transcription process. Furthermore, previous studies often suffer from subjectivity and reproducibility issues. In this context, our general goal for the GVM project is to advance ethnomusicological research with a focus on traditional Georgian vocal music by employing computational methods from audio signal processing and music information retrieval (MIR). More specifically, we have three main objectives. First, we aim at improving the understanding of traditional Georgian vocal music by analyzing a newly-created corpus of (high-quality) field recordings. Second, by developing novel computational tools applied to a concrete music scenario, we want to explore and demonstrate the potential of computer-assisted methods for reproducible and corpus-driven research within the humanities. Third, by systematically processing and annotating a unique multimodal collection of field recordings as well as by implementing tools for accessing and analyzing this data with web-based technologies, our ambition is to contribute to the preservation and dissemination of the rich, yet endangered Georgian musical heritage.

Computergestützte Analyse traditioneller georgischer Vokalmusik (GVM)

Georgien hat ein reiches kulturelles Erbe. Insbesondere gehört hierzu georgische, mehrstimmig gesungene Vokalmusik, die 2001 von der UNESCO als immaterielles Kulturerbe anerkannt wurde. Aufgrund der mündlich überlieferten Musiktraditionen sind die meisten der historischen Quellen nur in Form von Feldaufnahmen (oft mit eher schlechter Klangqualität) verfügbar. Auf diesen Quellen basierende musikwissenschaftliche Forschung stützt sich oft auf symbolisch notierten Notentexten, die durch manuelle Transkription des Audiomaterials erhalten wurden. Solche Ansätze sind problematisch, da im Transkriptionsprozess für die Aufführungspraxis wichtige (mikro-)tonale Strukturen verloren gehen können. Darüber hinaus leiden frühere Studien oft unter Problemen einer gewissen Subjektivität und fehlenden Reproduzierbarkeit. Vor diesem Hintergrund besteht das allgemeine Ziel des GVM-Projekts darin, musikethnologische Forschung mit Schwerpunkt auf traditionelle georgische Vokalmusik durch Einsatz rechnergestützter Methoden aus den Bereichen der Audiosignalverarbeitung und des Music Information Retrieval (MIR) voranzutreiben. Insbesondere setzen wir uns die folgenden drei Hauptziele. Erstens wollen wir einen neu geschaffenen Korpus von (qualitativ hochwertigen) Feldaufnahmen analysieren und hierdurch ein tieferes Verständnis traditioneller georgischer Vokalmusik entwickeln. Zweitens soll durch die Entwicklung neuartiger Werkzeuge und deren Einsatz in einem konkreten Anwendungskontext das Potential computergestützter Methoden für reproduzierbare, Korpus-basierte Forschung innerhalb der Geisteswissenschaften ausgelotet werden. Unser drittes Ziel besteht darin, durch die systematische Aufarbeitung einer einzigartigen multimodalen Sammlung von Feldaufnahmen sowie durch die Implementierung webbasierter Werkzeuge für den Zugriff und die Analyse dieser Daten zur Erhaltung und Verbreitung des musikalischen Erbes von Georgien beizutragen.

Cooperating Partner

Links

DFG-Transferprojekt: AnChor [MU 2686/12-1] (2017 - 2020)

DFG Teaser_AnChor

Automated Methods and Tools for Analyzing and Structuring Choral Music

Processing musical signals automatically is a major challenge because of the variety of music in form and content. The Metrum project, funded by the DFG from 2012 to 2015, dealt with the development of fundamental computer-assisted methods for analyzing and structuring musical signals. In the transfer project we propose, these automated methods are to be tested in practice, in cooperation with the Carus publishing house—a leading music publisher for religious and secular choral music with headquarters in Stuttgart. We plan to develop web-based prototypes for the interactive navigation and analysis of choral music recordings, which may be used to support music lessons in schools or to train choir directors. Besides realizing the prototypes, the following fundamental questions are in the focus of the project. First, we want to examine the suitability of novel navigation, visualization and sonification methods for musical structures by integrating them into user interfaces. Second, we want to investigate how and to what extent (partially) automated procedures can help simplify the process of linking and analyzing multimedia content - tasks that are often done in a purely manual fashion. In particular, we want to evaluate and adapt automated synchronization and structuring methods considering specific application scenarios. Third, we want to develop personalization strategies embedded into interactive tools that allow users to structure and analyze music recordings according to their specific needs, expectations, and requirements. Such strategies are not only of great practical relevance, but raise new scientific questions on how to develop adaptive strategies for analyzing and modifying musical signals. Through the close collaboration with the Carus publishing house, the project offers numerous cross-connections to fields such as music education and musicology, which will stimulate further interdisciplinary cooperations.

Automatisierte Methoden und Werkzeuge zur Analyse und Strukturierung von Chormusik

Bei der automatisierten Verarbeitung von Musiksignalen steht man aufgrund der Vielfältigkeit von Musik in Form und Inhalt vor großen Herausforderungen. Das von der DFG in den Jahren 2012 bis 2015 geförderte Metrum-Projekt beschäftigte sich mit der Entwicklung grundlegender Methoden zur computergestützten Analyse und Strukturierung von Musiksignalen. In dem beantragten Transferprojekt erproben wir diese automatisierten Methoden in der Praxis in Kooperationen mit dem Carus-Verlag, einem im Bereich der geistlichen und weltlichen Chormusik international führenden Musikverlag aus Stuttgart. Hierzu entwickeln wir webbasierte Prototypen zur interaktiven Navigation und Analyse von Choraufnahmen, die zum Beispiel zur Unterstützung im Musikunterricht in Schulen oder in der Ausbildung von Chorleitern zur Anwendung kommen sollen. Neben der konkreten Realisierung der Prototypen stehen folgende grundlegende Fragestellungen im Fokus des Projekts. Erstens soll die Praxistauglichkeit neuartiger Methoden zur Navigation, Visualisierung und Sonifikation musikalischer Strukturen durch deren Integration in Benutzerschnittstellen untersucht werden. Zweitens soll herausgefunden werden, wie und in welchem Umfang bisher rein manuell durchgeführte Arbeitsschritte zur Verlinkung und Analyse multimedialer Inhalte durch (teilweise) automatisierte Verfahren vereinfacht werden können. Insbesondere sind hierzu automatisierte Synchronisations- und Strukturierungsverfahren auszuwerten und zu adaptieren. Drittens sollen interaktive Werkzeuge zur personalisierten Strukturierung und Analyse von Musikaufnahmen entwickelt werden. Durch die Einbeziehung des Nutzers kann man spezifischen Bedürfnissen, Erwartungen und Anforderungen gerecht werden. Diese Strategie ist nicht nur von hoher praktischer Relevanz, sondern wirft neue, wissenschaftliche Fragestellungen der adaptiven Analyse und Modifikation von Musiksignalen auf. Weiterhin werden durch das Projekt und die Zusammenarbeit mit dem Carus-Verlag zahlreiche Querverbindungen zur Musikpädagogik und zu den Musikwissenschaften hergestellt, durch die weitere interdisziplinäre Kooperationen angeregt werden können.

Cooperating Partner

Links

DFG-Projekt: ISAD [MU 2686/11-1, AB 675/2-1] (2017 - 2020)

DFG Teaser_ISAD

Informed Sound Activity Detection in Music Recordings

In music information retrieval, the development of computational methods for analyzing, segmenting, and classifying music signals is of fundamental importance. One prominent task is known as singing voice detection. The objective is to automatically locate all sections of a given music recording where a main singer is active. Although this task seems to be simple for human listeners, the detection of the singing voice by computational methods remains difficult due to complex superpositions of sound sources that typically occur in music where the singing voice interacts with accompanying instruments. Extending this scenario, the goal of automatic instrument recognition is to identify all performing instruments in a given music recording and to derive a segmentation into sections with homogeneous instrumentation. Other related problems deal with finding all monophonic sections, identifying all solo parts or sections with a predominant melody, or locating sections with a specific timbre. In this project, motivated by these segmentation problems, we want to adopt a comprehensive perspective. Our goal is to explore fundamental techniques and computational tools for detecting sound sources or characteristic sound events that are present in a given music recording. To cope with a wide range of musical properties and complex superpositions of different sound sources, we want to focus on informed approaches that exploit various types of additional knowledge. Such knowledge may be given in the form of musical parameters (e.g., number of instruments, score information), sound examples (e.g., instrument samples, representative sections), or user input (e.g., annotations, interactive feedback). By combining audio segmentation, detection, and classification techniques, one main objective is to develop novel approaches that can efficiently adapt to requirements within specific application scenarios. To test and evaluate our activity detection algorithms, we consider various challenging music scenarios including Western classical music, jazz music, and opera recordings.

Informierte Klangquellenerkennung in Musikaufnahmen

Die Entwicklung computergestützter Verfahren zur Analyse, Segmentierung und Klassifikation von Musiksignalen ist ein zentrales Forschungsthema des "Music Information Retrieval". Eine wichtige Fragestellung besteht darin, alle Abschnitte einer Musikaufnahme, in denen eine Gesangsstimme vorkommt, zu identifizieren. Während diese Aufgabe für den Menschen leicht zu bewerkstelligen ist, stoßen automatisierte Verfahren aufgrund komplexer akustischer Überlagerungen von Gesangs- und Begleitstimmen schnell an ihre Grenzen. Eine erweiterte Problemstellung stellt die automatische Erkennung von Musikinstrumenten dar. Hierbei besteht das Ziel darin, eine Musikaufnahme in Abschnitte ähnlicher Instrumentierung zu segmentieren und die darin vorkommenden Instrumente zu identifizieren. Weitere verwandte Fragestellungen betreffen die Erkennung monophon gespielter Abschnitte, die Identifikation von Solopassagen und die Bestimmung aller Abschnitte mit dominanter Melodiestimme oder anderen spezifischen Klangeigenschaften. Ausgehend von den beschriebenen Detektionsproblemen erforschen wir in diesem Forschungsprojekt grundsätzliche Fragestellungen der klanglichen Segmentierung und Klassifikation von Musikaufnahmen. Hierbei werden automatisierte Verfahren zur Detektion unterschiedlicher Klangquellen in komplexen Musikaufnahmen entwickelt. Um klangliche Vielfalt und möglichen Überlagerungen verschiedener Klangquellen besser bewältigen zu können, erforschen wir in diesem Projekt informierte Verfahren, die unterschiedliche Arten von Vor- oder Zusatzwissen berücksichtigen können. Solches Wissen kann in Form von musikalischen Parametern (z. B. Anzahl der Instrument, Noteninformation), Klangbeispielen (z. B. Samples von Instrumenten, repräsentative Musikpassagen) oder Nutzerspezifikationen (z. B. Annotationen, interaktives Feedback) gegeben sein. Unter Verwendung von Methoden aus den Bereichen der Audiosignalverarbeitung und Informatik (Strukturanalyse, Klassifikation) entwickeln wir im Rahmen dieses Projektes neuartige Analysetechniken, die sich effizient an die jeweiligen Anforderungen einer spezifischen Anwendung anpassen lassen. Die entwickelten Erkennungsverfahren sollen für verschiedene Musikgenres (u. a. Klassische Musik, Jazzmusik und Opernaufnahmen), die eine Vielzahl möglicher Klangeigenschaften und Instrumentierungen abdecken, getestet und evaluiert werden.

Cooperating Partners

DFG-Projekt: SeReCo [MU 2686/10-1] (2016 - 2019)

DFG Teaser_SeReCo

Source Separation and Restoration of Drum Sound Components in Music Recordings

The general goal of music source separation is to decompose a music recording into its constituent signal components. One of the main problems is that the separated signals may suffer from severe audible artifacts. Considering the challenging scenario of percussive and non-harmonic sound sources, this project aims at the development of techniques and tools for separating and restoring drum sound events in a perceptually convincing way. We want to systematically approach this general source separation problem by considering a number of more specific objectives. A first goal is to develop cascaded techniques for decomposing a music mixture into (mid-level) harmonic, percussive, transient, and residual components. A second goal is to decompose drum tracks into individual drum sound events by exploiting specific properties of drum instruments. In particular, by adapting and extending Non-Negative Matrix Factor Deconvolution (NMFD) used as a central methodology of this project, we want to systematically study how audio- and score-based side information can be generated, integrated, and exploited to guide the decomposition. To improve the perceptual quality of the separated drum events, a third goal is to research data-driven restoration approaches for reducing crosstalk and other undesired artifacts. Finally, we want to test and evaluate our decomposition and restoration approaches by considering two different application scenarios: an audio editing application (decomposition and remixing of breakbeats) and a music analysis problem (swing ratio analysis of jazz music). Exploring novel algorithmic approaches for sound source separation within concrete application scenarios, this project aims at contributing to fundamental research of practical relevance.

Quellentrennung und Restauration von Schlagzeugklängen in Musikaufnahmen

Klangquellentrennung für Musiksignale zielt darauf ab, eine digitalisierte Musikaufnahme in zugrundeliegende Signalkomponenten zu zerlegen. Ein Hauptproblem liegt darin, dass unter Umständen deutlich hörbare Artefakte in den separierten Signalkomponenten entstehen können. In dem vorliegenden Projekt entwickeln wir Techniken und Algorithmen, die sich zur perzeptuell hochwertigen Abtrennung und Zerlegung von schlagzeugartigen Klangquellen eignen. Diese allgemeine Aufgabenstellung werden systematisch durch Betrachtung von in Beziehung stehenden Teilproblemstellungen angegangen. Als ein erstes Teilproblem entwickeln wir Verfahren zur kaskadierten Zerlegung von Musikaufnahmen in harmonische, perkussive, transiente und weitere Mid-Level-Komponenten. Eine zweite Aufgabenstellung besteht in der Zerlegung von Schlagzeugaufnahmen in individuelle Schlagzeugklangkomponenten unter Berücksichtigung spezifischer Eigenschaften der beteiligten Instrumente. Insbesondere wird als zentral Methodik dieses Projekts die als "Non-Negative Matrix Factor Deconvolution" bekannte Technik adaptiert und erweitert. Hierbei untersuchen wir systematisch, wie sich Audio- und Notentext-basierte Seiteninformation generieren, integrieren und zur Steuerung der Zerlegung ausnutzen lässt. Als eine weitere wichtige Aufgabenstellung erforschen wir datengetriebene Restaurationsverfahren zur Reduktion von Übersprechen und anderen ungewünschten Artefakten. Die unterschiedlichen Ansätze zur Signalzerlegung und -rekonstruktion werden anhand zwei konkreter Aufgabenstellungen getestet und evaluiert: Zum einen wird eine Anwendung zur Audioeditierung (Zerlegung und "Remixen" von Breakbeats) und zum anderen ein Musikanalyseproblem (Swing-Analyse in Jazzmusik) betrachtet. Durch die Entwicklung neuartiger algorithmischer Ansätze zur Klangquellentrennung trägt das vorliegende Projekt zur Grundlagenforschung mit konkretem Praxisbezug bei.

Links

Literature

DFG-Projekt: Harmonic Structures [MU 2686/7-1, KL 864/4-1] (2014 - 2018)

DFG Teaser_HARM

Computergestützte Analyse harmonischer Strukturen

In diesem interdisziplinären Projekt soll am Beispiel der automatisierten Analyse harmonischer Strukturen erprobt werden, inwieweit informatische Methoden gewinnbringend im Bereich der Musikwissenschaft eingesetzt werden können und inwieweit musikwissenschaftliche Fragestellungen zu neuen Herausforderungen in der Informatik führen. Neben computer-basierten Methoden und Werkzeugen zur Harmonieanalyse sind neuartige Visualisierungs- und Navigationskonzepte zu erforschen, die es erlauben, große Musikdatenbestände hinsichtlich harmonischer Strukturen auf interaktive Weise zu durchsuchen und zu analysieren. Die Verifizierung der musikwissenschaftlichen Relevanz der zu entwickelnden Konzepte soll paradigmatisch anhand der Analyse zweier großer Werkzyklen erfolgen: der Klaviersonaten von Ludwig van Beethoven und der Tetralogie Der Ring des Nibelungen von Richard Wagner. Während anhand des Klaviersonaten-Szenarios untersucht werden soll, inwieweit bekannte harmonische Strukturen maschinell nachvollzogen und visuell dargestellt werden können, soll insbesondere im Ring-Szenario auch musikwissenschaftliches Neuland bei der Erforschung bisher verborgener harmonischer Strukturen und Bezüge betreten werden. Eine schon in Teilen automatisierte Auswertung größerer Musikkorpora könnte zu einem Paradigmenwechsel innerhalb der Historischen Musikwissenschaft führen: Bisherige Methoden würden nicht überflüssig, könnten aber auf Grund des ‚objektiv‘ vorgegebenen Befundes – der als solcher kritisch zu überprüfen wäre – mit neuen Fragestellungen konfrontiert werden. Ziel soll dabei nicht die Ablösung der Historischen Musikwissenschaft durch eine wie auch immer zu definierende Musikinformatik sein, sondern vielmehr ein Dialog zwischen Historischer Musikwissenschaft und Informatik auf der Basis ihrer unterschiedlichen Voraussetzungen und Methoden.

Cooperating Partner

Links

DFG-Projekt: SIAMUS [MU 2686/6-1] (2014 - 2017)

DFG Teaser_SIAMUS

Notentext-Informierte Audioparametrisierung von Musiksignalen

Dieses Projekt widmet sich der Erforschung und Umsetzung von robusten und praktikablen Verfahren zur automatisierten Parametrisierung von Musiksignalen. Hierbei geht es insbesondere um die Erfassung und Rekonstruktion von Signalkomponenten, die einzelnen Notenereignissen oder ganzen Melodie- und Instrumentalstimmen entsprechen – eine Aufgabenstellung, die im übergeordneten Bereich der Audiosignalverarbeitung einen engen Bezug zum Quellentrennungsproblem hat. Im Fall von Musik besteht eine wesentliche Herausforderung darin, komplexe Überlagerungen von in enger Beziehung stehenden musikalischen Stimmen zu erlauben (z.B. Gesangsstimmen, Instrumentalstimmen und Begleitstimmen in Klavierliedern oder Opern). Ohne Zusatzwissen ist eine Zerlegung einer ein- oder zweikanaligen Audioaufnahme in solche Stimmen kaum lösbar. Daher soll in diesem Projekt ein informierter Ansatz verfolgt werden, bei dem zusätzlich ein Notentext für die Audioparametrisierung herangezogen wird. Auf Basis von automatisiert berechneten Verknüpfungen zwischen Notentext und Signal soll dabei die Notentextinformation zur Spezifikation und Steuerung des Parametrisierungsprozesses sowie zur Unterstützung der Signalanalyse und -rekonstruktion zum Einsatz kommen. Neben grundsätzlichen Fragestellungen der Signalmodellierung und Parameteroptimierung, sollen auch neuartige Anwendungen zur Audioeditierung realisiert werden, um somit den Praxisbezug und die Nachhaltigkeit des Projekts sicherzustellen.

BMBF-Projekt: Freischütz Digital [01UG1239C] (2012 - 2016)

BMBF Teaser_FreiDi

Freischütz Digital - Paradigmatische Umsetzung eines genuin digitalen Editionskonzepts

Im Anschluss an den Entwurf eines an Frans Wierings Multidimensional Model angelehnten Konzepts genuin digitaler Musikeditionen soll am Beispiel von Webers Freischütz ein proof of concept sowohl für die Möglichkeiten neuartiger Editionsmethoden als auch damit verbundener neuer Fragestellungen geliefert werden. In den von vier Projektpartnern gemeinsam bearbeiteten sechs Arbeitspaketen stehen die graphische, logische und die akustische (bzw. performative) Domäne des Werks im Zentrum. Zugleich wird auf eine umfassende und detaillierte Kontextualisierung der Daten und die dafür notwendigen formalisierten Verknüpfungskonzepte Wert gelegt. Da erstmals der Musik-Codierungsstandard MEI für ein umfangreiches Werk der Common Western Notation angewendet und mit einer TEI-Codierung der Textanteile verbunden wird, eröffnen sich für das Prozessieren, Anreichern und Wiederverwenden der Daten völlig neue Möglichkeiten. Mit der Exploration der Möglichkeiten zur Verknüpfung mit Audio- (und ggf. Video-)Aufnahmen und deren Segmentierung wird das Projekt im akustischen Bereich zur Lösung generischer Fragestellungen beitragen, mit der Demonstration des Potentials seines neuartigen digitalen Editionsmodells die Diskussion über künftige Editionsformen befördern und mit exemplarischen Untersuchungen zum Aspekt der Varianz weitere Grundlagenforschungen anregen.

Cooperating Partners

Links

DFG-Projekt: METRUM [MU 2686/5-1] (2011 - 2015)

DFG Teaser_METRM

Mehrschichtige Analyse und Strukturierung von Musiksignalen

Bei der automatisierten Verarbeitung von Musiksignalen steht man aufgrund der Vielfältigkeit von Musik in Form und Inhalt vor großen Herausforderungen. Im METRUM-Projekt sollen robuste und adaptive Analyse- und Strukturierungsalgorithmen für Musiksignale mit dem Ziel entwickelt werden, akustisch und musikalisch begründete Variabilitäten in den Griff zu bekommen. Die wesentliche Innovation des METRUM-Projekts besteht in einer mehrschichtigen Analyse und Strukturierung unter simultaner Berücksichtigung unterschiedlicher Aspekte wie z.B. Zeit, Rhythmus, Dynamik, Harmonie und Klangfarbe. Neben diesen Aspekten soll ausgenutzt werden, dass ein Musikstück oft in zahlreichen Interpretationen vorliegt. Das simultane Einbeziehen dieser Aspekte und Interpretationen wird zu einer wesentlichen Stabilisierung der automatischen Analyse- und Segmentierungsergebnisse führen. Um Praxisrelevanz und Nachhaltigkeit sicherzustellen, sollen in Kooperation mit dem Beethoven-Haus Bonn und der Hochschule für Musik Saar Benutzerschnittstellen zur multimodalen Navigation in Musikdatenbeständen anhand unterschiedlicher Strukturierungskriterien entwickelt werden. Diese sollen dann für das Digitale Beethoven-Haus implementiert und sowohl dem breiten Museumspublikum als auch einem Fachpublikum zugänglich gemacht werden.

Cooperating Partners

Demos

  • Winterreise: Music Structure Analysis for the song cycle "Die Winterreise" (D911) by Franz Schubert
  • SM Toolbox: MATLAB Toolbox for computing and enhancing similarity matrices

Literature

DFG-Projekt: REKOBA [MU 2686/3-1] (2008 - 2011)

DFG Teaser_REKOBA

Rekonstruktion von Bewegungsabläufen aus niedrigdimensionalen Sensor- und Kontrolldaten

Die Erfassung, Repräsentation und Charakterisierung von komplexen Bewegungsabläufen spielt eine grundlegende Rolle in Gebieten wie der Medizin, den Sportwissenschaften und der Computergraphik. Bislang verfügbare Sensorik zur Bewegungserfassung (insbesondere optische Systeme) verursachen hohe Anschaffungs- und Betriebskosten und erfordern einen hohen zeitlichen Aufwand für die Messvorbereitungen, was den Einsatz solcher Techniken für Massenanwendungen ausschließt. Demgegenüber könnten neuartige Sensorsysteme (z. B. basierend auf Beschleunigungsund Drehsensoren) aufgrund ihrer Massenproduktion äußerst kostengünstige Alternativen zur Erfassung von Bewegungsdaten darstellen, die zudem eine relativ einfach Handhabung erlauben, insbesondere wenn nur wenige Sensoren gebraucht werden, die etwa in Schuhen, Gürtelschlaufen oder Armbändern angebracht werden. Allerdings sind die resultierenden Sensordaten oft verrauscht und fehlerbehaftet. Um solche Systeme für den Masseneinsatz in Bereichen wie Rehabilitation und Breitensport zugänglich zu machen, werden daher robuste Verfahren zur Rekonstruktion von Bewegungsabläufen aus niedrigdimensionalen und verrauschten Sensordaten benötigt. Ziel des REKOBA-Projekts in der ersten zweijährigen Projektphase ist die systematische Erforschung von Methoden und die Implementation eines Echtzeitsystems zur datengestützten Rekonstruktion von Bewegungsabläufen aus niedrigdimensionalen Sensordaten. Unter anderem sollen folgende grundlegende Fragestellungen systematisch angegangen werden: Welche und wie viele Sensordaten, die etwa Beschleunigungen und Orientierungsänderungen von Körperteilen messen, sind zur Rekonstruktion von Bewegungen nötig? Welche partiellen Daten sind für Charakterisierungen gewisser Bewegungsklassen notwendig? Wie genau können gewisse Bewegungsabläufe bei vorgegebener Sensorik rekonstruiert werden?

Cooperating Partners

Links

DFG-Projekt: SMART [MU 2686/2-2] (2007 - 2011)

DFG Teaser_SMART

Datengestützte Stabilisierung markerfreier videobasierter Motion-Capture-Systeme

Ziel des beantragten Projekts ist die Entwicklung von robusten und effizienten Verfahren, die ein markerfreies Tracking komplexer menschlicher Bewegungen in Videodaten erlauben. Hierbei soll das Tracking durch Einbeziehen von Vorwissen über geeignete Bewegungsaspekte und unter Ausnutzung zeitlicher Kohärenz durch Abgleich mit zuvor gelernten Bewegungsmustern unterstützt und stabilisiert werden. Schwerpunkte des SMART-Projekts sind die Erforschung kompakter und exibler Repräsentationsformen von Bewegungen, die Generierung von Vorwissen aus 3D-Bewegungsdaten mittels statistischer Lernverfahren, die Integration von A-priori-Wissen beim Bewegungstracking, sowie die Entwicklung effizienter Retrieval- und Klassifikationstechniken füur multimodale Bewegungsdaten. Weiterhin sollen zur Anreicherung des Vorwissens Rückkopplungsmechanismen zwischen den getrackten Bewegungssequenzen und der Wissensdatenbank erforscht werden. Auf diese Weise soll in einer Top-Down Strategie das Einbringen von Bewegungsdynamik zur Bildanalyse verwendet und umgekehrt in einem Bottom-Up Prozess das A-priori-Wissen der Datenbanken verschärft werden.

Cooperating Partners

DFG-Projekt: ARMADA [CL 64/6-1] (2007 - 2011)

DFG Teaser_ARMADA

Automatisierte Erschließung von Musikdokumenten unter Ausnutzung verschiedener Darstellungsformen

Ziel des beantragten Projekts ist die Entwicklung robuster und effizienter Verfahren zur automatisierten Erschließung komplexer inhomogener Musikdatenbestände, die neben Audiodaten (CD, MP3) auch textbasierte Daten (Metadaten, Liedtexte, Libretti), symbolische Partiturdaten (MusicXML, Capella, MIDI) oder Bilddaten (gescannte Partituren) enthalten. Standardansätze zur automatisiserten Musikdatenerschließung, die oft nur die Kenntnis eines einzelnen Dokuments eines bestimmten Datentyps voraussetzen, stoßen bei solchen Aufgaben schnell an ihre Grenzen. In diesem Forschungsvorhaben soll nun ein neuartiger Ansatz zur Datenerschließung verfolgt werden, bei dem das Vorliegen unterschiedlicher Darstellungsformen ein und desselben Musikstücks systematisch ausgenutzt werden soll. Hierzu sollen einerseits generische Methoden zur automatisierten Verlinkung und Synchronisation semantisch in Beziehung stehender Musikdaten unterschiedlicher Formate entwickelt werden. Die berechneten Verlinkungs- und Synchronisationsstrukturen sollen dann verwendet werden, um konkrete Aufgaben des Music Information Retrieval wie die automatisierte Annotation, Strukturanalyse oder Transkription von Musikstücken zu unterstützen oder gar erst zu ermöglichen. Zur Evaluation und Demonstration der Praxisrelevanz der zu entwickelnden Methoden werden diese in ein in Entwicklung befindliches Software-System (SyncPlayer) integriert, das es dem Benutzer erlaubt, Musik in unterschiedlichen Erscheinungsformen zu durchsuchen, zu analysieren oder einfach nur zu genießen.

Cooperating Partners