Workshop: Musik trifft Informatik

47. Jahrestagung der Gesellschaft für Informatik e.V. (GI) | 25.-29.9.2017 | Chemnitz

Chancen und Herausforderungen der automatisierten Verarbeitung und Analyse von Musikdaten.

Beschreibung » Programm » Call for Papers » Programmkomitee »

Wichtige Informationen

Links

Beschreibung

Mit der fortschreitenden Digitalisierung aller Lebensbereiche gewinnen technische Möglichkeiten heutiger EDV-Systeme bei der Verarbeitung von Musikdaten und in geisteswissenschaftlichen Disziplinen wie den Musikwissenschaften immer mehr an Bedeutung. Heutige digital vorliegende Musiksammlungen enthalten multimediale Dokumente in zahlreichen Ausprägungen und Formaten, die ein Musikwerk auf verschiedenen Ebenen semantischer Ausdruckskraft beschreiben. Man denke hier beispielsweise an CD-Aufnahmen diverser Interpreten, Noten, MIDI-Daten, Musikvideos oder Gesangstexte. Ein grundlegendes Ziel der automatisierten Musikverarbeitung besteht in der Nutzbarmachung umfangreicher, oft unstrukturiert und verteilt vorliegender Musikdatenbestände.

Hierbei ist die Entwicklung effizienter Such- und Navigationssysteme, die es dem Benutzer erlauben, einen Datenbestand bezüglich unterschiedlichster musikrelevanter Aspekte zu durchsuchen, von zentraler Bedeutung. Während die textbasierte Suche nach Musik anhand von Komponistennamen, Songtitel, Werkverzeichnisnummer oder dergleichen mit klassischen Datenbanktechniken möglich ist, stellt die inhaltsbasierte Suche in Musikdaten ohne das Zurückgreifen auf manuell erzeugte Annotationen ein schwieriges Problem dar. Was ist zu tun, wenn man nur ein Melodiefragment vorpfeifen kann oder nur einen kurzen akustischen Ausschnitt von einem Musikstück vorliegen hat? Wie geht man vor, wenn der Benutzer an allen CD-Aufnahmen (samt der genauen Zeitpositionen innerhalb der jeweiligen Aufnahmen) interessiert ist, die gewisse Notenkonstellationen, Harmonieverläufe, oder Rhythmen aufweisen? Wie können Partiturdaten oder Musikaufnahmen hinsichtlich wiederkehrender Muster durchsucht werden? Dies ist nur eine kleine Auswahl aktueller Fragestellungen, die eng mit der automatisierten Analyse von Musikdaten verknüpft sind.

Auch in den Musikwissenschaften haben sich durch Einsatz digitaler Formate und automatisierter Methoden neue Möglichkeiten eröffnet. Zum Beispiel konnten große Fortschritte bei der Entwicklung digitaler Notationsformate, wie in der Music Encoding Initiative (MEI) erzielt werden, die wiederum den Zugang zu großen Datenbeständen von Notentexten erleichtern. Darüber hinaus wurden unterschiedliche Algorithmen entwickelt, die die Analyse von Musikdaten unterstützen. Dies erlaubt oft eine gewisse Objektivierung und Quantizierung analytischer Sachverhalte durch die Anwendung statistischer Methoden. Weiterhin erlauben automatisierte Methoden eine Ausweitung der Analysen und einen systematischen Zugang zu umfangreichen Werken wie etwa Symphonien oder Opern oder zu größeren Werkbeständen (Korpusanalyse).

Vor diesem Hintergrund verfolgt der geplanten Workshop „Musik trifft Informatik“ die folgenden Ziele:

  • Der Workshop soll einen Überblick zu aktuellen Forschungsarbeiten auf dem Gebiet der Audio- und Musikverarbeitung geben. Hierbei sollen konkrete Anwendungen in Bereichen wie der Musiksuche oder Musikanalyse im Vordergrund stehen.
  • Es soll ein interdisziplinärer Dialog zwischen der Informatik, den Musikwissenschaften und anderen Disziplinen angeregt werden. Hierbei soll der Frage nachgegangen werden, inwieweit informatische Methoden gewinnbringend in Bereichen der Musikwissenschaften eingesetzt werden können und inwieweit musikwissenschaftliche Fragestellungen zu neuen Herausforderungen in der Informatik führen.
  • Weiterhin sollen Möglichkeiten thematischer Anknüpfungspunkte der vertretenen Arbeitsgruppen aufgezeigt und Kooperationen angeregt werden.
  • Schließlich soll der Workshop den Teilnehmern Wege für eine Tätigkeit in den Bereichen Wissenschaft und anwendungsorientierte Forschung bis hin zur Promotion aufzeigen.

Auf dem Workshop besteht die Gelegenheit, sich anhand von Vorträgen einen Überblick über aktuelle Forschungsarbeiten auf dem Gebiet der Audio- und Musikverarbeitung zu verschaffen, spezifische Arbeitsgebiete und Projektarbeiten anhand von Demonstrationen und Postervorträgen kennenzulernen, sowie mit Mitgliedern unterschiedlicher Arbeitsgruppen im persönlichen Gespräch in Kontakt zu treten.

Programm (vorläufig)

  • 09:00 – 09:05 Begrüßung
  • 09:05 – 09:30 Vortrag (20 + 5 Minuten)
  • Arzt, Andreas; Dorfer, Matthias. Aktuelle Entwicklungen in der Automatischen Musikverfolgung. (174)
  • 09:30 – 10.00 Vortrag (20 + 5 Minuten)
  • Burghardt, Manuel; Lamm, Lukas. Entwicklung eines Music Information Retrieval-Tools zur Melodic Similarity-Analyse deutschsprachiger Volkslieder. (177)
  • 10:05 – 10:30 Vortrag (20 + 5 Minuten)
  • Scherbaum, Frank; Müller, Meinard; Rosenzweig, Sebastian. Rechnergestützte Musikethnologie am Beispiel historischer Aufnahmen mehrstimmiger georgischer Vokalmusik. (148)
  • 10:30 – 11:00 Kaffeepause
  • 11:00 – 11:15 Poster Fast Forward
  • 11:15 – 12:30 Poster Session
  • 12:30 – 14:00 Mittagspause
  • 14:00 – 14:30 Vortrag (20 + 5 Minuten)
  • Frieler, Klaus; Pfleiderer, Martin. Onbeat oder offbeat? Überlegungen zur symbolischen Darstellung von Musik am Beispiel der metrischen Quantisierung. (182)
  • 14:30 – 15:00 Vortrag (20 + 5 Minuten)
  • Grollmisch, Sascha; Lukashevich, Hanna. Soundslike – Automatic content-based music annotation and recommendation for large databases. (173)
  • 15:00 – 15:30 Vortrag (20 + 5 Minuten)
  • Weiß, Christof; Zalkow, Frank; Müller, Meinard; Klauk, Stephanie; Kleinertz, Rainer. Versionsübergreifende Visualisierung harmonischer Verläufe: Eine Fallstudie zu Wagners Ring-Zyklus. (123)
  • 15:30 – 16:00 Kaffeepause
  • 16:00 – 16:45 Panel
  • 16:45 – 17:30 Late Breaking News & Demo Session

Poster Session

Bemerkung: Alle 14 für den Workshop akzeptierten Beiträge sollen als Poster präsentiert werden. Die Poster sind in alphabethischer Reihenfolge des Erstautors aufgeführt.

Nr. Autoren Titel
174 Arzt, Andreas; Dorfer, Matthias Aktuelle Entwicklungen in der Automatischen Musikverfolgung
144 Balke, Stefan; Bießmann, Paul; Trump, Sebastian; Müller, Meinard Konzeption einer webbasierten Benutzerschnittstelle zur Unterstützung des Jazz-Piano Unterrichts
118 Balke, Stefan; Hiemer, Manuel; Schwab, Peter; Arifi-Müller, Vlora; Meyer-Wegener, Klaus; Müller, Meinard Die Oper als Multimediaszenario: Wagners Walküren gehen online
177 Burghardt, Manuel; Lamm, Lukas Entwicklung eines Music Information Retrieval-Tools zur Melodic Similarity-Analyse deutschsprachiger Volkslieder
146 Czedik-Eysenberg, Isabella; Knauf, Denis; Reuter, Christoph "Hardness" as a semantic audio descriptor for music using automatic feature extraction
182 Frieler, Klaus; Pfleiderer, Martin Onbeat oder offbeat? Überlegungen zur symbolischen Darstellung von Musik am Beispiel der metrischen Quantisierung
138 Geib, Tobias; Schmitt, Maximilian; Schuller, Björn Automatic Guitar String Detection by String-Inverse Frequency Estimation
173 Grollmisch, Sascha; Lukashevich, Hanna Soundslike – Automatic content-based music annotation and recommendation for large databases
181 Kruspe, Anna; Zapf, Dominik; Hanna, Lukashevich Automatic speech/music discrimination for broadcast signals
148 Scherbaum, Frank; Müller, Meinard; Rosenzweig, Sebastian Rechnergestützte Musikethnologie am Beispiel historischer Aufnahmen mehrstimmiger georgischer Vokalmusik
134 Schmitt, Maximilian; Schuller, Björn Recognising Guitar Effects – Which Acoustic Features Really Matter?
176 Waloschek, Simon Audioschnitt in digitalen Noten
123 Weiß, Christof; Zalkow, Frank; Müller, Meinard; Klauk, Stephanie; Kleinertz, Rainer Versionsübergreifende Visualisierung harmonischer Verläufe: Eine Fallstudie zu Wagners Ring-Zyklus
164 Wittland, Michael; Raciti, Vincent; Oehler, Michael Musik und Emotion: Ein auf SVM-Klassifikation basierendes anwendungsorientiertes Werkzeug zur Emotionserkennung

Late-breaking Demos

End-to-end training of automated speech recognition (ASR) systems requires massive data and compute resources. We explore transfer learning based on model adaptation as an approach for training ASR models under constrained GPU memory, throughput and training data. We conduct several systematic experiments adapting a Wav2Letter convolutional neural network originally trained for English ASR to the German language. We show that this technique allows faster training on consumer-grade resources while requiring less training data in order to achieve the same accuracy, thereby lowering the cost of training ASR models in other languages. Model introspection revealed that small adaptations to the network's weights were sufficient for good performance, especially for inner layers.
PDF: http://bib.sebastianstober.de/rl4nlp2017poster.pdf
The increase in complexity of Artificial Neural Nets (ANNs) results in difficulties in understanding what they have learned and how they accomplish their goal. As their complexity becomes closer to the one of the human brain, neuroscientific techniques could facilitate their analysis. This paper investigates an adaptation of the Event-Related Potential (ERP) technique for analyzing ANNs demonstrated for a speech recognizer. Our adaptation involves deriving a large number of recordings (trials) for the same word and averaging the resulting neuron activations. This allows for a systematic analysis of neuron activation to reveal their function in detecting specific letters. We compare those observations between an English and German speech recognizer.
PDF: http://bib.sebastianstober.de/ccn2017poster.pdf
Pytch ist ein Python-Programm zur simultanen Echtzeitanalyse mehrerer Audiokanäle und deren Visualisierung in Form von Wellenform- und Spektralrepräsentationen sowie der erkannten Tonhöhen bzw. der Intervalle zwischen den einzelnen Kanälen. Gesangsensembles wird damit ermöglicht, nicht nur, wie in gängigen "Tuner-Programmen", die absolut gesungenen Tonhöhen von Einzelstimmen sondern auch die jeweils gesungenen Intervalle für alle Stimmkombinationen in Echtzeit zu visualisieren und damit als visuelles Feedback für das Training zu verwenden. Zur Stimmtrennung der Einzelstimmen im Echtzeitbetrieb verwenden wir modifizierte Kehlkopfmikrofone, wie sie z. B. auch in der Radiokommunikation in Helikoptern eingesetzt werden. Die Ergebnisse der Tonhöhenanalysen sind speicherbar, sodass sich Pytch auch im Offline-Betrieb zur Analyse bereits aufgenommener Einzelspuren verwenden lässt.
Das automatische Alignment (Zuordnung) von Gesangsaufnahmen und den dazugehörigen Texten kann für Karaokesysteme und für die Indizierung von großen Datensätzen auf Basis des lyrischen Inhalts und spezifischer Schlagwörter eingesetzt werden. Bereits existierende Techniken aus der Spracherkennung können nicht ohne weiteres auf Gesang angewandt werden, da dort größere Tonumfänge, stärkere Variationen in Aussprache und Phonemlänge und Hintergrundmusik auftreten. Das vorgeschlagene System erlaubt das Alignment von Gesangsaufnahmen und vorgegebenen Texten mittels Dynamic Time Warping (DTW) zwischen Phonem-Posteriorgrammen, welche aus den Audiodaten extrahiert werden, und binären Phonem-Templates, welche aus den Texten generiert werden. Der Ansatz kann auch für die Suche von Texten (Retrieval) auf Basis von gesungenen Aufnahmen eingesetzt werden; dafür werden die Kosten des DTW-Alignments für alle möglichen Texte berechnet und der am besten passende Text ausgewählt.

Call for Papers

Um Einreichung von Beiträgen aus dem Umfeld der Audiosignal- und Sprachverarbeitung (aber nicht ausschließlich), zu den oben genannten Teilgebieten, wird gebeten.

Um den Austausch des wissenschaftlichen Nachwuchses besonders zu fördern, sind insbesondere auch Beiträge zu aktuellen Promotionsvorhaben oder aus herausragend abgeschlossenen Masterarbeiten erwünscht.

Für die Beiträge gelten folgende Rahmenbedingungen:

  • Beiträge sollten maximal 12 Seiten umfassen und in deutscher oder englischer Sprache verfasst sein.
  • Es sind die LNI-Formatvorlagen der GI zu verwenden. Bei der Verwendung von Latex kann auch folgende aktualisierte Version verwendet werden (aktuelle Latex-Version nötig): github.com/latextemplates/LNI.
  • Einreichungen erfolgen über das System der INFORMATIK 2017 (Direktlink).
  • Für die Teilnahme am Workshop ist eine Anmeldung zur INFORMATIK 2017 (die Gebühren richten sich nach Anzahl der Tage) erforderlich. Von mindestens einem Mitglied der Autoren wird erwartet, sich bis zum 01.07.2017 zu registrieren.

Programmkomitee

Jakob Abeßer, Fraunhofer-Institut für Digitale Medientechnologie IDMT
Andreas Arzt, Austrian Research Institute for Artificial Intelligence (OFAI)
Wolfgang Auhagen, Martin-Luther-Universität Halle-Wittenberg
Stefan Balke, International Audio Laboratories Erlangen
Stephan Baumann, Deutsches Forschungszentrum fuer Künstliche Intelligenz (DFKI), Kaiserslautern
Axel Berndt, University of Music Detmold
Estefanía Cano Cerón, Fraunhofer-Institut für Digitale Medientechnologie IDMT
Klaus Frieler, Hochschule für Musik Franz Liszt Weimar
Werner Goebl, University of Music and Performing Arts Vienna, Austria
Rainer Kleinertz, Universität des Saarlandes
Anna Kruspe, Fraunhofer-Institut für Digitale Medientechnologie IDMT
Frank Kurth, Fraunhofer-Institut für Kommunikation, Informationsverarbeitung und Ergonomie (FKIE), Wachtberg
Patricio López-Serrano, International Audio Laboratories Erlangen
Hanna Lukashevich, Fraunhofer-Institut für Digitale Medientechnologie IDMT
Daniel Müllensiefen, Goldsmiths, University of London
Michael Oehler, Hochschule Düsseldorf
Martin Pfleiderer, Hochschule für Musik Franz Liszt Weimar
Daniel Röwenstrunk , Musikwissenschafatliches Seminar Detmold/Paderborn
Björn Schuller, Universität Passau
Frank Scherbaum, Universität Potsdam
David Sears, Johannes Kepler University Linz
Kai Siedenburg, Universität Oldenburg
Sebastian Stober, Universität Potsdam
Igor Vatolkin, Technische Universität Dortmund
Anja Volk, Utrecht University
Stefan Weinzierl, TU Berlin
Christof Weiß, International Audio Laboratories Erlangen
Tillman Weyde, City University London
Frank Zalkow, International Audio Laboratories Erlangen