Технологии распознавания эмоций уже давно вошли в разные сферы ― они помогают контролировать состояние водителей за рулем, предупреждать возникновение опасных для здоровья ситуаций или получить новый опыт в компьютерной игре. А как насчет творчества? Могут ли такие программы, например, помочь музыкантам при создании новых мелодий и импровизации? Да, и одним из таких проектов уже занимается выпускник бакалавриата факультета программной инженерии и компьютерной техники ИТМО Гарри Прошян. Подробнее о его разработке и других решениях для музыки рассказываем в материале ITMO.NEWS.
Работа со звуком сильно влияет на восприятие музыки, поэтому музыканты всегда придавали ей большое значение. Например, раньше композиторы, сочиняющие классическую музыку, оценивали, какой инструмент лучше передавал драматичность мелодии — скрипка или флейта, и выбирали именно его. Сейчас возможности для работы с тембром инструмента расширились. Музыканты и звукорежиссеры настраивают эквализацию, применяют эффекты и обрабатывают звук, чтобы характер звучания инструмента поддерживал композицию и помогал ей быть выразительнее.
Чтобы облегчить подбор и редактирование звучания, Гарри Прошян создал инструмент Face Music Control. Разработку он защитил в качестве ВКР на образовательной программе «Компьютерные технологии в дизайне» ИТМО. Приложение позволяет управлять звуком разных музыкальных инструментов с помощью эмоций прямо во время игры. В результате сервис выпускника автоматизирует процесс редактирования и делает звучание более близким к тому, что хотел выразить автор. По словам разработчика, при использовании Face Music Control инструмент будет как будто сопереживать музыканту, а не подчиняться командам человека.
В основе приложения лежит детектор лица, модуль предобработки, чтобы привести полученное изображение человека к формату входных данных нейронной сети, и нейронная сеть. Нейросеть умеет распознавать семь базовых состояний — злость, отвращение, счастье, грусть, страх, удивление и отсутствие эмоций. Для ее обучения использовался один из самых крупных и популярных датасетов FER2013, который содержит 35887 снимков и рисунков.
Работает Face Music Control следующим образом. Пока человек играет на музыкальном инструменте, сидя перед веб-камерой, его изображение передается детектору. Дальше он предобрабатывает его и распознает лицо. Затем нейронная сеть определяет эмоцию человека, преобразовывает результат анализа в сообщение MIDI-формата и отправляет его цифровой звуковой рабочей станции — программе для записи, редактирования и хранения цифрового звука. В результате в зависимости от эмоций изменяется и звук инструмента.
Причем музыкант может привязать любую эмоцию к любому параметру звучания. Например, в программе Ableton Live в режиме MIDI mapping нужно последовательно кликать по эмодзи в режиме настройки Face Music Control и параметрам звучания в Ableton Live. Также музыкант может использовать приложение для игры на разных инструментах. Для электрических музыкальных инструментов (например электрогитары, электроскрипки и других с разъемом TRS) потребуется внешняя звуковая карта, чтобы избежать задержки. Для MIDI-инструментов, например синтезатора, нужен переходник MIDI-USB, а для акустических инструментов — микрофон для снятия звука.
В будущем Гарри планирует работать в нескольких направлениях, чтобы улучшить приложение. Во-первых, упростить его использование — переписать программу на компилируемый язык. Сейчас перед началом работы в Face Music Control пользователю приходится устанавливать драйверы и интерпретатор Python и библиотеки, используемые в проекте. А в ближайшее время ему будет достаточно открыть файл с расширением exe. Во-вторых, разработчик хочет повысить точность нейронной сети и добавить возможность определения сразу нескольких эмоций, например удивления и радости. И третье направление — мультимодальность. С помощью нейроинтерфейсов и определения ритмов мозга можно будет точнее определить состояние человека и испытываемые им эмоции. Протестировать последние изменения в приложении смогут члены музыкального клуба ИТМО «Живой звук» уже в сентябре.
Похожим функционалом обладает программа FaceOSC, написанная на языке программирования С++. Она использует технологию распознавания лица для отслеживания его опорных точек и реагирует на несколько параметров: насколько широко открыт рот, правый и левый глаз, высоко поднята правая и левая бровь и сильно раздуты ноздри. В зависимости от результата изменяется и тембр инструмента.
Еще одна разработка, которая ориентируется на эмоции во время управления музыкой, построена на основе графического языка программирования vvvv и датчиков движения устройства Kinect. Они позволяют получать данные об опорных точках лица музыканта. Но, в отличие от предыдущих приложений, у этой программы не такой большой функционал — она может уловить только улыбку и разную степень открытия рта.
Компания Apple предлагает своим пользователям превратить смартфон или планшет в студию звукозаписи с помощью приложения GarageBand. А система распознавания лиц Face ID, по словам разработчиков, призвана упростить управление параметрами виртуальных и реальных клавишных и гитар. Для этого музыканту достаточно сесть напротив девайса и начать играть на инструменте, открывая и закрывая рот. Высота открытия влияет на тембр синтезатора или электрогитары: чем шире человек открывает рот, тем более высоким будет звук инструмента.
Приложение MIDI Mouth Controller также контролирует звуки музыкальных инструментов с помощью движений ртом. Но в отличие от GarageBand продукт компании Beat Bars не входит в состав цифровой звуковой рабочей станции. Он работает как отдельное мобильное приложение для Android и iOS, которое считывает изображение музыканта с камеры смартфона и передает его на компьютер в MIDI-формате.
Помимо этих приложений, есть также несколько программ, созданных независимыми разработчиками. Например, face-midi, написанная на языке программирования Python. У этой программы открытый исходный код, благодаря чему любой музыкант может дополнить ее нужными функциями. face-midi также считывает опорные точки лица и реагирует на открытие и закрытие рта человека, чтобы изменить звук.
Алёна Мамаева
Журналист