Учёные из Санкт-Петербургского государственного университета (СПбГУ) обучили нейросеть распознавать речь людей, выражающих сильные эмоциональные переживания. Процесс обучения проводился на основе интервью с выжившими после Холокоста, предоставленными фондом мемориального комплекса истории Холокоста «Яд ва-Шем». Лингвисты из СПбГУ адаптировали нейросеть Wav2Vec 2.0, обучив её распознавать особенности речи людей, переживших трагические события.
Эксперты обработали более 26 часов разговоров, разметив социолингвистические характеристики, такие как пол, возраст, регион происхождения и родной язык респондентов — эти параметры существенно влияют на произношение и лексику, что важно для качественного распознавания речи автоматическими моделями.
Задача распознавания эмоциональной речи представляет собой важный аспект для разработки компьютерных систем, способных формировать субтитры и пересказывать основные идеи и мысли. В настоящий момент, если человек говорит с сильными эмоциями, машины сталкиваются с большой сложностью дешифровки. Разработка петербургских учёных сделает процесс обучения легче и быстрее.
Фото: yadvashem.org