Искусственный интеллект Google научился изолировать голоса в толпе

Технология позволит вывести на качественно новый уровень звук в видеочатах и слуховых аппаратах.

Разработчики Google создали систему глубокого обучения (deep learning), которая может выделять конкретные голоса, глядя на лица говорящих людей. Команда обучила свою модель нейронной сети распознавать отдельных людей среди нескольких говорящих, а затем создала виртуальные «стороны» (включая фоновый шум), чтобы обучить искусственный интеллект (ИИ) разделить несколько голосов на отдельные звуковые дорожки.

Результаты превзошли ожидания. Даже когда люди явно пытаются конкурировать друг с другом в ораторском искусстве, ИИ генерирует чистую звуковую дорожку для каждого, просто сосредоточившись на его лице. Это работает, даже когда человек частично закрывает лицо рукой или микрофоном.

Google изучает варианты интеграции функции в свои продукты. Технология идеально подходит для видеочатов, таких как Hangouts или Duo, чтобы помочь пользователю понять говорящего в переполненном помещении. Также открывает большие возможности для людей, использующих слуховые аппараты, которые могут быть связаны с видеокамерами, и помочь лучше слышать собеседника вне зависимости от шумового фона.