Современные технологии распознавания речи в значительной степени ошибаются. Для описания объекта требуется большое количество аннотаций и транскрипций, чтобы помочь системе понять, на что ссылается пользователь. Для избежания сложности понимания между человеком и машиной учёные разработали систему машинного обучения.
Команда начала с подхода, при котором две нейронные сети обрабатывают одновременно изображение и звуковые спектрограммы. На основе машинного обучения оба направления учатся понимать друг друга, чтобы лучше идентифицировать объект на основе голоса. По словам учёные, это больше похоже на то, как взрослые объясняют ребёнку что-либо, указывая на объект пальцем и описывая его.
Существующая модель была сильно модифицирована. Такая нейросеть разделяет изображение на ячейки памяти, а речь на двухсекундные аудио-отрезки. После чего накладывает одно на другое. Таким образом ИИ обучается за счёт постоянных сопоставлений.
Источник