Российские ученые приблизились к созданию системы цифровой обработки речи в реальных звуковых условиях, например, при одновременном разговоре сразу нескольких людей. Ученые Санкт-Петербургского политехнического университета Петра Великого (СПбПУ), участника «Проекта 5-00», смоделировали процесс рецепторного кодирования звуков, путем имитации работы периферической части нервной системы человека, отвечающей за слух. Результаты данного исследования были опубликованы в научной статье .
Как пояснили в СПбПУ, нервная система обрабатывает информацию в форме электрических сигналов. Восприятие внешней среды обеспечивается периферическими отделами нервной системы – анализаторами. Они отвечают за преобразование внешних воздействий в форму, пригодную для интерпретации высшими отделами центральной нервной системы – в поток электрических импульсов. В результате, на основе этих принципов человек может без каких-либо значительных усилий распознать голос собеседника в сильно зашумленных условиях. При этом, как утверждают ученые, автоматизированные системы, созданные на данный момент, не представляют столь эффективного решения и требуют мощных вычислительных ресурсов.
Решение данной задачи ведется специалистами в рамках гранта РФФИ, выполняемых учеными кафедры «Измерительные информационные технологии» СПбПУ (№ 18-31-00304). В процессе его реализации исследователи разрабатывают методы обработки и анализа акустических сигналов на основе периферического кодирования. Ученые частично воспроизводят процессы, выполняемые нервной системой при обработке информации, и синтезируют их с модулем принятия решений, который определяет, что за сигнал был получен.
«Глобальная цель – приблизить возможности машины к способностям человека, достичь уровня машинного восприятия акустических сигналов в реальных условиях», ‒ отметил руководитель проекта, программист отдела вычислительных систем Суперкомпьютерного центра «Политехнический» Антон Яковенко.
По его словам, в настоящее время уже удалось смоделировать значительную выборку образцов нервной деятельности для гласных фонем и предложить подход, сочетающий самоорганизующиеся нейронные сети и теорию графов. Обработка данных производилась специальным алгоритмом, который осуществляет их структурный анализ для выявления «паттернов», описывающих каждую фонему. Как отмечают ученые, анализ реакции модели слухового нерва позволил идентифицировать гласные фонемы при значительном шумовом воздействии и превзошел по качеству наиболее распространенные на сегодняшний день методы параметризации акустических сигналов.
Методы, которые разрабатывают ученые СПбПУ в перспективе позволят создать нейрокомпьютерные интерфейсы нового поколения, а также обеспечить более качественное человеко-машинное взаимодействие. В связи с этим потенциал практического применения представляется значимым в разнообразных сферах деятельности: кохлеарная имплантация (хирургическое восстановление слуха), разделение звуковых источников, создание новых бионических методов распознавания голоса, речи и акустических событий.
«Реализуемые в рамках исследования алгоритмы обработки и анализа больших данных сами по себе являются универсальными и могут применяться для решения прикладных задач, не связанных с акустическими сигналами», – добавил Антон Яковенко.
Так, например, по его словам, один из методов был успешно применен в задаче обнаружения аномалий сетевого трафика.
Источник: spbstu .ru
Напишите комментарий