Процесс восприятия речи
носителем языка начинается с преобразования непрерывного акустического речевого
сигнала во внутреннее субъективное представление в виде, предположительно,
последовательности дискретных "символов", которые при функциональном моделировании
естественного процесса в первом приближении могут быть представлены символами
фонетической транскрипции. Все последующие операции, включающие сегментацию
и идентификацию лексических единиц, производятся над этим дискретным описание
с использованием информации, хранящейся в ментальном лексиконе слушателя.
При функциональном моделировании процессов восприятия речи
естественным образом возникает необходимость иметь полное представление о том, что собой представляет
тот речевой сигнал, с которым работает система восприятия речи, поскольку процедуры превичного
преобразования происходят на подсознательном уровне, а осознается уже окончетельное
(орфографическое) представление услышанного.
В размещенном на данном сайте
Корпусе русской устной речи собраны результаты многолетних исследований звучащей речи
в виде текстов с орфографической и акустико-фонетической аннотацией и соответствущим
звуковым материалом. Из-за огромной трудоемкости процесса аннотирования, выполняемого
экспертами вручную, в настоящее время мы располагаем сравнительно небольшим по объему
материалом: около 22 тыс. словоупотреблений и, соответственно, словарем более 12 тыс.
словоформ.
Корпус русской устной речи отражает употребление словоформ,
грамматических конструкций и словосочетаний в русской речи,
начиная с середины XX в. и до настоящего времени. В Корпус включены
звучащие тексты разных стилей: чтение профессиональными дикторами,
чтение рядовыми носителями языка, монологическая речь (с включением
диалогов как последовательности минидиалогов) и детская речь.
Цели и задачи Корпуса:
- служить источником фактического материала
для функционального компьютерного моделирования речевой деятельности;
- обеспечивать возможность проверки лингвистических гипотез на
достаточно представительном материале;
- выполнять функции справочного пособия для выяснения
особенностей современного русского произношения, т.е. служить эффективным
помощником для всех, работающих со словом (лингвисты,
преподаватели русского языка, разработчики систем автоматического
распознавания речи и др.).
Поиск в Корпусе русской устной
речи обеспечивается специальной программой, которая дает возможность:
- создавать конкордансы – контексты заданного типа и объема для любой языковой
единицы, входящей в корпус;
- при желании сохранять звуковые "цитаты", соответствующие каждому
конкордансу.
На базе Корпуса создан
(частотный) словарь орфографических вариантов словоформ русской речи с указанием
всех встретившихся вариантов акустической реализации каждой словоформы. Словарь
доступен для скачивания в архивированной форме на странице "Наши ресурсы".
|