Корпус русской устной речи

Процесс восприятия речи носителем языка начинается с преобразования непрерывного акустического речевого сигнала во внутреннее субъективное представление в виде, предположительно, последовательности дискретных "символов", которые при функциональном моделировании естественного процесса в первом приближении могут быть представлены символами фонетической транскрипции. Все последующие операции, включающие сегментацию и идентификацию лексических единиц, производятся над этим дискретным описание с использованием информации, хранящейся в ментальном лексиконе слушателя.

При функциональном моделировании процессов восприятия речи естественным образом возникает необходимость иметь полное представление о том, что собой представляет тот речевой сигнал, с которым работает система восприятия речи, поскольку процедуры превичного преобразования происходят на подсознательном уровне, а осознается уже окончетельное (орфографическое) представление услышанного.

В размещенном на данном сайте Корпусе русской устной речи собраны результаты многолетних исследований звучащей речи в виде текстов с орфографической и акустико-фонетической аннотацией и соответствущим звуковым материалом. Из-за огромной трудоемкости процесса аннотирования, выполняемого экспертами вручную, в настоящее время мы располагаем сравнительно небольшим по объему материалом: около 22 тыс. словоупотреблений и, соответственно, словарем более 12 тыс. словоформ.

Корпус русской устной речи отражает употребление словоформ, грамматических конструкций и словосочетаний в русской речи, начиная с середины XX в. и до настоящего времени. В Корпус включены звучащие тексты разных стилей: чтение профессиональными дикторами, чтение рядовыми носителями языка, монологическая речь (с включением диалогов как последовательности минидиалогов) и детская речь.

Цели и задачи Корпуса:

служить источником фактического материала для функционального компьютерного моделирования речевой деятельности;
обеспечивать возможность проверки лингвистических гипотез на достаточно представительном материале;
выполнять функции справочного пособия для выяснения особенностей современного русского произношения, т.е. служить эффективным помощником для всех, работающих со словом (лингвисты, преподаватели русского языка, разработчики систем автоматического распознавания речи и др.).

Поиск в Корпусе русской устной речи обеспечивается специальной программой, которая дает возможность:

создавать конкордансы – контексты заданного типа и объема для любой языковой единицы, входящей в корпус;
при желании сохранять звуковые "цитаты", соответствующие каждому конкордансу.

На базе Корпуса создан (частотный) словарь орфографических вариантов словоформ русской речи с указанием всех встретившихся вариантов акустической реализации каждой словоформы. Словарь доступен для скачивания в архивированной форме на странице "Наши ресурсы".

E-mail

Home