Корпус русской устной речи

Корпус русской устной речи создаётся в СПбГУ как собрание звучащих тестов, снабженных орфографической и акустико-фонетической транскрипцией. Потребность в таком корпусе возникла прежде всего в связи с исследованиями процессов восприятия речи носителями языка: собранный материал используется при тестировании элементов функциональной модели восприятия речи, а главное, позволил оценить, с каким именно сигналом приходится иметь дело носителю языка в условиях естественного речевого общения.

В настоящее время корпус содержит звучащие тексты общим объёмом более 22-х тыс. словоупотреблений, отражающие разные стили речи: профессиональное дикторское чтение, чтение рядовыми носителями языка, монологическая спонтанная речь и детская речь. При орфографическом аннотировании во всех текстах восстановлена в правах буква "ё". В корпус включаются тексты с начала 40-х гг. XX века до настоящего времени.

На базе корпуса создан частотный словарь орфографических словоформ с указанием всех встретившихся вариантов их акустической реализации объёмом более 12-и тыс. словоформ. Архивированная версия словаря доступна для скачивания на странице "Наши ресурсы".

На данный момент существует несколько общедоступных корпусов русской устной речи: Мультимедийный подкорпус Национального корпуса русского языка (http://ruscorpora.ru/new/search-murco.html), Рассказы о сновидениях и другие корпуса звучащей речи (http://spokencorpora.ru/), Корпус спонтанной русской речи, созданный в Лаборатории экспериментальной фонетики СПбГУ (http://speech.spbu.ru/results.php). Отличительной особенностью нашего корпуса является то, что пользователю доступны не только акустический сигнал и орфографическая расшифровка, но и сплошная акустико-фонетическая транскрипция.

В перспективе желательно иметь корпус с максимально возможной репрезентативностью. Для достижения этой цели предполагается постоянно увеличивать объем корпуса со сбалансированным стилевым и дикторским составом.

Корпус русской устной речи может служить пособием для исследователей, работающих в области психолингвистики, прикладной лингвистики,сопоставительных фонетических исследований. Корпус будет также ценным источником информации для создателей систем автоматического распознавания и синтеза речи.

E-mail

Home