Корпус русской устной речи создаётся в СПбГУ как собрание звучащих тестов, снабженных
орфографической и акустико-фонетической транскрипцией.
Потребность в таком корпусе возникла прежде всего в связи с исследованиями процессов
восприятия речи носителями языка: собранный материал используется при тестировании
элементов функциональной модели восприятия речи, а главное, позволил оценить,
с каким именно сигналом приходится иметь дело носителю языка в условиях естественного
речевого общения.
В настоящее время корпус содержит звучащие тексты общим объёмом более 22-х тыс.
словоупотреблений, отражающие разные стили речи: профессиональное дикторское чтение,
чтение рядовыми носителями языка, монологическая спонтанная речь и детская речь.
При орфографическом аннотировании во всех текстах восстановлена в правах буква "ё".
В корпус включаются тексты с начала 40-х гг. XX века до настоящего времени.
На базе корпуса создан частотный словарь орфографических словоформ с указанием
всех встретившихся вариантов их акустической реализации объёмом более 12-и тыс.
словоформ. Архивированная версия словаря доступна для скачивания на странице "Наши ресурсы".
На данный момент существует несколько общедоступных корпусов русской устной речи: Мультимедийный
подкорпус Национального корпуса русского языка (http://ruscorpora.ru/new/search-murco.html),
Рассказы о сновидениях и другие корпуса звучащей речи (http://spokencorpora.ru/), Корпус спонтанной
русской речи, созданный в Лаборатории экспериментальной фонетики СПбГУ (http://speech.spbu.ru/results.php).
Отличительной особенностью нашего корпуса является то, что пользователю доступны не только акустический сигнал и
орфографическая расшифровка, но и сплошная акустико-фонетическая транскрипция.
В перспективе желательно иметь корпус с максимально возможной репрезентативностью.
Для достижения этой цели предполагается постоянно увеличивать
объем корпуса со сбалансированным стилевым и дикторским составом.
Корпус русской устной речи может служить пособием для исследователей, работающих
в области психолингвистики, прикладной лингвистики,сопоставительных фонетических исследований.
Корпус будет также ценным источником информации для создателей систем автоматического распознавания и синтеза речи.
|