Корпус русской устной речи

Уважаемый пользователь!

В настоящее время Вы имеете возможность работать с корпусом звучащих текстов объемом более 30 тыс. словоупотреблений. Все тексты корпуса снабжены орфографической и акустико-фонетической транскрипцией, а также восстановлена в правах буква «ё».

По корпусу создан частотный словарь транскрибированных словоформ, насчитывающий более 12 тыс. единиц.

Аннотированный корпус:

частотный словарь орфографических словоформ с указанием всех вариантов их акустической реализации (файлы в формате CP1251, упорядоченные по типам текстов и количеству вариантов акустической реализации каждой лексической единицы, собраны в доступный для скачивания архивный файл slovari.rar);
создание конкорданса по текстам корпуса с возможностью сохранения соответствующих звуковых «цитат».

Пользователю предоставляется возможность создания конкорданса, т.е. набора примеров-цитат из текстов корпуса, содержащих заданное в запросе слово. На каждое слово будет выдана строка, содержащая это слово, а также две предшествующие и две следующие строки. С конкордансом пользователь имеет возможность работать либо непосредственно с сайта, либо сохранить страницу выдачи для последующего анализа офф-лайн (весь конкорданс выдается на одной странице).

Если при запросе установить флажок ««Е» и «Ё» эквивалентны», то будут выданы все имеющиеся варианты, как с «е», так и с «ё». Например, при запросе «села» и установленном флажке в ответ пользователь получит два варианта: «села» и «сёла». В этих условия такие же ответы будут выданы и при запросе «сёла».

Поскольку тексты, включенные в корпус, и составленнный на их основе частотный словарь содержат составные слова (см. об этом в разделе "Транскрипция"), предусмотрена возможность поиска составных слов, содержащих слово, заданное в запросе. Для этого следует задействовать опцию «искать и в составных словах». Теперь при запросе, скажем, слова «другом» в ответах пользователь найдет «другом» и множество составных слов типа «друг=за=другом», «друг=с=другом» и т.д.

Различается работа с нижним-верхним регистром: если запрос задан только в нижнем регистре, программа работает в режиме игнорирования регистра; если слово запроса начинается в верхнем регистре, выдаются только реализации запрошенного слова.

E-mail

Home