|
Труды СПИИРАН, 2013, выпуск 24, страницы 332–348
(Mi trspy571)
|
|
|
|
Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу
И. С. Кипяткова Санкт-Петербургский институт информатики и автоматизации РАН
Аннотация:
Создание модели языка является одним из этапов обучения системы распознавания слитной речи. В статье описаны алгоритм и разработанные программные средства для создания синтаксическо-статистической модели русского языка по текстовому корпусу. Основными этапами в работе алгоритма являются предварительная обработка текстового материала, создание статистической n-граммной модели языка, дополнение статистической модели n-граммами, полученными в результате синтаксического анализа. Синтаксический анализ позволяет увеличить количество создаваемых в результате обработки текста различных биграмм и тем самым повысить качество модели языка за счет выявления грамматически связанных пар слов. Приводятся результаты тестирования созданных с помощью программного модуля моделей языка по показателям информационной энтропии, коэффициента неопределенности, относительного количества внесловарных слов и совпадений n-грамм.
Ключевые слова:
автоматическое распознавание речи, статистическая модель языка, синтаксический анализ.
Поступила в редакцию: 01.02.2013
Образец цитирования:
И. С. Кипяткова, “Программно-алгоритмическое обеспечение создания синтаксическо-статистической модели русского языка по текстовому корпусу”, Тр. СПИИРАН, 24 (2013), 332–348
Образцы ссылок на эту страницу:
https://www.mathnet.ru/rus/trspy571 https://www.mathnet.ru/rus/trspy/v24/p332
|
Статистика просмотров: |
Страница аннотации: | 257 | PDF полного текста: | 120 | Список литературы: | 46 | Первая страница: | 1 |
|