Документ взят из кэша поисковой машины. Адрес
оригинального документа
: http://sp.cs.msu.ru/seminar/2003/1210.html
Дата изменения: Wed Feb 11 22:28:57 2015 Дата индексирования: Sat Apr 9 23:55:02 2016 Кодировка: Windows-1251 |
Главная страница « Научно-исследовательский семинар « 2003 « |
||||||||||||
|
||||||||||||
|
Доклад посвящен изложению результатов диссертации автора по актуальной теме поиску информации. Одним из основных результатов работы автора является разработанный метод выделения семантической информации из неструктурированных текстов на естественном языке, использующий лингвистические базы данных и процедуры синтактико-семантического анализа. Предложено представление семантической информации в виде индекса текстового документа для хранения в базе знаний фреймовой структуры. Разработанный метод выделения семантической информации предлагается использовать в информационно-поисковых системах (ИПС) в дополнение к «штатным» методам индексирования. Суть метода заключается в проведении неполного синтаксического анализа предложений определенной структуры на этапе индексирования документа, в результате которого поисковый образ документа (который в координатных ИПС обычно содержит взвешенный лексический состав, а в концептуальных ИПС еще и перечисление тематик документа) обогащается раскрываемыми в тексте фактами. В отличие от традиционных методов индексирования, которые выявляют основную тематику документа и игнорируют (занижают) вес второстепенных тематик, предлагаемый метод позволяет выявить упоминаемые в тексте факты и предоставить их пользователю при поиске. Предлагаемый метод можно считать шагом к организации фактографического поиска в массиве неструктурированных текстов на естественном языке. Результаты применения метода в ограниченной предметной области показали его работоспособность и эффективность. Приглашаются аспиранты и стажеры программистских кафедр. |
|||||||||||
|