Повышение качества поиска в больших объёмах текстовых документов с использованием генетического алгоритма (Ирина Плешкова)

Короткая ссылка: 20150125C

Содержание

1 Аннотация
2 Видео
3 Слайды
4 Тезисы
5 Примечания и отзывы

Аннотация

«Повышение качества поиска в больших объёмах текстовых документов с использованием генетического алгоритма как способ поддержки научных исследований»
Докладчик: Ирина Плешкова

В докладе рассматривается проблема работы с большими объёмами текстовых документов. Существующие подходы к синтаксическому поиску имеют недостаточно высокое качество, а семантические неприменимы к большим объёмам данных.
В докладе описывается новый подход к эффективной реализации семантического поиска, применимый к большим объёмам документов, с использованием генетического алгоритма. Предлагаются эвристики, учитывающие традиционную структуру научной публикации и таким образом позволяющие улучшить качество поисковых результатов.

Видео

on youtube

Слайды

Тезисы

В мире, согласно исследованию IBM, каждый день уже в 2012 году появлялось 2.5 экзабайта данных. Считается, что закон Мура применим не только к вычислительным мощностям, но и к объёмам данных, т.е. можно ожидать, по крайней мере, удвоение объёмов данных каждые 2 года.

Согласно статистике IDC, 90% данных хранятся в неструктурированном, в том числе в текстовом виде. Когда данных много, в них сложно что-то найти.

А если человек не знает, какие конкретно слова используются в нужных ему документах, а знает только предметную область, то ему не подойдёт традиционный поиск по подстроке.

В частности, у некоторых компаний за время работы накапливается много документов в текстовом виде.

Это могут быть нормативные акты, контракты, инструкции, технические задания, заказы и т.д., которые не хранятся в информационной системе, даже если она внедрена.

В организациях, занимающихся научно-исследовательской деятельностью, например, НИИ, может быть своя электронная библиотека, состоящая как из публикаций, написанных работниками, так и научных материалов, которые были куплены для проведения исследований.

Интеллектуальный поиск по ним поможет сэкономить как время работников, поскольку в выдаче будут присутствовать только релевантные документы, так и средства в случае, если необходимая информация уже была в библиотеке.

Говоря о библиотеках вообще, можно заметить тенденцию к цифровому формату книг и журналов. Интеллектуальный поиск позволит реализовать нечто вроде рекомендаций по тематике, а не по конкретным словам, использующимся в тексте. Тот же интеллектуальный подход можно применить к новостным сайтам.

Все эти примеры сводятся к тому, что зачастую бывает полезен поиск по смыслу, а не по используемым в тексте словам. Предлагается новый подход к семантическому поиску по текстовым данным, и, конкретно, новый способ семантической индексации документов с помощью генетического алгоритма и онтологий.

Генетические алгоритмы быстры и достаточно точны при правильной настройке параметров, а также при использовании совместно с онтологиями они позволяют индексировать понятия, которых нет в тексте в явном виде.

На основе общей модели генетического алгоритма была построена модель индексации текстовых документов. В ней каждому понятию приписывается вес, вычисляемый на основе множества критериев. Правила вычисления веса задаются декларативно и определяются в процессе исследования. В частности, было выяснено, что для научных публикаций при вычислении веса понятий, помимо стандартных статистических характеристик, таких как, например, частота встречаемости слов, можно использовать данные о структуре текста, ввиду стандартизованности этой структуры.

Например, предлагается повышать вес понятий, встречающихся в аннотации либо в списке ключевых слов.

Разрабатываемая система семантического поиска работает с хранилищем данных, где содержатся документы и онтологии.

Индексация происходит в режиме оффлайн с помощью генетического алгоритма. Система поиска получает на вход запрос пользователя, производит поиск в реальном времени по уже построенному семантическому индексу и возвращает релевантные документы. Заметим, что эти документы могут не содержать ни одного слова из запроса, но, тем не менее, удовлетворять информационные потребности пользователя.

Основные критерии качества поисковой системы — скорость и качество поиска. Традиционные поисковые системы выполняют поиск быстро, но результаты могут быть неточны из-за того, что они не учитывать семантически связанные понятия и контекст. Системы семантического поиска обычно предоставляют более полные и точные результаты, но работают медленнее из-за того, что семантика учитывается в процессе поиска, а не индексации. В предлагаемом подходе с одной стороны, учитываются и связанные по смыслу понятия и контекст запроса за счёт использования онтологий и индексации с помощью генетического алгоритма, а с другой стороны, скорость поиска будет высокой, поскольку на этапе поиска будет лишь обращение к семантическому индексу, который построен в оффлайн режиме.

Работа выполнена при поддержке гранта фонда содействия развитию малых форм предприятий в научно-технической сфере «УМНИК».

Литература

Плешкова И.Ю. Разработка системы семантического поиска по текстовым документам // Материалы X Студенческого регионального конкурса научных проектов по программе УМНИК 27-28 ноября 2014 г. Пермь. 2014. pp. 35-38.

Примечания и отзывы

Plays:88 Comments:2