Международный экономический форум 2012

Нурымбетов Р.А., Бердалиева Г.А., Тажибекова Г.Н.

Аспекты разработки модели специальных информационно - поисковых систем

Проблема поиска и сбора информации ‑ одна из важнейших проблем информационно - поисковых систем. В средние века, когда поиск информации был проблемой потому, что этой информации было мало, и требовались усилия только для того, чтобы найти хоть что-то по более или менее значительному интересующему вопросу. В 20-м столетии, с началом развития века информационных технологий, проблема поиска информации приобрела новый характер. Теперь она заключается не в том, что информации мало и поэтому ее трудно найти, а в том, что ее теперь наоборот становится все больше и больше, и от этого найти ответ на интересующий вопрос может оказаться тоже довольно сложной задачей.

Конец XX - начало XXI века, характеризуется огромными массивами постоянно растущей разнообразной информации, доступной и представляющей интерес для самых широких слоев социума.

Проблемам моделирования поисковых процессов в информационных системах посвящены труды Chen Hsinchun, Salton G., Rijsbergen C.J., Белоногов Г.Г., Гиляревского Р.С., Романенко А.Г., Попова И.И., Максимова Н.В.

Современные достижения информационных технологий ставят новые задачи в области развития возможностей информационных систем, поэтому дальнейшие исследования данного научного направления представляются целесообразными.

В данной статье рассматривается автоматизированная информационно-поисковая система. Это система, позволяющая осуществлять поисковые процедуры и связанные с ними процессы, в информационных массивах, из которых пользователю автоматически выдается нужная информация.

Терминологически "информационно-поисковая система" - представляет систему, предназначенную для поиска и хранения информации, пакет программного обеспечения, реализующий процессы создания, актуализации, хранения и поиска в информационных базах и банках данных.

Особенность работы пользователя в режиме "самообслуживания", в контексте задачи автоматизации совокупной деятельности, означает, что информационно-поисковая система должна предоставлять такие функции, как - структурирование информационной потребности;  лексическую адаптацию запроса; автоматизированный поиск и ручной отбор материалов; оценку, систематизацию и обработку результатов поиска; внешнего  представления  их содержания для собственного или внешнего использования на уровне как отдельного документа, так и информационных ресурсов в целом.

Предметом исследования является стратегия информационного поиска.

С точки зрения использования компьютерной техники "информационный поиск" - совокупность логических и технических операций, имеющих конечной целью нахождение документов, сведений о них, фактов, данных, релевантных запросу потребителя.

Как и любая программа, поисковая система оперирует со структурами данных и исполняет алгоритм. Есть четыре класса поисковых алгоритмов. Три алгоритма из четырех требуют «индексирования», предварительной обработки документов, при котором создаются вспомогательный файл «индекс», призванный упростить и ускорить сам поиск. Это алгоритмы инвертированных файлов, суффиксных деревьев, сигнатур.

В нашем случае предварительный этап индексирования отсутствует, а поиск происходит при помощи последовательного просмотра документов на соответствие поискового образа запроса. Такой поиск можно назвать прямым.

Несмотря на кажущуюся простоту, последние годы, прямой поиск интенсивно развивается. Было выдвинуто немалое число идей, сокращающих время поиска в разы. При этом надо учесть, что новые алгоритмы и их улучшенные варианты появляются постоянно.

Хотя прямой просмотр всех текстов - довольно медленное занятие, у прямых алгоритмов есть положительные черты. Например, неограниченные возможности по приближенному и нечеткому поиску. Ведь любое индексирование всегда сопряжено с упрощением и нормализацией терминов, а следовательно, с потерей информации. Прямой же поиск работает непосредственно по оригинальным документам безо всяких искажений.

Как мы знаем все файлы на диске хранятся в виде двоичного (бинарного) кода. Последовательность цифр 1 и 0 определяет содержимое файла. В одном случае эти цифры могут составлять простой текст, в результате чего мы видим обычные текстовые файлы. В другом - это последовательность байтов, которая несет самую разную информацию, например: аудио, видео, картинки или закодированный текст.

Данные в файлах (информационном ресурсе) представлены в «сыром» виде - как последовательность байтов. Для представления значения байтов используется шестнадцатиричная система счисления (как для НЕХ - редактора), выбор которой обусловлен следующими факторами:

- содержимым отдельного файла;

- содержимым оперативной памяти;

- содержимым виртуального адресного пространства процесса и т.д.

Поисковый аппарат для обработки больших объемов информации, предлагаемый нами, базируется на принципах, которые положены в основу разработки антивирусных программ – сканеров, когда подсчитываются CRC - суммы (контрольные суммы) для присутствующих на диске файлов / системных секторов. Эти CRC - суммы затем сохраняются в базе данных антивируса, как впрочем, и некоторая другая информация (длины файлов, даты их последней модификации и т.д.). Процесс сканирования - идентификации ведется аналогично методу сигнатур.

Метод сигнатур - представляет собой преобразование документа к поблочным таблицам хеш-значений его слов - "сигнатуре" и последовательному просмотру "сигнатур" во время поиска.

В качестве поисковых образов запроса предлагается набор ключевых слов.

Разработанная модель процесса одновременного поиска нескольких ключевых слов в документально - информационных системах, дает возможность провести уточняющий поиск и в результате получить более релевантные и пертинентные данные, обеспечивая полноту и точность.

Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов.

Для эффективного использования ресурсов вычислительной машины используется свойство многопоточности процесса, которое заключается в выполнении процесса несколькими потоками параллельно, то есть без предписанного порядка во времени. Сутью многопоточности - является квази многозадачность на уровне одного исполняемого процесса: все потоки выполняются в адресном пространстве процесса. Потоки процесса имеют не только общее адресное пространство, но и общие дескрипторы файлов.

Свойство многопоточности процесса обеспечивает быстрый поиск информации, сокращая время на выполнение поисковой операции во много раз.

     Суть алгоритма модели состоит в следующем.

1. Формируется словарь ключевых слов (в зависимости от поставленной задачи), который может оперативно корректироваться и пополняться.

2. Информационный ресурс (совокупность подготовленных для обработки файлов данных) фильтруется на наличие всех ключевых слов одновременно. Если в обрабатываемом файле встречается хотя бы одно ключевое слово, то он отправляется в формируемую базу данных. Если файл не содержит ни одного ключевого слова, то он исключается из дальнейшей обработки. Все отобранные файлы подвергаются повторной фильтрации на ключевые слова. Полученный в результате фильтраций массив, содержит полную характеристику файла: имя, директорию, размер и перечень найденных ключевых слов, с указанием  их частоты.

3. Процесс обработки делится на шесть одновременных потоков, т.е. одновременно обрабатывается шесть файлов.

4. При обработке файл делится на шестнадцать сегментов и затем ведется одновременный поиск ключевых слов в каждом сегменте.

5. Оригинальность модели состоит в способе обработки и сокращении объема обрабатываемой информации за счет первичной фильтрации.

Вывод результатов поиска осуществляется поэтапно. После проведения поиска формируется сообщение, содержащее текст запроса, дату поиска, имя базы данных, в которой проводился поиск, сведения о количестве найденных документов и гиперссылку для перехода на просмотр краткой формы описания документов. Это сообщение записывается в историю поиска, которая отражается на экране. После анализа результатов поиска в краткой форме и выбора условий вывода, на экран выводится выбранная форма документов.

      Таким образом, тенденции развития поисковых систем заключаются в постепенном расширении традиционных функций  и активном подключении к поисковым механизмам - аналитических возможностей, т.е. в переходе к документальным информационным системам следующего поколения  - интегральным информационно-аналитическим системам, которые сочетают функции создания базы данных, анализа ее лексического и документального содержания, синтеза и оптимизации лингвистических структур (словарей, рубрикаторов, тезаурусов), совместно с базой данных, образующих информационную модель предметной области.

Релевантность- устанавливаемое при информационном поиске соответствие содержания документа информационному запросу или поискового образа документа поисковому предписанию.

      Механизмы поиска- совокупность реализованных в системе моделей и алгоритмов процесса формирования выдачи документов в ответ на поисковый запрос.

Поисковый образ запроса- записанный на ИПЯ текст, выражающий смысловое содержание информационного запроса и содержащий указания, необходимые для наиболее эффективного осуществления информационного поиска.

Информационно-поисковый язык(ИПЯ) - искусственный язык, представляющий совокупность средств для описания формальной и содержательной структуры для поиска (путем индексирования) по запросу пользователя.

Информационная классификационная система- средство формализованного представления содержания документов, данных и информационных запросов посредством кодов или описаний классов логически упорядоченного множества понятий.

Дескрипторный информационно-поисковый язык- информационно-поисковый язык, предназначенный для координатного индексирования документов и информационных запросов посредством дескрипторов и/или ключевых слов.