8.7.16. Словари в Manticore Search

Словарь словоформ используется для нормализации входящих слов во время индексирования и поиска. По сути, с помощью этого словаря одни слова заменяются другими (например, слова «walks», «walked», «walking» могут быть приведены к нормальной форме «walk»). Также словарь может использоваться для реализации исключений из стемминга, т. к. он не применяется к словам из списка форм.

Файл словаря представляет собой простой текстовый файл в кодировке UTF-8. Каждая строка файла содержит пару слов — исходную словоформу (что заменить) и целевую словоформу (на что заменить), указанных через > или . Для комментариев используется символ #.

Пример содержимого файла словаря:

# comment
walks > walk
walked > walk
walking > walk

Словарь стоп-слов используется для игнорирования часто повторяющихся или малозначимых слов при индексировании и поиске. Стоп-слова не индексируются, однако влияют на позиции ключевых слов (например, если один документ содержит фразу «in office», а другой «in the office», то при поиске «in office» как точной фразы будет возвращён только первый документ, даже если «the» пропущено как стоп-слово во втором документе).

Файл словаря представляет собой простой текстовый файл в кодировке UTF-8. В файле указывается список слов, каждое слово с новой строки.

Пример содержимого файла словаря:

a
the
is
of
for

Загрузка словарей выполняется в разделе «Manticore Search» на вкладке «Источники». Для загрузки словаря нужно в блоке «Словари» нажать «Загрузить словарь», в форме выбрать тип словаря, указать его название, выбрать файл словаря и нажать «Добавить».

Загруженные словари выводятся списке. Там же их можно скачивать и удалять.

Словари подключаются к таблицам на вкладке «Таблицы» следующими способами:

  • В форме создания новой таблицы — на вкладке «Морфология» выбрать в полях «Словари терминов» и «Словари игнорирования».
  • В форме редактирования структуры существующей таблицы — в блоке таблицы нажать «Структура», на вкладке «Морфология» выбрать в полях «Словари терминов» и «Словари игнорирования».

Подключённые словари выводятся внизу списка настроек таблицы. ⚠️ При создании таблицы Manticore Search копирует словарь в инстанс в каталог data и изменяет его имя, полностью обезличивая. Из-за этого средствами Manticore Search нельзя определить, какие именно словари подключены. Чтобы можно было это обойти, в начало файла каждого словаря добавляется комментарий с информацией о том, что это за словарь.

Содержание

    (1)