8.7.16. Словари в Manticore Search
Типы словарей
Wordforms
Словарь словоформ используется для нормализации входящих слов во время индексирования и поиска. По сути, с помощью этого словаря одни слова заменяются другими (например, слова «walks», «walked», «walking» могут быть приведены к нормальной форме «walk»). Также словарь может использоваться для реализации исключений из стемминга, т. к. он не применяется к словам из списка форм.
Файл словаря представляет собой простой текстовый файл в кодировке UTF-8. Каждая строка файла содержит пару слов — исходную словоформу (что заменить) и целевую словоформу (на что заменить), указанных через > или ⇒. Для комментариев используется символ #.
Пример содержимого файла словаря:
# comment
walks > walk
walked > walk
walking > walk
Stopwords
Словарь стоп-слов используется для игнорирования часто повторяющихся или малозначимых слов при индексировании и поиске. Стоп-слова не индексируются, однако влияют на позиции ключевых слов (например, если один документ содержит фразу «in office», а другой «in the office», то при поиске «in office» как точной фразы будет возвращён только первый документ, даже если «the» пропущено как стоп-слово во втором документе).
Файл словаря представляет собой простой текстовый файл в кодировке UTF-8. В файле указывается список слов, каждое слово с новой строки.
Пример содержимого файла словаря:
a
the
is
of
for
Загрузка
Загрузка словарей выполняется в разделе «Manticore Search» на вкладке «Источники». Для загрузки словаря нужно в блоке «Словари» нажать «Загрузить словарь», в форме выбрать тип словаря, указать его название, выбрать файл словаря и нажать «Добавить».
Загруженные словари выводятся списке. Там же их можно скачивать и удалять.
Подключение
Словари подключаются к таблицам на вкладке «Таблицы» следующими способами:
- В форме создания новой таблицы — на вкладке «Морфология» выбрать в полях «Словари терминов» и «Словари игнорирования».
- В форме редактирования структуры существующей таблицы — в блоке таблицы нажать «Структура», на вкладке «Морфология» выбрать в полях «Словари терминов» и «Словари игнорирования».
Подключённые словари выводятся внизу списка настроек таблицы. ⚠️ При создании таблицы Manticore Search копирует словарь в инстанс в каталог data и изменяет его имя, полностью обезличивая. Из-за этого средствами Manticore Search нельзя определить, какие именно словари подключены. Чтобы можно было это обойти, в начало файла каждого словаря добавляется комментарий с информацией о том, что это за словарь.