Lucene индексация больших объемов данных, хранящихся в БД Oracle

В статье будут рассмотрены особенности решения задачи полнотекстовой индексации больших объемов данных, хранящихся в БД, на примере связки Apache Lucene и СУБД Oracle.

Задача

Необходимо создать полнотекстовый индекс для сквозного поиска по данным, хранящимся в различных таблицах БД. В качестве поискового движка используется Apache Lucene, в качестве СУБД - Oracle. Совокупное количество записей в БД превышает несколько миллионов.

В процессе работы базы данных возможно возникновение различных ошибок и сбоев. Единственным способом обезопасить себя от потери данных и в кратчайшие сроки восстановить нормальную работу базы данных является регулярное создание резервной копии. Резервные копии лежат в основе всех процедур восстановления данных.

Данная серия статей преследует своей целью поделиться практическим опытом использования технологии Oracle Text.

Разбираемся с клиентскими кодировками в работе с базой данных Oracle.

Для правильного вывода кириллицы из базы данных на экран мы должны установить эти переменные так, чтобы они совпали:

Разбираемся с разрывом соединения с базой данных и настраиваем соединение с базой данных через пул.

Конфигурация

  • Liferay Portal 6.1
  • Apache Tomcat 7
  • Oracle 11g
  • Portlet - портлет, обеспечиваюший отображение данных из БД