Text
Page: 1
MySQL・PostgreSQLだけで作る
高速でリッチな全文検索システム
須藤功平
株式会社クリアコード
db tech showcase Tokyo 2017
2017-09-07
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 2
全文検索システム
対象
大量のテキスト
例:Wikiのデータ
例:オフィス文書のテキスト
例:商品説明・口コミ
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 3
全文検索システム
目的
必要な情報を
必要なときに
活用
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 4
必要な情報を活用
×
探している情報が見つからない
○
探している情報が見つかる
◎
意識していなかったけど
実は欲しかった情報も見つかる!
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 5
必要なときに活用
×
なかなか見つからない
○
すぐに見つかる
◎
すでに見つかっていた
例:レコメンデーション
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 6
実装方法
選択肢
全文検索サーバーを使う
RDBMSを使う
MySQL・MariaDB・PostgreSQLを使う
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 7
全文検索サーバー案
メリット
必要な機能が揃っている
+αの機能もある
速い
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 8
全文検索サーバー案
デメリット
実装コスト大
それぞれ独自の使い方だから
マスターデータの同期はどうする?
メンテナンスコスト大
それぞれ独自の仕組みだから
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 9
RDBMS案
メリット
実装コスト小
新しく覚えることが少ない
データの一元管理
メンテナンスコスト小
既存の運用ノウハウを使える
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 10
RDBMS案
デメリット
組込機能では機能不足
SQLの表現力不足
1クエリーで実現できない機能アリ
↑は性能を出しにくい
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 11
実現方法
第3の選択肢
RDBMS経由(SQL)で
全文検索エンジンを使う
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 12
メリット
高速で豊富な機能
実装コスト小
メンテナンスコスト小
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 13
デメリット
RDBMSに拡張機能が必要
DBaaSで使えない
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 14
オススメの選択肢
全文検索の知識ナシ
まだ単純な機能で十分
データ少:RDBMS単独でLIKE
(数十万件とか)
データ中:RDBMS組込全文検索機能
いまどきの全文検索機能が必要
RDBMS経由で全文検索エンジン
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 15
オススメの選択肢
全文検索の知識アリ
カリカリにチューニングしたい
RDBMSと全文検索サーバーを併用
それ以外
RDBMS経由で全文検索エンジン
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 16
説明する選択肢
RDBMS経由で
全文検索
エンジン
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 17
全文検索エンジン
Groonga(ぐるんが)
組込可能な全文検索エンジン
MySQL・MariaDBに組込→Mroonga
PostgreSQLに組込→PGoonga
全文検索サーバーとして
単独でも使用可能
RDBMSと全文検索サーバーを併用
もできる
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 18
Groongaの得意なこと
データの追加・更新
新鮮な情報をすぐに検索可能に!
更新中も検索性能を落とさない!
日本語
開発者が日本人
便利機能が組み込み
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 19
Mroonga(むるんが)
MySQLのストレージエンジン
InnoDB・MyISAMなどと同じレイヤー
使用方法
CREATE TABLE (...)
ENGINE=Mroonga
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 20
MySQL組込の全文検索機能
MySQL:5.7から使える
InnoDB+日本語対応パーサー
MariaDB:10.0.15から使える
Mroongaをバンドル
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 21
全文検索機能:基本
AND/OR/
NOT対応
ハイライ
ト
周辺テキ
スト表示
InnoDB
○ Mroonga
○
× ○
× ○
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 22
ハイライト
周辺テキスト表示
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 23
全文検索機能:高度な機能
入力補完
類似文書
検索
クエリー
展開
InnoDB
×
○ Mroonga
○
○
○ ○
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 24
全文検索性能の違い
計測データ
対象:Wikipedia日本語版
レコード数:約185万件
データサイズ:約7GB
メモリー4GB・SSD250GB (ConoHa)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 25
検索性能1
キーワード:テレビアニメ
(ヒット数:約2万3千件)
InnoDB ngram
InnoDB MeCab
Mroonga:1
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
3m2s
6m20s
0.11s
Powered by Rabbit 2.2.1
Page: 26
検索性能2
キーワード:データベース
(ヒット数:約1万7千件)
InnoDB ngram
InnoDB MeCab:1
Mroonga:2
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
36s
0.03s
0.09s
Powered by Rabbit 2.2.1
Page: 27
検索性能3
キーワード:PostgreSQL OR MySQL
(ヒット数:約400件)
InnoDB ngram
N/A(Error)
InnoDB MeCab:1
0.005s
Mroonga:2
0.028s
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 28
検索性能4
キーワード:日本
(ヒット数:約63万件)
InnoDB ngram
InnoDB MeCab
Mroonga:1
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
1.3s
1.3s
0.21s
Powered by Rabbit 2.2.1
Page: 29
検索性能まとめ
Mroonga:安定して速い
SQLで使えて機能豊富で速い!
InnoDB FTS MeCab
ハマれば速い
InnoDB FTS ngram
安定して遅い
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 30
PGroonga
(ぴーじーるんが)
PostgreSQLのインデックス
B-tree・GINなどと同じレイヤー
使用方法
CREATE INDEX ...
USING PGroonga ...
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 31
PostgreSQLの全文検索機能
textsearch(組込)
言語依存
日本語対応はメンテされていない
pg_trgm(同梱)
言語非依存:が、ほぼ日本語非対応
pg_bigm(サードパーティー)
言語非依存:日本語対応
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 32
全文検索機能:基本
AND/OR/
NOT対応
ハイライ
ト
周辺テキ
スト表示
pg_bigm
△※1 PGroonga
○
△※2 ○
△※2 ○
※1 SQLでAND/OR/NOTを組み合わせると実現可能
※2 PostgreSQLが提供する関数で実現可能。ただし、結果をHTML
で出力する用途では使えない。
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 33
全文検索機能:高度な機能
入力補完
類似文書
検索
クエリー
展開
pg_bigm
×
△※ PGroonga
○
○
× ○
※ 類似文書検索と言うよりはあいまい検索。
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 34
全文検索性能の違い
計測データ
対象:Wikipedia日本語版
レコード数:約90万件
データサイズ:約6GB
メモリー32GB・SSD500GB
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 35
検索性能1
キーワード:テレビアニメ
(ヒット数:約2万件)
pg_bigm
PGroonga:1
Groonga(参考)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
2.800s
0.065s
0.038s
Powered by Rabbit 2.2.1
Page: 36
検索性能2
キーワード:データベース
(ヒット数:約1万5千件)
pg_bigm
PGroonga:1
Groonga(参考)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
1.300s
0.049s
0.031s
Powered by Rabbit 2.2.1
Page: 37
検索性能3
キーワード:PostgreSQL OR MySQL
(ヒット数:約300件)
pg_bigm
PGroonga:1
Groonga(参考)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
0.049s
0.002s
0.001s
Powered by Rabbit 2.2.1
Page: 38
検索性能4
キーワード:日本
(ヒット数:約53万件)
pg_bigm:1
PGroonga
Groonga(参考)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
0.479s
0.563s
0.059s
Powered by Rabbit 2.2.1
Page: 39
検索性能まとめ
PGroonga:安定して速い
SQLで使えて機能豊富で速い!
pg_bigm
ヒット数が少なければ速い
キーワードが2文字以下なら速い
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 40
全文検索システムの実装
全文検索
キーワードハイライト
周辺テキスト表示
入力補完
同義語展開
関連文書の表示
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 41
全文検索
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 42
テーブル定義:Mroonga
CREATE TABLE entries (
title text,
content text,
-- 全文検索用インデックス
-- よくわからないならデフォルトのまま使うこと!
FULLTEXT INDEX (title, content)
) ENGINE=Mroonga
DEFAULT CHARSET=utf8mb4;
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 43
データ挿入:Mroonga
-- 普通に挿入するだけでよい
INSERT INTO entries
VALUES ('タイトル',
'高速に全文検索したいですね!');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 44
全文検索:Mroonga
SELECT title FROM entries
WHERE -- MATCH AGAINSTで全文検索
MATCH (title, content)
-- デフォルトORがMySQLの仕様
-- 「検索」または「高速」を含むとマッチ
AGAINST ('検索 高速'
IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 45
AND全文検索:Mroonga
MATCH (title, content)
-- 各キーワードの前に「+」をつけるとAND
-- 「検索」かつ「高速」を含むとマッチ
AGAINST ('+検索 +高速'
IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 46
使いやすいAND全文検索
Mroonga
MATCH (title, content)
-- 最初に「*D+」をつけるとデフォルトAND
-- Mroonga独自機能
-- 「検索」かつ「高速」を含むとマッチ
AGAINST ('*D+ 検索 高速'
IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 47
スコアー:Mroonga
SELECT
title,
-- ここのMATCH AGAINSTはスコアーを返す
MATCH (title, content)
AGAINST ('*D+ 検索 高速'
IN BOOLEAN MODE) AS score
FROM entries
WHERE -- ...
-- スコアーが高い順にソート
ORDER BY score DESC LIMIT 10;
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 48
テーブル定義:PGroonga
CREATE TABLE entries (
-- プライマリーキーを用意する
-- スコアーでソートするために必要
id integer PRIMARY KEY,
title text,
content text
);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 49
インデックス定義
PGroonga
-- 全文検索用インデックス
-- よくわからないなら
-- デフォルトのまま使うこと!
CREATE INDEX entries_full_text_search
ON entries
--「USING PGroonga」=「PGroongaを使う」
-- スコアーを使うために主キーを入れること!
USING PGroonga (id, title, content);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 50
データ挿入:PGroonga
-- 普通に挿入するだけでよい
INSERT INTO entries
VALUES (1,
'Groongaで高速全文検索!',
'高速に全文検索したいですね!');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 51
全文検索:PGroonga
SELECT title FROM entries
WHERE
-- &@~で全文検索
-- 「検索」と「高速」をAND検索
title &@~ '検索 高速' OR
content &@~ '検索 高速';
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 52
全文検索:LIKE
PGroonga
SELECT title FROM entries
WHERE
-- LIKEでもインデックスが効く
--=アプリを書き換えずに高速化可能
-- ただし&@~より性能が落ちる
title LIKE '%検索%' OR
content LIKE '%検索%';
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 53
スコアー:PGroonga
SELECT
title,
-- pgroonga_score(テーブル名)で
-- スコアーを取得
pgroonga_score(entries) AS score
FROM entries
WHERE -- ...
-- スコアーが高い順にソート
ORDER BY score DESC LIMIT 10;
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 54
ハイライト
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 55
ハイライト:Mroonga
SELECT mroonga_highlight_html(
title, '*D+ 検索 高速' AS query)
-- クエリーからハイライト対象のキーワードを抽出
FROM entries
WHERE
MATCH (title, content)
AGAINST ('*D+ 検索 高速' IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 56
ハイライト結果例
<Groonga>で高速全文検索!
↓
<Groonga>で ← タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索</span>!
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 57
ハイライト:PGroonga
SELECT
pgroonga_highlight_html(
title,
-- クエリーから対象キーワードを抽出
pgroonga_query_extract_keywords('検索 高速'))
FROM entries
WHERE title &@~ '検索 高速' OR
content &@~ '検索 高速';
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 58
ハイライト結果例
<Groonga>で高速全文検索!
↓
<Groonga>で ← タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索</span>!
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 59
周辺テキスト
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 60
周辺テキスト:Mroonga
SELECT mroonga_snippet_html(
content, '*D+ 検索 高速' AS query)
-- クエリーから対象のキーワードを抽出
FROM entries
WHERE
MATCH (title, content)
AGAINST ('*D+ 検索 高速' IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 61
周辺テキスト結果例
...<Groonga>で高速全文検索!...
↓
<div class="snippet"> ←1つ目
ga>で ←タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索/span>!
</div>
<div class="snippet">...</div> ←2つ目
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 62
周辺テキスト:PGroonga
SELECT
pgroonga_snippet_html(
content,
-- クエリーから対象キーワードを抽出
pgroonga_query_extract_keywords('検索 高速'))
FROM entries
WHERE title &@~ '検索 高速' OR
content &@~ '検索 高速';
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 63
周辺テキスト結果例
...<Groonga>で高速全文検索!...
↓
ARRAY[
↓ 1つ目
'ga>で ←タグをエスケープ
<span class="keyword">高速</span>
全文 ↑↓キーワードはclass付け
<span class="keyword">検索/span>!',
'...' ← 2つ目
]
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 64
入力補完
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 65
入力補完
実装方法
以下の検索のOR
ヨミガナでの前方一致検索
緩い全文検索
表示文字列でソートして提示
https://pgroonga.github.io/ja/how-to/auto-complete.html
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 66
入力補完:Mroonga
テーブル定義:補完候補
CREATE TABLE terms (
term varchar(256),
-- 補完候補
reading varchar(256),
-- ヨミガナ
PRIMARY KEY (term, reading),
FULLTEXT INDEX (term)
-- 候補全文検索用
-- 緩い全文検索用トークナイザー
COMMENT 'tokenizer "TokenBigramSplitSymbolAlpha"',
FULLTEXT INDEX (reading) -- ヨミガナ前方一致用
COMMENT 'normalizer "NormalizerAuto",
tokenizer "off"' -- トークナイザー不要
) ENGINE=Mroonga DEFAULT CHARSET=utf8mb4;
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 67
入力補完:Mroonga
データ例
INSERT INTO terms VALUES (
'牛乳', -- 補完候補
'ギュウニュウ' --ヨミガナはカタカナで指定
);
INSERT INTO terms VALUES (
'牛乳',
'ミルク' -- 「ミルク」でも補完できるように
);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 68
入力補完:Mroonga
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 69
入力補完:Mroonga
検索方法
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape(${入力} AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape(${入力})))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 70
入力補完:Mroonga
検索例:漢字1
-- ユーザーが「牛」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('牛' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索(ヒット)
AGAINST (CONCAT('*D+ ', mroonga_escape('牛')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 71
入力補完:Mroonga
検索例:漢字2
-- ユーザーが「乳」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('乳' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索(ヒット)
AGAINST (CONCAT('*D+ ', mroonga_escape('乳')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 72
入力補完
検索例:カタカナ
-- ユーザーが「ギュウ」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('ギュウ' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('ギュウ')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 73
入力補完
検索例:ひらがな
-- ユーザーが「ぎゅう」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('ぎゅう' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('ぎゅう')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 74
入力補完:Mroonga
検索例:ローマ字
-- ユーザーが「gyu」を入力した場合
SELECT DISTINCT(term) FROM terms
WHERE MATCH (reading) -- ヨミガナ前方一致検索(ヒット)
AGAINST (CONCAT('*SS prefix_rk_search(reading, ',
mroonga_escape('gyu' AS script),
')') IN BOOLEAN MODE) OR
MATCH (term) -- 候補を緩く全文検索
AGAINST (CONCAT('*D+ ', mroonga_escape('gyu')))
IN BOOLEAN MODE)
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 75
入力補完:PGroonga
テーブル定義
CREATE TABLE terms (
-- 補完候補
term text,
-- この候補のヨミガナ(N個可)
readings text[]
);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 76
入力補完:PGroonga
データ例
INSERT INTO terms VALUES (
'牛乳', -- 補完候補
ARRAY[
-- ヨミガナはカタカナで指定する
'ギュウニュウ',
-- 「ミルク」でも補完できるようになる
'ミルク'
]
);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 77
入力補完:PGroonga
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 78
入力補完:PGroonga
前方一致用インデックス
CREATE INDEX prefix_search ON terms
USING PGroonga
-- ...text_array_term_search...
(readings pgroonga_text_array_term_search_ops_v2);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 79
入力補完:PGroonga
緩い全文検索用
CREATE INDEX loose_search ON terms
USING PGroonga (term)
-- 緩い全文検索用トークナイザー
WITH (tokenizer='TokenBigramSplitSymbolAlphaDigit');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 80
入力補完:PGroonga
検索方法
SELECT term FROM terms
-- ヨミガナで前方一致検索
WHERE readings &^~ '${入力}' OR
-- 緩い全文検索
term &@ '${入力}'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 81
入力補完:PGroonga
検索例:漢字1
-- ユーザーが「牛」を入力した場合
SELECT term FROM terms
-- ヨミガナで前方一致検索
WHERE readings &^~ '牛' OR
-- 緩い全文検索(ヒット)
term &@ '牛'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 82
入力補完:PGroonga
検索例:漢字2
-- ユーザーが「乳」を入力した場合
SELECT term FROM terms
-- ヨミガナで前方一致検索
WHERE readings &^~ '乳' OR
-- 緩い全文検索(ヒット)
term &@ '乳'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 83
入力補完:PGroonga
検索例:カタカナ
-- ユーザーが「ギュウ」を入力した場合
SELECT term FROM terms
-- ヨミガナで前方一致検索(ヒット)
WHERE readings &^~ 'ギュウ' OR
-- 緩い全文検索
term &@ 'ギュウ'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 84
入力補完:PGroonga
検索例:ひらがな
-- ユーザーが「ぎゅう」を入力した場合
SELECT term FROM terms
-- ヨミガナで前方一致検索(ヒット)
WHERE readings &^~ 'ぎゅう' OR
-- 緩い全文検索
term &@ 'ぎゅう'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 85
入力補完:PGroonga
検索例:ローマ字
-- ユーザーが「gyu」を入力した場合
SELECT term FROM terms
-- ヨミガナで前方一致検索(ヒット)
WHERE readings &^~ 'gyu' OR
-- 緩い全文検索
term &@ 'gyu'
ORDER BY term LIMIT 10; -- ソート
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 86
同義語展開
同義語
同じ意味だが表記が異なる語
例:「刺身」と「お造り」
どの表記でもヒットして欲しい
同義語展開→同義語すべてでOR検索
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 87
同義語展開
実装方法
同義語管理テーブルを作成
クエリー内の同義語を展開
展開後のクエリーで検索
https://pgroonga.github.io/ja/reference/functions/
pgroonga-query-expand.html
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 88
同義語展開:Mroonga
テーブル定義
CREATE TABLE synonyms (
term varchar(255),
-- 展開対象の語
synonym varchar(255), -- 同義語
INDEX (term)
-- 高速化と精度向上
COMMENT 'normalizer "NormalizerAuto"'
) ENGINE=Mroonga DEFAULT CHARSET=utf8mb4;
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 89
同義語展開
データ例
INSERT INTO synonyms
-- 「刺身」を「刺身 OR お造り」に展開
VALUES ('刺身', '刺身'),
('刺身', 'お造り'),
-- 「お造り」を「お造り OR 刺身」に展開
('お造り', 'お造り'),
('お造り', '刺身');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 90
同義語展開
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 91
同義語展開:Mroonga
確認方法
SELECT mroonga_query_expand(
'synonyms',
-- テーブル名
'term',
-- 展開対象のカラム名
'synonym',
-- 対応する同義語のカラム名
'居酒屋 刺身' -- クエリー
);
-- '居酒屋 ((刺身) OR (お造り))'
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 92
同義語展開:Mroonga
検索方法
SELECT title FROM entries
WHERE
MATCH (title)
-- '*D+ 居酒屋 OR ((刺身) OR (お造り))'になる
AGAINST (mroonga_query_expand('synonyms',
'term',
'synonym',
'*D+ 居酒屋 刺身')
IN BOOLEAN MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 93
同義語展開:PGroonga
テーブル定義
CREATE TABLE synonyms (
-- 展開対象の語
term text,
-- 同義語のリスト
-- term自身も含める
-- 含めない場合はtermが検索禁止語になる
terms text[]
);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 94
同義語展開:PGroonga
データ例
INSERT INTO synonyms
VALUES ('刺身', -- 「刺身」を展開
ARRAY['刺身', 'お造り']),
('お造り', -- 「お造り」を展開
ARRAY['お造り', '刺身']);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 95
同義語展開:PGroonga
データ管理のポイント
普通のテーブルなので管理が楽
追加・削除・更新が楽
ダンプ・リストアもいつも通り
レプリケーションもいつも通り
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 96
同義語展開:PGroonga
インデックス定義
CREATE INDEX synonym_search ON synonyms
USING PGroonga
-- ...text_term_search...
-- termで完全一致検索をするため
(term pgroonga_text_term_search_ops_v2);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 97
同義語展開:PGroonga
確認方法
SELECT pgroonga_query_expand(
'synonyms', -- テーブル名
'term', -- 展開対象のカラム名
'terms', -- 対応する同義語配列のカラム名
'刺身' -- クエリー
);
-- '((刺身) OR (お造り))'
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 98
同義語展開:PGroonga
検索方法
SELECT title FROM entries
WHERE
-- title &@~ '居酒屋 ((刺身) OR (お造り))'になる
title &@~
pgroonga_query_expand('synonyms',
'term',
'terms',
'居酒屋 刺身');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 99
類似文書検索
検索クエリーは文書そのもの
キーワードではない
関連エントリーの提示に使える
メタデータがあるなら組み合わせる
→精度向上
メタデータ:タグ・行動履歴など
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 100
類似文書検索:Mroonga
インデックス定義
CREATE TABLE entries (
-- ...
FULLTEXT INDEX (content)
-- TokenMecabを使わないと精度がでない
-- 必要なときだけカスタマイズ!
COMMENT 'tokenizer "TokenMecab"'
) -- ...
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 101
類似文書検索:Mroonga
検索方法
SELECT title
FROM entries
WHERE
MATCH (content)
-- ↓ 既存文書の内容をそのまま指定
AGAINST ('...Groongaで高速全文検索!...'
IN NATURAL LANGUAGE MODE);
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 102
類似文書検索:Mroonga
結果例
クエリー:
...Groongaで高速全文検索!...
ヒット例:
...Mroongaで高速全文検索!...
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 103
照合順序:COLLATION
文字の並び順の規則
文字が同一かどうかの判定にも利用
適切な日本語規則なし
いわゆる
=
問題
MySQL 8では適切な日本語規則が追加される
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 104
Mroongaの照合順序
MySQL互換のもの
MySQL互換を微調整したもの
日本語でもいい感じ
Groonga提供のもの
日本語でもいい感じ
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 105
微調整した照合順序
FULLTEXT INDEX (content)
COMMENT 'normalizer "${ノーマライザー名}"'
ノーマライザー名:
NormalizerMySQLUnicode520CI
ExceptKanaCI
KanaWithVoicedSoundMark
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 106
類似文書検索:PGroonga
インデックス定義
CREATE INDEX entries_similar_search
ON entries
USING PGroonga (id, content)
-- TokenMecabを使うと精度向上
WITH (tokenizer='TokenMecab');
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 107
類似文書検索:PGroonga
検索方法
SELECT title
FROM entries
WHERE
-- &@*で類似文書検索
-- 既存文書の内容をそのまま指定
content &@*
'...Groongaで高速全文検索!...';
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 108
類似文書検索:PGroonga
結果例
クエリー:
...Groongaで高速全文検索!...
ヒット例:
...PGroongaで高速全文検索!...
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 109
全文検索システムの実装
まとめ
全文検索
キーワードハイライト
周辺テキスト表示
入力補完・同義語展開
関連文書の表示
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 110
全文検索システムの実装
次の一歩
構造化データ対応
オフィス文書・HTMLなど
対応に必要な処理
テキスト抽出
メタデータ抽出 (例:タイトル・更新日時)
スクリーンショット作成 (なおよい)
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 111
抽出ツール
Apache Tika
Apache Luceneのサブプロジェクト
対応フォーマット数が多い
ChupaText
Groongaのサブプロジェクト
スクリーンショット作成対応
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 112
ChupaText
対応フォーマット
Word/Excel/PowerPoint
ODT/ODS/ODP (OpenDocument)
PDF/HTML/XML/CSV/...
インターフェイス
HTTPとコマンドライン
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 113
ChupaText:インストール
DockerかVagrantを使うのが楽
https://github.com/ranguba/chupa-text-docker
https://github.com/ranguba/chupa-text-vagrant
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 114
ChupaText:Docker
% GITHUB=https://github.com
% git clone \
${GITHUB}/ranguba/chupa-text-docker.git
% cd chupa-text-docker
% docker-compose up --build
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 115
ChupaText:使い方
% curl \
--form data=@XXX.pdf \
http://localhost:20080/extraction.json
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 116
ChupaText:結果例
{
"mime-type": "application/pdf", # 元データのMIMEタイプ
"size": 147159, # メタデータ
...,
"texts": [ # 抽出されたテキスト(N個)
{
"mime-type": "text/plain", # 抽出後のMIMEタイプ
...,
"creator": "Adobe Illustrator CS3", # メタデータ
"body": "This is sample PDF. ...", # 抽出したテキスト
"screenshot": {
"mime-type": "image/png", # スクリーンショットのMIMEタイプ
"data": "iVBORw...", # Base64にした画像データ
"encoding": "base64" # Base64であることを明記
}
}
]
}
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 117
ChupaText:Web UI
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 118
ChupaText:Web UI抽出例
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 119
ChupaText:Web UI抽出例
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 120
ChupaText:Vagrant
% GITHUB=https://github.com
% git clone \
${GITHUB}/ranguba/chupa-text-vagrant.git
% cd chupa-text-vagrant
% vagrant up
使い方はDocker版と同じ
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 121
ChupaText:活用例
抽出したテキスト
Mroonga・PGroongaへ挿入
抽出したメタデータ
Mroonga・PGroongaへ挿入
絞り込みに活用
作成したスクリーンショット
検索結果表示時に掲載
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 122
まとめ
RDBMS経由で全文検索エンジン
採用の判断材料を提供
全文検索システム実装例を紹介
Mroonga・PGroonga両方
構造化データの対応方法を紹介
ChupaText
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 123
扱わなかった話題
運用について
障害対策・レプリケーション
チューニング
Groongaの機能を直接使う方法
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1
Page: 124
サポートサービス紹介
導入支援 (設計支援・性能検証・移行支援・…)
開発支援
(サンプルコード提供・問い合わせ対応・…)
運用支援 (障害対応・チューニング支援・…)
問い合わせ先:
https://www.clear-code.com/contact/?
type=groonga
MySQL・PostgreSQLだけで作る 高速でリッチな全文検索システム
Powered by Rabbit 2.2.1