diadia

興味があることをやってみる。自分のメモを残しておきます。

elasticsearch

elasticsearch python コードスニペット

接続して検索 from elasticsearch import Elasticsearch from elasticsearch_dsl import connections, Search from elasticsearch_dsl import Q es = connections.create_connection(hosts=['localhost'], port=9200) s = Search(using=es, index="animal", …

elasticsearchクエリメモ

バルクアップデート ドキュメント: バッチ処理 | Elasticsearchリファレンス [5.3] | Elastic Bulk API | Elasticsearch Guide [7.13] | Elastic クエリサンプル PUT animal/_doc/_bulk?pretty {"update":{"_id":1}} {"doc":{"content":"最初のバルクアップ…

Amazon ES

Fine-Grained Access Control in Amazon Elasticsearch Service - Amazon Elasticsearch Service Amazon ES Security ESのセキュリティは3つから構成されている。 Network Domain access policy Fine-grained access control Network -> Public accessか VP…

elasticsearch alias

インデックスにはaliasをつけられるらしい。 aliasの確認 GET sample1/_alias GET <index_name>/_alias aliasがない場合には空が表示される // 結果 { "sample1" : { "aliases" : { } } } aliasの追加、更新 Create or update index alias API | Elasticsearch Reference</index_name>…

matchとmatch_phraseクエリの検索結果の違いをメモ

以下のsample1インデックスを作成し、matchやmatch_phraseを使って観察してみる。 インデックスはhtmlタグが存在している場合にタグを削除するhtml_strip, 日本語文章を日本語単語に分けるkuromoji_tokenizerを使っている。 PUT sample1 { "settings": { "an…

既存のデータをコピーしたり新しいインデックスにデータをコピーしたい

次にデータ移行の際に移行するデータは新インデックスのルール(マッピング)に従ってデータを格納し、検索できるのか検証する。 要するに既存のデータを新インデックスに移し替えると新インデックスのtokenizerやchar_filterに従って検索できるのかを確認す…

htmlタグに邪魔されずに検索したい

内容 実際にインデックスを作って確かめる analyzeエンドポイントを使っても確かめてみる 1. 実際にインデックスを作って確かめる htmlタグがあると困る場合について 次にhtmlタグがついたデータをインデックスに格納するケースを考える。 具体的にはhtmlタ…

elasticsearchで日本語を検索できるようにする

(elasticsearchで検索される英単語と検索されない英単語について - diadiaに続いて) じゃあ日本語も同じように単語ごとに空白で区切ってから登録すればElasticsearchが使えるねって発想になると思う。しかし生の日本語文章を単語に区切る前処理(この場合では…

elasticsearchで検索される英単語と検索されない英単語について

以下ではどのようにデータが格納され、どんなキーワードなら検索できるかを焦点に見る。 例:英文を格納する エラスティックサーチにおいて英文を格納するケースでは、英文は文章中のスペース(white space)に基づいて単語に分割するとある。 したがってスペ…

elasticsearch/kibana

どんなものか? 素早く全文検索できるところが良いところか? 参考サイト はじめての Elasticsearch - Qiita pythonライブラリ elasticsearch-dsl elasticsearch localでつかうには? ローカルでは以下で実行する。 bin/elasticsearch elasticsearch_dslをつ…