-
搜索引擎
最终是要建立一个AI搜索助手,根据用户输入在法规库中搜索出用户需要的内容。
1.收集法规则 与 问答
2.法规分类、标签
3.通过数据库实现全文检索
4.中文分词,同义词及关键词联想,
5.整合用户搜索记录
6.创建索引
7.语义分析
8.搜索
9.纠偏
-
Elasticsearch 自然语言处理NLP
elasticsearch-ingest-opennlp插件下载地址,找一个有ES一致的版本,如果不一致后面改一下配置文件 https://github.com/spinscale/elasticsearch-ingest-opennlp/releases 下载后解压开放到es/plugins目录下 -
ES模糊查询 like
类似sql的like查询 POST /_sql?format=txt { "query": "SELECT * FROM content_index Where content like '%ES%' " } POST /_sql/translate { "query" -
ES SQL转DSL
执行: POST /_sql?format=txt { "query": "SELECT * FROM CRM_USER Where NAME like '%zh%'" } 转换: POST /_sql/translate { "query": "SELECT * FRO -
ik分词器 同义词定义 illegal_argument_exception term: ** was completely eliminated by analyzer
有两种可能 1.词库中没有这个词 2.停用词中出现了这个词 { "error": { "root_cause": [ { "type": "illegal_argument_exception", "reason": "faile -
elasticsearch IK同义词典
在config/analysis目录下创建一个文件注意需要UTF-8格式,否则会解析失败:malformed_input_exception 每行一组织同义词以逗号分隔(半角英文) 京城,北京,北平 个税,个人所得税,所得税 水利基金,水利建设费,水利建设维护费,水利建设,河道基金 创建 -
elasticsearch IK分词器扩展词典、停用词典、同义词典malformed_input_exception
elasticsearch IK分词器在扩展词典、停用词典、同义词典时需要创建文件,如果提示以下异常malformed_input_exception 一般是因为文件编码格式不正确,应该修改成UTF-8 { "error": { "root_cause": [ { -
Docker安装elasticsearch 8.7.0集群
先安装一个单机版 【单机版本参考】 复制容器配置文件 (执行三份) docker cp es:/usr/share/elasticsearch/config /dp/vm/es1 创建目录 /dp/vm/es1/data /dp/vm/es1/plugins /dp/vm/es -
Docker ES安装IK分词器
先到这里找一个合适的版本https://github.com/medcl/elasticsearch-analysis-ik/releases ES的版本如果比较新可能没有对应的IK版本号 那可能需要降ES的版本号 进入ES容器 ./bin/elasticsearch -
Docker安装 kibana
docker run -d \ --name kibana \ -e ELASTICSEARCH_HOSTS=http://es:9200 \ --network=es-net \ -p 5601:5601 \ kibana:8.8.1 --network es-net:加入一个名为 -
Docker安装ES单机版(elasticsearch8)
选创建专用网络 docker network create es-net 安装单机版本 docker run -d \ --name es \ -e "ES_JAVA_OPTS=-Xms1024m -Xmx1024m" \ -e "discovery.type=s