Elasticsearch 分词,Elasticsearch Java API 分词 操作

soゝso 2016-08-22 18:52:07 7658

Elasticsearch  目录

本站有一个新开发的分词工具:Analyzer在线工具,IK Analyzer—在线分词器工具 。就是下面的代码实现的。

Java API的实现方式:

String content = "我是中国人,我爱中国。";
AnalyzeResponse response = ESTools.client.admin().indices()
						.prepareAnalyze(content)//内容
							.setAnalyzer("ik")//指定分词器
								.execute().actionGet();//执行
List<AnalyzeToken> tokens = response.getTokens();

String result = JSONArray.fromObject(tokens).toString();
System.out.println(result);

分词结果为:

[
    {
        "endOffset": 1,
        "position": 0,
        "startOffset": 0,
        "term": "我",
        "type": "CN_CHAR"
    },
    {
        "endOffset": 5,
        "position": 1,
        "startOffset": 2,
        "term": "中国人",
        "type": "CN_WORD"
    },
    {
        "endOffset": 4,
        "position": 2,
        "startOffset": 2,
        "term": "中国",
        "type": "CN_WORD"
    },
    {
        "endOffset": 5,
        "position": 3,
        "startOffset": 3,
        "term": "国人",
        "type": "CN_WORD"
    },
    {
        "endOffset": 7,
        "position": 4,
        "startOffset": 6,
        "term": "我",
        "type": "CN_CHAR"
    },
    {
        "endOffset": 8,
        "position": 5,
        "startOffset": 7,
        "term": "爱",
        "type": "CN_CHAR"
    },
    {
        "endOffset": 10,
        "position": 6,
        "startOffset": 8,
        "term": "中国",
        "type": "CN_WORD"
    }
]

HTTP API 方式:

http://192.168.0.1:9200/_analyze?analyzer=ik&pretty=true&text=我是中国人,我爱中国

返回的结果为:

{
  "tokens" : [ {
    "token" : "我",
    "start_offset" : 0,
    "end_offset" : 1,
    "type" : "CN_CHAR",
    "position" : 0
  }, {
    "token" : "中国人",
    "start_offset" : 2,
    "end_offset" : 5,
    "type" : "CN_WORD",
    "position" : 1
  }, {
    "token" : "中国",
    "start_offset" : 2,
    "end_offset" : 4,
    "type" : "CN_WORD",
    "position" : 2
  }, {
    "token" : "国人",
    "start_offset" : 3,
    "end_offset" : 5,
    "type" : "CN_WORD",
    "position" : 3
  }, {
    "token" : "我",
    "start_offset" : 6,
    "end_offset" : 7,
    "type" : "CN_CHAR",
    "position" : 4
  }, {
    "token" : "爱",
    "start_offset" : 7,
    "end_offset" : 8,
    "type" : "CN_CHAR",
    "position" : 5
  }, {
    "token" : "中国",
    "start_offset" : 8,
    "end_offset" : 10,
    "type" : "CN_WORD",
    "position" : 6
  } ]
}

都是可以的。


版权所属:SO JSON在线解析

原文地址:https://www.sojson.com/blog/125.html

转载时必须以链接形式注明原始出处及本声明。

本文主题:

如果本文对你有帮助,那么请你赞助我,让我更有激情的写下去,帮助更多的人。

相关文章
Elasticsearch 分词Elasticsearch Java API 分词 操作
Elasticsearch教程,Elasticsearch Java API创建Mapping,指定分词
Elasticsearch教程(二),IK分词器安装
Elasticsearch教程,Elasticsearch 设置近义搜索,IK分词器实现同义搜索
Elasticsearch教程(三),IK分词器安装 (极速版)
Elasticsearch 教程,Elasticsearch 日期查询详解,Elasticsearch Date 查询Java API
Elasticsearch操作数据后马上更新的办法
Elasticsearch教程(五) elasticsearch Mapping的创建
Elasticsearch 随机返回数据 API
Elasticsearch Java API 获取version,以及数据_version的介绍
最新文章
Macbook teamviewer 突破5分钟,苹果电脑重置 Mac 地址,100%解决限制 220
腾讯云代金券 10000 元/ 30000 代金券领取技巧 324
SEO 换友情链接的主意事项,友情链接断链、友情链接套路说明 229
Springboot + Mybatis,数据库多数据源配置项目Demo【源码下载】 1903
Mac mtr 安装并使用,mrt: command not found 299
Java 集成阿里云消息队列,日志消息存储 497
域名备案注意事项,网站域名ICP备案快速通过攻略【干货分享】 472
Springboot 集成Aliyun MQ消息队列,Aliyun 消息队列配置及代码实现 837
SpringBoot 集成Spring-data-redis,redis对象序列化存储 2029
天气API,全国天气 JSON API接口,可以获取十五天的天气预报 604
最热文章
Elasticsearch教程(四) elasticsearch head 插件安装和使用 126781
免费天气API,全国天气 JSON API接口,可以获取五天的天气预报 108004
Elasticsearch教程(六) elasticsearch Client创建 78810
Elasticsearch教程(八) elasticsearch delete 删除数据(Java) 74434
Elasticsearch教程(二),IK分词器安装 73217
Elasticsearch教程(一),全程直播(小白级别) 65782
Elasticsearch教程(五) elasticsearch Mapping的创建 61877
Elasticsearch教程(三),IK分词器安装 (极速版) 56361
Elasticsearch教程(七) elasticsearch Insert 插入数据(Java) 53539
Java 解析JSON,JSON-LIB jar包下载和使用。 48973

骚码加入我们 / 千人QQ群:259217951

入群需要5元,如果没有QQ钱包,可以先Alipay、微信,赞助然后加群主拉进。

二维码生成 来自 >> 二维码生成器

支付扫码

所有赞助/开支都讲公开明细,用于网站维护:赞助名单查看

正在加载... ...