分词Hanlp的介绍和在Java中基本使用

2024-05-28 9778阅读

Hanlp

简介:

HanLP 是一系列模型与算法组成的NLP工具包,目标是普及自然语言处理在生产环境中的应用。

分词Hanlp的介绍和在Java中基本使用 第1张
()
功能:
中文分词:

HMM-Bigram(速度与精度最佳平衡;一百兆内存)

最短路分词、N-最短路分词

分词Hanlp的介绍和在Java中基本使用 第2张
()

由字构词(侧重精度,全世界最大语料库,可识别新词;适合NLP任务)

感知机分词、CRF分词

词典分词(侧重速度,每秒数千万字符;省内存)

极速词典分词

所有分词器都支持:

索引全切分模式

用户自定义词典

兼容繁体中文

训练用户自己的领域模型

词性标注:

HMM词性标注(速度快)

感知机词性标注、CRF词性标注(精度高)

命名实体识别:

基于HMM角色标注的命名实体识别 (速度快)

中国人名识别、音译人名识别、日本人名识别、地名识别、实体机构名识别

基于线性模型的命名实体识别(精度高)

感知机命名实体识别、CRF命名实体识别

关键词提取:

TextRank关键词提取

自动摘要:

TextRank自动摘要

短语提取:

基于互信息和左右信息熵的短语提取

拼音转换:

多音字、声母、韵母、声调

简繁转换:

简繁分歧词(简体、繁体、臺灣正體、香港繁體)

文本推荐:

语义推荐、拼音推荐、字词推荐

依存句法分析:

基于神经网络的高性能依存句法分析器

基于ArcEager转移系统的柱搜索依存句法分析器

文本分类:

情感分析

文本聚类:

KMeans、Repeated Bisection、自动推断聚类数目k

word2vec:

词向量训练、加载、词语相似度计算、语义运算、查询、KMeans聚类

使用:

1.导入依赖

    com.hankcs
    hanlp
    portable-1.8.3

2.全部功能需要下载词典和模型。

需要在配置文件中进行引入。

部分api
1.基本分词
// 创建分词器 
Segment segment = HanLP.newSegment();
// 对文本进行分词 
List termList = segment.seg("HanLP分词器的使用非常方便"); 
// 遍历分词结果 
for (Term term : termList) {    System.out.println(term.word); }
2.词性标注
// 创建分词器
Segment segment = HanLP.newSegment();
// 对文本进行分词并进行词性标注 
List termList = segment.seg("HanLP词性标注的例子"); 
// 遍历分词结果,输出词汇和词性 
for (Term term : termList) {    System.out.println(term.word + " " + term.nature); }
3.关键词提取
// 对文本进行关键词提取
List keywordList = HanLP.extractKeyword("HanLP关键词提取的例子", 5); 
// 输出关键词列表 System.out.println(keywordList);
4.自定义词典的使用
1.添加自定义词汇:

使用 CustomDictionary.add(word, nature) 方法向自定义词典中添加词汇。word 参数是要添加的词汇,nature 参数是该词汇的词性。

CustomDictionary.add("自定义词汇", "custom_nature");

这样就向自定义词典中添加了一个词汇 "自定义词汇",并指定了它的词性为 "custom_nature"。

2.删除自定义词汇:

如果需要删除自定义词典中的某个词汇,可以使用 CustomDictionary.remove(word) 方法。

CustomDictionary.remove("自定义词汇");
3.分词时使用自定义词典:

在分词时,可以通过 Segment 对象使用自定义词典。

String sentence = "我喜欢使用自定义词典"
Segment segment = HanLP.newSegment();
List termList = segment.seg(sentence);
for (Term term : termList) {
    System.out.println(term.word + " " + term.nature);
}

在这个例子中,分词的结果将包含自定义词典中添加的词汇。


    免责声明:我们致力于保护作者版权,注重分享,被刊用文章因无法核实真实出处,未能及时与作者取得联系,或有版权异议的,请联系管理员,我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明:本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度,360,搜狗等多加搜索引擎自动关键词搜索配图,如有侵权的图片,请第一时间联系我们,邮箱:ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

    目录[+]