python 中文分词工具LAC和jieba

作者:admin 发布时间:2024-08-06 13:59:04 浏览:439次

python 中文分词工具有很多,今天主要分享两款很不错的分词工具,jieba和百度的lac


jieba模块

jieba 是一个用于中文分词的 Python 库,它可以快速地将中文句子切分成一个个词语。jieba 支持多种分词模式,并且可以自定义词典以及添加新词。

可以通过 pip 命令来安装:


pip install jieba


使用示例


import jieba

def segment_text(text):
    seg_list = jieba.cut(text, cut_all=False)
    return list(seg_list)

text = "我来到北京清华大学,今天天气不错,适合去颐和园游玩。"
print(segment_text(text))


lac模块

lac 是一个基于百度深度学习平台 PaddlePaddle 的中文分词和词性标注工具包。它不仅能够进行分词,还能进行词性标注,非常适合进行自然语言处理任务,如文本分类、情感分析等。


通过 pip 命令安装:


pip install lac


使用示例


from lac import LAC

# 初始化模型
lac = LAC(mode='lac')  # lac模式开启词性标注

# 分词
seg_result = lac.run('我喜欢吃苹果', lac=False)
print('分词结果:', seg_result)

# 分词 + 词性标注
seg_pos_result = lac.run('我喜欢吃苹果')
print('分词+词性标注结果:', seg_pos_result)


如需转载请保留本文出处: https://www.zhe94.com/977.html

上一篇:懂懂日记:一点委屈
下一篇:富文本编辑器wangEdiotr报错Error in callback for watcher "value": "Error: Cannot find a descendant at path [0,2] in node
vs code 的常用快捷键

vs code 的常用快捷键

Visual Studio Code是个一款非常优秀的代码编辑工具,支持多种编程语言的编写。工具很常用,要想用得溜还得记记快捷键,把技巧记下来,编写代码大大提高工作效率,事半功倍。
Mysql关联表查询怎么样才能只取最新一条记录

Mysql关联表查询怎么样才能只取最新一条记录

有时我们使用mysql的时候想要多个表查询数据,但是关联查询的时候有多条记录,我们只想要最新的一条记录怎么办呢?很多人第一时间想到的是使用group by 处理,这是没问题的,但是需要提取做些处理,要是直接查询出来的数据可能并不准确。