python 中文分词工具有很多,今天主要分享两款很不错的分词工具,jieba和百度的lac
	
jieba模块
jieba 是一个用于中文分词的 Python 库,它可以快速地将中文句子切分成一个个词语。jieba 支持多种分词模式,并且可以自定义词典以及添加新词。
可以通过 pip 命令来安装:
	
pip install jieba
	
使用示例
	
import jieba
def segment_text(text):
    seg_list = jieba.cut(text, cut_all=False)
    return list(seg_list)
text = "我来到北京清华大学,今天天气不错,适合去颐和园游玩。"
print(segment_text(text))
	
lac模块
lac 是一个基于百度深度学习平台 PaddlePaddle 的中文分词和词性标注工具包。它不仅能够进行分词,还能进行词性标注,非常适合进行自然语言处理任务,如文本分类、情感分析等。
	
通过 pip 命令安装:
	
pip install lac
	
使用示例
	
from lac import LAC
# 初始化模型
lac = LAC(mode='lac')  # lac模式开启词性标注
# 分词
seg_result = lac.run('我喜欢吃苹果', lac=False)
print('分词结果:', seg_result)
# 分词 + 词性标注
seg_pos_result = lac.run('我喜欢吃苹果')
print('分词+词性标注结果:', seg_pos_result)
	
如需转载请保留本文出处: https://www.zhe94.com/977.html

                                