python 中文分词工具有很多,今天主要分享两款很不错的分词工具,jieba和百度的lac
jieba模块
jieba 是一个用于中文分词的 Python 库,它可以快速地将中文句子切分成一个个词语。jieba 支持多种分词模式,并且可以自定义词典以及添加新词。
可以通过 pip 命令来安装:
pip install jieba
使用示例
import jieba def segment_text(text): seg_list = jieba.cut(text, cut_all=False) return list(seg_list) text = "我来到北京清华大学,今天天气不错,适合去颐和园游玩。" print(segment_text(text))
lac模块
lac 是一个基于百度深度学习平台 PaddlePaddle 的中文分词和词性标注工具包。它不仅能够进行分词,还能进行词性标注,非常适合进行自然语言处理任务,如文本分类、情感分析等。
通过 pip 命令安装:
pip install lac
使用示例
from lac import LAC # 初始化模型 lac = LAC(mode='lac') # lac模式开启词性标注 # 分词 seg_result = lac.run('我喜欢吃苹果', lac=False) print('分词结果:', seg_result) # 分词 + 词性标注 seg_pos_result = lac.run('我喜欢吃苹果') print('分词+词性标注结果:', seg_pos_result)
如需转载请保留本文出处: https://www.zhe94.com/977.html