jieba最好的python中文分词组件

jieba介绍

jieba是目前最好的python中文分词组件

  • 支持3种模式,精确模式,全模式,搜索引擎模式
  • 支持繁体中文分词
  • 支持自定义用户字典
精确模式

将句子最精确的切开,适合文本分析

全模式

将句子中可以成词的词语都扫描出来,特点非常的快,但是不能解决歧义问题

搜索引擎模式

在精确模式的基础上,对长词再进行切分,提高召回率,适用于搜索引擎。

jieba安装

代码对 Python 2/3 均兼容

  • easy_install jieba或者pip install jieba / pip3 install jieba
  • 半自动安装先下载 :http://pypi.python.org/pypi/jieba/解压运行python setup.py install
  • 手动安装:将jieba目录放置于当前目录或者site-packages目录
  • import jieba开始使用

jieba常用模块

#coding=utf-8
import jieba.posseg as posseg #词性标注
import jieba.analyse as analyse #关键词提取

分词





返回笔记列表
入门小站