jieba分词-强大的Python中文分词库
jieba是优秀的中文分词第三方库,由于中文文本之间每个汉字都是连续书写的,我们需要通过特定的手段来获得其中的每个词组,这种手段叫做分词,我们可以通过jieba库来完成这个过程。
jieba是一个第三方库,因此需要我们在本地进行安装:
1. IDLE中jieba库的安装:Windows 下使用命令安装。在联网状态下,在命令行下输入 pip install jieba 进行安装,安装完成后会提示安装成功。
具体流程为:按下Win+R,输入cmd,打开指令框;在指令框输入pip install jieba等待下载;出现successfully install则表现安装成功。
2. Pycharm中jieba库的安装:打开 settings,搜索 Project Interpreter,在右边的窗口选择 + 号,点击后在搜索框搜索 jieba,点击安装即可。
![](img/08.jpg)
Ntlk:自然语言处理
NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源(如WordNet)提供了易于使用的界面,还提供了一套用于分类,标记化,词干化,标记,解析和语义推理的文本处理库。NLTK是Python上著名的⾃然语⾔处理库 ⾃带语料库,具有词性分类库 ⾃带分类,分词,等等功能。NLTK被称为“使用Python进行教学和计算语言学工作的绝佳工具”,以及“用自然语言进行游戏的神奇图书馆”。
通过使用NTLK,我们可以实现如下目标:分词(分割单词和句子)、词性标注、流式情感分析等。
Ntlk是一个第三方库,因此需要我们在本地进行安装:在联网状态下,在命令行下输入 pip install ntlk 进行安装,安装完成后会提示安装成功。
接下来,我们需要为 NLTK 安装一些组件。通过你的任何常用方式打开python,然后键入:
import ntlk
ntlk.download
安装成功,可以使用ntlk,具体代码可自行学习。
![](img/08.jpg)
![](img/08.jpg)