Pycharm, Python and Big Data

Python与大数据

jieba分词-强大的Python中文分词库

jieba是优秀的中文分词第三方库，由于中文文本之间每个汉字都是连续书写的，我们需要通过特定的手段来获得其中的每个词组，这种手段叫做分词，我们可以通过jieba库来完成这个过程。

jieba是一个第三方库，因此需要我们在本地进行安装：

1. IDLE中jieba库的安装：Windows 下使用命令安装。在联网状态下，在命令行下输入 pip install jieba 进行安装，安装完成后会提示安装成功。

具体流程为：按下Win+R，输入cmd，打开指令框；在指令框输入pip install jieba等待下载；出现successfully install则表现安装成功。

2. Pycharm中jieba库的安装：打开 settings，搜索 Project Interpreter，在右边的窗口选择 + 号，点击后在搜索框搜索 jieba，点击安装即可。
Ntlk：自然语言处理

NLTK是构建Python程序以使用人类语言数据的领先平台。它为50多种语料库和词汇资源（如WordNet）提供了易于使用的界面，还提供了一套用于分类，标记化，词干化，标记，解析和语义推理的文本处理库。NLTK是Python上著名的⾃然语⾔处理库⾃带语料库，具有词性分类库⾃带分类，分词，等等功能。NLTK被称为“使用Python进行教学和计算语言学工作的绝佳工具”，以及“用自然语言进行游戏的神奇图书馆”。

通过使用NTLK，我们可以实现如下目标：分词（分割单词和句子）、词性标注、流式情感分析等。

Ntlk是一个第三方库，因此需要我们在本地进行安装：在联网状态下，在命令行下输入 pip install ntlk 进行安装，安装完成后会提示安装成功。

接下来，我们需要为 NLTK 安装一些组件。通过你的任何常用方式打开python，然后键入：

import ntlk

ntlk.download

安装成功，可以使用ntlk，具体代码可自行学习。

Python与大数据

jieba分词-强大的Python中文分词库

Ntlk：自然语言处理