NLTK包的常用总结

NLTK

NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。
NLTK是Python很强大的第三方库,可以很方便的完成很多自然语言处理(NLP)的任务,包括分词、词性标注、命名实体识别(NER)及句法分析。

NLTK的安装

nltk的安装十分便捷,只需要pip就可以。

1pip install nltk 2 3

在nltk中集成了语料与模型等的包管理器,通过在python解释器中执行

1import nltk 2nltk.download() 3 4from nltk.corpus import brown 5brown.words() 6['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...] 7 8

一、NLTK进行分词

1nltk.sent_tokenize(text) #对文本按照句子进行分割 2nltk.word_tokenize(sent) #对句子进行分词 3 4

在这里插入图片描述
假设我们有如下的示例文本:

1Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude. 2 3

为了将这个文本标记化为句子,我们可以使用句子标记器:

1from nltk.tokenize import sent_tokenize 2mytext = "Hello Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 3print(sent_tokenize(mytext)) 4 5['Hello Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.'] 6 7 8

你可能会说,这是一件容易的事情。我不需要使用 NLTK 标记器,并且我可以使用正则表达式来分割句子,因为每个句子前后都有标点符号或者空格。

那么,看看下面的文字:

1Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude. 2 3

呃!Mr. 是一个词,虽然带有一个符号。让我们来试试使用 NLTK 进行分词:

1from nltk.tokenize import sent_tokenize 2mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 3print(sent_tokenize(mytext)) 4 5['Hello Mr. Adam, how are you?', 'I hope everything is going well.', 'Today is a good day, see you dude.'] 6 7

Great!结果棒极了。然后我们尝试使用词语标记器来看看它是如何工作的:

1from nltk.tokenize import word_tokenize 2mytext = "Hello Mr. Adam, how are you? I hope everything is going well. Today is a good day, see you dude." 3print(word_tokenize(mytext)) 4 5['Hello', 'Mr.', 'Adam', ',', 'how', 'are', 'you', '?', 'I', 'hope', 'everything', 'is', 'going', 'well', '.', 'Today', 'is', 'a', 'good', 'day', ',', 'see', 'you', 'dude', '.'] 6 7

正如所料,Mr. 是一个词,也确实被 NLTK 当做一个词。NLTK使用 nltk.tokenize.punkt module 中的 PunktSentenceTokenizer 进行文本分词。这个标记器经过了良好的训练,可以对多种语言进行分词 。

标记非英语语言文本
为了标记其他语言,可以像这样指定语言:

1from nltk.tokenize import sent_tokenize 2mytext = "Bonjour M. Adam, comment allez-vous? J'espère que tout va bien. Aujourd'hui est un bon jour." 3print(sent_tokenize(mytext,"french")) 4 5
1['Bonjour M. Adam, comment allez-vous?', "J'espère que tout va bien.", "Aujourd'hui est un bon jour."] 2 3 4

NLTk 对其他非英语语言的支持也非常好!

从 WordNet 获取同义词
如果你还记得我们使用 nltk.download( ) 安装 NLTK 的扩展包时。其中一个扩展包名为 WordNet。WordNet 是为自然语言处理构建的数据库。它包括部分词语的一个同义词组和一个简短的定义。

通过 NLTK 你可以得到给定词的定义和例句:

1from nltk.corpus import wordnet 2syn = wordnet.synsets("pain") 3print(syn[0].definition()) 4print(syn[0].examples()) 5 6a symptom of some physical hurt or disorder 7['the patient developed severe pain and distension'] 8 9

WordNet 包含了很多词的定义:

1from nltk.corpus import wordnet 2syn = wordnet.synsets("NLP") 3print(syn[0].definition()) 4syn = wordnet.synsets("Python") 5print(syn[0].definition()) 6 7the branch of information science that deals with natural language information 8large Old World boas 9 10

您可以使用 WordNet 来获得同义词:

1from nltk.corpus import wordnet 2synonyms = [] 3for syn in wordnet.synsets('Computer'): 4 for lemma in syn.lemmas(): 5 synonyms.append(lemma.name()) 6print(synonyms) 7 8['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system', 'calculator', 'reckoner', 'figurer', 'estimator', 'computer'] 9 10 11

从 WordNet 获取反义词
你可以用同样的方法得到单词的反义词。你唯一要做的是在将 lemmas 的结果加入数组之前,检查结果是否确实是一个正确的反义词。

1from nltk.corpus import wordnet 2antonyms = [] 3for syn in wordnet.synsets("small"): 4 for l in syn.lemmas(): 5 if l.antonyms(): 6 antonyms.append(l.antonyms()[0].name()) 7print(antonyms) 8 9['large', 'big', 'big'] 10 11

这就是 NLTK 在自然语言处理中的力量。

二、NLTK进行词性标注

用到的函数:
nltk.pos_tag(tokens)#tokens是句子分词后的结果,同样是句子级的标注
在这里插入图片描述

三、NLTK进行命名实体识别(NER)

用到的函数:
nltk.ne_chunk(tags)#tags是句子词性标注后的结果,同样是句子级
在这里插入图片描述
上例中,有两个命名实体,一个是Xi,这个应该是PER,被错误识别为GPE了; 另一个事China,被正确识别为GPE。

四、句法分析

nltk没有好的parser,推荐使用stanfordparser
但是nltk有很好的树类,该类用list实现
可以利用stanfordparser的输出构建一棵python的句法树
在这里插入图片描述

五、词干提取(stemming)

单词词干提取就是从单词中去除词缀并返回词根。(比方说 working 的词干是 work。)搜索引擎在索引页面的时候使用这种技术,所以很多人通过同一个单词的不同形式进行搜索,返回的都是相同的,有关这个词干的页面。

词干提取的算法有很多,但最常用的算法是 Porter 提取算法。NLTK 有一个 PorterStemmer 类,使用的就是 Porter 提取算法。
解释一下,Stemming 是抽取词的词干或词根形式(不一定能够表达完整语义)。NLTK中提供了三种最常用的词干提取器接口,即 Porter stemmer, Lancaster Stemmer 和 Snowball Stemmer。
Porter Stemmer基于Porter词干提取算法,来看例子:

1 >>> from nltk.stem.porter import PorterStemmer 2 >>> porter_stemmer = PorterStemmer() 3 >>> porter_stemmer.stem(‘maximum’) 4 u’maximum’ 5 >>> porter_stemmer.stem(‘presumably’) 6 u’presum’ 7 >>> porter_stemmer.stem(‘multiply’) 8 u’multipli’ 9 >>> porter_stemmer.stem(‘provision’) 10 u’provis’ 11 >>> porter_stemmer.stem(‘owed’) 12 u’owe’ 13 14 15

Lancaster Stemmer 基于Lancaster 词干提取算法,来看例子

1 >>> from nltk.stem.lancaster import LancasterStemmer 2 >>> lancaster_stemmer = LancasterStemmer() 3 >>> lancaster_stemmer.stem(‘maximum’) 4 ‘maxim’ 5 >>> lancaster_stemmer.stem(‘presumably’) 6 ‘presum’ 7 >>> lancaster_stemmer.stem(‘presumably’) 8 ‘presum’ 9 >>> lancaster_stemmer.stem(‘multiply’) 10 ‘multiply’ 11 >>> lancaster_stemmer.stem(‘provision’) 12 u’provid’ 13 >>> lancaster_stemmer.stem(‘owed’) 14 ‘ow’ 15 16 17

Snowball Stemmer基于Snowball 词干提取算法,来看例子

1 >>> from nltk.stem import SnowballStemmer 2 >>> snowball_stemmer = SnowballStemmer(“english”) 3 >>> snowball_stemmer.stem(‘maximum’) 4 u’maximum’ 5 >>> snowball_stemmer.stem(‘presumably’) 6 u’presum’ 7 >>> snowball_stemmer.stem(‘multiply’) 8 u’multipli’ 9 >>> snowball_stemmer.stem(‘provision’) 10 u’provis’ 11 >>> snowball_stemmer.stem(‘owed’) 12 u’owe’ 13 14 15

使用 WordNet 引入词汇
词汇的词汇化与提取词干类似,但不同之处在于词汇化的结果是一个真正的词汇。与词干提取不同,当你试图提取一些词干时,有可能会导致这样的情况:

1from nltk.stem import PorterStemmer 2stemmer = PorterStemmer() 3print(stemmer.stem('increases')) 4 5

结果是:increas。

现在,如果我们试图用NLTK WordNet来还原同一个词,结果会是正确的:

1from nltk.stem import WordNetLemmatizer 2lemmatizer = WordNetLemmatizer() 3print(lemmatizer.lemmatize('increases')) 4 5

结果是 increase。

结果可能是同义词或具有相同含义的不同词语。有时,如果你试图还原一个词,比如 playing,还原的结果还是 playing。这是因为默认还原的结果是名词,如果你想得到动词,可以通过以下的方式指定。

1from nltk.stem import WordNetLemmatizer 2lemmatizer = WordNetLemmatizer() 3print(lemmatizer.lemmatize('playing', pos="v")) 4 5

结果是: play。

实际上,这是一个非常好的文本压缩水平。最终压缩到原文本的 50% 到 60% 左右。结果可能是动词,名词,形容词或副词:

1from nltk.stem import WordNetLemmatizer 2lemmatizer = WordNetLemmatizer() 3print(lemmatizer.lemmatize('playing', pos="v")) 4print(lemmatizer.lemmatize('playing', pos="n")) 5print(lemmatizer.lemmatize('playing', pos="a")) 6print(lemmatizer.lemmatize('playing', pos="r")) 7 8

结果是:

play
playing
playing
playing
词干化和词化差异
好吧,让我们分别尝试一些单词的词干提取和词形还原:

1from nltk.stem import WordNetLemmatizer 2from nltk.stem import PorterStemmer 3stemmer = PorterStemmer() 4lemmatizer = WordNetLemmatizer() 5print(stemmer.stem('stones')) 6print(stemmer.stem('speaking')) 7print(stemmer.stem('bedroom')) 8print(stemmer.stem('jokes')) 9print(stemmer.stem('lisa')) 10print(stemmer.stem('purple')) 11print('----------------------') 12print(lemmatizer.lemmatize('stones')) 13print(lemmatizer.lemmatize('speaking')) 14print(lemmatizer.lemmatize('bedroom')) 15print(lemmatizer.lemmatize('jokes')) 16print(lemmatizer.lemmatize('lisa')) 17print(lemmatizer.lemmatize('purple')) 18 19

结果是:

stone
speak
bedroom
joke
lisa
purpl


stone
speaking
bedroom
joke
lisa
purple

词干提取的方法可以在不知道语境的情况下对词汇使用,这就是为什么它相较词形还原方法速度更快但准确率更低。

在我看来,词形还原比提取词干的方法更好。词形还原,如果实在无法返回这个词的变形,也会返回另一个真正的单词;这个单词可能是一个同义词,但不管怎样这是一个真正的单词。当有时候,你不关心准确度,需要的只是速度。在这种情况下,词干提取的方法更好。

代码交流 2021