一、什么是 NLTK 包
NLTK 全稱是 Natural Language Toolkit,自然語言處理工具包,是 NLP 領(lǐng)域中常用的 python 庫
NLTK 的作用:
- 語料庫
- 文本預(yù)處理:文本清洗、文本標(biāo)準(zhǔn)化
- 分詞:將一段連續(xù)的文本劃分為單獨(dú)的詞語或符號(hào)
- …
二、如何使用
NLTK 如何使用:
# pip install nltk
import nltk
nltk.download(xxx)
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
但一般下載不下來,會(huì)出現(xiàn)如下報(bào)錯(cuò):
nltk.download('punkt')
[nltk_data] Error loading punkt: <urlopen error [Errno 101] Network is
[nltk_data] unreachable>
False
可以去官網(wǎng)下載,并注釋掉代碼中 nltk.download()
代碼
下下來了然后放到哪里呢?
方法一:可以使用如下命令將壓縮包放入對(duì)應(yīng)路徑
import nltk
nltk.word_tokenize('dog')
然后會(huì)提示如下:
For more information see: https://www.nltk.org/data.html
Attempted to load tokenizers/punkt/PY3/english.pickle
Searched in:
- '/home/xxx/nltk_data'
- '/home/xxx/anaconda3/nltk_data'
- '/home/xxx/anaconda3/share/nltk_data'
- '/home/xxx/anaconda3/lib/nltk_data'
- '/usr/share/nltk_data'
- '/usr/local/share/nltk_data'
- '/usr/lib/nltk_data'
- '/usr/local/lib/nltk_data'
- ''
也就是說會(huì)在這些路徑下去找,那我們?cè)谶@些路徑下找一個(gè)合適的路徑放進(jìn)去并解壓,按這樣的格式放即可:
- nltk_data
- tokenizers
- punkt
- punkt.pickle
- tagger
- averaged_perceptron_tagger
- averaged_perceptron_tagger.pickle
方法二:添加可以尋找的路徑,并將壓縮包放到對(duì)應(yīng)路徑下即可文章來源:http://www.zghlxwxcb.cn/news/detail-577930.html
import nltk
nltk.data.path.append('/xxx/xxx/glip/nltk_data/')
三、phrase grounding 使用 NLTK 示例
推理的時(shí)候會(huì)用到 nltk 庫,可以從一個(gè)文本描述中抽取到有用的名詞,作為需要檢測(cè)的目標(biāo)文章來源地址http://www.zghlxwxcb.cn/news/detail-577930.html
# 示例:
caption = 'There is two cat and a remote in the picture'
find_noun_phrases(caption) # ['cat', 'a remote', 'the picture']
到了這里,關(guān)于【多模態(tài)】2、NLTK | 自然語言處理工具包簡(jiǎn)介的文章就介紹完了。如果您還想了解更多內(nèi)容,請(qǐng)?jiān)谟疑辖撬阉鱐OY模板網(wǎng)以前的文章或繼續(xù)瀏覽下面的相關(guān)文章,希望大家以后多多支持TOY模板網(wǎng)!