自然语言处理 NLP 相关概念

tf-idf

term frequency–inverse document frequency,TF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF词频(Term Frequency),IDF逆向文件频率(Inverse Document Frequency)。IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t具有很好的类别区分能力。

 

bag-of words

Bag of words,也叫做“词袋”,在信息检索中,Bag of words model假定对于一个文本,忽略其词序和语法,句法,将其仅仅看做是一个词集合,或者说是词的一个组合,文本中每个词的出现都是独立的,不依赖于其他词是否出现,或者说当这篇文章的作者在任意一个位置选择一个词汇都不受前面句子的影响而独立选择的。

“词袋”模型主要功能是作为一个特征生成工具,最常见的特征是词频(term frequency),比如有一个一万词的词库,那么任意文本(所用词都在词库中)都可以用一个1w维的向量表示,向量每一个位置对应一个词,这个位置的值对应这个词在文本中出现的次数。所以如果词库较大,而文本较短,则表示该文本的向量就会有很多‘0’值。

bag-of-words

 

n-gram

Bag of words模型是一个较为杂乱的文本表示法,它无法体现出词间的相互关系。

n-gram是一种概率语言模型,在n个连续词中,给定一个词,用以预测临近的n-1个词出现的概率。 如果n=1,则称之为unigram;n=2,则称之为bigram;n=3,则称之为trigram。n-gram有时也称为shingles

unigram

 

 

CBOW

CBOW是 Continuous Bag-of-Words Model 的缩写,用以预测 P(wt|wt-k,wt-(k-1)…,wt-1,wt+1,wt+2…,wt+k)。

skip-gram_cbow

 

skip-gram

Skip-Gram 模型的图与 CBOW 正好方向相反,从图中看应该 Skip-Gram 预测概率 p(wi |wt)。

CBOW和skip-gram是word2vec的核心概念。了解更多,参考:http://techblog.youdao.com/?p=915

 

skip-thoughts

 

skip-thoughts model参见paper:“Skip-Thought Vectors” Ryan Kiros , Yukun Zhu … 2015

%e5%b1%8f%e5%b9%95%e5%bf%ab%e7%85%a7-2016-09-08-%e4%b8%8b%e5%8d%883-23-54

 

wordnet

WordNet是由Princeton 大学的心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。它不是光把单词以字母顺序排列,而且按照单词的意义组成一个“单词的网络”。

 

LDA

LDA(Latent Dirichlet Allocation)是一种文档主题生成模型,也称为一个三层贝叶斯概率模型,包含词、主题和文档三层结构

 

LSA ,LSI

LSA(latent semantic analysis)潜在语义分析,也被称为LSI(latent semantic index),是Scott Deerwester, Susan T. Dumais等人在1990年提出来的一种新的索引和检索方法。该方法和传统向量空间模型(vector space model)一样使用向量来表示词(terms)和文档(documents),并通过向量间的关系(如夹角)来判断词及文档间的关系;而不同的是,LSA将词和文档映射到潜在语义空间,从而去除了原始向量空间中的一些“噪音”,提高了信息检索的精确度。

 

常用python库

NLTK, pattern, jieba, TextBlob,gensim

 

常见词汇

bag-of-words词袋,compoud复合词,phrasal verb短语动词,collocation搭配词,idiomatic phrase成语,word单词, grammatical语法的, semantic语义的,syntactic句法的, lexical: 词汇的,字典的,part-of-speech: 词性
, conjugation动词变化形式,Lexer词法分析器, Parser语法分析器,

 

References:

  • http://techblog.youdao.com/?p=915
  • 百度百科
  • wiki百科
  • “Skip-Thought Vectors” Ryan Kiros , Yukun Zhu … 2015

暂无评论

发表评论

电子邮件地址不会被公开。 必填项已用*标注