大数据培训技术TF-IDF

TF-IDF

  • 词频-逆文档频率(Term Frequency–Inverse Document Frequency, TF-IDF)是一种用于资讯检索与文本挖掘的常用加权技术。
  • TF-IDF 是一种统计方法,用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

TFIDF=TF×IDF

  • TF-IDF 的主要思想是:如果某个词或短语在一篇文章中出现的频率 TF 高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
  • TF-IDF 加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。
  • 词频(Term Frequency,TF)。

–指的是某一个给定的词语在该文件中出现的频率。这个数字是对词数的归一化,以防止偏向更长的文件。(同一个词语在长文件里可能会比短文件有更高的词数,而不管该词语重要与否。)

大数据培训技术TF-IDF

其中 TFi,j 表示词语 i 在文档 j 中出现的频率,ni,j 表示 i 在 j 中出现的次数,n*,j 表示文档 j 的总词数。

  • 逆向文件频率(Inverse Document Frequency,IDF)。

–是一个词语普遍重要性的度量,某一特定词语的 IDF,可以由总文档数目除以包含该词语之文档的数目,再将得到的商取对数得到。

大数据培训技术TF-IDF

其中 IDFi 表示词语 i 在文档集中的逆文档频率,N 表示文档集中的文档总数,Ni 表示文档集中包含了词语 i 的文档数。

TF-IDF 对基于 UGC 推荐的改进

大数据培训技术TF-IDF

  • 避免热门标签和热门物品获得更多的权重,我们需要对“热门”进行惩罚。
  • 借鉴 TF-IDF 的思想,以一个物品的所有标签作为“文档”,标签作为“词语”,从而计算标签的“词频”(在物品所有标签中的频率)和“逆文档频率”(在其它物品标签中普遍出现的频率)为了。
  • 由于“物品 i 的所有标签”n*,i 应该对标签权重没有影响,而“所有标签总数”N 对于所有标签是一定的,所以这两项可以略去。在简单算法的基础上,直接加入对热门标签和热门物品的惩罚项:

大数据培训技术TF-IDF

其中,n_b^((u))记录了标签 b 被多少个不同的用户使用过,n_i^((u))记录了物品 i 被多少个不同的用户打过标签。

想要了解跟多关于大数据培训课程内容欢迎关注尚硅谷大数据培训,尚硅谷除了这些技术文章外还有免费的高质量大数据培训课程视频供广大学员下载学习。