What's Hot

英雄榜:果尔网稿件征集启示

SEO优化案例分析 : 2013-11-23 14:25:27 - SEO资讯

你认可果尔网上的文章观点吗?你想把你心中的想法告诉大家吗?你愿意和果尔一起打造真正的纯SEO交流平台吗?……欢迎发送您的建议或意见,以及您的原创文章(请. ...

搜集信息的预处理-分析页面和建立倒排文件

Posted:2013-11-27 09:17:43 - comments | 作者: @果尔 @ SEO培训学院 修订1.4 ID:7032

author

在上一节的《3.1.2、搜集信息的预处理–中文分词技术》中我们说过,要对网页进行关键词到网页的索引就必须先对网页进行中文分词,然后建立倒排文件,那么具体的流程是什么样子呢?黄聪将在本文给大家做个介绍。

分析网页和建立倒排索引文件流程图

分析网页和建立倒排索引文件流程图

  1. 搜索引擎首先从网页数据库中获取网页,然后进行HTML代码的过滤,提取出正文信息,然后用上一节说的分词技术进行切词。
  2. 之后再对切词后的关键词集合进行筛选,然后得到网页到关键词的正向索引.
  3. 最后搜索引擎将该正向索引转换为关键词到网页的倒排索引,如下图所示。

倒排索引

搜索引擎有了倒排索引,将能通过关键词迅速定位其相关的所有网页,也正是因为这个技术,搜索引擎才有可能在1秒之内给用户呈现搜索结果。

小结

本文讲的只是倒排索引文件建立的流程,其中涉及许多经典的算法,在此就不展开来讲了,有兴趣的朋友可以自己研究一下。


果尔SEO,中国医疗美容机构SEO经验分享平台。本文头像LOGO署名文章版权所有,转载请注明出处。

更多

上一篇:搜集信息的预处理-中文分词技术