搜索引擎网页搜集策略

deepfuture

浏览: 4335422 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：79445

: WIN32汇编语言学习应用...
浏览量：68425

: 神奇的perl
浏览量：101560

: lucene等搜索引擎解析...
浏览量：281325

: 深入lucene3.5源码...
浏览量：14622

: VB.NET并行与分布式编...
浏览量：65625

: silverlight 5...
浏览量：31341

: 算法下午茶系列
浏览量：45239

文章分类

社区版块

存档分类

博客分类：

搜索引擎

搜索引擎 JavaScript Web 脚本 HTML

搜索引擎网页搜集策略

.1、搜索引擎是不可能将Web上的网页搜集完全的，通常都是在其他条件的限制下决定搜集过程的结束（例如磁盘满，或者搜集时间已经太长了）。因此就有一个尽量使搜到的网页比较重要的问题，这对于那些并不追求很大的数量覆盖率的搜索引擎特别重要。研究表明[NajorkandWiener,2001]，按照先宽搜索方式得到的网页集合要比先深搜索得到的集合重要（这里当然有一个重要性的指标问题）。这种方式的一个困难是要从每一篇网页中提取出所含的URL。由于HTML的灵活性，其中出现URL的方式各种各样，将这个环节做得彻底不容易（例如我们现在还没有很好的简单办法从JavaScript脚本中提取URL）。同时，由于Web的“蝴蝶结”形状[Broder,et al.,2000]，这种方式搜集到的网页不大会超过所有目标网页数量2的2/3。

2、在第一次全面网页搜集后，系统维护相应的URL集合S，往后的搜集直接基于这个集合。每搜到一个网页，如果它发生变化并含有新的URL，则将它们对应的网页也抓回来，并将这些新URL也放到集合S中；如果S中某个url对应的网页不存在了，则将它从S中删除。这种方式也可以看成是一种极端的先宽搜索，即第一层是一个很大的集合，往下最多只延伸一层。

3、让网站拥有者主动向搜索引擎提交它们的网址（为了宣传自己，通常会有这种积极性），系统在一定时间内（2天到数月不等）定向向那些网站派出“蜘蛛”程序，扫描该网站的所有网页并将有关信息存入数据库中。大型商业搜索引擎一般都提供这种功能。

分享到：

对链接分析的重要性 | 搜索的爬取技术

2009-12-27 15:10
浏览 1867
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论