`
deepfuture
  • 浏览: 4331781 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79401
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68340
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101463
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281100
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14594
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65528
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31304
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45181
社区版块
存档分类
最新评论

网络爬虫-Heritrix 和 Nutch比较与分析

阅读更多

Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。

下面是二者的介绍,摘自网络:

 

Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。

 

二者的差异:

 

  • Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
  • Nutch 可以修剪内容,或者对内容格式进行转换。
  • Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
  • Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
  • Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics