Heritrix 和 Nutch。二者均为Java开源框架,Heritrix 是 SourceForge上的开源产品,Nutch为Apache的一个子项目,它们都称作网络爬虫/蜘蛛( Web Crawler),它们实现的原理基本一致:深度遍历网站的资源,将这些资源抓取到本地,使用的方法都是分析网站每一个有效的URI,并提交Http请求,从而获得相应结果,生成本地文件及相应的日志信息等。
下面是二者的介绍,摘自网络:
Heritrix 是个 "archival crawler" -- 用来获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。
二者的差异:
- Nutch 只获取并保存可索引的内容。Heritrix则是照单全收。力求保存页面原貌
- Nutch 可以修剪内容,或者对内容格式进行转换。
- Nutch 保存内容为数据库优化格式便于以后索引;刷新替换旧的内容。而Heritrix 是添加(追加)新的内容。
- Nutch 从命令行运行、控制。Heritrix 有 Web 控制管理界面。
- Nutch 的定制能力不够强,不过现在已经有了一定改进。Heritrix 可控制的参数更多
分享到:
相关推荐
在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
一个java的网络爬虫程序。heritrix-1.14.0-src
无比强大的网络爬虫Heritrix 绝好的入门级。 绝对的高清。
在做搜索引擎上经常使用的网络蜘蛛。 关于heritrix安装和代码都有
AnyFo - Heritrix大力金刚指.doc。非常难得的开发实用笔记,曾经很多人想得到它!知道anyfo的,自然知道该笔记的实用性强大!
基于Heritrix的主题网络爬虫设计与实现,论文
基于_Heritrix_网络爬虫算法的研究与应用
开源的爬虫软件Heritrix3.1.0,文件为可用的源代码,供下载,经测试,可用。
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
简单的实现了Heritrix的爬虫机制,可以简单的爬一些视频网站,有兴趣者 可以在原基础上进行扩展和定制
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用
基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf基于Heritrix的主题网络爬虫设计与实现.pdf
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
Heritrix是一个爬虫框架,其组织结构如图2.1所示,包含了整个组件和抓取流程: Heritrix采用的是模块化的设计,各个模块由一个控制器类(CrawlController类)来协调,控制器是整体的核心。控制器结构图如图2.2所示...
开发自己的搜索引擎--Lucene+Heritrix
heritrix 中文API (自己整理),网络爬虫,只包含关键的类的介绍
Heritrix网络爬虫开发包,爬取资源必备开发包。
heritrix-1.14.4爬虫框架及源码