`
deepfuture
  • 浏览: 4337891 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79473
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:68485
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:101630
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:281473
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14632
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:65697
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31367
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45284
社区版块
存档分类
最新评论

perl 获取网页内容

阅读更多
perl 获取网页内容
2009-05-31 17:22
一、LWP::Simple 模块 获取代码:
#!/usr/bin/perl
use strict;
use warnings;
use LWP::Simple;
my $url="
http://www.test.com";
my $page=get ($url);
print ("\n $page \n \n");
my $status=getprint($url);
print ("\n\n $status\n");
$status=getstore($url,"page.txt");
print ("\n $status \n");
二、HTML解析: HTML::TokeParser模块
#!/usr/bin/perl
2 use strict;
3 use warnings;
4 use LWP::UserAgent;
5 use HTML::TokeParser;
6 my $url="
http://www.test.com";
7 my $agent=new LWP::UserAgent();
8 my $request=new HTTP::Request('GET'=>$url);
9 my $response=$agent->request($request);
10 my $document=$response->content();
11
12 my $page=HTML::TokeParser->new (\$document);
13 while (my $token=$page->get_token()){
14     my $type=shift(@{$token});
15     my $text=shift(@{$token});
16     if ($type eq "T"){
17         print ("$text");
18     }
分享到:
评论

相关推荐

    Perl定期抓取PM2.5数据示例

    Perl定期抓取PM2.5数据示例 使用Perl抓取网页数据,并进行弹窗展示

    perl批量获取网页标题

    批量读取文本中的url,软化获取网址的标题

    PERL语言编程

    <br/>不过,偏执一点儿说,Perl 帮你的大部分内容和 Perl 本身没有什么关系,而是和使用 Perl 的人有关。坦率地说,Perl 社区的人们可以说是地球上最热心的人了。如果 Perl 运动里面有那么一点点宗教色彩的话...

    Perl Web Scraping Project:Perl 网页抓取项目-开源

    网页抓取网页涉及获取它并从中提取。 [1] [2] 获取是下载页面(当您查看页面时浏览器会这样做)。 因此,网络爬虫是网络爬虫的主要组成部分,用于抓取页面以供后续处理。 一旦获取,则可以进行提取。 页面的内容...

    Perlito:“ Perlito” Perl编程语言编译器

    “ Perlito5” Perl到Java编译器和Perl到JavaScript编译器 这是Perlito,一个实现Perl 5和Perl 6编程语言的编译器集合。 将Perl编译为Java 将Perl 5编译为Java源代码 直接在JVM中运行Perl 5 将Perl编译为JavaScript...

    Perl Sitemap XML Generator-开源

    这个 perl 脚本将抓取您的网站,并生成一个 sitemap.xml 文件,适用于更新谷歌网站管理员工具。 它还可以设置为抓取您的站点,并自动 FTP 站点地图。 对内容管理的网站很有用。 一项正在进行的工作!

    Python开发简单爬虫视频教程.rar

    网络爬虫又称网络蜘蛛,是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知,每个网页通常包含其他网页的入口,网络爬虫则通过一个网址依次进入其他网址获取所需...1)抓取网页本身的接口 2)网页抓取后的处理

    idonethis-perl:网络服务

    这为网站实现了一个简单的Perl前端。 请参阅 ,以获取有关此功能为何有用以及如何使用其功能的文章。 可以在CPAN上以WebService::Idonethis发布此代码。 最新的稳定版本可以通过以下方式安装: cpanm WebService:...

    等到页面加载完毕www :: mechanize perl

    您好如何等待页面加载完毕并在perl中获取页面内容

    awesome-perl:精选的Perl框架和库的精选列表。 来拉请求!

    很棒的Perl 精选Perl资源的精选列表,包括框架,库和软件。 受到启发。...网页抓取 网络安全 数字取证 逆向工程 精氨酸 用于论证体现和验证的库。 Data :: Validator-基于类型约束系统的基于规则的验证器

    awesome-perl:精选的Perl框架,库和软件的精选清单

    :sparkles: Mojolicious-Perl实时Web框架用于分析PostgreSQL数据库配置并提供调优建议的简单脚本使用rsync备份数据的工具(如果要获取帮助,请使用 ) -Imapsync是IMAP传输工具。 imapsync的目的是迁移IMAP帐户或...

    WordCloud:Perl中的词云

    Perl 脚本语言的词云源代码。 此词云设置为从西班牙网站检索提要(例如,有一个简单的 html 可以选择该网站的提要),但很容易将词云功能与此示例分开,并且以通用方式使用。 如果有人对如何做到这一点感兴趣,请...

    简单详细介绍了python爬虫基础.docx

    此外,抓取网页有时候需要模拟浏览器的行为,很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求,譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀...

    Node.js实现的简易网页抓取功能示例

    现今,网页抓取已经是一种人所共知的技术了,然而依然存在着诸多复杂性, 简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest,WebSockets,Flash Sockets等各种复杂技术所开发出来的现代化网站。 我们以我们在...

    perl-tutorial-org-data

    该存储库包含实际的Wiki内容和网站的某些样式 每当提示重新构建Wiki软件时,此处的更改将自动同步到服务器,这意味着: 页面已编辑 ikiwiki -setup ~/PerlTutorialHub.setup在服务器上执行 管理员用户进入...

    ariactl:用 Perl 编写的 aria2 网络界面

    它提供了一个网页来添加下载到aria2 ,获取已完成和等待下载的列表,并更改aria2一些选项。 将arialctl.pl和两个 CSS/JS 文件安装在mod_perl管理的目录中。 该脚本不进行用户身份验证,配置您的网络服务器以限制...

    perlythingkeeper:通过他们的 API 从 thingiverse.com 获取东西

    最初,我计划抓取网页以获取有关我想保存的每件事的信息,但后来一位朋友提到了 API,我得到了其中一个,呃! 时刻。 该项目将包含许多基于 Moose 的 perl 模块,这些模块将用作 thingiverse 的 API 的 Perl 接口:...

    获取nod32用户名和密码

    使用perl编写的程序,可以自动从网站http://www.nod32home.com/中获取每日公布的nod32的用户名和密码。 注:运行程序需联网;双击运行后会在程序目录下生成名为"tmp.txt"的文件,打开后里面有用户名和密码;每日早上...

    chromedriver-win64-121.0.6167.85

    网页抓取:ChromeDriver 也可用于实现网页抓取,开发人员可以编写代码来访问网页、提取数据、执行交互操作等,以实现数据采集、爬虫等需求。 ChromeDriver 支持多种编程语言,包括但不限于以下几种: Java Python ...

    Snoopy:一个用来模拟浏览器的一些简单功能的php类库

    Snoopy是一个用来模拟浏览器的一些简单功能的php类,可以获取网页内容,发送表单等操作,Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持,由于...

Global site tag (gtag.js) - Google Analytics