perl 获取网页内容 - 深未来(深度创造未来)[deepfuture@yeah.net] - ITeye博客

`

deepfuture

浏览: 4337891 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：79473

: WIN32汇编语言学习应用...
浏览量：68485

: 神奇的perl
浏览量：101630

: lucene等搜索引擎解析...
浏览量：281473

: 深入lucene3.5源码...
浏览量：14632

: VB.NET并行与分布式编...
浏览量：65697

: silverlight 5...
浏览量：31367

: 算法下午茶系列
浏览量：45284

文章分类

社区版块

存档分类

最新评论

yoyo837： counters15 写道目前只支持IE吗？插件的东西是跨浏览 ...
Silverlight 5 轻松开启绚丽的网页3D世界
shuiyunbing：直接在前台导出方式：excel中的单元格样式怎么处理，比如某行 ...
Flex导出Excel
di1984HIT：写的很好~
lucene入门-索引网页
rjguanwen：在win7 64位操作系统下，pygtk的Entry无法输入怎 ...
pygtk-entry
ldl_xz： http://www.9958.pw/post/php_exc ...
PHPExcel常用方法汇总(转载)

perl 获取网页内容

博客分类：

脚本语言

阅读更多

perl 获取网页内容

2009-05-31 17:22

一、LWP::Simple 模块获取代码：

#!/usr/bin/perl
use strict;
use warnings;
use LWP::Simple;
my $url="http://www.test.com";
my $page=get ($url);
print ("\n $page \n \n");
my $status=getprint($url);
print ("\n\n $status\n");
$status=getstore($url,"page.txt");
print ("\n $status \n");

二、HTML解析： HTML::TokeParser模块

#!/usr/bin/perl
2 use strict;
3 use warnings;
4 use LWP::UserAgent;
5 use HTML::TokeParser;
6 my $url="http://www.test.com";
7 my $agent=new LWP::UserAgent();
8 my $request=new HTTP::Request('GET'=>$url);
9 my $response=$agent->request($request);
10 my $document=$response->content();
11
12 my $page=HTML::TokeParser->new (\$document);
13 while (my $token=$page->get_token()){
14     my $type=shift(@{$token});
15     my $text=shift(@{$token});
16     if ($type eq "T"){
17         print ("$text");
18     }

分享到：

perl-获取网页内容报错Wide character in ... | flex游戏引擎(PushBotton)-执行流

2010-07-12 16:28
浏览 2111
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Perl定期抓取PM2.5数据示例: Perl定期抓取PM2.5数据示例使用Perl抓取网页数据，并进行弹窗展示

perl批量获取网页标题: 批量读取文本中的url，软化获取网址的标题

PERL语言编程: <br/>不过，偏执一点儿说，Perl 帮你的大部分内容和 Perl 本身没有什么关系，而是和使用 Perl 的人有关。坦率地说，Perl 社区的人们可以说是地球上最热心的人了。如果 Perl 运动里面有那么一点点宗教色彩的话...

Perl Web Scraping Project:Perl 网页抓取项目-开源: 网页抓取网页涉及获取它并从中提取。 [1] [2] 获取是下载页面（当您查看页面时浏览器会这样做）。因此，网络爬虫是网络爬虫的主要组成部分，用于抓取页面以供后续处理。一旦获取，则可以进行提取。页面的内容...

Perlito：“ Perlito” Perl编程语言编译器: “ Perlito5” Perl到Java编译器和Perl到JavaScript编译器这是Perlito，一个实现Perl 5和Perl 6编程语言的编译器集合。将Perl编译为Java 将Perl 5编译为Java源代码直接在JVM中运行Perl 5 将Perl编译为JavaScript...

Perl Sitemap XML Generator-开源: 这个 perl 脚本将抓取您的网站，并生成一个 sitemap.xml 文件，适用于更新谷歌网站管理员工具。它还可以设置为抓取您的站点，并自动 FTP 站点地图。对内容管理的网站很有用。一项正在进行的工作！

Python开发简单爬虫视频教程.rar: 网络爬虫又称网络蜘蛛，是指按照某种规则在网络上爬取所需内容的脚本程序。众所周知，每个网页通常包含其他网页的入口，网络爬虫则通过一个网址依次进入其他网址获取所需...1）抓取网页本身的接口 2）网页抓取后的处理

idonethis-perl:网络服务: 这为网站实现了一个简单的Perl前端。请参阅，以获取有关此功能为何有用以及如何使用其功能的文章。可以在CPAN上以WebService::Idonethis发布此代码。最新的稳定版本可以通过以下方式安装： cpanm WebService:...

等到页面加载完毕www :: mechanize perl: 您好如何等待页面加载完毕并在perl中获取页面内容

awesome-perl:精选的Perl框架和库的精选列表。来拉请求！: 很棒的Perl 精选Perl资源的精选列表，包括框架，库和软件。受到启发。...网页抓取网络安全数字取证逆向工程精氨酸用于论证体现和验证的库。 Data :: Validator-基于类型约束系统的基于规则的验证器

awesome-perl：精选的Perl框架，库和软件的精选清单: :sparkles: Mojolicious-Perl实时Web框架用于分析PostgreSQL数据库配置并提供调优建议的简单脚本使用rsync备份数据的工具（如果要获取帮助，请使用） -Imapsync是IMAP传输工具。 imapsync的目的是迁移IMAP帐户或...

WordCloud:Perl中的词云: Perl 脚本语言的词云源代码。此词云设置为从西班牙网站检索提要（例如，有一个简单的 html 可以选择该网站的提要），但很容易将词云功能与此示例分开，并且以通用方式使用。如果有人对如何做到这一点感兴趣，请...

简单详细介绍了python爬虫基础.docx: 此外，抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，譬如模拟用户登陆、模拟session/cookie的存储和设置。在python里都有非常优秀...

Node.js实现的简易网页抓取功能示例: 现今，网页抓取已经是一种人所共知的技术了，然而依然存在着诸多复杂性，简单的网页爬虫依然难以胜任Ajax轮训、XMLHttpRequest，WebSockets，Flash Sockets等各种复杂技术所开发出来的现代化网站。我们以我们在...

perl-tutorial-org-data: 该存储库包含实际的Wiki内容和网站的某些样式每当提示重新构建Wiki软件时，此处的更改将自动同步到服务器，这意味着：页面已编辑 ikiwiki -setup ~/PerlTutorialHub.setup在服务器上执行管理员用户进入...

ariactl:用 Perl 编写的 aria2 网络界面: 它提供了一个网页来添加下载到aria2 ，获取已完成和等待下载的列表，并更改aria2一些选项。将arialctl.pl和两个 CSS/JS 文件安装在mod_perl管理的目录中。该脚本不进行用户身份验证，配置您的网络服务器以限制...

perlythingkeeper:通过他们的 API 从 thingiverse.com 获取东西: 最初，我计划抓取网页以获取有关我想保存的每件事的信息，但后来一位朋友提到了 API，我得到了其中一个，呃！时刻。该项目将包含许多基于 Moose 的 perl 模块，这些模块将用作 thingiverse 的 API 的 Perl 接口：...

获取nod32用户名和密码: 使用perl编写的程序，可以自动从网站http://www.nod32home.com/中获取每日公布的nod32的用户名和密码。注：运行程序需联网；双击运行后会在程序目录下生成名为"tmp.txt"的文件，打开后里面有用户名和密码；每日早上...

chromedriver-win64-121.0.6167.85: 网页抓取：ChromeDriver 也可用于实现网页抓取，开发人员可以编写代码来访问网页、提取数据、执行交互操作等，以实现数据采集、爬虫等需求。 ChromeDriver 支持多种编程语言，包括但不限于以下几种： Java Python ...

Snoopy：一个用来模拟浏览器的一些简单功能的php类库: Snoopy是一个用来模拟浏览器的一些简单功能的php类,可以获取网页内容,发送表单等操作,Snoopy正确运行需要你的服务器的PHP版本在4以上,并且支持PCRE(Perl Compatible Regular Expressions),基本的LAMP服务都支持,由于...

Global site tag (gtag.js) - Google Analytics