高级应用

通过上一个例子,您也许对规则的配置已经"小有心得"。下面我们以一个例子说明其他更为重要,也是经常使用的配置规则的方法。该例子中会涉及到的有:自定义字符串的使用,范围使用,页面分析。
同样是用例测试页。测试值对应的链接为这个例子的规则的最终页。
使用【浏览器辅助工具】查看网页间提交字符串的差异:























通过工具【网页导向分析】的分析很容易看出,页面上所呈现出的信息是由查询字符串type1,type2,page控制的。
规则配置及说明:
初始任务层:













分析层:







查看初始网址的源文件,找到与
对应的html代码,我们需要改变这两个下拉框的值才能获取不同的数据。配置规则时,我们有两种选择:第1,从html源码中匹配出。上一个例子用的就是这种方法。第2,添加自定义字符串。添加自定义字符串是一个非常有用的方法。这里,我们将使用这种方法。
确定需要匹配的字符串。此例中所需字符串即为两个下拉框中的选项。即:"<option value="10">大类1</option><option value="11">大类2</option>"和"<option value="20">小类1</option><option value="21">小类2</option>"。点击【添加字符串】按钮,添加所需字符串:
 












第2个字符串添加同理。
添加URl分析:
匹配type1和type2:








 type2的匹配方法同上。这样一来,软件将自动匹配自定义字符串。
还有另外一种情况,我们需要的字符串并不存在与html源码中,它可能位于一个javascript文件中。遇到这种情况,同样查看html源码,找到其中的javascript文件的路径,输入到浏览器的地址栏中即可下载下来,然后选择javascript文件中需要的内容作为自定义字符串即可。
匹配page:






添加页面分析:








 说明:当我们改变type1或type2的值时,最终页的数据就会相应的改变。但如果我们对分析层中的Url分析或Post分析的某些信息感兴趣,也想将它们采集下来,该怎么办呢?同时还要考虑这样一个问题:即分析层所抓数据与由此分析层所得到最终页面信息的匹配性,最终页面得到的信息应该与得到它的分析层的信息相对应。如何实现呢?如上图:选择多重匹配,填上您想抓取的信息的前置和后置。Url匹配中的值是指Url分析所对应的分析字符串,比如Url匹配为1,即为匹配Url分析中所添加的第一条Url分析。注意:分析来源也一定要和Url分析中的分析来源一致。Post匹配和Public匹配同理。我们在这里得到的是数据的类型。
添加任务规则2,得到最终页面网址。
 








添加最终页面分析:














规则设置完毕,保存,添加到任务计划,运行。抓取结果如图:








<AnalyseData></AnalyseData>内为分析层所抓数据
<ResultData></ResultData>内为最终页面所抓数据
<CombinationData></CombinationData>内为复合页面所抓数据

AnyGet网络信息采集器

软件介绍 介绍软件的特点
软件下载 不同版本的安装文件的下载链接
安装说明 简单介绍软件的安装步骤
● 使用说明
   ● 视频帮助 flash视频帮助,简单易学
   ● 注册登录 用户注册,登录及帐号维护
   ● 如何抓取信息 抓取规则设置,请仔细阅读
   ● 如何设置任务 将您的抓取规则添加到任务中并设置不同的任务计划类型
   ● 如何进行数据存取 配置您采集的数据的存取方式及存放目录
   ● 如何运行规则 调试及运行抓取规则
   ● 辅助工具 简单易用的工具,帮助您快速创建抓取规则
   ● 常见问题 常见疑难问题解答,请您积极参与,使我们的软件成为您的得力助手
   ● 采集规则设置范例 具体实例,帮助您快速掌握规则设置方法
关于我们 | 联系方式 | 友情链接| 用户反馈
虎客网络技术支持
2006-2007 www.SokeZone.com, all rights reserved [鲁ICP备07001631号]