高级应用
通过上一个例子,您也许对规则的配置已经"小有心得"。下面我们以一个例子说明其他更为重要,也是经常使用的配置规则的方法。该例子中会涉及到的有:自定义字符串的使用,范围使用,页面分析。同样是用例测试页。测试值对应的链接为这个例子的规则的最终页。
使用【浏览器辅助工具】查看网页间提交字符串的差异:
通过工具【网页导向分析】的分析很容易看出,页面上所呈现出的信息是由查询字符串type1,type2,page控制的。
规则配置及说明:
初始任务层:

分析层:

查看初始网址的源文件,找到与
对应的html代码,我们需要改变这两个下拉框的值才能获取不同的数据。配置规则时,我们有两种选择:第1,从html源码中匹配出。上一个例子用的就是这种方法。第2,添加自定义字符串。添加自定义字符串是一个非常有用的方法。这里,我们将使用这种方法。
确定需要匹配的字符串。此例中所需字符串即为两个下拉框中的选项。即:"<option value="10">大类1</option><option value="11">大类2</option>"和"<option value="20">小类1</option><option value="21">小类2</option>"。点击【添加字符串】按钮,添加所需字符串:
第2个字符串添加同理。
添加URl分析:
匹配type1和type2:
type2的匹配方法同上。这样一来,软件将自动匹配自定义字符串。
还有另外一种情况,我们需要的字符串并不存在与html源码中,它可能位于一个javascript文件中。遇到这种情况,同样查看html源码,找到其中的javascript文件的路径,输入到浏览器的地址栏中即可下载下来,然后选择javascript文件中需要的内容作为自定义字符串即可。
匹配page:
添加页面分析:
说明:当我们改变type1或type2的值时,最终页的数据就会相应的改变。但如果我们对分析层中的Url分析或Post分析的某些信息感兴趣,也想将它们采集下来,该怎么办呢?同时还要考虑这样一个问题:即分析层所抓数据与由此分析层所得到最终页面信息的匹配性,最终页面得到的信息应该与得到它的分析层的信息相对应。如何实现呢?如上图:选择多重匹配,填上您想抓取的信息的前置和后置。Url匹配中的值是指Url分析所对应的分析字符串,比如Url匹配为1,即为匹配Url分析中所添加的第一条Url分析。注意:分析来源也一定要和Url分析中的分析来源一致。Post匹配和Public匹配同理。我们在这里得到的是数据的类型。
添加任务规则2,得到最终页面网址。
添加最终页面分析:
规则设置完毕,保存,添加到任务计划,运行。抓取结果如图:
<AnalyseData></AnalyseData>内为分析层所抓数据
<ResultData></ResultData>内为最终页面所抓数据
<CombinationData></CombinationData>内为复合页面所抓数据
