如何抓取信息

配置抓取规则即可抓取信息。对于一个规则来说,它包括初始任务层,分析层,最终页面解析层,对于有的页面来说,可能还包括复合页面解析层。设置规则时应遵守一个原则,即:下一层的信息是通过上一层得到的。

我们以http://soft.sokezone.com/softtest/test.aspx为例。

我们可以选择向该页载入不同的数据,现在以载入数据类型大类1小类1为例。查看得知:该页面上有一系列数据,共5页,25条数据。我们的目的就是得到这5页中所有的测试值。我们还有一个以此页为例设置更为复杂的规则配置的例子。

请见采集规则设置范例

1):确定规则的初始任务层。

登录之后我们就可以设置规则,单击左上方【设置规则】按钮进入规则设置界面,
单击【新建任务】。
在界面左部有【初始任务层】,【分析层】,【最终页面解析层】等栏,这里是我们具体设置规则的地方。
【初始任务层】: 点击【添加起始规则】













这个页是本规则的任务起始页,我们要抓取的信息将从初始网址开始,每一个任务必须要有一个初始任务。选择编码格式,确定之后继续往下配置。
2):添加分析层任务,点击分析层中的【任务规则1的分析规则】。
分析我们的目的可以得知:首先应先获得总共的页数,然后再把每一页中的数据取出来,最终呈现在我们眼前。这是我们设置该规则的思路。根据"下一层的信息是通过上一层得到的"原则,任务规则1中所需的总页数应该从初始任务的初始网址中得到。
假如抓取的网页是通过Url提交字符串的话,需要配置Url基础配置。同理,如果网页是通过Post方式提交字符串,则需要Post基础配置。之后,根据不同的提交方式添加相应的分析。应如何配置呢?具体可参考一下步骤:1:确定网页提交方式。2:分析提交字符窗的差异,找出规律。3:将差异部分作为要配置的内容。在此,我们为您提供了一个可以快速分析网页的工具,以帮助您能快速,准确配置您的规则,详情请见 【浏览器辅助工具】
通过浏览器辅助工具的分析而知:我们所抓取网页是通过url方式提交字符串,每次提交的差异是page等于不同的值。
具体配置见下图:
 






配置格式说明:
http://job.sokezone.com/Search/ResultDetails.aspx?page=1&pi=<0,1,<1>,1,1>
其中<1>是一种将被替换的标记,这个标记将会被【url分析】中的第一条分析规则所分析出的字符串所替换。在这里<1>所要得到的信息是总页数。
<0,1,<1>,1,1>代表的意思是:当<1>被替换之后,比如被替换成10,那么替换之后就是<0,1,10,1,1>,这个标记指的是pi最小是1,最大是10,每次以1递增,格式化的字符串是1。post类型同理。添加Url分析:
 











说明:
前置标记和后置标记:在页面上单击鼠标右键,选择查看源文件。页面中有某信息,比如程序员,找到“程序员”,假设它在源文件是如下标记:<span>程序员</span>,那么<span>即为“程序员”的前置标记,</span>为“程序员”的后置标记。如果您不愿自己匹配的话,可以使用我们为您提供的简易规则创建向导
范围和替换:范围指的是您所抓信息位于该页源代码的区域。比如:<span>程序员,销售人员,...</span>,如果您想抓“程序员,销售人员,...”,则它们即位于<span>和</span>之间。添加范围的主要作用是为防止通过您所配置的前置标记和后置标记会抓取到您不需要的信息而设定的。替换指的是您可以将您抓取的某些内容替换成别的内容。
我们在这个规则中添加抓取所有测试值和当前页。
公共分析指如果网页上既有url和post两种提交方式,而且它们又有提交相同的字符串,这个时候如果分别添加Url分析和Post分析的话,将会提交重复,所以出现这种情况时您只需要添加公共分析即可,添加方法同Url和Post。
您可以在分析层中添加多个任务规则。假如您对作为本任务规则基础网址的页中的某些信息感兴趣,则在该任务规则中添加页面分析。其配置方法同【最终页面分析】。
【最终页面解析层】:
最终页面即为您规则中最后导向的那个页,一般我们创建规则的目的就是为了抓取最终页面上的信息。
单击【最终页面解析层】上的【添加页面分析】按钮:
 








只需为想抓取的内容匹配上前置标记和后置标记即可。
【复合页面解析层】:
【复合页面】指的是假设您在最终页面上所需的信息需要跳转到别的页中得到,那么那个跳转页即称为【复合页面】。
【复合页面解析层】中的添加页面分析同【最终页面解析层】,添加页面分析层同【分析层】中最后一个任务规则的分析规则。
这样,我们就把规则配置完毕,输入规则名称,规则描述,规则目录后保存即可。
接下来是数据存取

AnyGet网络信息采集器

软件介绍 介绍软件的特点
软件下载 不同版本的安装文件的下载链接
安装说明 简单介绍软件的安装步骤
● 使用说明
   ● 视频帮助 flash视频帮助,简单易学
   ● 注册登录 用户注册,登录及帐号维护
   ● 如何抓取信息 抓取规则设置,请仔细阅读
   ● 如何设置任务 将您的抓取规则添加到任务中并设置不同的任务计划类型
   ● 如何进行数据存取 配置您采集的数据的存取方式及存放目录
   ● 如何运行规则 调试及运行抓取规则
   ● 辅助工具 简单易用的工具,帮助您快速创建抓取规则
   ● 常见问题 常见疑难问题解答,请您积极参与,使我们的软件成为您的得力助手
   ● 采集规则设置范例 具体实例,帮助您快速掌握规则设置方法
关于我们 | 联系方式 | 友情链接| 用户反馈
虎客网络技术支持
2006-2007 www.SokeZone.com, all rights reserved [鲁ICP备07001631号]