跨学游戏网:纯净绿色软件游戏下载网站

电脑软件| 软件合集| 最近更新| 网站地图

当前首页:首页 > 电脑软件 > 网络工具 > 后羿采集器

后羿采集器

后羿采集器

类型:网络工具版本:v3.6.4官方版更新:2022-12-11 09:09:33大小:47.6M系统:WinAll语言:简体

后羿采集器是由原Google技术团队打造的网页数据收集软件。可以可视化点击,一键采集网页数据。所有平台,Win/Mac/Linux都有,采集导出都是免费的。可以不受限制放心使用。它可以在后台运行,速度可以实时显示。

软件特色

1.可视化定制收藏流程
全程问答引导,可视化操作,定制收藏流程
自动记录和模拟网页操作顺序
高级设置满足更多收藏需求
2。点击提取网页数据
点击鼠标选择要抓取的网页内容和操作。可以选择提取文本、链接、属性、html标签等。
3。运行批量数据采集
软件根据采集流程和提取规则自动批量采集数据
快速稳定,并实时显示采集速度和流程。
您可以将软件切换到后台运行。不要打扰前台工作
4。导出并发布收集的数据
。采集的数据自动制表,自由配置的字段
支持数据导出到Excel等本地文件
以及一键发布到CMS网站/数据库/微信微信官方账号等媒体。

施用方式

自定义百度搜索结果数据采集的方法
第一步:创建采集任务
1)开始后羿采集器,进入主界面,选择一个自定义采集,点击“创建任务”按钮,创建“自定义采集任务”

2)输入百度搜索到的网址,包括三种方式
1。手工输入:直接在输入框中输入网址,多个网址之间必须用换行符
2隔开。点击从文件中读取:用户选择一个存储URL的文件,文件中可以有多个URL地址,地址之间必须用换行符隔开。
3。批量添加方法:通过添加和调整地址参数生成多个常规地址。

第二步:自定义采集流程
1)点击创建后,会自动打开第一个URL进入自定义设置页面。默认情况下,已经创建了开始、开始和结束的过程块。模板的底部区域用于拖放到画布中以生成新的流块;在打开的网页中点按“属性”按钮,以修改打开的URL。

2)添加输入文本流块:将底部模板区域中的输入文本块拖放到打开的网页块的后面附近。当阴影区域出现时,可以松开鼠标,这时会自动连接,添加完成。

3)生成一个完整的流程图;模仿上面添加输入文本流程块的拖放过程;添加一个新的块;如下图所示:

设置key block 介绍
第二步:定时等待之前打开的网页完成
第三步:点击输入框的Xpath属性按钮,点击属性菜单中的图标点击网页中的输入框,点击输入文本属性按钮,在菜单中输入要搜索的文本。
第四步:设置点击开始搜索按钮,点击元素的xpath属性按钮,点击菜单中的点击图标,然后点击网页中的百度按钮。
第五步:用于设置循环加载下一个列表页。在循环块内部的循环条件块中设置详细的条件,点击这里的操作按钮,选择单个元素,然后在属性菜单中点击该元素的xpath属性按钮,如上图在网页中点击下一步按钮。循环次数属性按钮可以默认设置为0,即不限制下一页的点击次数。
第六步:用于设置循环提取列表页面中的数据。在loop块内部的loop condition块中设置详细的条件,在这里点击action按钮,选择未固定元素列表,然后在attribute菜单中点击elements的xpath属性按钮,然后在网页中点击两次,提取第一个和第二个元素。默认情况下,“循环次数”属性按钮可以设置为0,即列表中的充电字段数量不受限制。
第七步:点击下一步按钮,点击元素xpath属性按钮,选择在当前循环中使用元素的xpath选项。
第八步:同样用于设置网页加载等待时间。
第九步:用于设置从列表页中提取的字段规则。单击“属性”按钮中的“在循环中使用元素”按钮,然后选择“在循环中使用元素”选项。单击元素模板属性按钮,通过单击字段表中的加减来添加和删除字段。单击加号将鼠标移动到网页元素,然后单击选择它。
4)单击开始采集开始采集。

步骤3:数据采集和导出
1)采集任务正在运行。

2)收集完成后,选择“导出数据”将所有数据导出到本地文件。

3)选择“导出方式”导出采集的数据,这里可以选择excel作为导出格式。

4)采集的数据导出后,出现下图