如何使用尖叫青蛙的SEO蜘蛛抓取大型网站并提取数据

SEO蜘蛛尖叫的青蛙
阅读时间: 3 分钟

我们正在协助几个客户 Marketo迁移。 大型公司利用这种企业解决方案时,就像一个蜘蛛网,多年来将自己编织到流程和平台中……直到公司甚至不了解每个接触点为止。

借助Marketo这样的企业营销自动化平台,表单是整个站点和登录页面中数据的入口点。 公司在他们的站点中经常有成千上万的页面和数百种表单需要识别以进行更新。

一个很好的工具是 尖叫青蛙的SEO蜘蛛……也许是市场上最流行的平台,用于从站点进行爬网,审核和提取数据。 该平台功能丰富,几乎可以为您所需的每项任务提供数百种选择。

尖叫青蛙SEO蜘蛛:爬行和提取

Screaming Frog SEO Spider的主要功能是您可以根据以下内容执行自定义提取 正则表达式, XPath的CSS路径 细节。 这非常有用,因为我们希望抓取客户的站点并进行审核,并从页面中捕获MunchkinID和FormId值。

用工具打开 配置>自定义>提取 以确定要提取的元素。

尖叫青蛙定制提取

提取屏幕几乎可以无限制地收集数据:

尖叫青蛙SEO蜘蛛提取规则

正则表达式,XPath和CSSPath提取

对于MunchkinID,标识符位于页面内的表单脚本中:

<script type='text/javascript' id='marketo-fat-js-extra'>
    /* <![CDATA[ */
    var marketoFat = {
        "id": "123-ABC-456",
        "prepopulate": "",
        "ajaxurl": "https:\/\/yoursite.com\/wp-admin\/admin-ajax.php",
        "popout": {
            "enabled": false
        }
    };
    /* ]]> */

然后,我们应用 正则表达式规则 从页面中插入的脚本标签内捕获ID:

Regex: ["']id["']: *["'](.*?)["']

对于表单ID,数据位于Marketo表单的输入标签中:

<input type="hidden" name="formid" class="mktoField mktoFieldDescriptor" value="1234">

我们应用 XPath规则 以从页面中插入的表单中捕获ID。 XPath查询会查找带有输入名称为的表单 强大,然后提取将保存 :

XPath: //form/input[@name="formid"]/@value

尖叫青蛙SEO蜘蛛Javascript渲染

Screaming Frog的另一个不错的选择是您不仅限于页面中的HTML,还可以呈现将要在网站中插入表单的任何JavaScript。 内 配置>蜘蛛,您可以转到“渲染”标签并启用它。

尖叫青蛙SEO蜘蛛Javascript渲染

当然,这确实需要更长的时间来爬网该站点,但是您将获得由JavaScript在客户端呈现的表单以及在服务器端插入的表单。

尽管这是一个非常特定的应用程序,但是当您使用大型站点时,它是一个非常有用的应用程序。 您绝对要审核表单在整个网站中的嵌入位置。

下载尖叫青蛙SEO蜘蛛

你觉得呢?

本网站使用Akismet来减少垃圾邮件。 了解您的数据如何处理.