SERP API 可让您从搜索引擎收集数据,而无需遇到验证码或管理代理基础设施。但是市场上充满了选择,很难选择可靠的服务。此页面将帮助您比较 SERP API 并选择最适合您需求的 API。
最佳SERP API综述
- Bright Data’s Search Engine Collector – 支持所有主要搜索引擎的快速 API。
- Oxylabs SERP Scraper API – 面向企业客户的功能丰富且可扩展的选项。
- Smartproxy’s SERP Scraping API – 价值寻求者的强大中档.
- Rayobyte’s Scraping Robot – 基本 Google SERP 抓取的最便宜的选择.
获取 Google 数据的不同方式
在当今的互联网中,企业使用多种方法从搜索引擎结果页面(简称 SERP)中提取数据。
然而,搜索引擎已经实施了各种安全技术来防止恶意机器人获取他们的页面。即使有人想在不违反任何法律的情况下提取数据,他们仍可能面临这些技术难题。
这就提出了一个问题:获得大规模 Google 搜索结果的最佳方式是什么?为了找出答案,让我们首先简要介绍几种不同的方法。
构建自定义 SERP 刮板
一些公司选择自己构建 Google 搜索刮板。这是一个复杂的过程,但它可以帮助他们根据需要或目标调整刮板。为了开发爬虫,工程师通常将 Python 与 Beautiful Soup 结合使用,Beautiful Soup 是一个允许您从多种标记语言(包括 HTML 和 XML)中提取信息的库。
不利的一面是,自定义抓取工具需要不断维护,因为 Google 会定期更改其 SERP 结构和整体算法。
使用第三方网络抓取工具
另一种方法是使用第三方网络爬虫。通常,这些工具旨在提取不同的网络搜索数据类型,而不仅仅是谷歌 SERP。除非您使用具有高质量住宅代理的刮板,否则您最终可能不得不处理 IP 禁令和验证码。
问题是领先的供应商开始限制通过他们的代理网络访问谷歌,这给我们带来了第三种选择。
使用 Google 抓取 API
SERP API 是这个故事的主角。它们基本上是为搜索引擎量身定制并打包为 API 的远程网络抓取工具。您发送带有一些参数(搜索查询、设备、位置)的请求,API 会为您返回结果。这里最大的优势是软件提供商负责 IP 轮换、验证码、JavaScript 渲染,甚至数据解析,确保您 100% 成功交付。
谷歌搜索有官方 API 吗?
Google 提供自定义搜索 JSON API,它允许软件开发人员向应用程序添加搜索框。作为此服务的一部分,您还可以获得 Google Search API,它可以帮助您根据首选国家、语言和其他参数检索 SERP 数据。
但是,Google Search API 价格昂贵:虽然它允许您每天免费进行 100 次搜索查询,但您必须为每 1,000 次请求额外支付 5 美元。更不用说,它每天限制为 10,000 个请求。
选择 SERP 抓取 API 时要考虑什么?
- 响应时间。SERP API 努力确保 100% 的数据交付。在最高负载期之外,他们通常会成功。但是,响应时间是这些工具可能有显着差异的一个领域(几次或更多)。这取决于它们的底层网络抓取能力、代理基础设施和其他因素。
- 位置选项。 通常,验证该服务是否允许定位您需要的国家/地区就足够了。但是如果你在做本地搜索引擎优化,请确保你可以选择一个特定的城市甚至坐标。
- 解析器的质量和种类。与通用网络爬虫不同,SERP API 不仅下载搜索页面,还构建数据以供进一步使用。大多数人发现有机和付费结果就足够了,但您也可以从其他搜索属性中受益。更重要的是,API 遵循不同的解析模式,其中一些可能比其他的结构更好。
- 整合方法。SERP API 可以通过多种方式集成:作为开放连接上的 API、使用 webhook 或作为代理服务器。您应该考虑哪种格式最适合您。大规模操作倾向于使用 webhook,因为它们允许异步发送许多请求,从而节省资源。
- 输出格式。两种最常见的格式是原始 HTML 或解析的 JSON。也就是说,一些工具支持 CSV 输出,甚至可以将数据直接发送到 Google 表格。
- 价格。所有 SERP API 都使用相同的定价模型——它们对成功的请求收费——但定价可能截然不同。便宜的服务成本更低,以换取更少的功能和更差的性能。高级期权在开始时的售价要高出 1.5-2 倍,随着您的扩大规模逐渐缩小差异。
最好的 SERP API
如果您决定使用 API 进行 Google 搜索抓取,这里概述了五种强大的工具,可帮助您选择最佳工具。
1. Bright Data’s Search Engine Collector
支持所有主要搜索引擎的快速 API。
Search Engine Collector 由最大的代理服务提供商之一 Bright Data 运营。该工具允许从大多数 Google 产品(包括搜索、图片、地图等)中获取结构化数据。它也可以抓取其他搜索引擎,例如 Bing、Yahoo 和 DuckDuckGo。
Search Engine Collector 支持您期望的所有功能:国家和城市、浏览器和设备选择。该文档偏向于类似代理的集成,但您也可以以 API 格式发送查询并批量接收数据。Bright Data 提供了一个交互式游乐场,极大地简化了设置过程。
在性能方面,这是我们尝试过的最快的搜索 API。它平均在不到 4 秒的时间内完成请求,明显快于竞争对手。主要关心的是价格。
虽然您可以随用随付,但这需要 5/1,000 美元的请求 – 远高于现行费率。最便宜的计划从 200K 请求的 500 美元起(2.5 美元/1,000 个请求),这更好,但仍然很昂贵。因此,可以肯定地说,该服务面向大中型公司。如果您从事小型项目,它可能不适合您。
- 平均 响应时间: 3.92 秒
- 地点: 195 个国家和城市定位
- 解析器种类: 所有 SERP 功能、新闻、购物、地图、酒店
- 集成方式: 类代理、API(开放连接和webhook)
- 输出格式: 原始 HTML、解析的 JSON
- 价格: 1,000 个结果 5 美元起(5 美元/1,000 个请求)
2. Oxylabs SERP Scraper API
面向企业客户的可扩展且功能丰富的选项。
Oxylabs 是另一家主要的代理提供商,拥有最大(通常也是性能最好的)代理网络。其 SERP Scraper API 支持 Google 以及其他主要搜索引擎。它收集和构建所有网络搜索功能和许多其他 Google 属性,例如购物。
SERP Scraper API 可能是此列表中功能最完整的工具。它使您可以将任何位置定位到非常精细的级别、桌面和移动设备,直接或通过 webhook 批量检索数据。它也是支持 CSV 输出的唯一选项,即使它涵盖了有限的搜索类型(主要是 Google 网络搜索)。
在我们的测试中,SERP Scraper API 表现适中(平均响应时间为 9.82 秒)。但是,它的扩展性非常好,并且成功地完成了所有请求。没有测试您的配置的场所,但 Oxylabs 有详细的文档、称职的客户服务,并且您可以下载 Postman 集合。
就价格而言,该工具的成本低于 Bright Data 的 API,但它仍然针对能够支付数百美元的高端客户。因此,它可以被认为是搜索引擎爬虫的一个非常有能力的替代品。
- 平均 响应时间: 9.82 秒
- 地点: 195 个国家、城市和坐标定位
- 解析器种类: 所有 SERP 功能、新闻、购物等
- 集成方式: 类代理、API(开放连接和webhook)
- 输出格式: 原始 HTML、解析的 JSON、CSV
- 价格: 29,000 个结果的 99 美元起(3.41 美元/1,000 个请求)
3. Smartproxy’s SERP Scraping API
一个强大的中档价值寻求者。
Smartproxy 的 SERP Scraping API 类似于前三个功能选项中的任何一个。它允许定位国家和城市,选择浏览器、设备,并从各种 Google 属性中获取解析数据。与 Bright Data 和 Oxylabs 一样,它支持更多的搜索引擎,例如百度和 Bing。
将 SERP Scraping API 与高级竞争对手区分开来的唯一功能是它无法支持异步请求。换句话说,您将通过打开的连接收集数据,没有批量搜索查询的选项。否则,这项体面的服务几乎没有任何警告:它在不到 8 秒的时间内返回数据,提供了一个游乐场和精致的用户体验。
在价格方面,Smartproxy 的成本低于任何一种高级选项。如果您绝对不需要通过 API 进行请求批处理,或者如果您发现 SERPMaster 的控件过于不完善,这将是一个不错的选择。
- 平均 响应时间: 7.89 秒
- 地点: 195 个国家、城市和坐标定位
- 解析器种类: 所有 SERP 功能、新闻、购物、图像等
- 集成方式:类代理、API(开放连接)
- 输出格式:原始 HTML、解析的 JSON
- 价格: 19,000 个结果 50 美元起(3.85 美元/1,000 个请求)
4. Rayobyte’s Scraping Robot
基本 Google SERP 抓取最便宜的选择。
Rayobyte 的 Scraping Robot 专注于基础知识。它只返回桌面结果,支持国家级定位,通过开放连接作为 API 集成,并且只解析网络搜索的主要方面(有机、付费、人们也问、相关查询)。
该工具也没有最佳性能。在我们的测试中,平均请求需要 19 秒以上才能完成,尽管有 150 秒的超时时间,但仍有近 5% 的请求失败。
那么,你为什么还要考虑呢?Scraping Robot 提出了三个强有力的论点:
- 有一个免费计划,每月有 5,000 个结果。
- 1,000 个请求的费用为 1.8 美元。
- 您购买的积分永不过期。
因此,如果您不介意这些限制,Scraping Robot 可以帮助您完成中小型项目,其成本低于我们列表中的任何替代方案。
- 平均 响应时间: 19.18 秒
- 地点: 100多个国家
- 解析器种类: 主要的网络搜索功能
- 集成方式: API(开放连接)
- 输出格式: 原始 HTML、解析的 JSON
- 价格: 1,000 条结果 1.8 美元起
搜索引擎抓取工具或 SERP API – 您应该选择哪一个?
大规模收集 Google 搜索结果的另一种方法是使用网络爬虫。让我们快速浏览一下两个流行的网络爬虫——Octoparse 和 ScrapeBox。
Octoparse
Octoparse是一款网页抓取软件,以其易于导航的用户界面而闻名。它提供免费计划,将用户每次导出限制为 10,000 条记录。由于免费计划不提供任何高级功能,因此更适合小型项目。
Octoparse 还为中型公司和企业提供计划。这些计划的成本为 75-250 美元,并提供无限的数据导出功能、自动 IP 轮换、预定结果提取和其他额外功能。
许多人欣赏 Octoparse 的易用性,并且不需要任何编码技能。另一方面,只有其高级计划包括优先支持。因此,如果您拥有标准版或免费版,则可能需要很长时间才能解决问题。此外,Octoparse 不保证 100% 的数据传输成功,可能会导致请求错误。
ScrapeBox
ScrapeBox 是一款专为 SEO 专家和代理商设计的一体化网络抓取工具,每月收费 97 美元。它提供各种服务,帮助您确保涵盖所有 SEO 基础:关键字和元数据抓取工具、反向链接检查器、搜索引擎收割机等。
虽然 ScrapeBox 主要专注于 SEO,但它允许您获取各种网络数据:电子邮件、电话号码或评论。它还提供其他服务,例如联系表格提交器,用于自动将信息发布到网站联系表格;或名称和电子邮件生成器,它为帐户或博客评论创建假名。
ScrapeBox 是一款功能强大的混淆搜索引擎优化工具;但是,它的界面并不是最人性化的界面。您可能需要一些技术指导来适应它。此外,该服务不能保证 100% 的数据传输成功,这意味着您可能会收到无效请求。
如您所见,网络抓取工具存在这种趋势:它们可能不会以 100% 的成功率返回 Google。要获得成功的响应,您必须处理这些问题,需要一些技术知识或客户支持的帮助。
代理管理
如果您决定使用网络爬虫来收集 Google 搜索结果,请确保您使用的是高质量的住宅代理;否则,您将遇到各种技术问题。如果 Google 确定您过于频繁地检查排名或跟踪特定关键字,它可能会永久禁止您的 IP 地址或用 CAPTCHA 测试轰炸您。
但是,如果您使用住宅代理,提供商会确保 IP 地址定期轮换。通过这种方式,您可以控制会话、防止验证码并避免 IP 禁令。要找到高质量的住宅代理提供商,请确保他们的代理具有较长的正常运行时间,并且从合法来源以合乎道德的方式采购。我们已经列出了最好的住宅代理来帮助您。
绕过验证码
验证码是网络抓取的最大困难之一。为了确认访问者是人,网站要求他们完成各种测试,即选择所有显示船只的图像。图像通常模糊且质量低劣,机器人几乎不可能完成测试。
处理 CAPTCHA的最佳方法是首先避免它:即,不要抓取整个网站、轮换代理或试图模仿有机的人类行为。但是,并非所有 CAPTCHA 都是可以避免的,因此您应该