in

10个流行网络爬取 API 的性能、价格对比

流行网络爬取 API 的性能对比

网络爬虫日益普及,但挑战也越来越大。为满足稳定爬虫基础设施的需求,许多代理和数据服务商推出了可以爬取任意网站的API。近年来此类API数量爆炸式增长。

本报告深入研究多家网络爬虫API,比较它们的特性、爬取性能、解析能力和成本效益。我们特别关注搜索引擎、电商和社交媒体三大网站群的爬取效果。

Web 爬取 API 入门

如果您不熟悉网络爬取 API,则可以将它们视为远程网络爬取工具。您可以通过发送带有目标 URL 和可选参数(如地理位置)的 API 请求来与它们进行交互。

在后端,API 选择适当的代理,应用标头,并在需要时启动无头浏览器实例以打开目标并提取其 HTML。完成其工作后,API 通过打开的连接或使用 webhook 将数据返回给您。

更高级(或更专业)的 API 能够解析页面以提取 JSON 或其他格式的结构化数据点。他们有时使用参数化语法,您只需输入搜索查询或亚马逊的产品代码 (ASIN) 而不是完整的 URL。更高级的系统涉及复杂的技术,如人工智能视觉和模式识别模型。

无论如何,这些 API 旨在无误地交付数据,并且几乎总是根据成功的请求来定价。这使得费用跟踪具有高度可预测性和直接性。但正如我们将看到的,一些供应商已经设法设计出看似不透明的定价模型。

关键要点

  • 大多数API只返回原始HTML,但有些提供针对特定网站的解析器,尤其是谷歌和亚马逊。Oxylabs使用机器学习对多数电商页面进行结构化数据提取。
  • 数据一般通过开放连接传输,部分可以以代理形式集成,或通过webhook和云储存发送。
  • API可以选择位置、设备,传入自定义header等。部分支持CSS选择器,少数可以模拟浏览器交互应对动态爬取场景。
  • 性能测试显示大多数API可以轻松爬取谷歌和亚马逊,但部分API速度更快。社交媒体(尤其GraphQL)是硬骨头。Oxylabs、Smartproxy和Bright Data整体最稳定。
  • 同三家解析能力也强。ScraperAPI和Rayobyte只返回关键数据,而Shifter无法本地化。
  • 定价方面,API可以统一收费(Bright Data)、按目标区分价位(Oxylabs、Smartproxy),或提高高级功能价格(ScraperAPI、Zyte),后者目标不同最高可达75倍差异。

网络爬取 API 公司

我们联系了很多提供网络爬取 API 的公司,询问他们是否愿意参与。经过一些来回,我们最终有十名参与者。该列表包括该领域的主要名称,以及正在进入该类别的几家知名代理提供商。

我们提前告知参与者我们将爬取谷歌、亚马逊和社交媒体网络,他们自愿让我们访问相关的 API。

公司名称API 测试起始价
Bright Data网页爬取 API、SERP 爬取 API、电子商务爬取 API3 美元(现收现付)、500 美元(计划)
SmartproxyWeb 解锁器,SERP API50 美元
ScraperAPI爬取机器人49 美元
Apify网页爬取 API、SERP 爬取 API、电子商务爬取 API49 美元(包含 100,000 API 信用额)
ScrapingBee网页爬取 API、SERP 爬取 API、电子商务爬取 API29 美元(包含 250,000 API 信用额)
Crawlbase网页爬取 API、SERP 爬取 API请咨询
ZyteWeb 爬取 API、SERP 爬取 API、电子商务爬取 API0 美元(现收现付)、25 美元(计划)
RayobyteZyte API0.0018 美元/请求
Shifter网页爬取 API、SERP API44.95 美元
Oxylabs网页爬取 API、SERP 爬取 API、电子商务爬取 API99美元

Apify

Apify是一家总部位于捷克的网络数据提取公司,成立于2015年。其API支持渲染JavaScript页面,可用于电商、旅游等领域数据获取。对谷歌和亚马逊爬取效果良好,但未能处理社交媒体平台。

ScrapingBee

ScrapingBee是一个无代码网络爬虫平台,可大规模爬取渲染网站。其对谷歌和亚马逊都表现不俗,社交媒体方面存在轻微困难。

Crawlbase

Crawlbase是一家新晋爬虫公司,公开信息有限。从测试结果看,其基本功能较为完备,但处理复杂场景能力一般。

Bright Data

Bright Data是一家成熟的爬虫服务提供商,拥有大量动态IP资源。其在所有测试场景下都能提供完整准确的结果,包括谷歌、亚马逊、社交平台,属于表现最好的API之一。

Smartproxy

Smartproxy是一个提供网络数据服务的老牌公司。其爬虫API支持本地化并能渲染JavaScript页面。在各测试网站上均表现强劲,是少数几个可以爬取社交平台的API。

ScraperAPI

ScraperAPI是一个云爬虫平台,通过不同级别的代理网络提供网页和数据提取服务。它可以应对大多数常规场景,但处理社交媒体存在困难。

Oxylabs

Oxylabs是一家以代理池闻名的网络数据公司。其API提供强大的爬虫基础设施,在各类目标网站上均获得了完整而准确的结果,属于本次测试表现最出色的服务商之一。

Zyte

Zyte是一个智能爬虫即服务平台,可以大规模抓取网站数据。其基本爬取功能较为完善,但处理复杂的社交媒体存在困难。

Rayobyte

Rayobyte是一家新兴爬虫API提供商,支持渲染页面。其可以应对一般场景,但在处理谷歌和社交平台时表现一般。

Shifter

Shifter提供基于无头浏览器的爬虫API。其可以应对大多数常规网页,但在本地化和社交平台爬取上存在不足。


功能概述

这部分涵盖集成方法、可用的 API 参数以及爬取和解析特定网站组的能力。

整合方法

所有网络爬取 API 在理论上都采用相似的基本结构:提供一个端点,您可以在其中传递一个或多个参数以及要爬取的 URL。然而在实践中,实现方式可能会有所不同。我们遇到了以下四种主要方法:

集成方法API (open connection)API (asynchronous)ProxyLibrary/SDK
Bright Data
Smartproxy
ScraperAPI
Apify
ScrapingBee
Crawlbase
Zyte
Rayobyte
Shifter
Oxylabs

打开连接意味着您向 API 端点发送请求并等待响应。这是最常见的方法,大多数提供商都围绕此方法定制了文档。它有两个变体:ScraperAPI 和 Shifter 更倾向于使用 GET 方法,而其他人选择 POST 请求。区别主要在于风格,GET 将参数附加到 URL,而 POST 以 JSON 有效负载的形式发送它们。

异步交付允许您发送带有 ID 的 API 调用,然后通过 Webhook 或其他方式在稍后获取结果。这对于批量爬取很有用,它为 API 提供了更多时间来提取难以爬取的页面,因为它不再受超时限制的约束。

大多数 API 也可以作为代理集成。这种方法可以更轻松地从常规代理服务器切换,因为您只需插入 API 即可。Bright Data 更倾向于代理方法,因为它主要将其工具视为代理,API 端点仅用于发出批量请求。

虽然 SDK 不是必需的,但有一个选择总是好的。

HTML 爬取

通用 API 有一个端点,它会尝试爬取您发送给它的任何网站。需要注意的是,它们不解析数据,而是以原始 HTML 格式返回页面。所有参与者都提供了一个用于通用爬取的 API:

  1. Bright Data
    • 相关工具:Web Unlocker
  2. Smartproxy
    • 相关工具:Web Scraping API
  3. ScraperAPI
    • 相关工具:ScraperAPI
  4. Apify
    • 相关工具:Generic Scraper
  5. ScrapingBee
    • 相关工具:HTML API
  6. Crawlbase
    • 相关工具:Universal Scraper
  7. Zyte
    • 相关工具:Zyte API
  8. Rayobyte
    • 相关工具:Scraping Robot
  9. Shifter
    • 相关工具:Web Scraping API
  10. Oxylabs
    • 相关工具:Web Scraper API

这些 API 需要很少的参数来运行,通常只需要一个令牌和 URL。虽然方便,但这很少能满足所有场景,因此提供商允许通过传递附加参数来自定义请求的各个方面。

提供商GeolocationResidential proxiesDevice typeSessionsCookiesData input
OxylabsAll countries
Bright DataAll countries
SmartproxyAll countries
Zyte19 countries
Rayobyte~130 countries
ScraperAPI34 countriesPaid option
Shifter10 countriesPaid option
ApifyCustom
ScrapingBeeCustom
CrawlbaseCustom

最常见的参数之一是地理位置,它由代理确定。明显可以看出哪些提供商维护自己的代理池。不支持或支持较少国家并启用住宅代理作为付费选项的提供商往往维护自己的代理池。(Shifter 是个例外,但也许它只是小气而已。)Zyte 的系统会自动尝试将位置与提供的 URL 进行匹配,因此这 19 个国家选项是手动覆盖的。

其他参数的基准类似:大多数 API 允许指定设备类型、创建会话和传递 cookie。一个有趣的参数是我们称之为数据输入的参数——它允许发送 API 转发到网站的 POST 或 PUT 请求,或将原始数据传递给请求的 HTML 表单。这对于处理网站的交互性功能非常有用。

无头爬取

无头爬取(headless scraping)是指使用无头浏览器进行网络爬取。无头浏览器是一种没有图形用户界面的浏览器,它可以通过编程方式控制,用于自动化网页测试、网页截图、网页渲染等任务。在网络爬取中,无头浏览器用于渲染JavaScript、执行浏览器操作(如点击和滚动),以及捕获截图。

下表概述了各种网络爬取API在无头爬取方面的功能和支持情况。表中列出了Apify、ScrapingBee和Crawlbase等提供商的相关信息,以及其他提供商的信息。

功能/提供商JavaScript渲染截图浏览器操作
Bright Data
Smartproxy
ScraperAPI
Apify
ScrapingBee
Crawlbase
Zyte
Rayobyte
Shifter
Oxylabs

表中的“✅”表示提供商支持该功能,“❌”表示不支持。这些功能有助于开发人员更灵活、更高效地进行网络爬取,特别是在处理JavaScript重的网站和需要用户交互的网站时。

特定的API

专用API是为特定网站或数据类型定制的API。与通用爬取API相比,专用API通常包括数据解析和结构化输出,使得获取特定数据变得更为简单和直接。下表概述了不同提供商提供的专用API,包括搜索引擎API、电子商务API和社交媒体API。

提供商/类型搜索引擎API电子商务API社交媒体API
Bright Data谷歌、必应、DuckDuckGo、Yandex
SmartproxyGoogle, Baidu, Bing, Yandex亚马逊、Idealo、Wayfair
ScraperAPI
Apify
ScrapingBee
Crawlbase
Zyte
Rayobyte谷歌亚马逊
Shifter谷歌、必应、Yandex
OxylabsGoogle, Baidu, Bing, Yandex亚马逊、沃尔玛、eBay、Wayfair + 7 家

数据解析

数据解析是将原始HTML页面转换为结构化数据的过程。不同的网络爬取API提供不同程度的数据解析支持,包括手动解析和预构建的解析器。下表概述了不同提供商在数据解析方面的支持情况。

提供商/解析类型手动解析搜索引擎解析器电子商务解析器
Bright Data谷歌、Bing、Yandex、DuckDuckGo
Smartproxy谷歌亚马逊
ScraperAPI谷歌亚马逊
ApifyCSS选择器
ScrapingBeeCSS选择器
CrawlbaseCSS选择器
ZyteCSS选择器
RayobyteCSS、XPath选择器谷歌亚马逊
ShifterCSS选择器谷歌、Bing、Yandex
Oxylabs谷歌亚马逊、沃尔玛、eBay、Wayfair、Target、Etsy、AI解析

手动解析允许开发人员使用选择器创建提取规则,而预构建的解析器则提供了针对特定网站或数据类型的解析规则,以便更快速、更简单地获取所需数据。

性能基准

性能基准测试是评估API性能的一种方法,包括成功率、速度和稳定性。通过创建自定义Python脚本,并针对谷歌、亚马逊和社交媒体平台发送异步请求,可以评估不同API的性能。

测试结果显示,大多数API在谷歌和亚马逊的爬取中表现良好,但在爬取社交媒体平台时可能会遇到困难。具体的性能数据可以根据测试脚本和目标网站的不同而有所变化。

并发

并发是指API能够同时处理多少请求。不同的提供商可能会有不同的并发限制,这可能会影响API的性能和适用性。例如,Bright Data、Smartproxy和Oxylabs提供较宽松的并发限制,而Rayobyte和Zyte则可能有更严格的限制。并发限制可能会随着定价计划的不同而变化,企业级用户可能会有更高的并发限制。

总的来说,网络爬取API提供了多种方法和功能,以帮助开发人员更有效地爬取和解析网络数据。在选择网络爬取API时,应考虑API的功能、性能和定价,以确保它符合项目需求。


解析能力

Bright Data

Bright Data(原Luminati)成立于2011年,总部位于以色列,是一家提供Web数据提取服务的公司。Bright Data拥有动态IP代理池,可以实现隐藏身份的网页爬取。它支持渲染JavaScript页面,绕过反爬策略,适合爬取如谷歌、亚马逊等目标网站。定价为每月500美元起,按请求计费。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物返回失败
亚马逊产品页

Smartproxy

Smartproxy是一个总部位于捷克的网络数据抓取和分析公司。其提供的产品包括数据提取API、Web爬虫、代理IP等。Smartproxy支持本地化和JavaScript渲染,可应用于电商、旅游等领域的数据获取。定价为每月50美元起,根据不同目标网站有不同的请求计费。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物返回失败
亚马逊产品页

ScraperAPI

ScraperAPI是一个云端数据提取服务,可以通过API接口实现网页抓取和内容解析。它提供三种等级的代理,支持渲染JavaScript页面。ScraperAPI定价灵活,基础请求每1000次0.49美元,渲染请求更贵。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Apify

Apify是一个总部位于捷克的Web数据提取与自动化公司,成立于2015年。其提供的产品包括数据提取API、抓取器等。Apify支持渲染JavaScript,绕过反爬策略,可用于电子商务、旅游等垂直领域的数据获取。定价为每月99美元起,按请求计费。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

ScrapingBee

ScrapingBee是一个总部位于旧金山的startup公司,成立于2019年。它提供无代码Web抓取即服务,可以大规模抓取动态渲染的网页。定价为每月9美元起,提供3万次免费请求用于测试。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Crawlbase

Crawlbase是一个相对较新的初创公司,成立时间不明。公开信息显示其似乎提供Web抓取和数据提取服务,但具体业务模式和定价不明。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Zyte

Zyte(原Scrapy Cloud) 是总部位于旧金山的网络数据服务公司,成立于2016年。其提供智能爬虫即服务,可以大规模抓取网站数据。定价灵活,根据目标难度和需求动态调整。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Rayobyte

Rayobyte是一个总部位于爱沙尼亚的Web数据提取公司,成立于2019年。它通过API提供HTML和数据提取服务,支持渲染JavaScript页面。 Rayobyte的定价为每1000次请求1.8美元,提供5000次免费试用。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Shifter

Shifter是一个总部位于美国洛杉矶的网络数据提取公司,成立于2014年。它通过API提供无头浏览器爬虫服务,支持渲染JavaScript页面。Shifter定价为每月44美元起,采取订阅制。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

Oxylabs

Oxylabs是一个总部位于立陶宛的Web数据抓取公司,成立于2015年。其提供支持代理轮换的抓取API,可以大规模收集结构化数据。定价为每月99美元起,主要面向企业客户。

场景本土化有机结果预览地图相关搜索人们还在问
Google桌面
Google移动
Google购物
亚马逊产品页

成本效益

在最后一节中,我们探讨了网络爬取 API 的定价模型、影响其价格的因素,以及这些爬取工具在不同情况下的成本(例如,获取未受保护网站的 HTML 与爬取交互式目标)。

定价模型

成本效益

定价模型

大多数爬虫API服务商采用基于请求数的付费模式,即只对成功的请求进行收费。这使得计算费用简单明了。

服务商定价模式价格结构起步价格试用
Bright Data即用即付、订阅制请求数$3即用即付,$500订阅
Smartproxy订阅制请求数$503,000请求3天
ScraperAPI订阅制请求数$49一周5,000分
Apify订阅制请求数$99一周5,000请求
ScrapingBee即用即付、订阅制请求数$9订阅3万免费请求
Crawlbase不明不明不明不明
Zyte即用即付、订阅制动态定价$0即用即付,$25订阅5美元免费赠金
Rayobyte即用即付请求数$0.0018每请求每月5,000免费
Shifter订阅制请求数$44退款保证
Oxylabs订阅制请求数$99一周5,000请求

场景定价

部分服务商会因目标网站不同而调整价格,这使得预测费用较困难。以下是在不同爬取场景下的费率对比:

月预算$50时,每1,000请求费率:

场景Bright DataSmartproxyScraperAPIApifyScrapingBeeCrawlbaseZyteRayobyteShifterOxylabs
基础网站$3$2$0.49$1.8$0.5$1.8$0.45
Google$3$3.85$12.25$1.8~$1.5$1.8$9
亚马逊$3$3.35$2.45$1.8~$1.2$1.8$2.25
社交媒体$3$2$14.9$1.8~$0.5$1.8$11.25
社交媒体(渲染)$3$2$19.6$1.8~$23$1.8$11.25

月预算$100时,每1,000请求费率:

场景Bright DataSmartproxyScraperAPIApifyScrapingBeeCrawlbaseZyteRayobyteShifterOxylabs
基础网站$3$1$0.15$1.3$1.8~$0.4$1.8$0.45$1.3
Google$3$2.86$3.73$3.4$1.8~$1.3$1.8$9$3.4
亚马逊$3$2$0.75$3$1.8~$1$1.8$2.25$3
社交媒体(GraphQL)$3$1$4.5$1.3$1.8~$0.4$1.8$11.25$1.3
社交媒体(渲染)$3$1$6$1.3$1.8~$20$1.8$11.25$1.3

月预算$250时,每1,000请求费率:

场景Bright DataSmartproxyScraperAPIApifyScrapingBeeCrawlbaseZyteRayobyteShifterOxylabs
基础网站$3$0.9$0.15$1.3$1.8~$0.34$1.8$0.135$1.3
Google$3$2.5$3.73$3.4$1.8~$1.1$1.8$7.5$3.4
亚马逊$3$1.67$0.75$3$1.8~$0.83$1.8$0.68$3
社交媒体(GraphQL)$3$0.9$4.5$1.3$1.8~$0.34$1.8$3.38$1.3
社交媒体(渲染)$3$0.9$6$1.3$1.8~$17$1.8$3.38$1.3

月预算$500时,每1,000请求费率:

场景Bright DataSmartproxyScraperAPIApifyScrapingBeeCrawlbaseZyteRayobyteShifterOxylabs
基础网站$2.55$0.8$0.1$1$1.8~$0.3$1.8$0.09$1
Google$2.55$2$2.5$2.5$1.8~$0.93$1.8$4.5$2.5
亚马逊$2.55$1.5$0.5$2$1.8~$0.71$1.8$0.45$2
社交媒体(GraphQL)$2.55$0.8$3$1$1.8~$0.3$1.8$2.25$1
社交媒体(渲染)$2.55$0.8$4$1$1.8~$14.7$1.8$2.25$1

[/su_table]

请检查是否补充完整。如果还有需要添加的内容,请指出。


爬虫API性能有差异 选择需考虑多方面因素

网络爬虫应用日益广泛,许多数据公司推出了爬取网站的API服务。最近一项对几家主要供应商的研究发现,这些API在抓取性能、解析能力和价格策略上存在显著差异。

以权威的网络爬虫平台Oxylabs为例,其拥有大量代理资源,可以高效抓取各类网站,包括谷歌、亚马逊、社交平台等,抓取结果准确完整。而新晋供应商Crawlbase在处理复杂的社交媒体页面时则表现一般。

在数据解析方面,老牌服务商Bright Data集成了针对主流网站的解析器,可以抽取结构化信息。而创业公司ScraperAPI更专注于只返回关键数据点。

这表明用户在选择爬虫API时,必须根据自身网页目标和数据需求进行评估。一些供应商如Zyte采用动态计费,网站复杂度越高,价格越高,费率最高可达同一服务商基础请求价格的75倍。

综上所述,没有最好的爬虫API,只有最符合您具体情况的服务。进行清晰的需求分析,明确网页目标后再选择性能强劲、解析能力完善且价格合理的API供应商,是获得优质爬虫服务的正确打开方式。

blank

Written by 爬取 大师

阿里P12级别选手,能够突破各种反爬, 全能的爬取大师,擅长百万级的数据抓取!没有不能爬,只有你不敢想,有爬取项目可以联系我邮箱 [email protected] (带需求和预算哈, 不然多半不回复)