Web 爬取变得越来越普遍,但也越来越具有挑战性。为了满足对可靠基础设施的需求,代理提供商和其他数据收集公司已经开始发布可以爬取任何网站的 API。它们并不是什么新现象,但在过去几年中此类 API 的数量呈爆炸式增长。
本报告深入研究了七家网络爬取 API 供应商。它比较了它们的特性、爬取性能、解析能力和成本效益。我们特别关注三大网站组:搜索引擎、电子商务商店和社交媒体平台。
Web 爬取 API 入门
如果您不熟悉网络爬取 API,则可以将它们视为远程网络爬取工具。您可以通过发送带有目标 URL 和可选参数(如地理位置)的 API 请求来与它们进行交互。
在后端,API 选择适当的代理,应用标头,并在需要时启动无头浏览器实例以打开目标并提取其 HTML。完成其工作后,API 通过打开的连接或使用 webhook 将数据返回给您。
更高级(或更专业)的 API 能够解析页面以提取 JSON 或其他格式的结构化数据点。他们有时使用参数化语法,您只需输入搜索查询或亚马逊的产品代码 (ASIN) 而不是完整的 URL。更高级的系统涉及复杂的技术,如人工智能视觉和模式识别模型。
无论如何,这些 API 旨在无误地交付数据,并且几乎总是根据成功的请求来定价。这使得费用跟踪具有高度可预测性和直接性。但正如我们将看到的,一些供应商已经设法设计出看似不透明的定价模型。
关键要点
- Web 爬取 API 通常返回原始 HTML,但七分之六的参与者拥有针对特定网站的解析器。谷歌是最受欢迎的目标,其次是亚马逊。Oxylabs 提供了一种用于解析大多数电子商务商店的机器学习模型。
- 这些 API 通常通过开放连接传输数据。大多数可以采用代理的形式以便于集成,三个提供商可以将结果发送到网络钩子或云存储。
- 它们相对可定制,让您选择位置、设备并传递自定义标头。四个 API 接受 CSS 选择器,三个支持动态爬取场景的浏览器交互。
- 在性能测试中,很少有 API 发现 Google 和 Amazon 是一个挑战,但有些 API 比其他 API 快几倍。社交媒体(特别是 GraphQL)对许多人来说很难。总体而言,Oxylabs、Smartproxy 和 Bright Data 被证明是最可靠的。
- 同样的三重奏也有强大的解析器。ScraperAPI 和 Rayobyte 专注于返回关键数据点,而 Shifter 未能本地化结果。
- 在价格方面,API 可以对所有功能(Bright Data)收取相同的费用,按目标群体(Oxylabs、Smartproxy)收取不同的价格,或者提高高级功能的请求价格(ScraperAPI、Zyte)。在后一种情况下,根据网站的不同,费率最多可以相差 75 倍。
网络爬取 API 公司
我们联系了很多提供网络爬取 API 的公司,询问他们是否愿意参与。经过一些来回,我们最终有七名参与者。该列表包括该领域的主要名称,以及正在进入该类别的几家知名代理提供商。
我们提前告知参与者我们将爬取谷歌、亚马逊和社交媒体网络,他们自愿让我们访问相关的 API。
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
API 测试 | 网页爬取 API, SERP 爬取 API 电子商务 爬取 API | Web 解锁器, SERP API | Web 爬取 API、 SERP 爬取 API、 电子商务爬取 API | Zyte API | 爬取机器人 | 爬取API | 网页爬取 API SERP API |
起始价 | 99美元 | 3 美元(现收现付)、500 美元(计划) | 50 美元 | 0 美元(现收现付),25 美元(计划) | 0.0018 美元/请求 | 49 | 44.95 美元 |
功能概述
这部分涵盖集成方法、可用的 API 参数以及爬取和解析特定网站组的能力。
整合方法
理论上,所有网络爬取 API 都使用相同的基本结构:有一个端点,您可以在其中传递要使用一个或多个参数爬取的 URL。在实践中,实施可能会有很大差异。以下是我们遇到的四种主要方法:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
API (open connection) | ✅ | ❌ | ✅ | ✅ | ✅ | ✅ | ✅ |
API (asynchronous) | ✅ | ✅ | ❌ | ❌ | ❌ | ✅ | ❌ |
Proxy | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ | ❌ |
Library/SDK | ❌ | ❌ | ❌ | ✅ | ❌ | ✅ | ✅ |
打开连接意味着您向 API 端点发送请求并等待响应。这是最流行的方法,大多数提供商都围绕它定制文档。它有两个变体:ScraperAPI 和 Shifter 更喜欢 GET 方法,而其他人则选择 POST 请求。区别主要在于风格,因为 GET 将参数附加到 URL,而 POST 将它们作为 JSON 有效负载发送。
- 发送 GET 请求 (Shifter)。
- 发送 POST 请求 (Smartproxy)。
异步交付让您可以发送带有 ID 的 API 调用,然后随时通过 Webhook 或其他方式获取结果。它对于批量爬取很有用,并且它为 API 提供了更多时间来提取硬页,因为它不再受超时限制的约束。

使用 webhook URL (ScraperAPI) 发送异步请求。
大多数 API 也可以作为代理集成。这种方法可以更轻松地从常规代理服务器进行转换,因为您只需插入 API 即可。Bright Data 是唯一比其他人更喜欢代理方法的参与者,因为它主要将其工具视为代理。API 端点仅用于发出批量请求。

将 API 作为代理服务器访问 (Bright Data)。
我们认为 SDK 不是必需品。但他们很高兴有一个选择。
HTML 爬取
通用 API 有一个端点,它会尝试爬取您发送给它的任何网站。需要注意的是,它们不解析数据,而是以原始 HTML 格式返回页面。所有参与者都提供了一个用于通用爬取的 API:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
相关工具 | Web Scraper API | Web Unlocker | Web Scraping API | Zyte API | Scraping Robot | ScraperAPI | Web Scraping API |
这些 API 需要很少的参数来运行,通常只需要一个令牌和 URL。虽然方便,但这很少能满足所有场景,因此提供者允许通过传递附加参数来自定义请求的各个方面。
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | Scraper API | Shifter | |
---|---|---|---|---|---|---|---|
Geolocation | All countries | All countries | All countries | 19 countries | ~130 countries | 34 countries | 10 countries |
Residential proxies | ✅ | ✅ | ✅ | ✅ | ✅ | Paid option | Paid option |
Device type | ✅ | ❌ | ✅ | ❌ | ✅ | ✅ | ✅ |
Sessions | ✅ | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ |
Cookies | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ |
Data input | ✅ | ❌ | ❌ | ✅ | ✅ | ✅ | ✅ |
最常见的参数之一是地理位置,它由代理确定。很明显哪些提供商维护自己的代理池。那些不支持较少国家并启用住宅代理作为付费参数的。(Shifter 是个例外,但也许它只是小气而已。)Zyte 的系统会自动尝试将位置与提供的 URL 进行匹配,因此这 19 个国家/地区选项是手动覆盖的。
其他参数的基准是类似的:大多数 API 允许指定设备类型、创建会话和传递 cookie。一个有趣的参数是我们所说的数据输入——它允许发送 API 转发到网站的 POST 或 PUT 请求。这主要用于填写表格。
无头爬取
除了克服网站保护系统之外,headless scraping 是另一个主要的痛点,它将开发人员推向了 web scraping API。知道这一点,我们概览的产品中可能有三分之二使用我们为您管理无头浏览器的口号。
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAP | Shifter | |
---|---|---|---|---|---|---|---|
JavaScript 渲染 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
截图 | ✅ | ❌ | ✅ | ✅ | ✅ | ❌ | ✅ |
浏览器操作 | ❌ | ❌ | ❌ | ✅ | ✅ | ❌ | ✅ |
不出所料,JavaScript 渲染是普遍可用的。基本实现归结为传递一个附加参数,通常称为渲染,您可以再添加一个参数来截取屏幕截图。Bright Data 自动处理 JavaScript,无需人工干预。

切换 JavaScript 渲染很简单 (Shifter)。
一些提供商更进一步,让您实际与浏览器交互。例如,Shifter 有执行点击和滚动操作的指令,而 Rayobyte 为页面加载事件提供了三个参数。
Zyte 在这方面走得最远:它构建了一个完整的 TypeScript API,可以执行所有操作,包括将鼠标悬停在元素上并输入单个符号。该功能适用于企业客户,您可以通过 Zyte 的浏览器内 Visual Studio Code 编写或访问预先编写的脚本。
专用API
大多数参与者还为特定网站组提供专门的 API。与通用刮板相比,它们带来了几个好处。
首先,您可以确定提供商能够爬取该网站。通用 API 具有针对流行目标的自定义爬取工具;但是因为它们是在一个端点后面抽象出来的,所以通常会涉及猜测(或反复试验)。
其次,专门的 API 带来了一种更加结构化的爬取方法。例如,您可以使用查询、位置和分页作为参数访问 Google 搜索端点,而不是手动构建 URL。

通过参数自定义 Google 搜索查询 (Oxylabs)。
最后——也许是最重要的——专用 API 具有用于返回结构化数据的数据解析器。我们将进一步介绍解析方法。
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
搜索引擎 API | Google, Baidu, Bing, Yandex | 谷歌、必应、DuckDuckGo、Yandex | Google, Baidu, Bing, Yandex | ❌ | 谷歌 | ❌ | 谷歌、必应、Yandex |
电子商务API | 亚马逊、沃尔玛、eBay、Wayfair + 7 家 | ❌ | 亚马逊、Idealo、Wayfair | ❌ | 亚马逊 | ❌ | ❌ |
社交媒体 API | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ | ❌ |
搜索引擎通常是定制爬虫最受欢迎的候选者,它们甚至构成了一个单独的类别,称为 SERP API。电子商务 API 更为罕见。请注意缺乏专门的社交媒体爬取工具。面对法律压力,一些提供商拒绝提及某些平台,更不用说强调它们了。
当然,谷歌和亚马逊最受关注。当其他目标很高兴获得一个 API 时,这两个目标最多可以有十个!他们的自定义参数不仅仅是为了方便。就谷歌而言,它们还支持更精确的定位选项,这对本地搜索引擎优化至关重要。
Google 功能:
Oxylabs | Bright Data | Smartproxy | Rayobyte | Shifter | |
---|---|---|---|---|---|
蜜蜂 | 搜索、广告、酒店、图片、自动完成、搜索量、趋势 | 搜索、地图、趋势、评论、酒店、倒车影像 | 搜索、广告、酒店、图片、自动完成、趋势 | 搜索 | 搜索、地图、自动完成、学者、产品、反向图像、工作、事件、Google Play、趋势 |
搜索类型 (tbm) | ✅ | ✅ | ✅ | ❌ | ✅ |
设备类型 | ✅ | ✅ | ✅ | ❌ | ✅ |
位置选择 | 市级 | 市级 | 市级 | 国家级 | 市级 |
本土化 | 领域,语言 | 领域,语言 | 领域,语言 | 领域,语言 | 领域,语言 |
分页 | 开始,页数 | 开始,页数 | 开始,页数 | 页数 | 开始,页数 |
亚马逊功能 :
Oxylabs | Smartproxy | Rayobyte | |
---|---|---|---|
蜜蜂 | 畅销书、定价、产品、质量检查、评论、搜索、卖家 | 产品、定价、评论、QA、搜索、卖家 | 产品 |
设备类型 | ✅ | ✅ | ❌ |
领域 | ✅ | ✅ | ❌ |
送货地点 | ✅ | ✅ | ❌ |
分页 | 开始,页数 | 开始,页数 | ❌ |
数据解析
通常,解析数据的能力伴随着专门的 API。但也有例外。一些提供者公开了用于手动构建解析器的选择器。ScraperAPI 采用另一种方法——它可以通过向通用 API 添加参数来解析特定的 Google 和 Amazon 属性:

ScraperAPI 的数据解析方法。
总体而言,以下是每个参与者的数据解析能力:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
手动解析 | ❌ | ❌ | ❌ | CSS 选择器 | CSS、XPath 选择器 | ❌ | CSS 选择器 |
搜索引擎解析器 | 谷歌 | 谷歌、Bing、Yandex、DuckDuckGo | 谷歌 | ❌ | 谷歌 | 谷歌 | 谷歌、Bing、Yandex |
电子商务解析器 | 亚马逊、沃尔玛、eBay、Wayfair、Target、Etsy、AI 解析 | ❌ | 亚马逊 | ❌ | 亚马逊 | 亚马逊 | ❌ |
三个参与者允许使用选择器创建提取规则。我们对此功能表示怀疑,因为您仍然必须手动构建一个解析器,然后在您停止使用该工具时将其与代码分离。
如果提供商有一个预构建的解析器,那么可以放心地押注在 Google 上。Bright Data 和 Shifter 也是从小型搜索引擎中提取结构化数据的不错选择。
更少的参与者可以解析电子商务商店——至少在我们测试的 API 的上下文中是这样。Oxylabs 单独支持亚马逊以外的目标。事实上,供应商已经开发了一种机器学习模型,试图构建任何产品页面。这似乎是一个有价值的功能,所以我们希望更多的公司效仿。
谷歌和亚马逊再次成为焦点。对于前者,基准和最有价值的属性是其搜索引擎结果页面 (SERP)。另一方面,Amazon 解析器尝试至少覆盖搜索和产品页面:
Oxylabs | Bright Data | Smartproxy | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|
数据格式 | ||||||
JSON、CSV | JSON | JSON | JSON | JSON | JSON | |
可解析元素 | ||||||
SERP | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
搜索类型 (tbms) | 图片、新闻、购物 | 图片、新闻、购物、视频、地图、酒店 | 购物 | ❌ | 购物 | 图片、新闻、购物、视频、地图 |
其他 | 广告、自动完成、反向图像、每月搜索量、趋势 | 倒车影像、趋势、评论 | 广告、自动完成、趋势 | ❌ | ❌ | 自动完成、反转图像、学者、播放、趋势 |
Oxylabs | Smartproxy | Rayobyte | ScraperAPI | |
---|---|---|---|---|
数据格式 | ||||
JSON | JSON | JSON | JSON | |
可解析元素 | ||||
搜索 | ✅ | ✅ | ❌ | ✅ |
产品 | ✅ | ✅ | ✅ | ✅ |
点评 | ✅ | ✅ | ❌ | ✅ |
其他的 | 畅销书、ASIN 价格、QA、卖家信息 | ASIN 价格,QA | 优惠房源 |
性能基准
我们使用自定义 Python 脚本测试了 API。它是使用 Asyncio 和 AIOHTTP 库编写的,用于发送超时为 150 秒的异步请求。
我们以谷歌、亚马逊和一个以照片为中心的社交媒体平台为目标,并围绕它们设计了几个场景:
目标 | 要求 | 目的 |
---|---|---|
谷歌搜索引擎页面 | 一周每分钟1次,共计10,800次 | 测试 API 的成功率、速度和稳定性 |
测试爬取谷歌的能力 | ||
亚马逊产品网址 | 1,000 | 测试爬取亚马逊的能力 |
以照片为中心的社交媒体平台的配置文件 | 500 到 graphql 端点 | 测试爬取受保护社交媒体网站的能力 |
500 个完全呈现的请求 | 测试headless scraping的成功率和速度 |
谷歌
我们的主要目标是谷歌。我们对其进行了两次爬取:一次提取原始 HTML 结果,第二次启用数据解析。
大多数 API 表现良好。Shifter 的 Google API 仅返回解析后的数据,因此我们在第一次测试中使用了它的通用爬取工具。它显然无法处理谷歌——每五个请求就会返回一个 429 检测错误。专用 API 表现更好,但速度明显下降。
使用数据解析器对响应时间几乎没有影响。Rayobyte 是个例外——出于某种原因,它以 JSON 格式返回结果的速度慢了三秒多。
亚马逊
我们只在 Amazon 上运行了一项测试,并尽可能启用了数据解析。 Bright Data、Oxylabs 和 Smartproxy 再次表现出色。Shifter 紧随其后,ScraperAPI 基本上重复了其 Google 性能,而 Zyte 返回了相当多的 520 错误。Rayobyte 的响应时间很慢;我们发现后一个提供商默认使用亚马逊的数据中心 IP,因此 API 必须多次重试请求。
以照片为中心的社交媒体网络
我们两次爬取了以照片为中心的社交媒体平台:一次针对其 GraphQL 端点,另一次完全呈现个人资料页面。
GraphQL 端点被证明是比谷歌或亚马逊更严峻的挑战。即使在我们启用渲染之后,Shifter 也遇到了困难。它的爬取器似乎被配置为快速失败,而其他人则尝试重试请求。ScraperAPI 真的很挣扎——我们尝试切换高级代理和无头模式,但没有什么帮助。在此背景下,Zyte 脱颖而出。
无头测试更宽容。Bright Data 以完美的成功率和惊人的响应时间赢得了胜利。公平地说,它的 API 会自动切换渲染,所以可能没有使用无头浏览器。尽管如此,结果还是令人印象深刻。只有 Shifter 的速度同样快,但它的爬虫每三次请求就会出错。对于标榜 100% 成功率的工具来说不是很好。
其他提供商在启用无头模式的情况下显示出更真实的响应时间。这是 ScraperAPI 在三个目标中的最佳结果,考虑到提供商默认阻止它,这有点讽刺。Oxylabs 和 Smartproxy 保持了他们的成功率,但不得不牺牲一些速度来做到这一点。
并发
即使 API 以闪电般的速度返回数据,它通常也会受到提供商施加的人为限制。那么,理论上你能以多快的速度发出请求?
这取决于。例如,Bright Data 对您可以发出的并行请求数没有明确限制。加上其快速响应时间,API 可以很好地扩展。Smartproxy 和 Oxylabs 也是如此,它们的限制很宽松,并且随着定价计划的增加而变得更加宽松。
另一方面,Rayobyte 默认允许每分钟发出 100 个请求,即每秒 1.66 个。如果你爬取 Amazon 或渲染 JavaScript,你会相对较快地达到天花板。Zyte 也是如此。当然,两家供应商都允许解除限制,但这主要适用于有企业级需求的客户。
解析能力
我们也有兴趣了解 API 解析页面的能力,以及它们可以返回多少页面。这是一个小规模的定性测试,因此请持保留态度。我们拿了四种页面并手动分析了它们:
- 本地化的谷歌搜索桌面查询,
- 本地化的谷歌搜索移动查询,
- 谷歌购物查询,
- 亚马逊产品页面。
Google SERP,本地化桌面查询
对于第一个测试,我们使用查询 best hairdresser near me,位置设置为英国伦敦。
Oxylabs | Bright Data | Smartproxy | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|
本土化? | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
有机的 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
零食包 | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ |
地图 | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
相关搜索 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
人们还问 | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
参与者使用了两种方法:ScraperAPI 和 Rayobyte 仅返回关键信息,而其他方法则试图解析 SERP 的所有元素。(Bright Data 甚至返回了地图的屏幕截图!)因此我们可以假设其解析器对大多数查询的工作方式相同。
由于某种原因,Shifter 的位置参数不起作用,因此 API 无法返回本地结果。
Google SERP,本地化移动查询
移动查询使用所有相同的参数,设备是唯一的例外。
Oxylabs | Bright Data | Smartproxy | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|
本土化? | ✅ | ✅ | ✅ | ✅ | ✅ | ❌ |
有机的 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
零食包 | ✅ | ✅ | ✅ | ❌ | ❌ | ✅ |
地图 | ❌ | ✅ | ❌ | ❌ | ❌ | ❌ |
相关搜索 | ✅ | ✅ | ✅ | ✅ | ✅ | ✅ |
人们还问 | ✅ | ✅ | ✅ | ✅ | ❌ | ✅ |
Bright Data、Oxylabs 和 Smartproxy 可以毫无问题地返回完整且准确的结果。Shifter 的移动解析器退回到主页元素,它再次无法返回本地数据。ScraperAPI 无法爬取任何内容,Rayobyte 的解析器没有用于选择设备类型的参数。
谷歌购物
我们使用定位到 Google 购物搜索类型 (tbm) 的查询Nike Air Max ,并将位置设置为英国伦敦。
Oxylabs | Bright Data | Smartproxy | ScraperAPI | Shifter | |
---|---|---|---|---|---|
本土化? | ✅ | ❌ | ✅ | ✅ | ❌ |
搜索过滤器 | ✅ | ❌ | ✅ | ❌ | ❌ |
广告 | 返回失败 | 返回失败 | 返回失败 | ✅ | ✅ |
物品 | 标题、URL、缩略图、ID | 标题、URL、缩略图、ID | 标题、URL、缩略图、ID | 标题、URL、缩略图、ID | 标题、网址、缩略图 |
价钱 | 解析后的价格、货币 | 价格与货币 | 解析后的价格、货币 | 带货币的价格,解析后的价格 | 带货币的价格,解析后的价格 |
商人 | 姓名、网址 | 姓名 | 姓名、网址 | 姓名 | 姓名 |
送货 | ❌ | ✅ | ✅ | ✅ | ❌ |
评估 | 审核次数 | 评分、评论数 | 审核次数 | 评分 | 评分、评论数 |
其他 | 价格对比 | 按材料过滤,您可能喜欢,相关搜索,价格比较 |
ScraperAPI 返回了最完整的结果,包括相关搜索和 你可能喜欢的 块。它也是检索广告结果的两个提供商之一(其他提供商的此字段为空)。Oxylabs 和 Smartproxy 是唯一具有搜索过滤器的提供商,而 Bright Data 和 Shifter 未能针对此特定请求本地化页面。
亚马逊产品页面
我们针对不同类别的多个产品页面,例如美术用品、厨具和电子产品。
Oxylabs | Smartproxy | Rayobyte | ScraperAPI | |
---|---|---|---|---|
面包屑 | ✅ | ✅ | ✅ | ✅ |
物品 | 标题、ASIN、描述、要点、产品详细信息、型号 | 标题、ASIN、描述、要点、产品详细信息、型号 | 标题、ASIN、描述、要点、产品详细信息 | 标题、描述、要点、产品详细信息、型号 |
图片 | ✅ | ✅ | ✅ | ✅ |
项目变化 | ✅ | ✅ | ❌ | ✅ |
价钱 | 价格、货币、折扣 | 价格、货币、折扣 | 价格、货币 | 价格(含货币) |
商人 | Buy Box,其他优惠 | Buy Box,其他优惠 | 其他优惠 | Buy Box,其他优惠 |
可用性 | 库存,最大数量,先到先得 | 库存,最大数量,先到先得 | 现货,先到先得 | 现货,先到先得 |
畅销书排名 | ✅ | ✅ | ✅ | ✅ |
送货 | 价格、运费详情 | 价格、运费详情 | ❌ | 价格 |
评估 | 评论数、星级平均值、问题数、星级分布、热门评论 | 评论数、星级平均值、问题数、星级分布、热门评论 | 评论数、星级平均值、问题数量 | 评论数、星级平均值、问题数量 |
保修单 | ✅ | ✅ | ❌ | ❌ |
所有四个 API 都能够解析大多数页面元素。Oxylabs 和 Smartproxy 的结果最为完整,因为它们的 .json 文件还包含其他两个 API 所缺少的折扣、交付和保修信息。
Rayobyte 的解析器提供的信息最少:它的输出遗漏了商品变体、交付和保修信息。供应商选择排除购买框数据,可能是因为它经常更改,而是选择一个指向可用卖家的 URL。我们还遇到了一些格式错误,但并不严重。
成本效益
在最后一节中,我们探讨了网络爬取 API 的定价模型、影响其价格的因素,以及这些爬取工具在不同情况下的成本(例如,获取未受保护网站的 HTML 与爬取交互式目标)。
定价模型
几乎无一例外,Web 爬取 API 的定价都是基于成功的请求。这使得计算费用变得简单:如果请求失败,您无需付款。您还应该能够通过查看他们的 CPM(每 1,000 个请求的价格)轻松比较几个提供商的成本。
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
定价模式 | 订阅 | 即用即付,订阅 | 订阅 | 即用即付,订阅 | 现收现付 | 订阅 | 订阅 |
结构 | 请求成功 | 请求成功 | 请求成功 | 请求成功 | 请求成功 | 请求成功 | 请求成功 |
起始价 | $99 | 3 美元(现收现付)、500 美元(计划) | 50 美元 | 0 美元(现收现付),25 美元(计划) | 0.0018 美元/请求 | $49 | $44 |
审判 | 一周需要 5,000 个 | 公司7天 | 3,000 需求 3 天 | 5 美元免费赠金 | 每月免费 5,000 | 一周 5,000 个学分 | 退款保证 |
在我们的案例中,没有例外。所有提供商都对 200(通常是 404)个响应代码收费,不包括隐藏的验证码和其他失败的响应。一些供应商允许随用随付,但主要模式仍然是按月订阅。Zyte 的做法很有趣:你设定一个月度限额,每个月预付一半的金额。
我们习惯于代理因滥用而很少进行试用的网络,因此很高兴看到您几乎可以从任何提供商那里获得一个。标准似乎是 5,000 个请求,这应该足以正确测试爬虫。Rayobyte 更进一步,实际上每个月都会更新试用版,有效地提供免费计划。
计算请求价格
尽管它们的定价模型很简单,但一些网络爬取 API 使计算请求的价格成为一项挑战。他们引入了基于目标、JavaScript 渲染、住宅代理等的价格修改器。因此,使用相同计划爬取两个网站的成本可能相差高达 75 倍!
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
价格修正 | 搜索引擎、电子商务网站 | – | 搜索引擎、电子商务网站 | Target、JS 渲染、高级代理、屏幕截图、浏览器操作 | – | 高级、超级高级代理、高级目标、JS 渲染 | 高级代理、JS 渲染、搜索引擎 |
最大差价 | x2-3 | x1 | x1.5-3 | 风俗 | x1 | x75 | x25 |
ScraperAPI 是最明显的例子。它有一个精心设计的结构,结合了三层代理网络(常规、高级住宅、超级高级)和 JavaScript 渲染。例如,启用住宅代理需要 10 个积分,将它们与无头爬取相结合 – 25 个。谷歌(25 个积分)、亚马逊(5 个积分)和社交媒体(30 个积分)等网站也有不同的费率。
Oxylabs 和 Smartproxy 等提供商按网站组区分费用。与通用 API 相比,他们的搜索引擎爬虫成本高出 2-3 倍,而电子商务爬虫大约是其两倍。Shifter 对搜索引擎使用相同的方法,而其常规的爬取工具则采用 ScraperAPI。
Bright Data 和 Rayobyte 以某种方式保持它们的价格不变,无论您是使用它们的自定义爬取工具还是渲染 JavaScript。这对于简化和爬取硬目标非常有用,但对于未受保护的网站可能效率不高。
Zyte 值得单独提及。它会为每个网站动态计算每个请求的价格,同时考虑到它的难度、是否呈现 JavaScript、是否截屏以及是否运行浏览器操作。后者考虑了 CPU 和网络消耗。提前估算费用是没有意义的——甚至期望它们保持不变,因为 Zyte 会在它或目标网站进行更改时调整成本。

Zyte 有一个仪表板工具来帮助估算请求成本。
不同场景下的成本
那么,使用 API 爬取网站的实际成本是多少?我们计算了不同价位下每 1,000 个请求的费率。
一些说明:基本场景指的是可以在没有高级代理的情况下爬取的未受保护的网站。在其他情况下,我们采用了可以持续爬取目标的最便宜的配置。
为服务支付 50 美元时每 1,000 个请求的成本:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
基本网站 | – | 3美元 | $2 | 0.50 美元 | 1.80 美元 | 0.49 美元 | 0.45 美元 |
谷歌 | – | 3美元 | 3.85 美元 | ~$1.50 | 1.80 美元 | 12.25 美元 | 9.00 美元 |
亚马逊 | – | 3美元 | 3.35 美元 | ~$1.20 | 1.80 美元 | 2.45 美元 | 2.25 美元 |
社交媒体 | – | 3美元 | $2 | ~$0.50 | 1.80 美元 | 14.90 美元 | 11.25 美元 |
社交媒体(呈现) | – | 3美元 | $2 | ~$23 | 1.80 美元 | 19.60 美元 | 11.25 美元 |
为服务支付 100 美元时每 1,000 个请求的成本:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifter | |
---|---|---|---|---|---|---|---|
基本网站 | 1.30 美元 | 3美元 | 1.00 美元 | ~$0.40 | 1.80 美元 | 0.15 美元 | 0.45 美元 |
谷歌 | 3.40 美元 | 3美元 | 2.86 美元 | ~$1.30 | 1.80 美元 | 3.73 美元 | 9.00 美元 |
亚马逊 | 3.00 美元 | 3美元 | 2.00 美元 | ~$1.00 | 1.80 美元 | 0.75 美元 | 2.25 美元 |
社交媒体(graphQL) | 1.30 美元 | 3美元 | 1.00 美元 | ~$0.40 | 1.80 美元 | 4.50 美元 | 11.25 美元 |
社交媒体(呈现) | 1.30 美元 | 3美元 | 1.00 美元 | ~$20 | 1.80 美元 | 6.00 美元 | 11.25 美元 |
为服务支付 250 美元时每 1,000 个请求的成本:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifte | |
---|---|---|---|---|---|---|---|
基本网站 | 1.30 美元 | 3美元 | 0.90 美元 | ~$0.34 | 1.80 美元 | 0.15 美元 | 0.135 美元 |
谷歌 | 3.40 美元 | 3美元 | 2.50 美元 | ~$1.1 | 1.80 美元 | 3.73 美元 | 7.50 美元 |
亚马逊 | 3.00 美元 | 3美元 | 1.67 美元 | ~$0.83 | 1.80 美元 | 0.75 美元 | 0.68 美元 |
社交媒体(graphQL) | 1.30 美元 | 3美元 | 0.90 美元 | ~$0.34 | 1.80 美元 | 4.50 美元 | 3.38 美元 |
社交媒体(呈现) | 1.30 美元 | 3美元 | 0.90 美元 | ~$17 | 1.80 美元 | 6.00 美元 | 3.38 美元 |
为服务支付 500 美元时每 1,000 个请求的成本:
Oxylabs | Bright Data | Smartproxy | Zyte | Rayobyte | ScraperAPI | Shifte | |
---|---|---|---|---|---|---|---|
基本网站 | 1.00 美元 | 2.55 美元 | 0.80 美元 | ~$0.30 | 1.80 美元 | 0.10 美元 | 0.09 美元 |
谷歌 | 2.50 美元 | 2.55 美元 | 2.00 美元 | ~$0.93 | 1.80 美元 | 2.50 美元 | 4.50 美元 |
亚马逊 | 2.00 美元 | 2.55 美元 | 1.50 美元 | ~$0.71 | 1.80 美元 | 0.50 美元 | 0.45 美元 |
社交媒体(graphQL) | 1.00 美元 | 2.55 美元 | 0.80 美元 | ~$0.30 | 1.80 美元 | 3美元 | 2.25 美元 |
社交媒体(呈现) | 1.00 美元 | 2.55 美元 | 0.80 美元 | ~14.70 | 1.80 美元 | 4美元 | 2.25 美元 |
这些表格很好地展示了价格调节器在实践中是如何运作的。ScraperAPI、Shifter 和 Zyte 一开始看起来都很便宜——而且它们确实很便宜,只要你坚持简单的目标。但是一旦高级代理,尤其是无头浏览器参与其中,它们的价格就会迅速飙升。
其他提供商更容易预测:它们在爬取未受保护的网站时成本高昂,提供有竞争力的专用 API,如果您需要 JavaScript,它们会很有意义。Bright Data 面向企业的定价在我们观察的范围内并没有太大的扩展,而 Rayobyte 一开始很便宜(基本网站除外)但保持相同价格的时间太长了。
最后,购买低于 50 美元的计划毫无意义。ScraperAPI 的价格为 100 美元,将其费率降低了近三倍,而 Smartproxy 的价格则降低了一半。
结 论
Web 爬取 API 的前景令人惊讶地多种多样。您可以购买功能有限的爬取工具来以较小的预算提取 HTML 页面,或者您可以投资更多并从世界任何地方获取结构化数据。一些 API 可以作为代理集成以保持转换简单,而其他 API 则允许您构建自定义解析器甚至脚本浏览器交互。
我们希望我们的研究能帮助您熟悉此类网络爬取工具,如果您想要购买的话,希望您能更好地做出购买决定。