in

2023 年最佳网络爬取 API

最佳网络爬取 API

Web 爬取API 比自定义爬取器更容易设置和维护,但仍然需要基本的编程技能。在数据爬取中,API 提供者起着至关重要的作用——它代表您向目标网站发送请求并返回数据。同时,您不必担心代理管理、无头浏览器或反检测措施等技术细节。

如果您正在寻找最好的网络爬取API 提供商,此页面将帮助您从精选列表中选择最合适的。


什么是网页爬取 API?

有几种方法可以进行网络爬取,其中之一是使用 API(应用程序编程接口)。它就像一个远程网络爬取工具——您使用 URL 和其他参数(如语言、地理位置或设备类型)向 API 发送请求。然后,API 访问目标网站,下载数据,并将结果返回给您。

假设您想从亚马逊获取产品列表。构建一个爬取器可能会花费大量时间和资源——您必须编写脚本、选择和设置代理服务器以及轮换标头。Web 爬取 API 会为您处理这些细节。一些 API 服务包括解析功能,因此您将获得 JSON 或 CSV 等格式的结构化结果。但是,具体功能会因服务而异。

为什么要为 API 付费?

  • 它为您克服了网站保护机制。爬取程序处理 IP 块、CAPTCHA 挑战和其他网站保护机制。
  • 您不需要自己维护刮刀。API 服务在保持基础设施健壮性方面具有经济利益。这涉及确保高正常运行时间并使爬虫与机器人保护和页面布局的变化保持同步。
  • 一些爬取器返回结构化数据。许多专门的网络爬取 API 具有解析数据的能力,因此您不必自己清理数据。通常,您可以获得 JSON 格式的数据,一些服务提供 CSV 格式。
  • 他们表现得很好。API 旨在处理大量请求,使其非常适合大规模任务。此外,它们能够呈现 JavaScript,这对于定制的网络爬取工具来说可能具有挑战性。
  • 它们提供了高度的灵活性。借助 API,您可以保持基础设施精简并根据需要扩大或缩小规模。一些供应商甚至不需要签订合同,这使得他们的爬虫非常适合一次性或不规则的项目。

我们如何列出清单

为了选择最好的网络爬取 API,我们测试了一堆提供此类服务的公司,并在我们的网络爬取 API 研究中展示了结果。这些公司中的大多数在该领域都是知名的,因此您可以确信您将获得优质的服务。

我们比较了它们的特性、爬取性能、解析能力和成本效益。我们的基准测试针对最流行的网站:谷歌、亚马逊和以照片为中心的社交媒体平台。


最好的网页爬取 API

1. Bright Data — 最快的网络爬取 API,具有方便的类似代理的集成

  • 地点:全球国家和城市定位
  • 价格:500 美元起:Web Unlocker 2.55 美元/1K 个结果;SERP API $2.25/1K 结果。即用即付 $3/1K 结果。
  • 定价模型:成功请求
  • 数据解析:各大搜索引擎
  • 免费试用:公司 7 天

Bright Data 是一家专注于数据收集解决方案的优质代理提供商。它为数据收集提供了两个基于代理的 API:Web Unlocker 和 SERP API。Web Unlocker 是一个通用的爬取器,可以针对各种网站,SERP API 适合爬取和解析主要的搜索引擎。

Bright Data 的爬取工具带有7200 万住宅代理池、国家和城市定位,您可以想到任何位置。它们包括所有必要的功能:JavaScript 渲染、IP 轮换和反检测技术。但是,与某些 API 相比,Web Unlocker 的可定制性较低,因为它主要作为代理服务器进行集成。

提供者显示出近乎完美的结果。其 Google API 的成功率超过 98%,是最快的数据检索之一。Bright Data 的亚马逊爬虫也排在最前面。唯一一个与 Web Unlocker 竞争的网站是社交媒体平台,特别是它的 GraphQL 端点。

在定价方面,Bright Data 有两种选择:订阅或随用随付。第一个更便宜,但您必须承诺每月至少支付 500 美元。随用随付,价格从 3 美元起。提供商对所有配置和网站保持相同的价格。但是,对于未受保护的网站,它不是很有效,因为您会多付钱。


2. Smartproxy — 最具价值的优质网络爬取 API

  • 地点:195 个国家级定位
  • 定价:50 美元起:SERP Scraping API 3.85 美元/1K 个结果;电子商务爬取 API $3.33/1K 结果;Web Scraping API $2/1K 结果。
  • 定价模型:基于成功的请求
  • 数据解析:谷歌、亚马逊
  • 免费试用:3 天和 3,000 个请求

除了拥有出色的代理基础架构外,Smartproxy 还提供了三种性能出色的爬取 API:Web 爬取 API、电子商务爬取 API 和 SERP 爬取 API。

爬虫计划包括 Smartproxy 的住宅代理网络和国家级目标。您可以从 195 个位置中的任何一个选择,并为 Google 爬取工具提供坐标级定位。Smartproxy提供了从小规模到大规模爬取的所有基本功能:代理旋转、反检测技术和 JavaScript 渲染。但是,它缺乏建立会话或处理 cookie 的能力。

这些 API可以解析两个主要网站——亚马逊和谷歌——并以 JSON 格式获取结果。爬虫集成为代理服务器或 API,并通过开放连接返回结果。

在我们的测试中,Smartproxy 在所有三个网站类别中都表现出色。它以 100% 的成功率返回数据,平均响应时间在亚马逊上为 4.66 秒,在谷歌上为 6.04 秒。该提供商在以其 GraphQL 端点(100% 成功率)为目标时击败了以照片为中心的社交媒体平台上的竞争对手,这对大多数提供商来说都是一场斗争。

与其他 Oxylabs 或 Bright Data 相比,Smartproxy 的成本更低。然而,对于较小的爬取任务来说,它仍然可能过于昂贵。


3. Rayobyte — 一个可定制的API,无需每月订阅费

  • 地点:130个国家
  • 价格:0.0018 美元/请求
  • 定价模式:基于请求
  • 数据解析:亚马逊和谷歌
  • 免费试用:每月 5,000 次免费爬取

Rayobyte 以其庞大的数据中心代理基础设施而闻名。它的通用爬取 API —— Scraping Robot——可以针对任何网站,并具有用于解析亚马逊和谷歌搜索页面的自定义模块。它们无需额外收费,但与竞争对手相比相对基本。

您可以从 130 个具有国家/地区级定位功能的位置中进行选择。爬取 API 是非常可定制的。您可以传递地理位置等参数,指定设备类型和选择器(CSS 和 XPath),创建会话,将 cookie 和数据传递到网站。与其他爬取 API 一样,Scraping Robot 具有 JavaScript 渲染功能,您还可以截屏或模仿浏览器操作。

Rayobyte 的Google API 返回原始 HTML,得分满分,平均响应时间(6.53 秒)。但它在 JSON 中慢了三秒多。此外,亚马逊上的速度显着下降,平均响应时间为 20.7 秒。Rayobyte 是少数几个在 GraphQL 端点上做得相对不错并达到 80% 成功率的供应商之一。 

定价从 0.0018 美元/请求起。没有月度承诺——您只需购买所需数量的请求,然后收集直到用完。您还可以获得每月 5,000 次免费刮擦。


4. ScraperAPI — 一款高成本效益的网络爬虫API,可用于爬取未受保护的网站

  • 地点:12 个国家
  • 定价:49 美元/100,000 美元 API 积分起
  • 定价模型:基于请求和可选功能
  • 数据解析:亚马逊、谷歌
  • 免费试用:7 天和 5,000 API 积分,或每月 1,000 API 积分的免费计划

ScraperAPI 是用于各种网站的通用刮板。它为主要编程语言提供了很好的文档:  Python、NodeJS、PHP、Ruby 和 Java。

爬取器允许您调整请求标头、建立会话,并在需要时使用高级代理进行爬取。它还能够通过传递一个附加参数来解析 Google 搜索、购物和多个 Amazon属性。然而,Scraper API 的位置覆盖范围相对有限——只有 12 个国家。

在我们的测试中,该提供商落后于竞争对手——它在针对 Google 时比平均速度慢两倍,并且失败了大约 5% 的请求。它在亚马逊上显示出几乎相同的结果。默认情况下,Scraper API 会阻止某些社交媒体平台,因此请记住这一点。

ScraperAPI支持四种集成方式:代理服务器、SDK和两种API格式(开放连接和异步)。异步交付允许分批获得结果。

该工具的定价从 49 美元/100,000 美元 API 积分起。 该系统对特定网站组(如搜索引擎和社交媒体)、高级代理或 JavaScript 呈现使用不同数量的信用。根据目标,该比率最多可以相差 75 倍。这使得该服务对于爬取简单的网站非常有效,而对于需要 JavaScript 的受保护目标则成本高昂。

可以选择免费使用该服务——该计划每月提供 1,000 个 API 积分和最多 5 个并发连接。如果您需要更大规模地测试该服务,可以使用 5,000 个免费请求的 7 天免费试用。


5. Shifter — 一个功能丰富的SERP API,用于解析主要搜索引擎。

  • 地点:10个国家
  • 价格:44.99 美元起
  • 定价模型:基于请求和可选功能
  • 数据解析:各大搜索引擎&手册
  • 免费试用:公司 7 天

Shifter 是另一个提供两个爬取 API 的代理提供商: Web Scraping API 和 SERP API。

使用付费计划,您可以定位 10 个位置。SERP API 为大多数 Google 属性、Yandex 和 Bing 提供了一个内置的解析器。

Shifter 允许您通过选择地理位置、设备类型、建立会话、向网站发送 cookie 或文本来自定义请求。通用 API 还允许您在呈现 JavaScript 时模拟点击和滚动操作,并且您可以使用 CSS 选择器构建自定义解析器。

Shifters 的 SERP API 在 Google 上的成功率最低(96.65%),平均响应时间为 10.08 秒。Amazon爬取工具紧随表现最好的提供商之后——与 Google 相比,它的速度是其两倍(5.35 秒)。提供商在社交媒体上苦苦挣扎——速度很快(针对 GraphQL 端点时为 1.77 秒),但爬虫每三次请求就会出错

Shifter 的起价为 44.99 美元。如果您坚持简单的目标,这是一个便宜的选择。但是,当您需要无头浏览器或高级代理等可选功能时,费率会上升。


6. Zyte — 良好的爬取生态系统和便宜的基本配置价格

  • 地点:19个国家
  • 价格:定制
  • 定价模式:随用随付或按月订阅,请求价格动态计算
  • 数据解析:
  • 免费试用:5 美元赠金

Zyte 是网络爬取行业的资深人士。它提供了一个包含高级代理管理功能的 API。

API 在功能方面相对通用:它具有自动 IP 轮换和重试功能。此外,您还可以传递 cookie、填写表格和爬取依赖 JavaScript 的网站。API 支持 19 个位置,但 Zyte 有一个系统会自动尝试将位置与提供的 URL 匹配。

Zyte 是为数不多的提供 TypeScript API 以编写浏览器操作脚本的提供商之一。企业客户可以编写脚本来完成从悬停在元素上到输入单个符号的所有操作。

由于 API 不提供内置解析器,因此可以选择通过使用 CSS 选择器创建提取规则来手动构建解析器。

Zyte 的API在 Google 上表现良好——它返回了 99.47% 的原始 HTML 结果,并且比大多数竞争对手都快。然而,电子商务网站还有改进的空间——亚马逊的成功率仅为 85.5%,但速度非常快,平均响应时间为 4.51 秒。

当以 GraphQL 端点为目标时,该提供商在社交媒体上的表现出奇地好——它在大约 2.59 秒内达到了近乎完美的成功率。无头测试并没有那么宽容——Zyte 的速度下降到 28.14 秒。

Zyte 有自定义定价——它根据每个网站的难度和您选择的功能动态计算每个网站的每个请求的价格。有一个仪表板工具可以帮助您估算请求成本。总的来说,这是一种用于基本配置爬取的经济高效的服务。但如果你需要像 JavaScript 渲染这样的功能,价格就会急剧上涨。


7.Oxylabs — 具有强大解析器的最佳性能 Web 爬取 API

  • 地点:195 个国家级定位
  • 价格:  SERP、电子商务、Web Scraper API 起价为 49 美元,可获得 17,500 个结果(2.80 美元/1K)。76,000 个结果的 Real Estate Scraper API 起价为 99 美元(1.30 美元/1K)
  • 定价模型:基于成功的请求
  • 数据解析:各大搜索引擎、电商&房产网站
  • 免费试用:7 天和 5,000 个请求

Oxylabs——代理行业的知名品牌——也提供优质的刮刀。它提供了四种网络爬取 API :Web Scraper API、SERP Scraper API、Real Estate Scraper 和 E-Commerce Scraper API。

所有四个工具都使用100M 住宅代理池,并在全球 195 个地点提供国家级定位。SERP Scraper API 为基于 SEO 的任务提供额外的城市和坐标级别定位,并允许获取 CSV 文件中的数据,主要用于 Google 搜索结果。

API 包括调度任务和爬取等功能,这些功能很少见。它们相对可定制:您可以选择位置、设备并传递自定义标头。该提供程序支持三种集成方法:代理服务器和两种可选异步交付的 API 格式,可让您批量获取结果。

这些爬取工具包括针对谷歌、房地产网站和主要电子商务商店的解析功能。在我们测试的供应商列表中,Oxylabs 是唯一可以使用其基于人工智能的自适应解析器构建任何电子商务网站的供应商。

Oxylabs在我们的测试中显示出最好的整体结果。其 API 在 Google 和 Amazon 上的成功率达到 100%,并且响应时间超过了大多数供应商。但是,从社交媒体返回数据需要时间,尤其是在涉及无头浏览器时。

定价模型基于成功的请求,您可以请求 7 天免费试用。然而,与竞争对手相比,Oxylabs 更贵。

blank

Written by 爬取 大师

阿里P12级别选手,能够突破各种反爬, 全能的爬取大师,擅长百万级的数据抓取!没有不能爬,只有你不敢想,有爬取项目可以联系我邮箱 [email protected] (带需求和预算哈, 不然多半不回复)