in

网页抓取合法吗?如何合法使用爬虫搜集数据

网页抓取合法吗

如果您想尝试网络爬取,您可能想知道这是否合法。当谈到网络爬取时,许多人误解它为一个灰色地带,可能涉及非法活动。但事实上,大多数情况下,负责任的网络爬取是完全合法的。

网络爬取本身只是自动收集公开网页内容的过程。它不涉及未经授权进入私人网络或盗取数据。只要遵守网站的机器人排除协议,不过度请求服务器,网络爬取通常不会违反法律。

但是,爬取也可能被滥用。比如,从需要登录的页面收集数据,或进行大规模商业化爬取,可能触犯版权法或计算机欺诈法。确保只访问公开信息,不要反复访问同一网站并遵守所有使用政策,这可以使您的爬取保持合法。

总而言之,负责任的网络爬取仅提取公开可用数据,不会给网站服务器造成损害。如果以透明和妥当的方式进行,大多数网络爬取活动都是合法的。但滥用爬取工具可能会导致严重后果。谨记遵循所有适用法律和道德标准,这可以确保您的网络爬取不会造成任何问题。

什么是网页抓取?

考虑网络抓取

从法律角度来看网络抓取,重要的是我们定义什么可以被视为网络抓取。这给了我们一个范围,什么可以被视为网络抓取,什么不能被视为网络抓取。通俗地说,网络抓取就是使用自动化工具从互联网上抓取或收集数据。

这个定义可能会产生误导,因为它包括 API 抓取和 Web 抓取等方法。在这里,我将网络抓取定义为使用自动化工具从网页抓取或收集数据,而不是通过 API。它涉及加载网页内容,然后使用解析器来收集人们感兴趣的特定数据点。

大多数这些自动化工具(称为抓取工具)使用规避技术来避免检测和阻止。这与直接从数据库提取数据或黑客网站提取数据有很大不同。它还不包括使用网站提供的数据 API 来向您提供其数据。

网络抓取是合法的,但并非在所有情况下都是合法的。您可以使用一般的经验法则来确定您的网络抓取解决方案和预期用例是否合法。该框架由 Amber Zamora 在其题为“为大数据腾出空间:网络抓取和访问在线公开信息的肯定权利”的著作中引入。” 让我们看一下关键项目。

网页抓取的合法性

因素描述示例数据
公开数据抓取公共数据比私有数据更被允许在 Google 地图上抓取商家信息,而不是非公开用户个人资料
服务条款遵守网站的服务条款是保持合法的关键尽管服务条款禁止抓取,但仍抓取亚马逊产品列表
数据量少量刮除比大量刮除更安全每天抓取 100 个帖子,而不是数百万个帖子的完整历史记录
刮削率分散抓取比猛烈攻击网站更好每 1 秒发出一次请求,而不是每秒 100 个请求
数据的使用非商业用途限制较少个人研究项目而不是商业产品
出处引用数据源有助于保持道德明确指出“数据于[日期]从 Twitter 上抓取”
对现场的影响避免网站超载而导致流量流失在不降低目标站点性能的情况下以合理的量进行抓取

对网站没有损害或相当大的损害

对网站没有损害或相当大的损害

进行合法且道德的网络抓取的第一步是确保不会对您正在抓取的网站造成任何损害。如果您是一个小型网络爬虫,那么您不太可能对 Facebook 等大型网站造成任何损害。

但是,您也可能对小型网站造成损害。还有一些足够大的网络抓取项目可能会对大型网站的服务器造成损坏。当这种情况发生时,它对您来说是非法的,并且您发送的过多请求会造成相当大的损害,这可能会被视为滥用甚至 DDoS。

仅收集公开数据

仅收集公开数据

您可能有兴趣知道数据的可用性可以决定抓取数据是否合法。在HiQ 实验室中。在LinkedIn一案中,法院做出了对HiQ Labs有利的裁决,确认允许其从互联网上抓取数据,前提是数据是公开可用的。当试图在网络抓取业务中保持合法时,您应该避免抓取受保护的页面。这包括受密码保护的页面以及受付费墙保护的页面,因为这被称为非法。

没有删除任何受版权保护的内容

没有删除任何受版权保护的内容

互联网上最复杂的内容之一是受版权保护的内容。许多在线内容都受版权保护,而您甚至不知道。如果您打算抓取受版权保护的内容,那么您需要密切注意法律给予您的许可。这是因为网络抓取作为一种行为,并不寻求版权所有者的许可,而你最好的选择就是法律。

有趣的是,这根据您所在的位置而有所不同。在欧盟,允许抓取受版权保护的内容,前提是您这样做是为了生成信息并考虑其他因素。这包含在DSM 指令中。

在这种情况下,如果是为了科学研究,你可以抓取任何东西,只要它是公开的。但是,如果您的抓取任务是为了商业目的,您应该查看 robots.txt 文件中的指令。如果您要抓取的 URL 属于禁止的 URL,则应避免抓取它们。出于商业目的抓取包含受版权保护内容的不允许的 URL 被视为非法。

在美国,根据公平使用原则,抓取受版权保护的内容是允许的。这与 DSM 指令中的内容非常相似。然而,与 DSM 指令不同的是,科学用途和商业用途之间没有区别。为了让您了解什么是合理使用,我建议您阅读此处的合理使用文档

迄今为止关于公平使用原则最引人注目的案例是作者协会诉谷歌之间的案件,该案法院做出了有利于谷歌的裁决,声称根据公平使用政策,制作图书的虚拟副本是允许的。您还应该注意其他注意事项 – 请阅读合理使用文档以了解更多信息。

抓取的数据转化为另一种产品

抓取的数据转化为另一种产品

如果你只是想把报废的数据出售而不做任何改造,那么你就是在做违法的事情,因为这是法律不允许的。也不允许抓取其他产品的数据来制造相当相似的产品。

举例来说,如果您抓取房地产数据进行定量分析,只要这些数据在网站上公开,您就没有做任何违法行为。但是,如果您从竞争对手那里获取信息并将其显示在您的网站上,那么您就跨越了法律界限,并且被视为非法。


抓取个人数据:法律的立场是什么

抓取个人数据的法律地位

虽然您可以抓取可在线获取的数据,但您需要警惕个人数据,因为它很复杂。过去,人们不太关心自己的个人数据,你可以用它做任何你想做的事。政府方面也对保护个人数据不感兴趣。

随着政府开始意识到保护其公民的个人数据,而公民则对其个人数据的用途越来越感兴趣,情况已不再如此。那么抓取公开的个人数据合法吗?要回答这个问题,您需要关注您感兴趣的司法管辖区的法规。

司法管辖区 – 抓取不同地区的个人数据

以下是一个示例比较表,说明了不同地区抓取个人数据的法律立场(有关抓取个人数据的法律):

地区/国家关于抓取个人数据的法律法律与来源
美国根据加利福尼亚州 CCPA 等隐私法,未经同意通常禁止加州消费者协会
欧洲联盟未经同意受 GDPR 限制;最高收入 4% 的罚款通用数据保护条例
英国未经同意,数据保护法通常禁止2018 年数据保护法
加拿大在大多数情况下未经同意违反 PIPEDA 隐私法PIPEDA
澳大利亚大多数情况下违反隐私法;被视为收集敏感信息1988 年隐私法
印度违反《信息技术法》规定的隐私权2000 年信息技术法
中国高度违法,可能导致罚款和刑事指控中国个人信息保护法
巴西违反一般数据保护法(特定例外情况除外)达多斯·佩索艾斯保护总局
肯尼亚不清楚,但宪法保护隐私权肯尼亚宪法
日本违反个人信息保护法个人信息保护法
俄罗斯根据个人数据法需要同意;非法无联邦个人数据法
韩国违反个人信息保护法个人资料保护法
墨西哥违反联邦个人数据保护法个人资料和个人权利联邦保护法
印度尼西亚违反《电子信息和交易法》下的数据隐私条款电子信息和交易法
沙特阿拉伯违反反网络犯罪法,面临罚款和监禁风险反网络犯罪法
以色列违反隐私保护法1981 年隐私保护法
尼日利亚违反尼日利亚数据保护法规NDPR
南非违反个人资料保护法POPIA
火鸡违反个人资料保护法个人资料保护法
阿根廷违反个人资料保护法个人资料保护法
泰国违反个人资料保护法个人资料保护法
新加坡违反个人资料保护法个人资料保护法
菲律宾违反数据隐私法2012 年数据隐私法
巴基斯坦违反电子犯罪预防法2016年PECA
马来西亚违反个人资料保护法2010 年个人数据保护法
越南违反网络安全法2018 年网络安全法
阿拉伯联合酋长国违反数据保护法数据保护法
哥伦比亚违反人身保护数据法2008 年国家法令 1266
智利违反数据隐私法个人资料保护法
秘鲁违反个人资料保护法个人资料保护法

目前,欧盟和美国加利福尼亚州的个人数据保护法最为明确。在欧盟,有《通用数据保护条例》(GDPR),在加利福尼亚州,有《加州消费者隐私法》(CCPA)。您应该关注的法律取决于您的位置、目标的位置和/或他们的位置。

如果您在欧盟,在那里开展业务,或者您的目标在那里,那么您应该关注 GDPR。对于 CCPA,居住在加州或在那里做生意的人应该重点关注。如果您不在这两个地区,您应该了解当地法律关于抓取个人数据的规定。

GDPR 考虑因素

根据 GDPR,个人数据的来源并不重要,但您不得抓取公开的个人数据,即使用户在网上提供了这些数据。如果 HiQ 实验室 vs. LinkedIn 的案件是在欧盟,目前这可能是 LinkedIn 战胜 Hi​​Q Labs 的原因。有一个案例,一家欧盟企业从波兰商业登记处窃取个人数据,该欧盟企业被罚款

CCPA 考虑因素

有趣的是,CCPA 与 GDPR 的情况略有不同。对于 CCPA 而言,公开提供的个人数据不再受到保护,包括他选择不出售其信息的权利。这使得抓取公开的个人数据变得合法。有了这个,如果您在加利福尼亚州、在那里做生意或者您的目标在那里,您就可以抓取个人数据。这与 GDPR 不允许的情况形成鲜明对比。美国其他州弗吉尼亚州和科罗拉多州也纷纷效仿。


到目前为止,您知道事实在网络抓取方面不受法律保护,因为没有人拥有其版权,因为它们只是对现实的观察。但是,在抓取事实时必须小心。这是因为数据库保护法。如果有人投入大量资金来收集事实,您将不会仅仅使用自动化软件来收集它们并认为自己在法律范围内。

在欧盟,即使事实也可以根据数据库指令受到保护,前提是其收集验证和呈现需要大量投资。如果有人为此花费了很多钱,您只能出于科学目的抓取他们的内容,并且如果所有者没有在 robots.txt 文件中明确阻止他们的 URL,则只能出于商业目的抓取内容。同样,美国的情况略有不同,因为您可以在美国抓取事实,前提是它在公共领域公开且没有密码保护。


如何合法地抓取数据

合法地抓取数据

从上面的内容中,您应该对网络抓取合法和非法的原因有一个大致的了解。重要的是我讨论如何在您的法律范围内从网络上抓取数据,这样您就可以避免陷入法律麻烦。以下是一些需要注意的注意事项。

仅抓取公开数据

一般来说,网络自动化和编程的一件事是它们没有限制性。你可以对它们做任何你想做的事。但为了保持在合法范围内,您应该只抓取公开可用的页面。应避免登录帐户所需的任何受密码保护内容的数据。这还包括隐藏在付费墙后面的内容。

但也有例外,特别是当相关网站允许时。举例来说,Onlyfans 允许用户下载他们订阅的创作者的内容,因此抓取它们并不违法。

不要让网站被请求淹没

无论您的网络抓取行为多么合法,如果它们对您的目标网站或网络服务器造成任何损害或伤害,您就已经跨越了法律界限。能否对 Web 服务器造成损害取决于目标服务器的强大程度以及发送的请求数量。

如果您知道自己正在处理一个无法处理大量请求的小型站点,建议您在请求之间设置延迟,或者最多避免同时处理多个请求。甚至建议您在晚上知道合法用户的流量较低时尝试抓取目标网站,以避免使其不堪重负。

避免在某些位置抓取受版权保护的数据和个人数据

在大多数情况下,您可以抓取事实。但是,如果您知道要抓取的数据有版权,那么您最好保留这些数据,尤其是在某些地区。正如您在上面所读到的,欧盟的法律允许您抓取受版权保护的数据用于科学研究,前提是将其转换为不同的形式。

出于商业原因,建议您尊重 robots.txt 文件。在美国,只要您遵循公平使用政策,就允许抓取受版权保护的内容。如果您在欧盟,还建议您避免抓取个人数据。然而,美国的人可以做到这一点。

网站抓取策略和反抓取技术比较

网站抓取政策防刮技术
谷歌允许私人使用,禁止商业用途IP 阻止、验证码、速率限制
Facebook大多数未经许可禁止抓取机器人检测、拦截
推特允许公共数据抓取,但有限制速率限制、防火墙规则
亚马逊未经允许禁止刮擦机器人检测算法
易趣禁止一般刮擦监控、拦截
YouTube抓取条款不明确,可能被禁止速率限制、防火墙规则
Instagram抓取条款不明确,可能被禁止速率限制、机器人检测
红迪网不鼓励刮擦,允许轻微的、无干扰的刮擦速率限制

常见问题解答

问:我必须遵守 GDPR 或 CCPA 法规吗?

GDPR 法规适用于欧盟境内的人员以及目标数据来自欧盟的人员。CCPA 适用于加利福尼亚州或在那里做生意的人。如果您不在这两个司法管辖区中的任何一个,并且不从这些位置的用户收集数据,那么您无需担心这些法规,因为它们不适用于您。相反,您应该关注您所在地区的当地法律,以了解您打算进行的网络抓取行为是否合法。

问:我会遇到网络抓取麻烦吗?

是的,您可能会在从网站抓取数据时遇到麻烦,特别是如果您忽视网络抓取的法律角度。网络抓取虽然合法,但可能会给您带来麻烦。与其他任务一样,它确实有管理它的规则和条例,超出这些规则和条例就会导致灾难。

为了避免在网页抓取时遇到麻烦,建议您在查看法律许可的内容后才进行网页抓取,并且法律支持您自己的网页抓取方式。如果您愿意,您还可以将道德网络抓取纳入其中,这样您就只能抓取允许这样做的网站。

问:可以禁止 IP 进行网页抓取吗?

大多数流行的网站都有反垃圾邮件系统。他们的主要任务之一是识别向其发送过多请求的 IP 地址(通常是网络抓取工具和其他机器人)。如果发现这种情况,该 IP 地址将被暂时或永久阻止。这是因为这些网站不喜欢网页抓取。为了成功抓取它们,您需要经常轮换 IP 地址。我建议轮换来自Bright DataSmartproxy 的住宅代理,以获得有效的网络抓取体验而不会被阻止。

结论

作为本文的总结,我需要告诉您,上述内容仍然不是网络抓取是否合法这一问题的详尽答案。这只是一个温和的介绍,还有很多法律上的考虑。我建议您不要将上面读到的内容视为法律建议,因为我不是法律从业者,因此,您在这里读到的任何内容都不应被视为法律建议。

您应该寻求有能力的法律从业者的帮助,因为我只是根据我掌握的可用信息来解释我自己对网络抓取是否合法的理解。

blank

Written by 爬取 大师

阿里P12级别选手,能够突破各种反爬, 全能的爬取大师,擅长百万级的数据抓取!没有不能爬,只有你不敢想,有爬取项目可以联系我邮箱 [email protected] (带需求和预算哈, 不然多半不回复)