如何在Python请求中使用代理服务器？

在这篇文章中，你将研究如何在代理服务器后面使用Python Requests库。开发人员使用代理服务器是为了匿名、安全，有时甚至会使用多个代理服务器来防止网站禁止他们的 IP 地址。代理服务器还具有其他一些好处，如绕过过滤器和审查制度。

内容指南 show

先决条件和安装

这篇文章是为那些想用Python在代理后面进行爬取的人准备的。为了获得材料的大部分内容，以下内容是有益的。

有Python 3的经验.
在你的本地机器上安装了Python 3。

通过打开终端并键入，检查Python-requestspacakges是否已经安装。

$ pip freeze

pip freeze会显示你当前所有的python软件包和它们的版本，所以继续检查它是否存在。如果没有，通过运行来安装它。

$ pip install requests

如何在Python请求中使用代理服务器

要在Python中使用代理，首先要导入request包。
接下来创建一个proxies字典，定义HTTP和HTTPS连接。这个变量应该是一个字典，将协议映射到代理的URL。此外，做一个url变量，设置为你要爬取的网页。

注意在下面的例子中，字典定义了两个独立协议的代理URL。HTTP 和 HTTPS。每个连接都映射到一个单独的 URL 和端口，但这并不意味着这两者不能相同

最后，创建一个响应变量，使用任何一个请求方法。该方法将接收两个参数：你创建的URL变量和定义的字典。

你可以对不同的api调用使用相同的语法，但无论你做什么调用，你都需要指定协议。

请求方式

代理认证

如果你需要添加认证，你可以使用以下语法重写你的代码。

代理会话

你也可能发现自己想从利用会话的网站上进行爬取，在这种情况下，你必须创建一个会话对象。你可以这样做，首先创建一个会话变量，并将其设置到requestSession()方法中。然后，与之前类似，你将通过request方法发送你的会话代理，但这次只传入url作为参数。

环境变量

你可能会发现自己在每个请求中重复使用相同的代理，所以请随意通过设置一些环境变量来使你的代码更加干燥。

如果你决定设置环境变量，就不再需要在你的代码中设置代理。只要你提出请求，就会有一个api调用!

阅读响应

如果你想读取你的数据。

JSON：对于JSON格式的响应，requests包提供了一个内置方法。

用请求Requests代理

还记得我们说过一些开发者使用不止一个代理吗？那么，现在你也可以了!

任何时候你发现自己反复从一个网页上爬取，使用一个以上的代理是很好的做法，因为很有可能你的爬取器会被封锁，这意味着你的IP地址会被禁止。铲除文化是真实的!所以，为了避免被取消，最好是利用轮流代理。旋转代理是一个代理服务器，为每个连接从代理池中分配一个新的IP地址。

要轮换IP地址，你首先需要有一个可用的IP池。你可以使用互联网上的免费代理或商业解决方案。在大多数情况下，如果你的服务依赖于爬取的数据，免费代理很可能是不够的。

如何用Requests轮换IP

为了开始轮换你的IP地址，你需要一个免费代理服务器的列表。如果免费代理服务器确实符合你的爬取需求，在这里你可以找到一个免费代理服务器的列表。今天你将编写一个脚本，选择并轮换代理服务器。

首先导入request、BeautifulSoup和choice库。
接下来定义一个方法get_proxy()，它将负责检索IP地址供你使用。在这个方法中，你将定义你的url作为你选择使用的任何代理列表资源。在发送请求api调用后，将响应转换为Beautiful Soup对象，以使提取更容易。使用html5lib解析器库来解析网站的HTML，就像你对浏览器那样。创建一个代理变量，使用选择从soup生成的代理列表中随机选择一个IP地址。在map函数中，你可以使用一个lambda函数将HTML元素转换为检索到的IP地址和端口号的文本。
创建一个proxy_request方法，接收3个参数：request_type、url和**kwargs。在这个方法中，将你的代理字典定义为从get_proxy方法返回的代理。与之前类似，你将使用请求，传入你的参数。

import requests

ip_addresses = [ "mysuperproxy.com:5000", "mysuperproxy.com:5001", "mysuperproxy.com:5100", "mysuperproxy.com:5010", "mysuperproxy.com:5050", "mysuperproxy.com:8080", "mysuperproxy.com:8001", 
"mysuperproxy.com:8000", "mysuperproxy.com:8050" ]

def proxy_request(request_type, url, **kwargs):
   while True:
      try:
         proxy = random.randint(0, len(ip_addresses) - 1)
            proxies = {"http": ip_addresses(proxy), "https": ip_addresses(proxy)}
            response = requests.get(request_type, url, proxies=proxies, timeout=5, **kwargs)
            print(f"Proxy currently being used: {proxy['https']}")
         break
      except:
         print("Error, looking for another proxy")
   return response

[文中代码源自Scrapingbee]

总结

虽然你可能很想马上用你看中的新代理服务器开始爬取，但仍有一些关键的事情你应该知道。首先，不是所有的代理都是一样的。实际上有不同的类型，主要有三种：透明代理、匿名代理和精英代理。

在大多数情况下，你会使用精英代理，无论是付费还是免费，因为他们是避免被发现的最佳解决方案。如果使用代理的唯一目的是隐私，匿名代理可能值得你去做。不建议使用透明代理，除非有特殊原因，因为透明代理会暴露您的真实IP地址和您正在使用代理服务器。

现在我们把这些都弄清楚了，是时候开始用Python中的代理进行爬取了。所以，赶快出去，提出你能想到的所有请求吧！

如何在Python请求中使用代理服务器？

先决条件和安装

如何在Python请求中使用代理服务器

请求方式

代理认证

代理会话

环境变量

阅读响应

用请求Requests代理

如何用Requests轮换IP

总结

SERP API for AI Agents：让 AI 获取搜索结果数据的正确方式

如何抓取百度搜索结果：SERP API、浏览器 API 和合规边界

零售推荐系统数据集：价格、库存、评论和商品目录采集

RAG 代理指南：检索增强生成的数据访问层怎么设计

LLM 训练数据代理：大规模采集时如何降低封锁率

AI 数据采集的法律与伦理指南：robots、隐私和版权边界

Written by 爬取大师

WhatsMyName 限额后怎么办？官方前端、第三方入口和开源替代工具对比

Z.ai 代理服务器：AI 服务访问和地区问题说明

Web Unlocker for AI Agents：什么时候比普通代理更合适

Vertex JSON Login 代理：服务账号登录失败怎么处理

Vertex Credential Import 教程：凭据、地区和代理注意事项

Vertex AI 代理指南：Google Cloud AI 调用的网络与凭据问题

WhatsMyName 限额后怎么办？官方前端、第三方入口和开源替代工具对比

Z.ai 代理服务器：AI 服务访问和地区问题说明

Web Unlocker for AI Agents：什么时候比普通代理更合适

Vertex JSON Login 代理：服务账号登录失败怎么处理

Vertex Credential Import 教程：凭据、地区和代理注意事项

Vertex AI 代理指南：Google Cloud AI 调用的网络与凭据问题

阿联酋 AI 代理：中东地区访问、测试和合规注意事项

土耳其 ChatGPT 代理：地区访问和付款问题排查

Sub2API 代理：订阅转 API 场景的网络稳定性说明

新加坡 AI 代理：低延迟访问和东南亚业务测试

先决条件和安装

如何在Python请求中使用代理服务器

请求方式

代理认证

代理会话

环境变量

阅读响应

用请求Requests代理

如何用Requests轮换IP

总 结

总结