Thư viện Requests là phương pháp phổ biến nhất để gửi yêu cầu HTTP bằng Python. Đây là một trong những thư viện dễ sử dụng nhất. Python là một ngôn ngữ lập trình bậc cao cho các mục đích lập trình đa năng. Requests so với các thư viện thay thế Python khác thường yêu cầu viết ít mã hơn để trích xuất dữ liệu. Những người đam mê thu thập dữ liệu web đều biết rằng một proxy chất lượng cao sẽ là tốt hơn cả. Các trang web ngày nay sử dụng các biện pháp chống bot tiên tiến để tự bảo vệ mình khỏi quá trình tự động hóa. Vì vậy, việc xây dựng và duy trì trình thu thập của riêng bạn bao gồm thiết lập một máy chủ proxy để tránh bị cấm địa chỉ IP hoặc các trở ngại khác. Dưới đây là hướng dẫn từng bước về cách thiết lập và xoay vòng proxy trong Python bằng Requests.
Nếu muốn thực hiện nhiều yêu cầu với cùng một cấu hình proxy, bạn cần tạo một phiên và thêm proxy của mình. Bạn có thể làm điều đó bằng cách chuyển đối tượng phiên có cấu hình proxy của mình và gửi yêu cầu thông qua đối tượng đó.
Nếu muốn lưu trữ cấu hình proxy của mình để sử dụng trong tương lai, bạn sẽ cần đặt các biến môi trường. Bằng cách này, bạn có thể dễ dàng chuyển đổi giữa các cài đặt proxy khác nhau mà không cần sửa đổi mã của mình.
Bước 1. Tùy thuộc vào hệ điều hành của bạn, bạn có thể đặt/xuất các biến môi trường sang địa chỉ proxy và cổng.
Đối với người dùng Windows:
set http_proxy=http://username:password@:PORT
set https_proxy=http://username:password@:PORT
Nếu bạn không muốn bị đưa vào danh sách đen hoặc bị giới hạn tỷ lệ bởi các trang web, trước tiên bạn sẽ cần một nhóm địa chỉ IP. Khi đó một dịch vụ proxy xoay IP sẽ là cần thiết để đáp ứng yêu cầu này. Nếu không, bạn sẽ phải thực hiện quá nhiều yêu cầu kết nối từ một IP và rất dễ bị cho vào danh sách hạn chế.
Bạn nên sử dụng dịch vụ proxy trả phí. IP miễn phí không đáng tin cậy, nó có thể bị chèn quảng cáo hoặc dễ dàng tiết lộ dữ liệu của bạn. Mặt khác, các proxy trả phí duy trì cơ sở hạ tầng an toàn với với chất lượng đảm bảo, vì vậy bạn sẽ ít bị chặn hơn.
Gửi nhiều yêu cầu an toàn với proxy xoay IP
Bước 1. Đầu tiên, nhập các thư viện sau:
import requests
import random
Bước 2. Sau đó, xác định danh sách địa chỉ IP bạn muốn sử dụng.
import requests
import random
# Define your proxies
proxy_pool = ['user:password@host:3001', 'user:password@host:3002', 'user:password@host:3003']
# Going through 10 requests
for i in range(10):
# Select a random proxy from the pool
proxy = {'http': random.choice(proxy_pool)}
# Send the request using the same proxy
response = requests.get('URL', proxies = proxy)
# Print the response
print(response.text)
Trong hướng dẫn này, bạn đã biết cách sử dụng máy chủ proxy khi thực hiện các yêu cầu HTTP bằng Python Requests. Sử dụng proxy có thể giúp yêu cầu của bạn an toàn hơn hoặc ẩn danh hơn, cũng như ngăn IP của bạn bị chặn khi quét qua các trang web. Truy cập zingproxy.com để đăng ký dịch vụ proxy chất lượng cao cũng như biết thêm nhiều điều thú vị xoay quanh Proxy. Cảm ơn đã theo dõi bài viết!
Trong thế giới thu thập dữ liệu (web scraping), việc bị chặn IP là rào cản lớn nhất. Sử dụng proxy là giải pháp, nhưng quản lý hàng chục, hàng trăm proxy lại là một bài toán khác. Các dịch vụ proxy rotator thương mại tuy tiện lợi nhưng có thể tốn kém và thiếu […]
Thị trường Nhật Bản, với sức mua khổng lồ và nền văn hóa độc đáo, luôn là điểm đến mơ ước của nhiều doanh nghiệp Việt. Tuy nhiên, cánh cửa kỹ thuật số vào quốc gia này thường không rộng mở do các rào cản về địa lý. Những giới hạn này tạo ra một […]
Trong kỷ nguyên Trí tuệ nhân tạo (AI), dữ liệu không chỉ là “dòng máu” mà còn là nền tảng của cả một hạ tầng khổng lồ. Việc xây dựng các mô hình học máy hiệu quả đòi hỏi một quá trình Web Scraping dữ liệu AI ở quy mô cực lớn, đây không còn […]
Thị trường thương mại điện tử (TMĐT) ngày nay là một chiến trường thực sự. Nơi mà giá cả không còn được tính bằng ngày, mà thay đổi theo từng phút. Trong cuộc chiến khốc liệt này, một vài giây chậm trễ cũng có thể khiến bạn mất đi hàng ngàn khách hàng vào tay […]
Trong bối cảnh kỹ thuật số ngày nay, việc bảo vệ danh tính và truy cập thông tin không giới hạn đã trở thành một nhu cầu thiết yếu. Nhu cầu này lớn đến mức nó đang thúc đẩy sự phát triển của cả một hệ sinh thái hạ tầng mạng. Bạn vừa sở hữu […]
Bạn đã bao giờ trải qua cảm giác tim đập mạnh khi mở app và thấy dòng chữ “Tài khoản của bạn đã bị vô hiệu hóa”? Để tránh cơn ác mộng này, việc học cách đổi proxy Android và iPhone để bảo vệ dàn tài khoản là kỹ năng sống còn. Nếu không, toàn […]