免费网页代理，爬取网页数据的方法

电商百晓生 • 2023-02-20 14:21:00 • 百科知识

这是一篇记录自己踩坑的文章

爬取网页分三大步骤：

分析目标网站着手编写代码保存数据

下面开始今天的主题。上目标网站（66免费代理）

首先分析网页，我们要爬取的是ip和端口号

所有数据都存在表格里

查看网页源码，发现数据直接在源码中，因此开始接下来的操作，提取数据，使用BeautifulSoup解析。

先拿到每一页上的所有行，再提取每一个单元格中的内容，相信见代码

# _*_ coding:utf8 _*_import requestsfrom bs4 import BeautifulSoupfrom multiprocessing import Poolfrom pymongo import MongoClientimport redata = [] # 用来存放爬取到的ip# 爬取单个页面的ipdef getip(page): db = MongoClient(‘127.0.0.1’, 27017).test # url = “https://www.89ip.cn/index_%s.html” % page # 该代理检测不可用 url = ‘http://www.66ip.cn/%s.html’ % page headers = { ‘User-Agent’: ‘Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36’, ‘Referer’: ‘http://www.66ip.cn/index.html’, } resp = requests.get(url=url, headers=headers, timeout=2) soup = BeautifulSoup(resp.text, ‘lxml’) for item in soup.find_all(‘tr’)[2:]: try: ip = item.find_all(‘td’)[0].get_text().strip() port = item.find_all(‘td’)[1].get_text().strip() data.append({‘ip’: ‘{}:{}’.format(ip, port), ‘verify’: False}) if len(data) == 0: print(“结束”) print(data) db.ippool.insert_many(data) # print(port) except: continue # 发生异常的时候跳过此次爬取，继续下一轮

经过一番操作，成功获取数据，后面就是比较糟糕的事情了。我们爬取代理ip的主要目的是什么，当然是使用他们呀。在我校验之后，一万多个代理ip没有一个能用的。[流泪][笑哭]

本文来自作者:电商百晓生，不代表小新网立场！

转载请注明：https://www.xiaoxinys.cn/479755.html

电商百晓生网站编辑

来自网页的消息感叹号，问题的提出包括哪些内容

上一篇 2023-02-20 14:20:00

周立波结婚证婚人是谁，周立波在美国演出脱口秀

下一篇 2023-02-20 14:32:00

淘宝运营

淘宝无货源店群运营方法

新手做拼多多无货源店群，掌握好的运营技巧，也能月入过万大家好我是初妆一名90后拼多多无货源店群创业者~ 现在越来越多电商开始接触拼多多店群，但是同时又有很多人对无货源店群有偏…

一周美食说茶
2023-07-25
结婚买的五金是指哪些

大家都知道，在传统的习俗上，结婚的时候，男方都要送给女方三金或者是五金，传统的三金一般包括金项链，金戒指，金耳环，那么五金自然而然要比三金多两金，那就是金项链，金戒指，金耳环，金手…

xz1080
2022-10-25 • 投稿
电商杂谈

京东百亿补贴玩法规则

电商平台又开始使出低价这一杀手锏，只是这次使出这一杀手锏的是京东。据36氪独家报道，京东将于3月初正式上线“百亿补贴”频道，目前已进入商品池选定以及竞价系统上线前的冲刺阶段。另…

运维笔记ywbj
2023-04-27
东营电影院今日的电影院有哪些

主演：塞缪尔·默瑟 / 西里尔·迪雷尔 / 苏珊娜·罗尔特-巴利特 / 米歇尔·贝尔 / 童菲剧情简介：一个发生在“浪漫之都”巴黎，讲述有关爱与永恒的暗黑童话，法国…

活动推广
2023-04-24 • 投稿
投稿

抖音开通商品橱窗步骤（商品橱窗和开通小店有什么区别）

关于抖音小店与抖音橱窗这两方面，还有很多小伙伴搞不清楚，小店和橱窗有什么区别？先开通小店还是先开通橱窗？开通小店后一定要开通橱窗吗？为什么将商品上传到橱窗后不显示，别人看不…

央广网
2022-10-20
投稿

白银持仓量实时查询，金银陷入震荡

昨日，经合组织将2022年全球经济增长预期从之前的4.5%下调至3%，同时预计2023年全球经济增长将进一步放缓至2.8%。欧洲方面，欧元区第一季度GDP年率终值录得5.4%，高于…

央广网
2022-06-09
谭维维怎么逆袭的，她是怎么做到的

娱乐圈是一个经常发生奇迹的地方在这里有实力能够让你在这个圈子中立足，但有时候运气却比有实力更让人羡慕。不少在娱乐圈摸爬滚打多年的演员依旧让网友看完就忘，每部剧都是充当配角来衬托别…

科技攻略
2022-08-11 • 投稿
创业经验

维度是什么意思，从0维到10维空间

今天我们来讨论维度,好的先来重温一下，我们一般人更容易理解的0维到3维隐喻曲线背景Metaphorical Curves background 0维 0维一般的我们认为它是一个点…

星火网络
2023-02-02
无脑数量流短视频带货玩法，年入百万

? 在商业领域，很多名校高材生想破脑子都解决不了的问题，其实很简单。共享单车怎么解决被盗被故意破坏？是只将单车投放在固定场地，雇人早中晚视查…还是增加成本，安装g…

天问谈创业
创业经验 2022-04-01
葡萄牙人均GDP多少（葡萄牙人均gdp世界排名）

葡萄牙人均GDP约2万欧元左右可能很多人提起发达国家首先想到的就是美国、英国、法国、德国、日本这些国家。如果谈到葡萄牙是不是发达国家也许很多人会先犹豫一下后不大确定地说：“好像也…

活动推广
2022-12-03 • 投稿
投稿

全国文明城市排名2022（最新十大文明城市排名）

中央文明办近日公布了2021年全国文明城市年度测评结果，深圳在30个省会、副省级全国文明城市中，排名第二，再次获得中央文明办通报表扬。通报指出，2021年9月至2022年2月，中…

整理侠
2022-12-17
引流知识

自助建网站

自助建站攻略，教你在免费建站平台，怎样做个公司网站、个人网站正常情况，自己写代码做一个网站，那真的是挺繁琐的一件事，挑选和购买域名，租用服务器，搭建设计网页等等，非专业人士，想都…

书影
2023-06-07

免费网页代理，爬取网页数据的方法

相关推荐