爬虫 - 清科谷体的博客

有些 Javascript 生成的动态内容，没有办法通过网页源代码查看。因为解析出的网页内容只是静态页面，不包含动态元素。目前最新的前端技术比如服务器端渲染（SSR）、单页面应用（SPA）等，都是看不到静态的网页源码的。这种网页只能通过访问网站，使用浏览器开发者工具即时查看显示的元素。 Python可以使用Selenium模拟浏览器行为加载页面，就可以获得网页的实际显示元素。下载浏览器驱动搜索浏览器名字 + webdriver ，是一个单文件程序。下载后扔到C:\Users\user\AppData\Loca…

2025年2月9日 0条评论 254点热度 0人点赞 ingker 阅读全文

这次要从一个贴图论坛下载赛马娘tag的所有色图，预计要下载6700张图片。查看网页结构从网站在查询时的url可以看出网站是PHP搭建的。经过测试发现，页面的每张图片的缩略图链接，稍微修改一下就是完整的图片链接。查看了分页逻辑的，看到JS代码是手动计算分页。每页显示42张图片，将总数除以42得到页数。可以解析每一页分页的图片链接，点击进去帖子里面。然后获取到图片地址。使用公开的API 要处理近6700张图片，每页有42张图，就要处理160页面，解析帖子链接。然后从6700个帖子链接中获取图片地址。这恐怕是个…

2025年1月24日 1条评论 288点热度 0人点赞 ingker 阅读全文

查看网页结构找到了一个公网的网盘，他有存我原来关注过的微博博主的相片。我想把这些图片全部下载下来。首先来看一下图片的路径放在哪里了。右键检查，看到了这是个有序列表元素。里面<a>标签就是图片的链接了，点一下列表就会跳转到图片。这个列表显示的<img>是图片的缩略图。实际查看了网页的Html结构，发现实际列表元素并不是ul无序列表或者li有序列表。而是td表格。图片链接在a标签里，而a标签是td标签里。我们先找出全部的td标签，然后再从中找出a标签。然后打印出a标签的href属性，获得…

2025年1月18日 0条评论 284点热度 0人点赞 ingker 阅读全文

用 Python 爬虫批量下载文件（三）使用selenium解析动态网页

用 Python 爬虫批量下载色图（二）从网站API获取数据

用 Python 爬虫批量下载图片（一）解析网页并获取数据