清科谷体的博客

  • 文章
  • 关于
  • 联系
  • 隐私政策

编程

用 Python 爬虫批量下载文件(三)使用selenium解析动态网页

有些 Javascript 生成的动态内容,没有办法通过网页源代码查看。因为解析出的网页内容只是静态页面,不包含动态元素。 目前最新的前端技术比如服务器端渲染(SSR)、单页面应用(SPA)等,都是看不到静态的网页源码的。这种网页只能通过访问网站,使用浏览器开发者工具即时查看显示的元素。 Python可以使用Selenium模拟浏览器行为加载页面,就可以获得网页的实际显示元素。 下载浏览器驱动 搜索浏览器名字 + webdriver ,是一个单文件程序。下载后扔到C:\Users\user\AppData\Loca…

2025年2月9日 0条评论 149点热度 0人点赞 ingker 阅读全文
编程

用 Python 爬虫批量下载色图(二)从网站API获取数据

这次要从一个贴图论坛下载赛马娘tag的所有色图,预计要下载6700张图片。 查看网页结构 从网站在查询时的url可以看出网站是PHP搭建的。经过测试发现,页面的每张图片的缩略图链接,稍微修改一下就是完整的图片链接。 查看了分页逻辑的,看到JS代码是手动计算分页。每页显示42张图片,将总数除以42得到页数。可以解析每一页分页的图片链接,点击进去帖子里面。然后获取到图片地址。 使用公开的API 要处理近6700张图片,每页有42张图,就要处理160页面,解析帖子链接。然后从6700个帖子链接中获取图片地址。 这恐怕是个…

2025年1月24日 1条评论 148点热度 0人点赞 ingker 阅读全文
教程

用 Python 爬虫批量下载图片(一)解析网页并获取数据

查看网页结构 找到了一个公网的网盘,他有存我原来关注过的微博博主的相片。我想把这些图片全部下载下来。 首先来看一下图片的路径放在哪里了。右键检查,看到了这是个有序列表元素。里面<a>标签就是图片的链接了,点一下列表就会跳转到图片。这个列表显示的<img>是图片的缩略图。 实际查看了网页的Html结构,发现实际列表元素并不是ul无序列表或者li有序列表。而是td表格。 图片链接在a标签里,而a标签是td标签里。我们先找出全部的td标签,然后再从中找出a标签。然后打印出a标签的href属性,获得…

2025年1月18日 0条评论 152点热度 0人点赞 ingker 阅读全文

COPYRIGHT © 2025 清科谷体's blog. ALL RIGHTS RESERVED.
THEME KRATOS MADE BY VTROIS | MODIFIED BY INGKER

正在加载今日诗词....

本站已运行