中年大叔学编程-我用Python保存金山词霸每日一句
cac55 2024-10-27 08:22 33 浏览 0 评论
其实金山词霸每日一句已经出来很久了,但是我都不知道,今天去金山词霸的官网看了看,感觉这些句子都挺不错的,所以就想着把它们给存下来。
我大概看了一下他的页面,请求的敏感数据是加密的,页面是基于请求的数据动态渲染的,去解析结构的话,会比较花时间,这里我就使用selenium来简化操作,它可以模拟浏览器,直接把数据渲染成最终的展示出来的页面,然后,直接解析最终的html就可以得到最终的结果。
安装selenium
pip install selenium
因为是这里是用的google浏览器版本 83.0.4103.97(正式版本) (32 位),所以 这里我们需要去http://npm.taobao.org/mirrors/chromedriver下载对应的chromedriver驱动,然后解压到Python的安装目录。 如果不指定自己的安装路径,可以在cmd中执行where python命令来查找
C:\Users\lenovo>where python
D:\Programs\Python\Python38-32\python.exe
C:\Users\lenovo\AppData\Local\Microsoft\WindowsApps\python.exe
把我们下载的chromedriver复制到对应的目录,我这里是D:\Programs\Python\Python38-32\
使用的selenium
那么这里先简单的写几句代码
from selenium import webdriver
browser=webdriver.Chrome()
browser.get('http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05')
print(browser.page_source)
我们运行python demo.py就会看到这样的效果
这里我需要它的图片、英文和汉译,我们来看看它的网页元素结构
它的英文和汉译分别在detail-content-en和detail-content-zh两个class节点中,这里我们需要借助另外一个插件来解析selenium获取到的html,它就是PyQuery,先执行pip install PyQuery 把它安装下来,现在我们来开始获取他的英文内容、汉译内容以及图片地址
from selenium import webdriver
from pyquery import PyQuery as pq
from time import sleep
browser = webdriver.Chrome()
browser.get(
'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/2020-06-05') # 访问页面
sleep(5) # 等待5秒钟
html = browser.page_source # 获取页面渲染好的html
page = pq(html) # 装载到pyquery中
en = page(".detail-content-en") # 查找英文节点
zh = page(".detail-content-zh") # 查找中文节点
img = page(".detail-banner-img") # 查找图片
print(en.text())
print(zh.text())
print(img.attr('src'))
browser.quit() # 退出浏览器
现在,我们来把每日一句的内容保存下来
from selenium import webdriver
from pyquery import PyQuery as pq
import time
import requests
cur_date = time.strftime("%Y-%m-%d", time.localtime(time.time())) # 取当前日期
browser = webdriver.Chrome()
browser.get(
'http://news.iciba.com/views/dailysentence/daily.html#!/detail/title/'+cur_date) # 访问页面
time.sleep(5) # 等待5秒钟
html = browser.page_source # 获取页面渲染好的html
page = pq(html) # 装载到pyquery中
en = page(".detail-content-en") # 查找英文节点
zh = page(".detail-content-zh") # 查找中文节点
img = page(".detail-banner-img") # 查找图片
with open('D:/ciba/'+cur_date+'.txt', 'wb') as file: # 将内容写入txt文本
file.write(en.text().encode())
file.write("\n".encode())
file.write(zh.text().encode())
img_url = img.attr('src')
r = requests.get(img_url)
with open('D:/ciba/'+cur_date+'.jpg', 'wb')as f: # 将图片保存成文件
f.write(r.content)
browser.quit() # 退出浏览器
现在,我们执行python demo.py,就可以得到这样的效果
是不是感觉有点意思?
我只是记录我的学习过程,由于书读的少,可能很多地方表述或者是理解得不对,请轻喷并指正。
相关推荐
- Protel电路设计常用设计编辑器案例2——创建元件
-
#大有学问#今天介绍一下Protel常用设计编辑器的电气连接工具栏。单击主工具栏上的工具按钮或选择【查看】|【工具栏】|【配线工具栏】菜单命令可以关闭或打开【电气连接(WiringTools)】工具...
- Protel调整元器件的位置(1)——移动和对齐元器件
-
今天介绍调整元器件位置的方法。首先介绍移动和对齐元器件的方法。在绘制电路原理图时,放置完了的电路图可能位置不太合适,需要进行移动。原理图中的所有对象都可以被移动,移动方法相似。对于元器件的移动来说又分...
- 电路仿真软件详谈(八),proteus电路仿真软件和protel的区别
-
电路仿真软件是常用工具类型之一,proteus更是电路仿真软件中的佼佼者。但是对于proteus电路仿真软件和protel,二者总是被弄混淆。例如,protel是电路仿真软件吗?proteus电路仿真...
- PCB文件转换生产文件Protel 99SE_pcb格式转换
-
为何要将PCB文件转换为GERBER文件和钻孔数据?因为GERBER文件是一种国际标准的光绘格式文件,它包含RS-274-D和RS-274-X两种格式,其中RS-274-D称为基本GERBER格式,并...
- PCB设计项目教程 -PDF_pcb设计作品
-
PCB设计项目教程》及相关PCB设计教材详细介绍:一、核心教材《PCB设计项目教程》该教材由徐凯、王威担任主编,于2017年由北京理工大学出版社出版。其采用“项目导向、任务驱动”的教学模式,...
- 最受欢迎的pcb设计软件Protel99se到底怎么样?
-
Protel99se是一款国内非常实用且流行的设计行业的pcb设计软件,其由pcb原理图设计和多层板电路设计两大功能组成,其最大的特点是好获取,在网上可以随便的找到,且Protel99se软件适用于w...
- 人人都是网络雇佣兵,一种基于路由器的ddos平台设计思路
-
本文灵感来自于三个方面优酷路由宝,迅雷宝这种路由器流量兑现方式Anonymous匿名者的ddos方式传统木马ddos方案先说路由宝迅雷宝,这种以用户网络为节点的CDN网络中,会传输大量的流量,我上月优...
- 接口性能测试工具Locust介绍_接口和性能的测试要点
-
接口性能测试工具其实挺多的,小型有apache的ab工具,大型的有Jmeter、Locust......这里要介绍的是Locust,相对于Jmeter进行了比较完善的封装,Locust可以就显的更自...
- 华硕笔记本电脑安装系统实战心得体会
-
故障:某某的电脑叫人安装系统至一半就蓝屏死机.拿来给我安装,发现光驱无效,不能用光盘安装.电脑启动蓝屏.解决方法:用了半天时间安装也出现类似问题.后来考虑用U盘来装.1.首先制作U盘系统,把U盘资...
- dos命令systeminfo图文教程,显示操作系统配置信息msinfo32
-
大家好,我是老盖,首先感谢观看本文,本篇文章做的有视频,视频讲述的比较详细,也可以看我发布的视频。今天我们学习systeminfo命令,该工具显示本地或远程机器(包括服务包级别)的操作系统配置的信息,...
- 玩家展示现代硬件上运行的MS-DOS 拥有令人难以置信的向后兼容性
-
一位YouTuber展示了在现代计算机硬件上直接运行古老的MS-DOS操作系统和经典游戏的能力。这段视频由YouTuberInkbox发布,向观众展示了如何启动古老的、前Windows...
- 比微PE还干净还强大,带网络:USBOS V3.0超级PE装机工具20221031
-
期待已久的USBOSV3.0超级PE装机工具20221031又和大家见面了,用过的朋友都知道他的确很强大,对于新旧电脑的支持很好,目前为止还没有电脑不支持的,包括苹果PC。很多朋友还在用诸如大白菜、...
- 大童保险李晓婧:保险的本位是风险管理应在四方面进行建设
-
经济观察网记者姜鑫5月17日,大童保险服务宣布升级了风险管理模式,推出DOSM(DemandOriented,SolutionModel)需求导向型解决方案5.0版本。新解决方案从原有“六位...
- DOS常用命令及简介_dos常用命令大全及用法
-
DOS是英文DiskOperatingSystem的缩写,意思是“磁盘操作系统”。我是在95年开始学的电脑,当时学校的机房里,还没有一台WINDOWS操作系统的电脑,当时都是用DOS、UC-DOS...
- Windows 忘记开机密码?不用任何工具,1招轻松破解
-
出现忘记Windows密码的情况,概率有多大?对此,小电只能回答忘记开机密码的情况,说来就来,没有规律,也不会提前告诉你一声~而忘记Windows开机密码的时候,很多朋友都会想起可以使用u盘启动盘来破...
你 发表评论:
欢迎- 一周热门
- 最近发表
- 标签列表
-
- 如何绘制折线图 (52)
- javaabstract (48)
- 新浪微博头像 (53)
- grub4dos (66)
- s扫描器 (51)
- httpfile dll (48)
- ps实例教程 (55)
- taskmgr (51)
- s spline (61)
- vnc远程控制 (47)
- 数据丢失 (47)
- wbem (57)
- flac文件 (72)
- 网页制作基础教程 (53)
- 镜像文件刻录 (61)
- ug5 0软件免费下载 (78)
- debian下载 (53)
- ubuntu10 04 (60)
- web qq登录 (59)
- 笔记本变成无线路由 (52)
- flash player 11 4 (50)
- 右键菜单清理 (78)
- cuteftp 注册码 (57)
- ospf协议 (53)
- ms17 010 下载 (60)