python开发 - php技术分享博客

使用aiohttp库设置代理抓取https页面报错问题解决

有一次通过aiohttp库设置代理抓取https页面报错,错误如下:aiohttp.client_exceptions.ClientConnectorError: Cannot connect to host www.phper163.com:443 ssl:default [参数错误。]不加代理的话,抓取https页面是正常的import asyncio import aiohttp def main(): loop=a

python开发 2021年09月30日 0 点赞 0 评论 5308 浏览

python中使用pycurl库请求获取网页数据

pycurl是一个用c语言编写的libcurl Python实现，功能非常强大，支持操作协议有FTP，HTTP，HTTPS，TELNET等。安装命令：pip install pycurl使用pycurl库开发网页请求步骤：（1）、创建curl实例（2）、设置:setopt操作（3）、执行:perform（4）、获取信息:getinfo下面给出一个具体的例子：import pycurl from io import BytesIO c = py

python开发 2021年09月09日 0 点赞 0 评论 2949 浏览

python3中实现对url链接的编码与解码，将%3A和%2F转换为 : 和 /

使用python进行抓包的时候需要的一个链接，“https%3A%2F%2Fwww.phper163.com%2Flist%2F6.html”，这是一种url编码过的链接，其中“%3A”表示“:”、“%2F”代表“/”。URL为何要编码、解码？为了避免url中有的字符造成歧义问题。例如，url参数字符串中使用key=value键值对这样的形式来传参，键值对之间以&符号分隔，如/s?q=php&page=2。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误，因此必须将引起歧

python开发 2021年09月02日 0 点赞 0 评论 6373 浏览

python3.9版本安装后执行命令提示“ModuleNotFoundError: No module named '_ctypes'”解决

由于django4.0版本需要至少python3.8版本，所以帮服务器的python3的版本由python3.6升级到python3.9。通过官方下载源码，编译安装。安装后执行python3.9命令提示“ModuleNotFoundError: No module named '_ctypes'”这个错误，通过相关搜索得知，python3.7以上版本需要一个新的依赖包libffi-devel，centos系统环境中缺乏这个包。解决方法：（1）、安装 libffi-develcentos下，

python开发 2021年09月01日 0 点赞 0 评论 4899 浏览

python中lxml下etree库使用css选择器获取指定html元素

之前介绍过etree下使用xpath方式来获取html元素，对不了解xpath规则的人来说有一定的难度，而且写法复杂。基本上了解html代码的，知道一点css选择器的规则。常见的有：直接选择元素，如“p”、选择指定class的元素，如“.intro”、选择指定id的元素，如“#article”。详细搜索参考“css选择器”。那在etree中如何使用css选择器来获取html元素，这里需要用到cssselect第三方库。安装cssselect库命令：pip install cssselect查看是否安装（1

python开发 2021年08月31日 0 点赞 0 评论 4007 浏览

python中解析html获取指定元素信息方法（二）使用BeautifulSoup库

Beautiful Soup是python中一个第三方的HTML即XML的解析库，可以用它来方便地从网页中提取数据。目前最新版本为BeautifulSoup4，已经被移植到bs4当中，在导入时需要from bs4，然后再导入BeautifulSoup。安装命令：pip install beautifulsoup4查看是否安装（1）、命令行中执行 pip list，看输出的结果中是否有beautifulsoup（2）、python命令中输入from bs4 import BeautifulSoup，如果没有

python开发 2021年08月28日 0 点赞 0 评论 3118 浏览

python中解析html获取指定元素信息方法（一）使用lxml库

lxml是python中的一个解析库，支持html和xml解析，支持XPath解析方式，而且解析效率非常高。lxml属于第三方库，使用前要安装lxml库。安装命令：pip install lxml查看是否安装（1）、命令行中执行 pip list，看输出的结果中是否有lxml（2）、python命令中输入import lxml，如果没有报错，说明安装成功lxml库解析html使用：（1）、导入lxml库的etree模块，然后使用etree.HTML(htmlcode)方法进行初始化,构造一个XPath解析

python开发 2021年08月27日 0 点赞 0 评论 3759 浏览

Python中使用lxml库提取html标签内容 etree.tostring()不能显示中文，显示乱码解决

python开发

首页

python开发

列表

默认

浏览次数

发布时间

使用aiohttp库设置代理抓取https页面报错问题解决

python中使用pycurl库请求获取网页数据

python3中实现对url链接的编码与解码，将%3A和%2F转换为 : 和 /

python3.9版本安装后执行命令提示“ModuleNotFoundError: No module named '_ctypes'”解决

python中lxml下etree库使用css选择器获取指定html元素

python中解析html获取指定元素信息方法（二）使用BeautifulSoup库

python中解析html获取指定元素信息方法（一）使用lxml库

Python中使用lxml库提取html标签内容 etree.tostring()不能显示中文，显示乱码解决

python中如何判断变量的类型、判断变量是否为列表的方法

python中如何处理html字符实体转换为字符及互转方式

python开发 首页 python开发

列表 默认 浏览次数 发布时间

python开发

首页

python开发

列表

默认

浏览次数

发布时间