Python中使用lxml库提取html标签内容 etree.tostring()不能显示中文,显示乱码解决
最近使用python抓取网页分析html元素数据时,使用lxml库下etree类tostring()方法获取指定元素的html代码,发现输出的结果中汉字部分显示不正常,形如 年,使用html类下tostring()方法是一样的情况。经过查找得知汉字被转换为对应的html字符实体。有下面几种方法解决(1)、使用html库下unescape()函数帮字符串中html字符实体转换为对应的字符,如汉字等(2)、通过分析etree的源码,发现 etree类还有 tounicode()方法,使用这个方法