网页转码 python 库 jparser

码农软件 · 软件分类 · HTML解析器 · 2019-04-02 16:42:36

授权协议: MIT
开发语言: Python
操作系统: 跨平台
软件首页: https://github.com/fxsjy/jparser
软件文档: https://github.com/fxsjy/jparser/blob/master/README.md

软件介绍

jparser是一个python库，用于网页转码，也就是从html源码中抽取正文的结构化数据：文本段落和图片。目前主要针对新闻资讯类页面进行了优化。

用法：

import urllib2
from jparser import PageModel
html = urllib2.urlopen("http://news.sohu.com/20170512/n492734045.shtml").read().decode('gb18030')
pm = PageModel(html)
result = pm.extract()

print "==title=="
print result['title']
print "==content=="
for x in result['content']:
    if x['type'] == 'text':
        print x['data']
    if x['type'] == 'image':
        print "[IMAGE]", x['data']['src']

示例：

http://jparser.duapp.com/

依赖：lxml

本文地址：https://www.codercto.com/soft/d/2710.html

码农书籍

微机原理与接口技术

李文英、李勤、刘星、宋蕴新 / 清华大学出版社 / 2001-9 / 26.00元

《高等院校计算机应用技术规划教材•应用型教材系列•微机原理与接口技术》是“高职高专计算机系列教材”之一。全书包括微机原理、汇编语言、接口技术三部分内容。微机原理部分讲述了80x86的内部结构及工作原理、半导体存储器及其系统、微型机总线结构等。汇编语言部分讲述了指令系统、编程技巧。接口技术部分讲述了中断系统、中断控制器、并行接口、串行接口、DMA控制器、定时器，以及A／D、D／A转换器等常用芯片的硬......一起来看看《微机原理与接口技术》这本书的介绍吧!

码农工具

网页转码 python 库 jparser

软件介绍

微机原理与接口技术

CSS 压缩/解压工具

Markdown 在线编辑器

RGB CMYK 转换工具