1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。五一劳动节黑板报图片-五一劳动节黑板报素材资料doc格式免费下载
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
写一个测试用的html文件:html-clean-demo.html
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
展开内容
河北投促app下载-河北投促app1.0.0安卓版
大智慧新一代高速行情分析系统(Internet)V2.6 简体中文正式版
2017过年祝福语-2017过年祝福语大全doc最新版
环世界豆腐制品MOD下载-环世界豆腐制品MOD1.2最新版
百度网盘双开版-百度云网盘双开版6.5 绿色中文版
游戏区科学充值工具下载-游戏区科学充值工具1.0免费版
76云保姆2015(免费获取迅雷vip账号)v2.1.1.2 绿色版
U盘启动盘制作工具-老毛桃U盘启动盘制作工具9.5.2109.10 网络版
公益中国-暖青汇(志愿者社交)1.0.8 安卓版
微软Office2016卸载工具下载-Office2016卸载工具1.0 绿色版
网址导航建站系统-14啦网址导航建站系统1.13 正式版
视频格式转换器-视频转换器(Pavtube Video DVD Converter Ultimate)4.7 中文版
Xvirus垃圾清理软件(Xvirus Personal Cleaner)3.0.1 官网免费版
迈普视通LED-510C系列视频处理器操作系统-LED视频处理器1.0 官方版
护考课堂下载-护考app21.12.17 安卓版
硬盘镜像制作工具(DataNumen Disk Image)1.6.0.1 中文免费版
9.0/700.9M
硬盘镜像制作工具(DataNumenDiskImage)是一款免费管理硬盘驱动器镜像创建制作和恢复的软件,通过该软件,你可以逐字节的克隆和恢复磁盘或者启动器上的...
9.8/615.0M
免费wifi电话用自主知识产权的voip网络电话语音技术,可通过电脑和手机直接拨打国内外电话。价格低廉、通话清晰又稳定,接通率高,口碑同类第一,是中国最受欢迎的...
像素火影秽土柱间版正版下载-像素火影秽土柱间最新版1.00.42 安卓版
8.3/18.6M
像素火影秽土柱间正版最新版本是玩家自制版本,这是一个系列的,这个是这个系列的最新版本,主要是加入了新的人物秽土柱间和晓鼬超新角色,这是非常好的一个自制游戏,总体...
9.4/1,372.8M
简答而且玩得多样化的游戏--微微消除游戏来袭了,这里你可以体验到各种各样的消除方式,同时也是可以对一些功能进行各方面的优化,展示你不一样的消除体验!微微消除安卓...
10.0/473.8M
星空之壁就是抖音上面的一款旋转方块类型的休闲游戏,这个你可以在各种关卡里面进行挑战,游戏背景也是有很多的科幻性质的,你可以边体验边欣赏游戏画面!游戏特色解锁10...
9.8/1,159.1M
辽宁省网上税务局地方税费版是一款专业的税收服务软件,需要申请开通网上申报业务,不用去现场大厅,可以直接通过客户端进行申报纳税。安装方法运行安装包,点击下一步等待...
一千克拉女王uc服下载-一千克拉女王九游版1.1.6九游客户端
8.7/871.1M
一千克拉女王九游版款画风唯美的模拟游戏,精美的换装搭配每天让你根本停不下来,每一种剧情都让你沦陷其中,还能够在这里邂逅浪漫的爱情哟。一千克拉女王九游版学徒玩法首...
多功能桌面记事本-天天百宝箱(多功能桌面工具)3.87 官方最新安装版
8.9/1,007.8M
天天百宝箱 (原名多功能桌面记事本) 包括了平时你需要的所有常用功能。如公历农历查询,计划提示,计账管理,定时关机,屏幕捕捉,网页截图,系统...
9.9/489.9M
为一些民事纠纷提供一个专业的解决平台,这里可以直接的为你进行各种调理,同时也是提供一些专业化的服务,解决在生活中的一些问题!民调小助手介绍“民调小助手”利用物联...
360杀毒极速版下载-360杀毒极速版64位7.0.0.1030 官方版
7.9/654.4M
当您准备在12306网站购买火车票,特别是抢购节假日前后的往返车票时,有没有遇到过突然网站无法正常登陆、无法查询和购票等问题?这都可能是由于网站证书、脚本或控件...
勇敢者的游戏2.27E地图下载-勇敢者的游戏2.27E巨魔崛起正式版
9.7/1,733.8M
勇敢者的游戏2.27E巨魔崛起是一张非常经典的热门魔兽防守地图了,更新到2.27e版本了,英雄选择性越来越多,地图也更加完整了,技能调整了一些,玩法更加多样化!...
u盘超级加密3000破解版注册码-U盘超级加密300012.05 最新破解版【附注册码】
8.8/399.9M
U盘超级加密3000破解版注册码可以几秒内加密U盘和加密移动硬盘或者共享文件夹里面的全部文件和文件夹或者是你指定的需要加密的文件和需要加密的文件夹。解密时也可以...
9.4/1,029.9M
这款游戏是一款非常好玩的钢箭射击类手机游戏,游戏采用的是关卡的玩法,有各种不同的关卡可以体验,通过射击让角色可以进行攻击,游戏玩起来还是非常带感的!钢箭射击介绍...
主力监控精灵数据采集器(监控精灵采集器试用版)v1.0 绿色免费版
9.8/85.5M
主力监控精灵数据采集器是专门用来采集主力监控精灵的数据,使用非常简单方便,点击运行即可自动进行采集,非常方便快捷。安装方法:进入控制面板,双击字体,文件->...
Hail雹冻结应用下载-Hail雹冻结应用1.8.1 最新版
7.8/1,430.9M
Hail雹冻结应用是一款用于冻结Android应用的冻结应用工具软件,主要就是启动系统优化加速的作用,您可以通过本软件来冻结一些频繁启动的app,然后在需要使用...
9.0/589.6M
画条线是一款简单的画线类休闲手游。游戏玩法简单易上手,丰富的游戏关卡等你来挑战。玩家将通过线条来画出不同的动物形象的轮廓,趣味十足。游戏很消磨时间,还有多种游戏...
现代战舰手游官方下载-现代战舰国际服(modern warships)0.96.0.44023 官方正版
9.5/970.0M
如果你是军迷,平常喜欢研究军舰和战机,现代战舰很好的满足你的愿望,虽然游戏中的很多参数和实际中有些差距,但已经是很不错了,比国内某些战舰类游戏强太多。你名下的战...
9.5/328.1M
studioone4和谐版,和Cubase一样studioone属于专业音频制作软件,音频引擎比au等非专业音频软件优秀很多,可直观的编辑工具和先进的虚拟乐器。...
傲游云浏览器官方下载-傲游云浏览器5.2.1.4000 精简优化版
8.4/1,024.6M
傲游云浏览器(傲游云)是业界首款依靠云服务有效打通多种浏览设备的浏览器。依托于傲游强大的跨平台云端服务,傲游云将用户从单一设备或平台中彻底解放出来,为其提供了真...
开学主持词-2015年秋季开学典礼主持词合集(共3篇)doc格式【word版】
8.9/1,578.1M
马上就要迎来秋季开学的日子了,东坡小编在此特为有需要的朋友们准备了三篇秋季开学典礼主持词,分别为中小学2015年秋季开学典礼主持词、2015年秋季开学典礼主持词...
8.1/1,991.4M
这款软件是一款单身男女社交软件,通过这个软件你可以找到你喜欢的人,以真实的实名交友为特色,快速的私密聊天,让大家交友更加方便!探客交友介绍探客是一款高端消费人群...
pscs6绿色版免安装下载-Adobe Photoshop CS6 Extended(32位+64位)13.1.2 绿色版
7.7/888.4M
AdobeCS6系列中最新版的PhotoshopCS6Extended使用了全新的AdobeMercury图形引擎,拥有前所未有的性能和响应速度,加快编辑速度;...
进程隐藏工具64位-梦言小伟win7进程隐藏工具64位1.0 绿色免费版
9.2/203.1M
梦言小伟进程隐藏工具可以隐藏任意进程。有时候,我们因为某种需要,要把某些进程隐藏起来,借助这个工具就能实现,帮助你快速的隐藏进程,有需要的赶紧来东坡下载使用吧。...
seafile专业版破解下载-seafile专业版6.1.0.0最新版
8.7/1,887.4M
seafile专业版是一款非常实用的文件同步软件,你可以创建不同的资源库对对文件进行组织,每个资料库都可以选择性的在多个平台设备上同步,有需要就来下载吧功能介绍...
8.1/853.5M
猪场超级管家(养猪软件)可以为大家提供现代化的养猪模式和养猪服务,做生产的报表和分析,还能进行疾病的统计,个体公猪查询以及个体母猪查询,真正惠农的软件。猪场超级...