
类型: 兴趣社交 版本: V2.0
大小: 1,655.6 时间: 2025-11-12





它被设计的小,快速,灵活而且独立。HtmlCleaner也可用在Java代码中,当命令行工具或Ant任务。解析后编程轻量级文档对象,能够很容易的被转换到DOM或者JDom标准文档,或者通过各种方式(压缩,打印)连续输出XML。
写一个测试用的html文件:html-clean-demo.html即刻应用(安卓软件下载平台)7.20.0 最新版
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd " >
< html xmlns = "http://www.w3.org/1999/xhtml " xml:lang = "zh-CN" dir = "ltr" >
< head >
< meta http-equiv = "Content-Type" content = "text/html; charset=GBK" />
< meta http-equiv = "Content-Language" content = "zh-CN" />
< title > html clean demo </ title >
</ head >
< body >
< div class = "d_1" >
< ul >
< li > bar </ li >
< li > foo </ li >
< li > gzz </ li >
</ ul >
</ div >
< div >
< ul >
< li > < a name = "my_href" href = "1.html" > text-1 </ a > </ li >
< li > < a name = "my_href" href = "2.html" > text-2 </ a > </ li >
< li > < a name = "my_href" href = "3.html" > text-3 </ a > </ li >
< li > < a name = "my_href" href = "4.html" > text-4 </ a > </ li >
</ ul >
</ div >
</ body >
</ html >
Html代码
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xml:lang="zh-CN" dir="ltr">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=GBK"/>
<meta http-equiv="Content-Language" content="zh-CN"/>
<title>html clean demo</title>
</head>
<body>
<div class="d_1">
<ul>
<li>bar</li>
<li>foo</li>
<li>gzz</li>
</ul>
</div>
<div>
<ul>
<li><a name="my_href" href="1.html">text-1</a></li>
<li><a name="my_href" href="2.html">text-2</a></li>
<li><a name="my_href" href="3.html">text-3</a></li>
<li><a name="my_href" href="4.html">text-4</a></li>
</ul>
</div>
</body>
</html>
模拟需求:取出title,name="my_href"的链接,div的class="d_1"下的所有li内容。下面用htmlcleaner写代码,HtmlCleanerDemo.java
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File( "html/html-clean-demo.html" ), "GBK" );
//按tag取.
Object[] ns = node.getElementsByName("title" , true ); //标题
if (ns.length > 0 ) {
System.out.println("title=" +((TagNode)ns[ 0 ]).getText());
}
System.out.println("ul/li:" );
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li" );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text=" +n.getText());
}
System.out.println("a:" );
//按属性值取
ns = node.getElementsByAttValue("name" , "my_href" , true , true );
for (Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href=" +n.getAttributeByName( "href" )+ ", text=" +n.getText());
}
}
}
Java代码
package com.chenlb;
import java.io.File;
import org.htmlcleaner.HtmlCleaner;
import org.htmlcleaner.TagNode;
/**
* htmlcleaner 使用示例.
*
* @author chenlb 2008-11-26 下午02:12:02
*/
public class HtmlCleanerDemo {
public static void main(String[] args) throws Exception {
HtmlCleaner cleaner = new HtmlCleaner();
TagNode node = cleaner.clean(new File("html/html-clean-demo.html"), "GBK");
//按tag取.
Object[] ns = node.getElementsByName("title", true); //标题
if(ns.length > 0) {
System.out.println("title="+((TagNode)ns[0]).getText());
}
System.out.println("ul/li:");
//按xpath取
ns = node.evaluateXPath("//div[@class='d_1']//li");
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" text="+n.getText());
}
System.out.println("a:");
//按属性值取
ns = node.getElementsByAttValue("name", "my_href", true, true);
for(Object on : ns) {
TagNode n = (TagNode) on;
System.out.println(" href="+n.getAttributeByName("href")+", text="+n.getText());
}
}
}
cleaner.clean()中的参数,可以是文件,可以是url,可以是字符串内容。个人认为:比较常用的应该是evaluateXPath、getElementsByAttValue、getElementsByName方法了。另外说明下,htmlcleaner对不规范的html兼容性比较好。
1.HtmlCleaner的文档对象模型拥有了一些函数,处理节点和属性,所以在序列化之前搜索或者编辑是非常容易的。
2.提供基本HtmlCleanerDOM的XPath支持
3.使用XML配置文件让创建定制tag变得更加容易
4.修复多个bug以及API改进
HtmlCleaner是一个免费开源的适用范围广的Java语言Html文档解析器,它能重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的HTML文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则,户可以提供自定义tag和规则组来进行过滤和匹配。
Word Link游戏下载-Word Link手游2.0.6 安卓最新版
356.8M
WordLink手游是一款简单有趣训练大脑的文字连接游戏,它很考验玩家的词汇量,只需要在屏幕上滑动就能体验,将文字进行连接,随时随地免费玩。WordLink手游...
obs龙珠直播点歌插件-龙珠obs点歌插件1.0.1.1 绿色免费版【附使用教程】
1,128.0M
龙珠直播是时下非常火的游戏直播平台,东坡带来的龙珠obs点歌插件是专为观众打造的看直播时点歌的工具,它支持32位和64位系统,下面有详细的安装和使用教程,喜欢看...
秽校游戏手机版1.0 安卓正式版
417.5M
秽校游戏是一款非常不错的手机恐怖游戏,在这里玩家需要寻找自己美丽的青梅竹马,在奇妙的里世界中避开妖怪的攻击,游戏非常恐怖非常好玩,喜欢的玩家们快点来试试吧。一款...
生活不止眼前的枸杞熊本熊表情包高清无水印
1,052.6M
生活不止眼前的枸杞熊本熊表情包是一组熊本带字表情包,这组表情包用食物和生活用品来比喻现实的生活,非常幽默搞笑。一组表达生活沧桑的熊本带字表情包表情包浏览表情包安...
奇聚会议聊天软件-奇聚会议个人版2.9.2 官方版
588.7M
奇聚会议个人版是一款爱奇艺旗下的视频回忆聊天软件,在软件内用户在此零距离的沟通交流,畅爽高清的视频,保密计划的进行,简单的操作简洁的界面让你沟通无障碍哦!奇聚会...
电脑录音软件(Free2X Sound Recorder)1.0.0.2 免费版
1,535.6M
Free2XSoundRecorder是一个完全免费的电脑录音软件。它可以很容易地从一个麦克风的音频记录从你的电脑,MP3文件,CD播放器,广播,电视,或任何你...
塔防之光游戏官方正版下载-塔防之光手游1.1.15 安卓官方版
779.9M
塔防之光是一款非常好玩的塔防类型rpg游戏。玩家将在游戏中感受完美的塔防游戏体验,令人怀旧的游戏画风,新颖的塔防玩法,更加入了全新的游戏元素。喜欢的朋友不要错过...
迷你昆虫世界游戏下载-迷你昆虫世界手游1.5 安卓版
37.0M
想要去了解昆虫的世界是怎么样子的吗?迷你昆虫世界游戏就给你呈现一个精彩的昆虫生活世界,各种微小的昆虫,昆虫之间还有战斗,赶紧去体验吧。游戏介绍充满自然生趣的花草...
炫月搜索器破解版1.3最新版
1,374.9M
炫月搜索器破解版是一款非常强大的资源搜索神器,不仅仅是百度网盘的资源,网上各种资源都可以找到,给大家提供最新版本下载,感兴趣的快来下载吧!炫月搜索器介绍炫月搜索...
中国象棋巅峰对决下载-中国象棋巅峰对决游戏1.0.1 最新版
1,113.5M
一去无还唯卒伍,深藏不出是将军,象棋是一款具有浓郁中国特色的益智游戏,趣味多多,更有不同类别的残局等你来战!不断优化的智能算法,让你体验真人对弈的快感;难度随心...
DISTRAINT: Deluxe Edition游戏下载-扣押(DISTRAINT)典藏版
889.9M
扣押(DISTRAINT),是一款2D惊悚解谜游戏,游戏新的版本告别经典的灰色世界效果,升级了动画、美工与光影效果,更能烘托氛围的音乐音效,只需左右移动,解决谜...
cbox央视影音广告弹窗快走开补丁2014.07.27 绿色免费版
198.2M
cbox央视影音广告弹窗快走开补丁是cbox央视影音播放器的去广告补丁,支持最新版CBox3.X或更高版本。安装本补丁以后,用户就可以直接跳过各种广告,再也不用...
终极堡垒之夜游戏下载-终极堡垒之夜手游1.1 官方版
1,889.4M
终极堡垒之夜是一款以求生为题材的吃鸡类游戏,游戏开局采用跳伞玩法,游戏中玩家可以收集不同的武器装备,与敌人进行较量,为了你的国家和尊严你需要击败你的敌人。游戏背...
小手拉大手我为扶贫做贡献作文500字doc免费下载
832.8M
对于贫困地区的朋友来说,政府的扶贫工作是非常重要的,小编带来了小手拉大手我为扶贫做贡献作文,可以帮助小学生朋友学习扶贫相关知识!小手拉大手我为扶贫做贡献作文精准...
猴小吉AI课下载-猴小吉AI语文app1.0.0 官方版
904.9M
一款幼儿语文学习软件,猴小吉语文app打造了很多的课程,将课程游戏化,每天学习一点点,长期坚持会有很大的变化,让孩子爱上语文。猴小吉AI语文app介绍猴小吉AI...
固乔客户管理系统下载-固乔客户管理系统1.0绿色免费版
2025/11/07 10:30
14CJ59图集下载-14CJ59图集(丁基自粘防水材料建筑构造)pdf免费版
2025/11/13 04:40
DVDFab Passkey 8破解版-DVD解密复制工具(DVDFab Passkey)8.2.5.7 最新破解版
2025/11/13 02:32
逸夫QQ空间刷人气软件下载-逸夫QQ空间刷人气1.2 绿色免费版
2025/11/10 04:04
手机铃声酷-手机铃声酷(个性diy铃声制作软件)1.9.2.8 无广告版
2025/11/09 01:57
2017公司年终总结范文-2017年公司年终总结ppt模板大全精选版
2025/10/26 21:31
战吧电竞平台下载-战吧电竞app1.0.0.1238 安卓版
2025/11/10 20:12
行尸走肉:400天绿色中文版
2025/10/25 23:02
菠萝盛大通行证注册工具-菠萝盛大通行证注册器(盛大注册通行证)V1.0.1 绿色版
2025/10/23 05:51
蓝厂工具盒官方免费版下载-蓝厂工具盒1.8 最新版
2025/10/27 10:12
excel文件修复工具下载-excel文件损坏修复工具(XLS Regenerator)2.12 英文试用版
2025/10/22 14:37
晨曦战纪传奇手游官方下载-晨曦战纪手游官方入口1.0.2 最新版
2025/11/08 10:01
维享应用汇(ipa下载)V1.0.57 官方越狱版
2025/11/10 06:11
美颜坊TV版下载-美颜坊appv3.3.38官方TV版
2025/10/25 14:23
防撤回消息软件手机版免费下载-防撤回消息软件手机版4.2 安卓版
2025/11/05 06:20
防撤回消息软件手机版免费下载-防撤回消息软件手机版4.2 安卓版
2025/11/05 06:20更新
防撤回消息是一款专业的防撤回消息软件,能帮助我们更好管理聊天记录哦,qq和微信等平台的信息都能上传到这里去设置,对于不重要的联系人发送消息,看完就可以删除,一些...
支持 ( 32 ) 盖楼(回复)
支持 ( 144 ) 盖楼(回复)
支持 ( 150 ) 盖楼(回复)
支持 ( 24 ) 盖楼(回复)
支持 ( 144 ) 盖楼(回复)
支持 ( 154 ) 盖楼(回复)
支持 ( 29 ) 盖楼(回复)
支持 ( 140 ) 盖楼(回复)
支持 ( 97 ) 盖楼(回复)
支持 ( 161 ) 盖楼(回复)
支持 ( 61 ) 盖楼(回复)
支持 ( 195 ) 盖楼(回复)
支持 ( 85 ) 盖楼(回复)
支持 ( 171 ) 盖楼(回复)
支持 ( 193 ) 盖楼(回复)
支持 ( 172 ) 盖楼(回复)
支持 ( 135 ) 盖楼(回复)
支持 ( 92 ) 盖楼(回复)
支持 ( 140 ) 盖楼(回复)
支持 ( 194 ) 盖楼(回复)