跨学游戏网:纯净绿色软件游戏下载网站

电脑软件| 软件合集| 最近更新| 网站地图

当前首页:首页 > 电脑软件 > 编程开发 > htmlparser.jar

htmlparser.jar

htmlparser.jar

类型:编程开发版本:v1.6官方版更新:2023-08-29 10:31:03大小:4.2M系统:WinAll语言:简体

htmlparser.jar是java开发项目中非常常用的htmlparser.jar包。下载htmlparser可以让你的Java项目开发更加顺畅,合理使用htmlparser框架可以让你的工作更加顺畅。

基本简介

htmlparser是一个纯java编写的html(标准通用标记语言下的应用)解析库,不依赖于其他java库文件,主要用于转换或提取html。htmlparser是一个纯java编写的html(标准通用标记语言下的应用)解析库,不依赖于其他java库文件,主要用于转换或提取html。它可以超高速解析html,不会出错。毫不夸张地说htmlparser是目前html解析和分析的最佳工具。无论是想抓取web数据,还是想对html的内容进行转换,使用htmlparser时都会忍不住赞一句。

功能介绍

1.信息提取

文本信息抽取,比如针对HTML的有效信息搜索;

链接抽取,用于自动标注页面的链接文本;

资源提取,比如一些图片和声音的处理;

链接检查,用于检查HTML中的链接是否有效;

页面内容的监控。

2.信息转换

链接重写,用于修改页面中的所有超链接;

网页内容副本用于将网页内容保存在本地;

内容检查可以用来过滤网页上一些不好听的话;

HTML信息清洗,将原本杂乱的HTML信息格式化;

转换为XML格式数据。

公共代码

stringhtmlcode = & quot& ltHTML & gt& ltHEAD & gt& ltTITLE & gtAAA & lt/TITLE & gt;& lt/HEAD & gt;& ltBODY & gt"+......+& quot;& lt/BODY & gt;& lt/HTML & gt;";

Parserparser =解析器。CreateParser(htmlcodeGBK & quot;);

HtmlPagepage=newHtmlPage(解析器);

尝试

{解析器。VisitAllNodesWith(page);}

catch(parser exception 1)

{ e1 = null}

NodeListnodelist=page。身体;

NodeFilterfilter = newTagNameFilter(& quot;A & quot);

节点列表=节点列表。ExtractAllNodesThatMatch(filter,true);

for(inti = 0;我& lt节点列表。size();i++)

{

LinkTaglink=(LinkTag)nodelist。元素at(I);

系统。控制台。写(链接。get attribute(& quot;href & quot)+& quot;\ n & quot);

}

标签: JAVA相关