htmlparser.jar是java开发项目中非常常用的htmlparser.jar包。下载htmlparser可以让你的Java项目开发更加顺畅,合理使用htmlparser框架可以让你的工作更加顺畅。
基本简介
htmlparser是一个纯java编写的html(标准通用标记语言下的应用)解析库,不依赖于其他java库文件,主要用于转换或提取html。htmlparser是一个纯java编写的html(标准通用标记语言下的应用)解析库,不依赖于其他java库文件,主要用于转换或提取html。它可以超高速解析html,不会出错。毫不夸张地说htmlparser是目前html解析和分析的最佳工具。无论是想抓取web数据,还是想对html的内容进行转换,使用htmlparser时都会忍不住赞一句。
功能介绍
1.信息提取
文本信息抽取,比如针对HTML的有效信息搜索;
链接抽取,用于自动标注页面的链接文本;
资源提取,比如一些图片和声音的处理;
链接检查,用于检查HTML中的链接是否有效;
页面内容的监控。
2.信息转换
链接重写,用于修改页面中的所有超链接;
网页内容副本用于将网页内容保存在本地;
内容检查可以用来过滤网页上一些不好听的话;
HTML信息清洗,将原本杂乱的HTML信息格式化;
转换为XML格式数据。
公共代码
stringhtmlcode = & quot& ltHTML & gt& ltHEAD & gt& ltTITLE & gtAAA & lt/TITLE & gt;& lt/HEAD & gt;& ltBODY & gt"+......+& quot;& lt/BODY & gt;& lt/HTML & gt;";
Parserparser =解析器。CreateParser(htmlcodeGBK & quot;);
HtmlPagepage=newHtmlPage(解析器);
尝试
{解析器。VisitAllNodesWith(page);}
catch(parser exception 1)
{ e1 = null}
NodeListnodelist=page。身体;
NodeFilterfilter = newTagNameFilter(& quot;A & quot);
节点列表=节点列表。ExtractAllNodesThatMatch(filter,true);
for(inti = 0;我& lt节点列表。size();i++)
{
LinkTaglink=(LinkTag)nodelist。元素at(I);
系统。控制台。写(链接。get attribute(& quot;href & quot)+& quot;\ n & quot);
}
htmlparser.jar相关下载
- 查看详情Alibaba Fastjson Jar包简体2023-07-02
- 查看详情Alibaba Fastjson API简体2023-06-18
- 查看详情UML软件开发与建模工具(Enterprise Architect)简体2023-05-29
- 查看详情Spring jar包简体2023-05-11
- 查看详情Java 2 SDK V1.3.0 Standard Edition简体2023-04-02
- 查看详情 Alibaba Fastjson Jar包 简体 2023-07-02
- 查看详情 Alibaba Fastjson API 简体 2023-06-18
- 查看详情 UML软件开发与建模工具(Enterprise 简体 2023-05-29
- 查看详情 Spring jar包 多国语言[中文] 2023-05-11
- 查看详情 Java 2 SDK V1.3.0 Standard Editi 英文 2023-04-02
- 查看详情 pspice软件 英文 2023-08-29
- 查看详情 ANTS Performance Profiler(.NET性能分析工具) 英文 2023-08-29
- 查看详情 签名软件(signtool GUI) 简体 2023-08-29