java1234开源博客系统
博客信息

htmlunit helloWorld实现

0
发布时间:『 2017-04-06 10:45』  博客类别:htmlunit  阅读(4945) 评论(0)

首先我们新建一个Maven普通客户端项目,然后打开pom.xml

引入htmlunit支持:

<dependency>
	<groupId>net.sourceforge.htmlunit</groupId>
	<artifactId>htmlunit</artifactId>
	<version>2.26</version>
</dependency>


然后我们写一个测试类,来解析www.java1234.com 获取网页html以及网页文本,这里有点类似httpClient,但是底层执行过程默认多了一个js执行过程(当然htmlunit提供了关闭js解析设置); 

package com.open1111;

import java.io.IOException;
import java.net.MalformedURLException;

import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

public class HtmlUnitTest {

	public static void main(String[] args) {
		WebClient webClient=new WebClient(); // 实例化Web客户端	
		try {
			HtmlPage page=webClient.getPage("http://www.java1234.com"); // 解析获取页面
			System.out.println("网页html:"+page.asXml()); // 获取Html
			System.out.println("====================");
			System.out.println("网页文本:"+page.asText()); // 获取文本
		} catch (FailingHttpStatusCodeException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (MalformedURLException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}finally{
			webClient.close(); // 关闭客户端,释放内存
		}
	}
}


运行输出:

QQ鎴浘20170406104245.jpg


QQ鎴浘20170406104303.jpg



关键字:   htmlunit     helloWorld  
关注Java1234微信公众号
博主信息
Java1234_小锋
(知识改变命运,技术改变世界)
Powered by Java1234 V3.0 Copyright © 2012-2016 Java知识分享网 版权所有