java1234开源博客系统
最新博客
  • 2017年04月11日 htmlunit 模拟按钮点击 摘要: htmlunit有强大DOM模拟操作功能 包括给Input设置数据,模拟按钮点击等;我们现在来用htmlunit模拟本站博客搜索功能;比如我们要让htmlunit 填入查询关键字 然后点击 “搜索”,然后返回查询页面内容;我们审查元素,可以看到form的name input的name htmlunit可以通... QQ鎴浘20170411100051.jpg    QQ鎴浘20170411100407.jpg    QQ鎴浘20170411100606.jpg    发表于 2017-04-11 10:07 阅读(10938) 评论(0)

  • 2017年04月10日 htmlunit取消css,javascript支持 摘要: htmlunit默认是会对网页中的css,javascript解析的,对于一般的非Js加载页面采集,我们可以把css.javascript解析去掉,这样可以提高效率;但是对于Js加载的页面,就不能去掉了; 我们给下演示代码:package com.open1111;import java.io.IOExcep... 发表于 2017-04-10 10:26 阅读(6136) 评论(0)

  • 2017年04月10日 htmlunit 使用代理IP 摘要: 有时候频繁的爬取第三方站点内容,会被站点的防火墙拦截,IP拉黑,所以这时候,就要用到代理IP,拉黑一个就换一个;htmlunit实用代理的方式比较简单,WebClient重载构造方法就有提供,我们看下演示代码:package com.open1111;import java.io.IOException;im... QQ鎴浘20170410095900.jpg    发表于 2017-04-10 10:06 阅读(8223) 评论(0)

  • 2017年04月07日 htmlunit 获取指定元素 摘要: htmlunit 提供了丰富的api来获取指定元素 jsoup有的 htmlunit也有;我们这里举例:package com.open1111;import java.io.IOException;import java.net.MalformedURLException;import com.gargo... 发表于 2017-04-07 11:06 阅读(9089) 评论(0)

  • 2017年04月07日 htmlunit 模拟指定浏览器 摘要: 前面我们的测试代码是直接请求的,有些网站服务器防火墙会直接拒绝访问。我们现在用htmlunit来模拟下浏览器请求;主要是加了一些头消息;这个是我们用火狐调试工具看到的请求头小心里的属性,当然上面还有返回的头消息;我们用htmlunit可以模拟浏览器执行,内置的可以模拟IE,火狐,谷歌;WebClient构造方... QQ鎴浘20170407100204.jpg    QQ鎴浘20170407095601.jpg    发表于 2017-04-07 10:05 阅读(7748) 评论(0)

  • 2017年04月06日 htmlunit helloWorld实现 摘要: 首先我们新建一个Maven普通客户端项目,然后打开pom.xml引入htmlunit支持: net.sourceforge.htmlunit htmlunit 2.26 QQ鎴浘20170406104245.jpg    QQ鎴浘20170406104303.jpg    发表于 2017-04-06 10:45 阅读(6048) 评论(0)

  • 2017年04月06日 htmlunit简介 摘要: htmlunit 是一款开源的java 页面分析工具,读取页面后,可以有效的使用htmlunit分析页面上的内容。项目可以模拟浏览器运行,被誉为java浏览器的开源实现。是一个没有界面的浏览器,运行速度迅速。是junit的扩展之一采用的是Rhinojs引擎。模拟js运行常规意义上,该项目可以用来进行页面的测试... 发表于 2017-04-06 10:07 阅读(5787) 评论(0)

  • 2017年04月05日 Ehcache配置持久化到硬盘 摘要: Ehcache默认配置的话 为了提高效率,所以有一部分缓存是在内存中,然后达到配置的内存对象总量,则才根据策略持久化到硬盘中,这里是有一个问题的,假如系统突然中断运行 那内存中的那些缓存,直接被释放掉了,不能持久化到硬盘;这种数据丢失,对于一般项目是不会有影响的,但是对于我们的爬虫系统,我们是用来判断重复Ur... QQ鎴浘20170405105247.jpg    发表于 2017-04-05 10:54 阅读(9729) 评论(0)

  • 2017年04月05日 EhCache 常用配置项详解 摘要: EhCache 给我们提供了丰富的配置来配置缓存的设置;这里列出一些常见的配置项:cache元素的属性: name:缓存名称 maxElementsInMemory:内存中最大缓存对象数 maxElementsOnDisk:硬盘中最大缓存对象数,若是0表示无穷大 ete... 发表于 2017-04-05 10:11 阅读(6629) 评论(0)

  • 2017年03月31日 EhCache HelloWorld实现 摘要: EhCache最新版本是3.X 本人一直用的是2.X 比较稳定 功能足够用;所以还是用2.X版本;我们新建一个Maven项目,pom.xml里引入 ehcache支持; net.sf.ehcache ehcache QQ鎴浘20170331105338.jpg    发表于 2017-03-31 10:54 阅读(7204) 评论(0)

关注Java1234微信公众号
博主信息
Java1234_小锋
(知识改变命运,技术改变世界)
Powered by Java1234 V3.0 Copyright © 2012-2016 Java知识分享网 版权所有