[综合]
JSOUP教程,JSOUP的正确打开姿势。
【原创】
JSOUP 我目前正在使用,所以多做下记录,后面会单纯针对选择器做下集中讲解。当篇博客只记录下友好的 JSOUP 打开方式。我们一般采用这种方式: try{ doc = Jsoup.connect(url) .header("User-Agent", "Mozilla/5.0 (Windows NT 6.1...
【原创】
JSOUP 我目前正在使用,所以多做下记录,后面会单纯针对选择器做下集中讲解。当篇博客只记录下友好的 JSOUP 打开方式。我们一般采用这种方式: try{ doc = Jsoup.connect(url) .header("User-Agent", "Mozilla/5.0 (Windows NT 6.1...
【原创】
JSOUP乱码情况产生这几天我用 JSOUP 多线程的方式,爬取了200 多万数据,数据为各地的地名相关。结果有小部分数据,不到 1 万乱码。我先检查了我的编码为UTF-8 ,觉得应该没有问题。代码基本如下如下: try{ doc = Jsoup.connect(url) .header("User-Agent", "Mozill...
【原创】
JSOUP ,在我很久以前把它和 htmlparser 做了对比,而又用 JSOUP 来获取 JSON 数据 ,最近在使用 JSOUP 爬取一个网站的内容,发现几个问题,解决后并且分享一下。JSOUP 超时分析与处理下面说说超时的发现,有可能出现超时的原因,以及超时处...
【原创】
MyEclipse8.5,MyEclipse10,安装ERMaster 建模插件我的是MyEclipse8.5,创建了一个erm文件发现不能识别,于是乎安装了一个插件,发现插件不好安装,也不好下载,所以在这里记录一下,以备不时之需。ERMaster 插件下载请在本文的下方附件中提取即可。ERMaster 插件安装下载好解压,然后把它copy到您对应的目录,比如说,我的目录是这个C:\MyEclip...
【原创】
对于网站访问速度,我们永远不满足,就包括我也一样,从优化角度来说,我 网站优化 的速度还算不错。但是这还是不够,下面来介绍下 dns-prefetch 。 dns-prefetch介绍 DNS解析场景 我之前讲解过很多大型的网站,都会用N 个CDN 域名来做图片、静态文件等资源访问。比如新浪...
【原创】
Freemarker Macro 是 Freemarker 中一个亮点。自己细细去品尝。PS:下面的Demo代码的 $符号和后面的{}都会隔开一个空格,在正常使用中,不能空开。配置文件方式Macro 的引入当前项目是采用配置文件引入,详细参照spring-mvc.xml 文件,下面单独摘除这一段。
【原创】
Freemarker 自定义Function Demo Freemarker 自定义 Funcation 其实和我们的自定义标签逻辑是一个意思,就是在加载Template 的时候bean 之间的方法调用。在项目中的使用详细代码参见 Shiro Demo :http://www.sojson.com/jc/shiro.html 。 ...
【原创】
用 Elasticsearch 的同学都知道,最近一段时间 Elasticsearch 像中毒一样全国、全世界都发生的 Elasticsearch 被删库,有的甚至被加密后敲诈比特币。当然我也难逃删库的命运,我200GB 的爬虫数据被删,我所在的公司只开放了公司IP 才能访问,也被删除了整个库。那么问题来了,我们为什么要...
【原创】
我的需求是 Elasticsearch 按我的查询结果集里随机返回来10条数据,找了下API,这方面的资料比较少。Elasticsearch 随机返回数据{ "from": 0, "size": 10,//返回十条数据 "query": { "bool": { "must": { "term": {...
【原创】
很多情况下,我们得到的地址是重定向的地址,要想指到 重定向 后的地址,怎么办?直接上代码://创建一个http请求 HttpClient client = new HttpClient(); //用header的请求方式,减少返回值和一些非必要获取的信息 HttpMethod method = new HeadMethod(url); HttpParams para...