JSOUP 教程,JSOUP请求JSON ,JSOUP返回JSON 数据

soゝso 2016-09-13 13:10:25 8087
分享到:

最近在使用 JSOUP  作为 爬虫  爬取数据,在用习惯了 JSOUP  后,因为那种链式结构,非常喜欢,故想用它来请求接口,构造请求头的时候非常方便。其实它必须是支持的,因为底层使用的还是 HttpConnection  做为处理的,代码如下:

Document doc = Jsoup
		.connect(Constant.DATA_URL)
		.header("Accept", "*/*")
		.header("Accept-Encoding", "gzip, deflate")
		.header("Accept-Language","zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3")
		.header("Content-Type", "application/json;charset=UTF-8")
		.header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0")
		.timeout(10000).get();
Element body = doc.body();
JSONObject json = JSONObject.fromObject(body.text());

但是出现问题了,请求就报错:

org.jsoup.UnsupportedMimeTypeException: Unhandled content type. Must be text/*, application/xml, or application/xhtml+xml. Mimetype=application/json;charset=UTF-8, URL=http://www.baidu.com/
	at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:600)
	at org.jsoup.helper.HttpConnection$Response.execute(HttpConnection.java:540)
	at org.jsoup.helper.HttpConnection.execute(HttpConnection.java:227)
	at org.jsoup.helper.HttpConnection.get(HttpConnection.java:216)

当然一看就明白,说没有指定类型。找了如下解决方案:

 Response res = Jsoup.connect(Constant.DATA_URL)
		.header("Accept", "*/*")
		.header("Accept-Encoding", "gzip, deflate")
		.header("Accept-Language","zh-CN,zh;q=0.8,en-US;q=0.5,en;q=0.3")
		.header("Content-Type", "application/json;charset=UTF-8")
		.header("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64; rv:48.0) Gecko/20100101 Firefox/48.0")
		.timeout(10000).ignoreContentType(true).execute();//.get();
String body = res.body();
JSONObject json = JSONObject.fromObject(body);

上面其实关键点在于:ignoreContentType(true) ,这个是忽略请求类型。建议用execute() 去执行,如果用get 去执行的话,返回来是一个 HTML  页面包裹的 JSON  ,你处理起来稍微有点费劲。返回情况如下:

而且你要处理换行,你看到有换行了吧, JSON  正确的格式是一行返回,多行的话转成 JSON  对象的时候就会报错。所以还是推荐用execute() 去执行。

不过我最后还是换做用 HttpConnection  来解决。

InputStreamReader reader = null;
BufferedReader in = null;
try {
	URL url = new URL(Constant.DATA_URL);
	URLConnection connection = url.openConnection();
	connection.setConnectTimeout(1000);
	reader = new InputStreamReader(connection.getInputStream(), "UTF-8");
	in = new BufferedReader(reader);
	String line = null; // 每行内容
	StringBuffer content = new StringBuffer();
	while ((line = in.readLine()) != null) {
		content.append(line);
	}
	if (StringUtils.isNotBlank(content)) {
		String jsonStr = content.toString().replaceAll("\\n", "");
		data = JSONObject.fromObject(jsonStr);
	}
} catch (SocketTimeoutException e) {
	System.out.println("连接超时!!!");
} catch (JSONException e) {
	System.out.println("网站响应不是json格式,无法转化成JSONObject!!!");
} catch (Exception e) {
	System.out.println("连接网址不对或读取流出现异常!!!");
} finally {
	if (in != null) {
		try {
			in.close();
		} catch (IOException e) {
			System.out.println("关闭流出现异常!!!");
		}
	}
	if (reader != null) {
		try {
			reader.close();
		} catch (IOException e) {
			System.out.println("关闭流出现异常!!!");
		}
	}
}

建议API JSON 接口请求,还是用正常的 HTTP  请求吧。


关于作者
目前就职于国内某电商平台公司打杂。。
相关文章
JQuery Ajax四种写法,Ajax请求返回JSON 操作Demo
Java API接口返回不是JSON的解决方案,SpringMVC返回JSON配置。
JSOUP教程JSOUP的正确打开姿势。
Httpclent 请求限制,判断返回类型和返回数据大小
JSOUP教程JSOUP 乱码处理,JSOUP生僻字乱码解决方案
JSOUP 教程JSOUP爬虫教程JSOUP超时分析与处理
Elasticsearch 随机返回数据 API
Java 之 HTTP请求乱码解决,GZIP 返回值乱码解决
JSOUP 教程—— Java爬虫,简易入门,秒杀htmlparser
Jackson 美化输出JSON,优雅的输出JSON数据,格式化输出JSON数据... ...
最新文章
免费天气API,全国天气 JSON API接口,可以获取五天的天气预报 38754
JS解密,JavaScript 解密,任何JS加密都能100%解密,以及JS 加密讲解 66
阿里云DNS 解析讲解,SEO配置搜索引擎线路解析 41
百度秒收录教程,怎么做到百度秒收入你的页面,SEO 教程 89
CDN 请求返回 connection reset by peer,被拦截请求解决方案 33
Google AdSense 申请技巧,谷歌广告申请通不过教程 66
Mac 安装 JMeter,JMeter 下载,JMeter Http 压力测试【图解】 45
支付宝吱口令自动复制脚本,自动复制 JavaScript 代码介绍 866
谈谈这次对 SOJSON 的改版 146
Java 计算2个时间相差多少年,多少个月,多少天的几种方式 484
最热文章
免费天气API,全国天气 JSON API接口,可以获取五天的天气预报 38754
Elasticsearch教程(四) elasticsearch head 插件安装和使用 108910
Elasticsearch教程(六) elasticsearch Client创建 73264
Elasticsearch教程(八) elasticsearch delete 删除数据(Java) 70727
Elasticsearch教程(二),IK分词器安装 67441
Elasticsearch教程(三),IK分词器安装 (极速版) 54071
Elasticsearch教程(五) elasticsearch Mapping的创建 51534
Elasticsearch教程(一),全程直播(小白级别) 51227
Elasticsearch教程(七) elasticsearch Insert 插入数据(Java) 47703
Elasticsearch权威指南-中文.pdf,Elasticsearch 中文文档下载 40877

骚码加入我们 / 千人QQ群:259217951

入群需要5元,如果没有QQ钱包,可以先Alipay、微信,赞助然后加群主拉进。

二维码生成 来自 >> 二维码生成器

支付扫码

所有赞助/开支都讲公开明细,用于网站维护:赞助名单查看

正在加载... ...