Java爬虫,Jsoup 爬取大众点评、美团商家信息电话号码解决方案

soゝso 2019-05-14 16:04:52 802

今天有群内有同学问怎么爬取大众点评商家信息,尤其是电话号码,我看了下。发现是反爬虫的。

警告:本代码只是一个学习Demo,不能作为侵权或者违规行为。使用或者间接使用本博客内容做违规违法事情,与本人无关,继续观看表示同意。

分析大众点评Dom信息


从百度快照分析大众点评

使用了一种常见的方式,用自定义字符来解决,你抓取后是乱码的内容。但是我立马想到,这种网站肯定要做  SEO  的,所以从百度搜索了下链接。查看了下快照。


打开百度快照,再看看  HTML  源码。


这个时候最好右键查看源码,然后搜索一下,因为有的内容是异步(  JavaScript  )输出。这里我就不上图了,因为我知道百度快照不会有这些问题。

Jsoup 从百度快照抓取“大众点评”信息

直接上代码了,采用的是  Jsoup  ,这个需要效率,并发等等,请自己解决,这个只是一个栗子。

思路为:先获取百度快照—> 请求百度快照—>获取内容

public static void main(String[] args) throws IOException {

    //商家ID
    String id = "103615462";
    System.out.println(loadInfo(id));

}

public static Map<String,Object> loadInfo(String id)throws IOException{
    String ua = "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)";

    String firstURl = "https://www.baidu.com/s?cl=3&wd=http%3A%2F%2Fwww.dianping.com%2Fshop%2F" + id;
    Map<String,Object> resultMap = new HashMap<>();

    //回去百度快照链接
    Document doc = Jsoup.connect(firstURl)
            .header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3")
            .header("Accept-Encoding","gzip, deflate")
            .header("Accept-Language","zh-CN,zh;q=0.9,en;q=0.8")
            .header("Cache-Control","no-cache")
            .header("Pragma","no-cache")
            .header("Proxy-Connection","keep-alive")
            .header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
            .get();

    String url = doc.select("#content_left [data-click=\"{'rsv_snapshot':'1'}\"]").attr("href");
    //如果没有就是百度没有收录
    if(null != url &&  !"".equals(url.trim())){
        //请求百度快照
        doc = Jsoup.connect(url)

                .header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3")
                .header("Accept-Encoding","gzip, deflate")
                .header("Accept-Language","zh-CN,zh;q=0.9,en;q=0.8")
                .header("Cache-Control","no-cache")
                .header("Pragma","no-cache")
                .header("Proxy-Connection","keep-alive")
                .header("User-Agent",ua)
                .header("Referer",firstURl)
                .get();


        String shopname = doc.select(".shop-name").text();
        String address = doc.select(".expand-info.address").text();
        String tel = doc.select("p.expand-info.tel").text();

        //店铺名称
        resultMap.put("shopname",shopname);
        //店铺地址
        resultMap.put("address",address);
        //店铺电话
        resultMap.put("tel",tel);
        //TODO 需要其他信息自己取
    }
    return resultMap;
}

结果:

{
	"address": "地址: 湘江北路江滨社区附10号47栋3-4单元1楼门面",
	"shopname": "谭记宁乡蛇城(湘江世纪城店)",
	"tel": "电话: 15388907298   0731-89913008"
}

有的时候还是有乱码,因为回源了。这个自己测试调优。

缺点:只有百度收录了才能获取的到信息,不过这个应该没关系,大众点评基本是秒收录。

优点:和大众点评完全没关系,它意识不到你再爬取信息,因为你是请求百度,但是百度是没有限制的。

请塑造正确价值观,尊重版权,尊重他人劳动成果。


版权所属:SO JSON在线解析

原文地址:https://www.sojson.com/blog/326.html

转载时必须以链接形式注明原始出处及本声明。

本文主题:

如果本文对你有帮助,那么请你赞助我,让我更有激情的写下去,帮助更多的人。

相关文章
JSOUP 教程—— Java爬虫,简易入门,秒杀htmlparser
JSOUP 教程,JSOUP爬虫教程,JSOUP超时分析与处理
JSOUP教程,JSOUP 乱码处理,JSOUP生僻字乱码解决方案
N多系统单点登录,实现、解决方案。四种解决方案
火狐(Firefox )浏览器提示。此链接是不受信任的,站长和用户的解决方案。SSL申请
Java API接口返回不是JSON的解决方案,SpringMVC返回JSON配置。
IE、Firefox对同一域名访问并发限制,及解决优化方案
使用zxing解析二维码抛出com.google.zxing.NotFoundException 解决方案
Java 信任所有SSL证书,HTTPS请求抛错,忽略证书请求完美解决
Java浏览器请求头(User-Agent),分析浏览器信息,系统信息的几种办法。
最新文章
Linux Centos 使用 Redis service 启动,Redis service 脚本编写 36
恭喜SOJSON获得阿里云618“上云接力赛”第一名,获得代金券6.18万 192
Springboot 集成Freemarker 自定义标签解决方案 504
七牛云到底有多垃圾?用七牛云需要知道的事,不然不小心就一套房没了 28193
JavaScript怎么识别360浏览器?JS识别360急速模式方案,360流氓浏览器 1090
关于本站所有JavaScript 加密、混淆、解密、美化等安全说明 1810
Jsoup 提交参数乱码,解决思路,解决过程及解决方案 839
生成新浪短网址、百度短网址,t.cn / dwz.cn 的生成方式,短链还原 825
ICP怎么操作取消备案,企业、个人怎么自己申请取消备案? 631
Javascript 加密/压缩后运行不了,JavaScript报错排查讲解 575
最热文章
免费天气API,全国天气 JSON API接口,可以获取五天的天气预报 179883
Elasticsearch教程(四) elasticsearch head 插件安装和使用 140457
我为什么要选择RabbitMQ ,RabbitMQ简介,各种MQ选型对比 137927
苹果电脑Mac怎么恢复出厂系统?苹果系统怎么重装系统? 88867
Elasticsearch教程(六) elasticsearch Client创建 82547
Elasticsearch教程(一),全程直播(小白级别) 78852
Elasticsearch教程(二),IK分词器安装 77717
Elasticsearch教程(八) elasticsearch delete 删除数据(Java) 77175
Elasticsearch教程(五) elasticsearch Mapping的创建 70725
免费天气API,天气JSON API,不限次数获取十五天的天气预报 60602

骚码加入我们 / 千人QQ群:259217951

入群需要5元,如果没有QQ钱包,可以先Alipay、微信,赞助然后加群主拉进。

二维码生成 来自 >> 二维码生成器

支付扫码

所有赞助/开支都讲公开明细,用于网站维护:赞助名单查看

正在加载... ...