Java爬虫,Jsoup 爬取大众点评、美团商家信息电话号码解决方案

soゝso 2019-05-14 16:04:52 244

今天有群内有同学问怎么爬取大众点评商家信息,尤其是电话号码,我看了下。发现是反爬虫的。

警告:本代码只是一个学习Demo,不能作为侵权或者违规行为。使用或者间接使用本博客内容做违规违法事情,与本人无关,继续观看表示同意。

分析大众点评Dom信息


从百度快照分析大众点评

使用了一种常见的方式,用自定义字符来解决,你抓取后是乱码的内容。但是我立马想到,这种网站肯定要做  SEO  的,所以从百度搜索了下链接。查看了下快照。


打开百度快照,再看看  HTML  源码。


这个时候最好右键查看源码,然后搜索一下,因为有的内容是异步(  JavaScript  )输出。这里我就不上图了,因为我知道百度快照不会有这些问题。

Jsoup 从百度快照抓取“大众点评”信息

直接上代码了,采用的是  Jsoup  ,这个需要效率,并发等等,请自己解决,这个只是一个栗子。

思路为:先获取百度快照—> 请求百度快照—>获取内容

public static void main(String[] args) throws IOException {

    //商家ID
    String id = "103615462";
    System.out.println(loadInfo(id));

}

public static Map<String,Object> loadInfo(String id)throws IOException{
    String ua = "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)";

    String firstURl = "https://www.baidu.com/s?cl=3&wd=http%3A%2F%2Fwww.dianping.com%2Fshop%2F" + id;
    Map<String,Object> resultMap = new HashMap<>();

    //回去百度快照链接
    Document doc = Jsoup.connect(firstURl)
            .header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3")
            .header("Accept-Encoding","gzip, deflate")
            .header("Accept-Language","zh-CN,zh;q=0.9,en;q=0.8")
            .header("Cache-Control","no-cache")
            .header("Pragma","no-cache")
            .header("Proxy-Connection","keep-alive")
            .header("User-Agent","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36")
            .get();

    String url = doc.select("#content_left [data-click=\"{'rsv_snapshot':'1'}\"]").attr("href");
    //如果没有就是百度没有收录
    if(null != url &&  !"".equals(url.trim())){
        //请求百度快照
        doc = Jsoup.connect(url)

                .header("Accept","text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3")
                .header("Accept-Encoding","gzip, deflate")
                .header("Accept-Language","zh-CN,zh;q=0.9,en;q=0.8")
                .header("Cache-Control","no-cache")
                .header("Pragma","no-cache")
                .header("Proxy-Connection","keep-alive")
                .header("User-Agent",ua)
                .header("Referer",firstURl)
                .get();


        String shopname = doc.select(".shop-name").text();
        String address = doc.select(".expand-info.address").text();
        String tel = doc.select("p.expand-info.tel").text();

        //店铺名称
        resultMap.put("shopname",shopname);
        //店铺地址
        resultMap.put("address",address);
        //店铺电话
        resultMap.put("tel",tel);
        //TODO 需要其他信息自己取
    }
    return resultMap;
}

结果:

{
	"address": "地址: 湘江北路江滨社区附10号47栋3-4单元1楼门面",
	"shopname": "谭记宁乡蛇城(湘江世纪城店)",
	"tel": "电话: 15388907298   0731-89913008"
}

有的时候还是有乱码,因为回源了。这个自己测试调优。

缺点:只有百度收录了才能获取的到信息,不过这个应该没关系,大众点评基本是秒收录。

优点:和大众点评完全没关系,它意识不到你再爬取信息,因为你是请求百度,但是百度是没有限制的。

请塑造正确价值观,尊重版权,尊重他人劳动成果。


版权所属:SO JSON在线解析

原文地址:https://www.sojson.com/blog/326.html

转载时必须以链接形式注明原始出处及本声明。

本文主题:

如果本文对你有帮助,那么请你赞助我,让我更有激情的写下去,帮助更多的人。

相关文章
Java 解析JSON,JSON-LIB jar包下载和使用。
JSON.stringify 函数 (JavaScript)讲解
怎么合理管理、提高Javascript的性能
Javascript 删除节点后是否需要将手动将事件解绑?
JavaScript function 类型的使用说明
MySQL数据库存储过程字符集问题,乱码的解决办法
MySQL数据库为用户设置密码,Mysql修改密码。Mysql忘记密码解决方法
国外程序员整理的Java资源大全(全部是干货)
火狐(Firefox )浏览器提示。此链接是不受信任的,站长和用户的解决方案。SSL申请
Java服务端监控平台设计
最新文章
ICP怎么操作取消备案,企业、个人怎么自己申请取消备案? 18
Javascript 加密/压缩后运行不了,JavaScript报错排查讲解 41
JavaScript 不可逆加密问题排查之方案一(闭包优化) 45
Java爬虫,Jsoup 爬取大众点评、美团商家信息电话号码解决方案 244
分解质因数 JavaScript 计算方式,及分解质因数讲解 8
湖南腾众4s店服务怎么样?进来看看你就知道了 29
SEO 之 SpringMVC redirect 301,301和302区别详细讲解 82
网站如何设置404页面、500等错误页面,有什么漏洞?怎么预防? 101
Java 文字转图片输出,Java 输出透明背景图片,Java文字转图片防爬虫 155
HttpClient获取访问域名的真实ip,HttpClient请求获取目标IP地址 299
最热文章
免费天气API,全国天气 JSON API接口,可以获取五天的天气预报 175206
Elasticsearch教程(四) elasticsearch head 插件安装和使用 138307
我为什么要选择RabbitMQ ,RabbitMQ简介,各种MQ选型对比 118003
Elasticsearch教程(六) elasticsearch Client创建 81989
Elasticsearch教程(一),全程直播(小白级别) 77101
Elasticsearch教程(二),IK分词器安装 77060
Elasticsearch教程(八) elasticsearch delete 删除数据(Java) 76748
苹果电脑Mac怎么恢复出厂系统?苹果系统怎么重装系统? 75227
Elasticsearch教程(五) elasticsearch Mapping的创建 69398
Elasticsearch教程(三),IK分词器安装 (极速版) 58149

骚码加入我们 / 千人QQ群:259217951

入群需要5元,如果没有QQ钱包,可以先Alipay、微信,赞助然后加群主拉进。

二维码生成 来自 >> 二维码生成器

支付扫码

所有赞助/开支都讲公开明细,用于网站维护:赞助名单查看

正在加载... ...