心血来潮,想爬取天猫内衣的购买信息记录,来对中国广大女性的胸围情况来次认真地探讨。爬取内容为评论里的信息,包括尺码,颜色以及评价。习惯性打开开发者工具,果不其然,评论信息是动态生成的。所以就要到 network 去抓包,数据是 json 格式的。搞到评论的具体网址后分析下各参数,用 list 迭代岂不美滋滋?第一次迭代爬取 10w 条评论后用 set 去重后只剩下 1000 多条??? 经分析,它每隔几页评论就会弹出一个反爬虫连接验证登录,而且靠后一点,如 100 页后的数据显示的总是重复,经优化后一个商品差不多能爬到 4000 条不重复的评论。也可能是我技术还不到家吧,能力不够,努力来凑。我就爬取了不同的约 50 件商品的记录,得到了 20w 条评论信息(样本容量还是有点小,不过取样的范围广一点)。
评论