抓取公众号合集文章

功能介绍

获取公众号合集中的所有文章链接
支持全部获取和增量获取（超过一周的不抓取）
获取每篇文章的标题、内容和图片
图片单独放置一个文件夹，标题和内容在txt文件，第一行是标题

环境搭建

安装nodejs

下载地址：下载 | Node.js 中文网
安装教程：Node.js 安装配置 | 菜鸟教程

初始化环境

下载压缩包并解压至本地，在当前目录中打开cmd命令窗口，依次执行下面两个命令，执行时括号内容去掉

npm init -y
npm config set registry https://registry.npmmirror.com (加速使用)
npm install axios cheerio yarn
yarn add puppeteer（这个执行的时间有点长）

抓取合集文章

获取合集URL

找到对标账号，任意打开一篇文章滑到底部，点击合集/标签（见下图），跳转后复制地址栏中的URL，保存备用。

获取合集文章链接

在当前文件夹打开cmd命令窗口，执行下面的命令

获取合集全部链接命令：node fetchLinks.js "合集URL" "任意字符"

命令执行后，会将合集内的全部文章链接写入article_links.txt文件，如下图

获取合集增量链接命令：node fetchLinks.js "合集URL"

命令执行后，只会抓取合集一周内的文章链接，同样会写入article_links.txt文件，如下图

获取每篇文章内容

文章链接在写入article_links.txt时，会插入带===的一行，这很重要。这里只会处理最后一个带===行后面的文章链接。

处理文章的命令：node article.js，处理完成后就会看到下图所示的结果。

上面的合集URL不要丢，每天都可以获取一次，看看有没有最新的文章。获取完之后要记得先执行处理文章的命令，再去获取另外的文章链接。否则，需要手动修改article_links.txt文件中最后一个带===的行，将其删除才能将文章链接完整处理。

加入87副业社，一起成为赚钱高手！

文章声明 1、本网站名称：87副业网
2、本站永久网址：https://www.hg87.cn
3、本站部分内容来源于网络，仅供大家学习与参考，如有侵权，请联系站长删除。
4、本站一切资源不代表本站立场，不代表本站赞同其观点和对其真实性负责。
5、本站一律禁止以任何方式发布或转载任何违法的相关信息，访客发现请向站长举报
6、本站资源大多存储在云盘，如发现链接失效，请及时反馈，我们会第一时间更新。

THE END