功能介绍
- 获取公众号合集中的所有文章链接
- 支持全部获取和增量获取(超过一周的不抓取)
- 获取每篇文章的标题、内容和图片
- 图片单独放置一个文件夹,标题和内容在txt文件,第一行是标题
环境搭建
安装nodejs
- 下载地址:下载 | Node.js 中文网
- 安装教程:Node.js 安装配置 | 菜鸟教程
初始化环境
下载压缩包并解压至本地,在当前目录中打开cmd命令窗口,依次执行下面两个命令,执行时括号内容去掉
npm init -y
npm config set registry https://registry.npmmirror.com (加速使用)
npm install axios cheerio yarn
yarn add puppeteer(这个执行的时间有点长)
抓取合集文章
获取合集URL
找到对标账号,任意打开一篇文章滑到底部,点击合集/标签(见下图),跳转后复制地址栏中的URL,保存备用。
获取合集文章链接
在当前文件夹打开cmd命令窗口,执行下面的命令
获取合集全部链接命令:node fetchLinks.js "合集URL" "任意字符"
命令执行后,会将合集内的全部文章链接写入article_links.txt文件,如下图
获取合集增量链接命令:node fetchLinks.js "合集URL"
命令执行后,只会抓取合集一周内的文章链接,同样会写入article_links.txt文件,如下图
获取每篇文章内容
文章链接在写入article_links.txt时,会插入带===
的一行,这很重要。这里只会处理最后一个带===
行后面的文章链接。
处理文章的命令:node article.js
,处理完成后就会看到下图所示的结果。
上面的合集URL不要丢,每天都可以获取一次,看看有没有最新的文章。获取完之后要记得先执行处理文章的命令,再去获取另外的文章链接。否则,需要手动修改article_links.txt文件中最后一个带===
的行,将其删除才能将文章链接完整处理。
© 版权声明
THE END
请登录后查看评论内容