抓取公众号合集文章-87副业网
抓取公众号合集文章
此内容为付费资源,请付费后查看
金币29.9
付费资源

抓取公众号合集文章

功能介绍

  1. 获取公众号合集中的所有文章链接
  2. 支持全部获取和增量获取(超过一周的不抓取)
  3. 获取每篇文章的标题、内容和图片
  4. 图片单独放置一个文件夹,标题和内容在txt文件,第一行是标题

环境搭建

安装nodejs

  1. 下载地址:下载 | Node.js 中文网
  2. 安装教程:Node.js 安装配置 | 菜鸟教程

初始化环境

下载压缩包并解压至本地,在当前目录中打开cmd命令窗口,依次执行下面两个命令,执行时括号内容去掉

npm init -y
npm config set registry https://registry.npmmirror.com (加速使用)
npm install axios cheerio yarn
yarn add puppeteer(这个执行的时间有点长)

抓取合集文章

获取合集URL

找到对标账号,任意打开一篇文章滑到底部,点击合集/标签(见下图),跳转后复制地址栏中的URL,保存备用。

图片[1]-抓取公众号合集文章 - 87副业网-87副业网

获取合集文章链接

在当前文件夹打开cmd命令窗口,执行下面的命令

获取合集全部链接命令:node fetchLinks.js "合集URL" "任意字符"

命令执行后,会将合集内的全部文章链接写入article_links.txt文件,如下图

图片[2]-抓取公众号合集文章 - 87副业网-87副业网

获取合集增量链接命令:node fetchLinks.js "合集URL"

命令执行后,只会抓取合集一周内的文章链接,同样会写入article_links.txt文件,如下图

图片[3]-抓取公众号合集文章 - 87副业网-87副业网

获取每篇文章内容

文章链接在写入article_links.txt时,会插入带===的一行,这很重要。这里只会处理最后一个带===行后面的文章链接。

处理文章的命令:node article.js,处理完成后就会看到下图所示的结果。

图片[4]-抓取公众号合集文章 - 87副业网-87副业网

上面的合集URL不要丢,每天都可以获取一次,看看有没有最新的文章。获取完之后要记得先执行处理文章的命令,再去获取另外的文章链接。否则,需要手动修改article_links.txt文件中最后一个带===的行,将其删除才能将文章链接完整处理。

加入87副业社,一起成为赚钱高手!
© 版权声明
THE END
喜欢就支持一下吧~
点赞48 分享
评论 抢沙发

请登录后发表评论

    请登录后查看评论内容