puppeteer爬虫

栏目: Node.js · 发布时间: 1年前

来源: segmentfault.com

内容简介:利用空闲时间,学习了下puppeteer爬虫,我也想爬取下网上的资源正在努力学习中,若对你的学习有帮助,留下你的印记呗(点个赞咯^_^)

本文转载自:https://segmentfault.com/a/1190000019632224,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有。

利用空闲时间,学习了下puppeteer爬虫,我也想爬取下网上的资源

1.部分api

  • puppeteer.launch(options)
参数名称 参数类型 参数说明
ignoreHTTPSErrors boolean 在请求的过程中是否忽略 Https 报错信息,默认为 false
headless boolean 是否以“无头”的模式运行chrome,也就是不显示UI,默认为true
executablePath string 可执行文件的路径,Puppeteer 默认是使用它自带的 chrome webdriver, 如果你想指定一个自己的 webdriver 路径,可以通过这个参数设置
slowMo number 使 Puppeteer 操作减速,单位是毫秒。如果你想看看 Puppeteer 的整个工作过程,这个参数将非常有用
args Array(String) 传递给 chrome 实例的其他参数,比如你可以设置浏览器窗口大小 具体参数
timeout number 等待chrome实例启动的最长时间,默认是3000ms,如果传入0,则不限制时间
dumpio boolean 是否将浏览器锦程stdout和stderr导入到process.stdout和process.stderr中,默认为false
userDataDir string 设置用户数据目录,默认 linux 是在~/.config目录,window 默认在 C:Users{USER}AppDataLocalGoogleChromeUser Data, 其中 {USER} 代表当前登录的用户名
env Object 指定对chromium可见的环境变量,默认为process.env
devtools boolean 是否为每个选项卡自动打开DevTools面板,这个选项只有当headless设置为false的时候有效
  • browser对象 api
方法名 说明
browser.close() 返回一个promise对象,用于关闭浏览器
browser.newPage() 返回一个promise对象,创建一个page实例
  • page对象
方法名 说明
page.goto(url[, options]) 返回一个promise对象,url是目标链接
page.waitForSelector() 等待某个选择器的元素加载之后,这个元素可以是异步加载的
page.evaluate(pageFunction[,args]) 返回一个可序列化的普通对象,pageFunction 表示要在页面执行的函数, args 表示传入给 pageFunction 的参数

2.爬取电影网站

const puppeteer = require('puppeteer');

/* 爬虫的目标链接地址: 豆瓣电影 */
const url = `https://movie.douban.com/tag/#/?sort=R&range=0,10&tags=`;

const sleep = time => new Promise(resolve => {
  setTimeout(resolve, time);
});

(async () => {
  console.log('crawler start to visit the target address');

  /* dumpio 是否将浏览器进程stdout和stderr导入到process.stdout和process.stderr中 */
  const browser = await puppeteer.launch({
    args: ['--no-sandbox'],
    dumpio: false
  });
  const page = await browser.newPage();
  await page.goto(url, {
    waitUntil: 'networkidle2'
  });

  await sleep(3000);

  await page.waitForSelector('.more');

  for(let i = 0; i < 1; i++) {
    await sleep(3000);
    await page.click('.more');
  }

  const result = await page.evaluate(() => {
    let $ = window.$;
    let nodeItems = $('.list-wp a');
    let links = [];
    
    /* 获取对应的元素节点 */
    if(nodeItems.length >= 1) {
      nodeItems.each((index, item) => {
        let elem = $(item);
        let movieId = elem.find('div').data('id');
        let title = elem.find('.title').text();
        let rate = Number(elem.find('.rate').text());
        let poster = elem.find('img').attr('src').replace('s_ratio_poster','l_ratio_poster');

        links.push({
          movieId,
          title,
          rate,
          poster,
        })
      })
    }

    return links;
  });

  browser.close();
  console.log(result)
})();

3.爬取网站内容生成pdf文件

const puppeteer = require('puppeteer');
const url = 'https://cn.vuejs.org/v2/guide/';
(async () => {
    const browser = await puppeteer.launch();
    const page = await browser.newPage();
    await page.goto(url, { waitUntil: 'networkidle0' });
    /* 选择你要输出的那个PDF文件路径,把爬取到的内容输出到PDF中,必须是存在的PDF,可以是空内容,如果不是空的内容PDF,那么会覆盖内容 */
    let pdfFilePath = './index.pdf';
    /* 根据你的配置选项,我们这里选择A4纸的规格输出PDF,方便打印 */
    await page.pdf({
        path: pdfFilePath,
        format: 'A4',
        scale: 1,
        printBackground: true,
        landscape: false,
        displayHeaderFooter: false
    });
    browser.close();
})()

正在努力学习中,若对你的学习有帮助,留下你的印记呗(点个赞咯^_^)


以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持 码农网

关注码农网公众号

关注我们,获取更多IT资讯^_^


查看所有标签

猜你喜欢:

本站部分资源来源于网络,本站转载出于传递更多信息之目的,版权归原作者或者来源机构所有,如转载稿涉及版权问题,请联系我们

Beginning XML with DOM and Ajax

Beginning XML with DOM and Ajax

Sas Jacobs / Apress / 2006-06-05 / USD 39.99

Don't waste time on 1,000-page tomes full of syntax; this book is all you need to get ahead in XML development. Renowned web developer Sas Jacobs presents an essential guide to XML. Beginning XML with......一起来看看 《Beginning XML with DOM and Ajax》 这本书的介绍吧!

图片转BASE64编码
图片转BASE64编码

在线图片转Base64编码工具

XML 在线格式化
XML 在线格式化

在线 XML 格式化压缩工具

UNIX 时间戳转换
UNIX 时间戳转换

UNIX 时间戳转换