爬虫结构

爬虫结构

二月 01, 2020

爬虫顺序

  1. 优化爬虫(静态)

    1. user-agent的使用
    2. 代理
    3. timeout
    4. 请求转码问题
    5. post请求
    6. ajax
    7. 异常处理
    8. cookie
  2. 内容的提取

    1. HTML
      1. re
      2. xpath(DOM)
      3. beautifulSoup
    2. JSON
      1. json ,jsonpath,dump,dumps
  3. 动态页面抓取

    1. slennium + ChromJS
  4. Scrapy框架学习

    1. sprider 基础类
      1. items
      2. pipelines
      3. settings
    2. CrawlSpider 类
      1. LinkExtractor
      2. Rule