爬虫结构
            二月 01, 2020
            
  
        
        爬虫顺序
- 优化爬虫(静态) - user-agent的使用
- 代理
- timeout
- 请求转码问题
- post请求
- ajax
- 异常处理
- cookie
 
- 内容的提取 - HTML- re
- xpath(DOM)
- beautifulSoup
 
- JSON- json ,jsonpath,dump,dumps
 
 
- HTML
- 动态页面抓取 - slennium + ChromJS
 
- Scrapy框架学习 - sprider 基础类- items
- pipelines
- settings
 
- CrawlSpider 类- LinkExtractor
- Rule
 
 
- sprider 基础类
查看评论