爬虫结构
二月 01, 2020
爬虫顺序
优化爬虫(静态)
- user-agent的使用
- 代理
- timeout
- 请求转码问题
- post请求
- ajax
- 异常处理
- cookie
内容的提取
- HTML
- re
- xpath(DOM)
- beautifulSoup
- JSON
- json ,jsonpath,dump,dumps
- HTML
动态页面抓取
- slennium + ChromJS
Scrapy框架学习
- sprider 基础类
- items
- pipelines
- settings
- CrawlSpider 类
- LinkExtractor
- Rule
- sprider 基础类
查看评论