网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。 网站首页爬虫

pyspider 启动错误遇到的一些坑

突然接到一个项目是关于pyspider,遇到了一些小坑,百度一下发现并没有很好的解决所以研究了一下。我所使用的python版本是3.6.6,因为pyspider是对pip有版本要求的,所以自动升级一下。

Python第三方模块tesserocr安装

在爬虫过程中,难免会遇到各种各样的验证码,而大多数验证码还是图形验证码,这时候我们可以直接用 OCR 来识别。 tesserocr 是 Python 的一个 OCR 识别库 ,但其实是对 tesseract 做的一 层 Python API 封装,所以它的核心是 tesseract。 因此,在安装 tesserocr 之前,我们需要先安装 tesseract 。

Scrapy的下载安装---Ubuntu 16.04

写爬虫首选Python,Python爬虫框架首选Scrapy。 -- 沃滋基 索德

scrapy的下载安装---Windows

Scrapy的安装有多种方式,它支持Python2.7版本及以上或者是Python3.3版本及以上。下面来说py3环境下,scrapy的安装过程。   Scrapy依赖的库比较多,至少需要依赖库Twisted 14.0,lxml 3.4,pyOpenSSL 0.14。在不同平台环境又不相同,所以在安装前确保先把一些基本库安装好,尤其是Windows。

HTTP状态码

HTTP状态码(英语:HTTP Status Code)是用以表示网页服务器超文本传输协议响应状态的3位数字代码。它由 RFC 2616 规范定义的,并得到 RFC 2518、RFC 2817、RFC 2295、RFC 2774 与 RFC 4918 等规范扩展。所有状态码的第一个数字代表了响应的五种状态之一。所示的消息短语是典型的,但是可以提供任何可读取的替代方案。 除非另有说明,状态码是HTTP / 1.1标准(RFC 7231)的一部分。

User-Agent大全

分享几个常见的User-Agent吧,复制粘贴过来的,谢谢原创。

Scrapy命令行基本用法

Scrapy,Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。

Scrapy的log日志功能

Scrapy提供了log功能,可以通过 logging 模块使用。

HTTP代理的使用

代理客户机的http访问,主要代理浏览器访问网页,它的端口一般为80、8080、3128等。

上一页 1 1 下一页