开篇寄语
使用Python编写爬虫脚本的时候,一部都需要考虑网站验证码的问题,以往遇到该问题,都是很头疼的,不过随着技术发展,一些稍微简单的验证码已经可以通过今天的这个Python库来解决了,那么它是什么呢?本篇文章来告诉你。
项目地址
内容详情
ddddocr 是由 sml2h3 开发的专为验证码厂商进行对自家新版本验证码难易强度进行验证的一个 python 库,其由作者与 kerlomz 共同合作完成,通过大批量生成随机数据后进行深度网络训练,本身并非针对任何一家验证码厂商而制作,本库使用效果完全靠玄学,可能可以识别,可能不能识别。
如何使用呢?试举一例:
import ddddocr ocr = ddddocr.DdddOcr() with open("test.jpg", 'rb') as f: image = f.read() res = ocr.classification(image) print(res)
或者:
import ddddocr import cv2 det = ddddocr.DdddOcr(det=True) with open("test.jpg", 'rb') as f: image = f.read() poses = det.detection(image) print(poses) im = cv2.imread("test.jpg") for box in poses: x1, y1, x2, y2 = box im = cv2.rectangle(im, (x1, y1), (x2, y2), color=(0, 0, 255), thickness=2) cv2.imwrite("result.jpg", im)
1.4版本支持滑动板块的验证码了,详情请看项目。
这样一来,一些带有验证码网站也可以照样爬取,无需担心了。
ArrayArrayArray- 我的微信
- 微信扫一扫加好友
- 我的微信公众号
- 扫描关注公众号