模板匹配方法(验证码识别之模板匹配方法)

首页教程更新时间:2023-05-17 11:16:48

在写爬虫的时候难免会遇到验证码识别的问题,常见的验证码识别的流程为:

- 图像灰度化

- 图像去噪(如图像二值化)

- 切割图片

- 提取特征

- 训练

但这种方法要切割图片,而且破解验证码的重点和难点就在于能否成功分割字符

本文要介绍的算法不需要进行图片切割,也不需要进行机器训练,这种方法就是模板匹配:将待识别的文字切割成一个个模板,在待识别的图像中去匹配模板。

这篇文章将分为两个部分:

第一部分介绍模板匹配的基本概念以及模板匹配的一种实现算法:快速归一化互相关匹配算法;

第二部分是一个具体实例。

1、模板匹配

模板匹配是在图像中寻找目标的方法之一,目的就是在一幅图像中寻找和模板图像最相似的区域。

模板匹配的大致过程是这样的:通过在输入图像上滑动图像块对实际的图像块和输入图像进行匹配。

假设我们有一张100x100的输入图像,有一张10x10的模板图像,查找的过程是这样的:

从输入图像的左上角(0,0)开始,切割一块(0,0)至(10,10)的临时图像;

用某种方法得出临时图像与模板的相似度c,存放到相似度矩阵中(矩阵大小为91 x91);

切割输入图像从(0,1)至(10,11)的临时图像,对比,并记录到相似度矩阵;

重复上述步骤,直到输入图像的右下角。

模板匹配方法,验证码识别之模板匹配方法(1)

最终得到一个相似度矩阵,找到矩阵中的最大或最小值,最大值(最小值)对应的临时图像即为与模板最相似的图像。

在步骤b中,求模板与图像的相似度有多种方法,如平均绝对差算法(MAD)、绝对误差和算法(SAD)、误差平方和算法(SSD)、归一化互相关算法(NCC),本文使用的是归一化互相关算法。

2、归一化互相关算法

什么是归一化互相关?

从几何图形上来看,空间中的两个向量,同方向平行时,归一化互相关系数为1,表示两个向量最相似,反方向平行时归一化互相关系数为-1,垂直时为0,表示最不相似(用互相垂直的三个向量来代表整个空间也是这个道理,垂直的向量之间不包含对方的信息,相关系数为0),存在一定夹角时处于(-1,1),是不是跟余弦函数很像,cos(0)=1,cos(pi/2)=0,cos(pi)=-1。就是这个样子的,相关系数可以看作是两个向量之间夹角的cosine函数。

模板匹配方法,验证码识别之模板匹配方法(2)

在数学中是这么计算cosine函数的,假设两个n维向量X,Y,对应的坐标分别为(x1,x2,…xn), (y1,y2,…yn) 则:

模板匹配方法,验证码识别之模板匹配方法(3)

(如果想要了解更多,请参考文献【2】)

但这是一维的,在模板匹配中要再加一个维度(具体算法请参考文献【3】),简要说一下文献【3】的内容:如果直接计算二维相似度的话计算复杂度会非常高,文献【3】利用快速傅里叶变换与积分图像快速算法来降低计算复杂度。

接下来让我们看一个具体的应用。

3、具体实例

模板匹配识别验证码的具体步骤为:

1. 找出图片中所有可能出现的字符,制作成模板集合

2. 图像灰度化

3. 图片去噪(二值化)

4. 模板匹配

5. 匹配结果优化

要识别的图片如下,以识别图片中的加字为例:

模板匹配方法,验证码识别之模板匹配方法(4)

(image)

模板匹配方法,验证码识别之模板匹配方法(5)

(template)

模板匹配方法,验证码识别之模板匹配方法(6)

模板匹配方法,验证码识别之模板匹配方法(7)

要从image中找到与模板最匹配的部分,Template图像是事先从image图像中截取的一部分。所用的为python模块skimage中的match_template方法,match_template方法使用的是快速归一化互相关算法【2】

遍历模板图像集合,与图像匹配,如果dist大于阈值h,则认为此模板在图像中存在,否则不存在,继续匹配下一个模板,直到遍历完所有模板。

以模板‘加’为例,图像大小为40x260,模板大小27x27,result是一个大小为(14,234)的矩阵,即上文提到的相似度矩阵,矩阵中的数值属于[-1,1],找到result中最大值所处的对应位置即为与模板最匹配的图像位置:x=66,y=11,正好对应模板图像在image中所处的位置。(更多内容请参阅参考文献【4】)

但这是比较好的情况,因为在匹配时遍历了所有的模板,而一张图片中出现的模板数量是有限的,比如数字’四’在图片中是没有的,这时就要根据某种规则去掉这些在图片中没有出现的模板:程序中使用dist变量来过滤匹配结果,如果dist变量大于某个值则认为此模板在图像中不存在。

最后的result_list中可能仍然存在一些图片中不存在的模板或者匹配不精确的模板,比如数字‘一’在模板中不存在,但仍然可以匹配到,因为数字‘二’中可以匹配到‘一’,需要进一步优化,优化方法有很多,比如当匹配到的两个模板距离过近时,选择较大的那个模板,其余方法留给读者自行考虑吧。

后续将会推出如何使用深度学习识别验证码,敬请期待~

参考文献:

http://www.cnblogs.com/beer/p/5672678.html

http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

J. P. Lewis, “Fast Normalized Cross-Correlation”, Industrial Light and Magic.

http://scikit-image.org/docsjinhqin/dev/auto_examples/plot_template.html

本文作者:李晖(点融黑帮),毕业于电子科技大学,现就职于点融成都Data部门,对一切新鲜事物充满好奇,对跳舞毫无抵抗力的活力女青年一枚。

本文由@点融黑帮(ID:DianrongMafia)原创发布于今日头条,未经许可,禁止转载。

,
图文教程
相关文章
热门专题
推荐软件
奇热小说
奇热小说
下载
QQ2019手机版
QQ2019手机版
下载
王者荣耀
王者荣耀
下载
百度浏览器迷你版
百度浏览器迷你版
下载
2345浏览器手机版
2345浏览器手机版
下载
网易邮箱
网易邮箱
下载
爱奇艺
爱奇艺
下载
网易云音乐
网易云音乐
下载
WPSOffice
WPSOffice
下载
优酷
优酷
下载
谷歌浏览器(Chrome)
谷歌浏览器(Chrome)
下载
迅雷看看播放器
迅雷看看播放器
下载
UC浏览器
UC浏览器
下载
QQ音乐
QQ音乐
下载
阿里旺旺买家版v9.12.10C官方版
阿里旺旺买家版v9.12.10C官方版
下载
360安全卫士v12.1官方版
360安全卫士v12.1官方版
下载
猜你喜欢
战争中的机器人
战争中的机器人
下载
PSP科隆方块韩版
PSP科隆方块韩版
下载
PU口袋校园
PU口袋校园
下载
趣驾精英版
趣驾精英版
下载
学点心理学
学点心理学
下载
喷气背包高手
喷气背包高手
下载
格知APP
格知APP
下载
掌上定制家具
掌上定制家具
下载
瓦瓦大陆Mac版V1.1
瓦瓦大陆Mac版V1.1
下载
疯狂的洗车店
疯狂的洗车店
下载
智连生活
智连生活
下载
京环之声
京环之声
下载
UltraPDFTool(PDF处理软件)v3.4.0官方版
UltraPDFTool(PDF处理软件)v3.4.0官方版
下载
遥控水平仪
遥控水平仪
下载
火柴人魔法战争
火柴人魔法战争
下载
梦幻迷宫3D推木头
梦幻迷宫3D推木头
下载