公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的(OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享。
本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈
下载好程序后解压:
大概可以看到这样一个目录,别见怪楼主里面一堆测试文件。
然后就开始我们的测试之旅:
tesseract的用法:
参数1:需要识别的文件
参数2:输出的文件名称,输出的是文本文件,里面保存了识别的信息
识别英文这两个参数就可以了,下面做个实验:
我们在命令行输入:tesseract 5.jpg 6 ,可以看到程序生成了一个6.txt ,里面保存着识别后的文本,怎么样简单又给力~
上面说道tesseract 是支持中文的,所以么,接下来看看如何使用tesseract 实现我们中文的识别,下面继续介绍其他参数
参数3:-l
参数4: 使用的语言库
参数3 -l应该是知道参数4所使用的语言库,默认英文,也就是为什么上面识别英文的例子,并没有输入参数3和参数4,也实现了识别。
下面继续我们的实验:
我们准备了一张图片,然后使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文语言,然后效果图上,还是很不错的,毕竟我们的中文是如此的博大精深,并且tesseract可以经过训练,然后识字的能力就会大幅度提升。
好了,由于一行代码没写,就不上传代码了,大家自己去官网下载。接下来我会使用Java带大家实现这样的小程序。
如果这篇文章对你有用,就赞一个~欢迎大家留言,多交流~
分享到:
相关推荐
利用eclipse平台,java与Tesseract技术实现的中文图像识别(OCR),要求先安装Tesseract3.0
主要介绍了Java OCR tesseract 图像智能文字字符识别技术实例代码,非常具有实用价值,需要的朋友可以参考下
一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持...可以参考网上的相关资料进行对Tesseract字符识别进行样本训练,通过使用训练后的语言库会提高识别精度。
需配置好OpenCV和OCR环境
java利用tesseract-OCR对图像进行字符识别-附件资源
Tesseract是一个免费的OCR引擎,OCR是Optical Character Recognition(光学字符识别)的缩写,它可以将印刷的或手写的文本、图像中的字符和文本转换成计算机可读的文本格式。Tesseract最初由美国康奈尔大学开发,现在...
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料...
支持Tesseract支持的越南语和其他语言的光学字符识别。 VietOCR是根据发布和分发的。 特征 多平台 PDF,TIFF,JPEG,GIF,PNG,BMP图像格式 多页TIFF图像 屏幕截图 选择框 文件拖放 从剪贴板粘贴图像 文字搜索和...
tessract java调用源码 最近公司让我做文字串识别,通过查阅资料,谷歌的开源框架 tesseract-ocr可以帮助我们进行识别图像,文字等等,tesseract可以识别多种语言(一些常用的语言),多种图片格式,非常强大。...
光学字符识别 一个OCR应用程序,可以识别图像上的文本。 该应用程序基于并且它是第一个基于Tesseract 4的应用程序。该应用程序由库提供。 :rocket: 特征 从图像中提取文本。 将数据复制到剪贴板。 选择文本的...
使用谷歌开源OCR擎Tesseract使用大公司的OCR放平台(比如百度),使用他们的字符识别API国内OCR放平台在汉字的识别上还是顶尖的,在汉字识别的准确率已相对较高。但这种模式存在需要付费和控制程度较低的缺点。 传统...
光学字符识别使用Google Tesseract将图像转换为文本的OCR程序。
GOCR 是一个 OCR(光学字符识别)程序,在 GNU 公共许可证下开发。 它将扫描的文本图像转换回文本文件。 Joerg Schulenburg 启动了该计划,现在领导着一个开发团队。 GOCR 可以与不同的前端一起使用,这使得移植到...
Tesseract用于字符识别 一般工作原理 使用多重模糊+阈值消除验证码噪声 使用清除的图像作为真实验证码的蒙版 使用opencv轮廓分离字符 使用ocr或某些ML算法进行字符识别 去做 抓取更多样本图像 使至少80%的测试通过