`
阿尔萨斯
  • 浏览: 4174242 次
社区版块
存档分类
最新评论

Java OCR tesseract 图像智能字符识别技术

 
阅读更多

公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享。

本人程序用的tesseract,官方地址:https://code.google.com/p/tesseract-ocr/,不为别的,谁让它支持我们的天朝的文字呢~哈

下载好程序后解压:

大概可以看到这样一个目录,别见怪楼主里面一堆测试文件。

然后就开始我们的测试之旅:

tesseract的用法:

参数1:需要识别的文件

参数2:输出的文件名称,输出的是文本文件,里面保存了识别的信息

识别英文这两个参数就可以了,下面做个实验:

我们在命令行输入:tesseract 5.jpg 6 ,可以看到程序生成了一个6.txt ,里面保存着识别后的文本,怎么样简单又给力~


上面说道tesseract 是支持中文的,所以么,接下来看看如何使用tesseract 实现我们中文的识别,下面继续介绍其他参数

参数3:-l

参数4: 使用的语言库

参数3 -l应该是知道参数4所使用的语言库,默认英文,也就是为什么上面识别英文的例子,并没有输入参数3和参数4,也实现了识别。

下面继续我们的实验:

我们准备了一张图片,然后使用tesseract zhongwen.jpg 7 -l chi_sim 指明了中文语言,然后效果图上,还是很不错的,毕竟我们的中文是如此的博大精深,并且tesseract可以经过训练,然后识字的能力就会大幅度提升。

好了,由于一行代码没写,就不上传代码了,大家自己去官网下载。接下来我会使用Java带大家实现这样的小程序。


如果这篇文章对你有用,就赞一个~欢迎大家留言,多交流~






分享到:
评论

相关推荐

    Tesseract 图像智能字符识别技术,可识别中文

    利用eclipse平台,java与Tesseract技术实现的中文图像识别(OCR),要求先安装Tesseract3.0

    Java OCR tesseract 图像智能文字字符识别技术实例代码

    主要介绍了Java OCR tesseract 图像智能文字字符识别技术实例代码,非常具有实用价值,需要的朋友可以参考下

    tesseract-ocr实现图片识别功能(java)

    一个Google支持的开源的OCR图文识别开源项目。去持多语言(当前3.02 版本支持包括英文,简体中文,繁体中文),支持...可以参考网上的相关资料进行对Tesseract字符识别进行样本训练,通过使用训练后的语言库会提高识别精度。

    Java+OpenCV+OCR 图像字符处理

    需配置好OpenCV和OCR环境

    java利用tesseract-OCR对图像进行字符识别-附件资源

    java利用tesseract-OCR对图像进行字符识别-附件资源

    Tesseract一个免费的OCR引擎源码Google维护和开发

    Tesseract是一个免费的OCR引擎,OCR是Optical Character Recognition(光学字符识别)的缩写,它可以将印刷的或手写的文本、图像中的字符和文本转换成计算机可读的文本格式。Tesseract最初由美国康奈尔大学开发,现在...

    tesseract安装包及JAVA代码实例

    光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料...

    VietOCR3:Tesseract OCR引擎的Java GUI前端

    支持Tesseract支持的越南语和其他语言的光学字符识别。 VietOCR是根据发布和分发的。 特征 多平台 PDF,TIFF,JPEG,GIF,PNG,BMP图像格式 多页TIFF图像 屏幕截图 选择框 文件拖放 从剪贴板粘贴图像 文字搜索和...

    tessract java调用源码

    tessract java调用源码 最近公司让我做文字串识别,通过查阅资料,谷歌的开源框架 tesseract-ocr可以帮助我们进行识别图像,文字等等,tesseract可以识别多种语言(一些常用的语言),多种图片格式,非常强大。...

    android-ocr:基于Tesseract的Android OCR

    光学字符识别 一个OCR应用程序,可以识别图像上的文本。 该应用程序基于并且它是第一个基于Tesseract 4的应用程序。该应用程序由库提供。 :rocket: 特征 从图像中提取文本。 将数据复制到剪贴板。 选择文本的...

    文字识别解读小程序.zip

    使用谷歌开源OCR擎Tesseract使用大公司的OCR放平台(比如百度),使用他们的字符识别API国内OCR放平台在汉字的识别上还是顶尖的,在汉字识别的准确率已相对较高。但这种模式存在需要付费和控制程度较低的缺点。 传统...

    ocr:使用Google Tesseract将图像转换为文本的OCR程序

    光学字符识别使用Google Tesseract将图像转换为文本的OCR程序。

    OCR-handwriting-recognition-libraries:OCR手写识别库对比

    GOCR 是一个 OCR(光学字符识别)程序,在 GNU 公共许可证下开发。 它将扫描的文本图像转换回文本文件。 Joerg Schulenburg 启动了该计划,现在领导着一个开发团队。 GOCR 可以与不同的前端一起使用,这使得移植到...

    omxbaltic-evk-scraper:使用OCR解决验证码

    Tesseract用于字符识别 一般工作原理 使用多重模糊+阈值消除验证码噪声 使用清除的图像作为真实验证码的蒙版 使用opencv轮廓分离字符 使用ocr或某些ML算法进行字符识别 去做 抓取更多样本图像 使至少80%的测试通过

Global site tag (gtag.js) - Google Analytics