开源中文网

您的位置: 首页 > 入门教程 > 正文

Linux OCR图文识别配置教程详解

来源: 网络整理  作者: 佚名

OCR (Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符
采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题,ICR(Intelligent Character Recognition)的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等

通过Tesseract-OCR可以简单的图文识别,要想解析简单的验证友不再是什么难的技术问题,以下分享在Centos上安装OCR的步骤及PHP调用的OCR的函数。

一、Linux OCR 环境搭建脚本
yum install -y libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel giflib-devel

wget http://www.leptonica.com/source/leptonica-1.71.tar.gz

tar zxvf leptonica-1.71.tar.gz

cd leptonica-1.71

./configure  --with-zlib --with-libpng --with-jpeg --with-giflib --with-libtiff

make && make install

cd ..

wget http://static.cnsrn.com/tesseract-ocr-3.02.02.tar.gz

# 以下是下载语言包

wget http://static.cnsrn.com/tesseract-ocr-3.02.eng.tar.gz

wget http://static.cnsrn.com/tesseract-ocr-3.02.chi_sim.tar.gz

tar zxvf tesseract-ocr-3.02.02.tar.gz

tar zxvf tesseract-ocr-3.02.eng.tar.gz

tar zxvf tesseract-ocr-3.02.chi_sim.tar.gz

cd tesseract-ocr

./configure

make && make install

rm -rf /usr/local/share/tessdata/;

cp -rf ./tessdata /usr/local/share/
二、命令行测试
tesseract phototest.tif output
三、PHP外部调用函数
/**

* 异步执行CMD命令

*

* @param type $cmd Linux命令

* @return type

*/

function call_cmd($cmd) {

   $pipes = '';

   $_=("^"^".").("^"^ ",").("@" ^ "/").("#"^"@")

      .("?"^"`").("@"^"/").("^"^".").(">"^"[").("@"^".");

   $__= ("^"^".").("^"^",").("@"^"/").("#"^"@")

          .("?"^"`"). ("#"^"@").(","^"@").("@"^"/").(","^"_").(">" ^ "[");

       return $__($_("{$cmd} &",array(), $pipes));

}

/**

* 解析图文

*

* @param type $imagefile 图片路径

* @param type $output 识别内容输出路径

* @param type $lang 识别语言 chi_sim | eng

* @return type

*/

function read_img($imagefile, $output, $lang = 'eng') {

     $cmd = "tesseract {$imagefile} {$output} -l {$lang}”;

     echo "cli: $cmd \n";

     return call_cmd($cmd);

}

//# 测试代码

$imagefile = 'test.tif';

$output = 'test';

read_img($imagefile,$output,'eng’);

//# 测试结果输出在 test.txt

Tags:图文 教程
关于开源中文网 - 联系我们 - 广告服务 - 网站地图 - 版权声明