博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python3调用OCR识别
阅读量:4080 次
发布时间:2019-05-25

本文共 2096 字,大约阅读时间需要 6 分钟。

可以用工具,需要下载安装tesseract-ocr,地址:https://github.com/tesseract-ocr/tesseract/wiki,找对应版本,还可以从上面找到各种,放入tessdata文件夹。设置好环境变量,要新建TESSDATA_PREFIX,值为:D:\Program Files (x86)\Tesseract-OCR,路径是tessdata文件夹的上一层目录。

还要在pytesseract.py(文件地址如:D:\ProgramData\Anaconda3\Lib\site-packages\pytesseract)找到tesseract_cmd设置好路径。如:tesseract_cmd = 'D:/Program Files (x86)/Tesseract-OCR/tesseract.exe'。

参考:http://www.cnblogs.com/zhongtang/p/5554784.html

代码很简单:

from PIL import Imageimport pytesseracttext = pytesseract.image_to_string(Image.open('denggao.jpg'),lang='chi_sim')print(text)

不过识别率不太好。

还可以调用腾讯AI开放平台上的通用OCR识别,效果杠杠的,而且免费。参考:https://ai.qq.com/doc/ocrgeneralocr.shtml。

https://blog.csdn.net/kiramario/article/details/53781369#comments

代码:

import base64import hashlib  import time  import random  import string  from urllib.parse import quote  import requests  def curlmd5(src):      m = hashlib.md5(src.encode('UTF-8'))    return m.hexdigest().upper()# 请求时间戳(秒级),用于防止请求重放(保证签名5分钟有效) def get_params(base64_data):    t = time.time()    time_stamp=str(int(t))      # 请求随机字符串,用于保证签名不可预测      nonce_str = ''.join(random.sample(string.ascii_letters + string.digits, 10))      # 应用标志,这里修改成自己的id和key      app_id = '110684xxxx'      app_key = 'NiYtm56TQsnIxxxx'    params = {'app_id':app_id,                'image':base64_data,              'time_stamp':time_stamp,              'nonce_str':nonce_str,             }    sign_before = ''    # 要对key排序再拼接    for key in sorted(params):        # 键值拼接过程value部分需要URL编码,URL编码算法用大写字母,例如%E8。quote默认大写。          sign_before += '{}={}&'.format(key,quote(params[key], safe=''))    # 将应用密钥以app_key为键名,拼接到字符串sign_before末尾      sign_before += 'app_key={}'.format(app_key)    # 对字符串sign_before进行MD5运算,得到接口请求签名    sign = curlmd5(sign_before)    params['sign'] = sign    return paramsurl = "https://api.ai.qq.com/fcgi-bin/ocr/ocr_generalocr"with open('denggao.jpg','rb') as fin:    image_data = fin.read()base64_data = base64.b64encode(image_data)params = get_params(base64_data)r = requests.post(url,data=params)item_list = r.json()['data']['item_list']for s in item_list:    print(s['itemstring'])
你可能感兴趣的文章
github简单使用教程
查看>>
如何高效利用GitHub
查看>>
环境分支-git版本管理
查看>>
Spring AOP + Redis + 注解实现redis 分布式锁
查看>>
支付宝生活号服务号 用户信息获取 oauth2 登录对接 springboot java
查看>>
CodeForces #196(Div. 2) 337D Book of Evil (树形dp)
查看>>
uva 12260 - Free Goodies (dp,贪心 | 好题)
查看>>
uva-1427 Parade (单调队列优化dp)
查看>>
【设计模式】学习笔记14:状态模式(State)
查看>>
poj 1976 A Mini Locomotive (dp 二维01背包)
查看>>
斯坦福大学机器学习——因子分析(Factor analysis)
查看>>
【IntelliJ IDEA】idea导入项目只显示项目中的文件,不显示项目结构
查看>>
ssh 如何方便的切换到其他节点??
查看>>
Java实现DES加密解密
查看>>
HTML基础
查看>>
Java NIO
查看>>
Java大数据:Hbase分布式存储入门
查看>>
大数据学习:Spark RDD操作入门
查看>>
大数据框架:Spark 生态实时流计算
查看>>
大数据入门:Hive和Hbase区别对比
查看>>