一篇文章搞定百度OCR图片文字识别API

那年夏天

2019-06-30

研究百度OCR的API，主要是向做对扫描版的各种PDF进行文字识别并转Word文档的需求。

这里用Postman客户端进行测试和演示。因为Postman是对各种API操作的最佳入门方式。一旦在Postman里实现了正确的调用，剩下的就只是一键生成代码，和一些细节的修改了。

参考百度云官方文档：文字识别API参考
 下载官方文档PDF：OCR.zh.pdf

授权字符串 Access Token

Token字符串永远是你使用别人API的第一步，简单说，就是只有你自己知道的密码，在你每次向服务器发送的请求里面加上这个字符串，就相当于完成了一次登录。

如果没有Token授权认证，API的访问可能会像浏览网页一样简单。

Access Token一般是调用API最重要也最麻烦的地方了：每个公司都不一样，各种设置安全问题让你的Token复杂化。而百度云的Token，真的是麻烦到一定地步了。

参考：百度API的鉴权认证机制 (建议你不要参考，因为它的流程图会先把你镇住的)

简单说，获取百度云token字符串的主要流程就是：

创建一个应用，获得只有自己知道的id和密码
用POST方式把id和密码发给百度的一个链接：

https://aip.baidubce.com/oauth/2.0/token

其中，需要你向这个地址传送三个参数：
- grant_type = client_credentials 这个是固定的
- client_id = xxx 这个是你在百度云管理后台创建OCR应用的时候，那个应用的API Key
- client_secret = xxx 这个是你的应用的Secret Key
等待服务器返还给你一个包含token字符串的数据
记住这个token字符串，并用来访问每一次的API

来看看怎么利用Postman操作，如下图所示：
一篇文章搞定百度OCR图片文字识别API

填好以后点击Send发送，就会获得一个JSON数据，如下图：
一篇文章搞定百度OCR图片文字识别API

然后你用你的程序(Python, PHP, Node.js等，随便)，获取这个JSON中的access_token，
即可用到正式的API请求中，做为授权认证。

正式调用API：以"通用文字识别"为例

API链接：https://aip.baidubce.com/rest/2.0/ocr/v1/general_basic

提交方式：POST

调用方式有两种：

方式一：直接在URL填写信息

直接把API所需的认证信息放在URL里是最简单最方便的。

~方式二：Headers填写信息方式~

建议忽略这种方式，需要填写很多request的标准headers，太麻烦。

Headers设置：

Content-Type = application/x-www-form-urlencoded

只要填这一项就够了。

Body数据传送的各项参数：

access_token = xxx 把之前获取到的token字符串填到这里来
image = xxx 把图片转成base64字符串填到这里，不需要开头的data:image/png;base64,
url = xxx 也可以不用传图片而是传一个图片的链接。但是百年无效，不要用！
language_type = CHN_ENG 识别语言类型。默认中英。

Body的数据如图所示：
一篇文章搞定百度OCR图片文字识别API

然后就可以点Send发送请求了。
成功后，可以得到百度云返回的一个JSON数据，类似下图：
一篇文章搞定百度OCR图片文字识别API

返回的是一行一行的识别字符。百度云的识别率是相当高的，几乎100%吧。毕竟是国内本土的机器训练出来的。

API常用地址

以下是百度云的OCR常用API地址，每个API所需的参数都差不多，略有不同。所有的API和地址以及详细所需的参数，参考官方文档，很简单。一个弄明白了就其他的都明白了。

API	请求地址	调用量限制
通用文字识别	https://aip.baidubce.com/rest...	50000次/天免费
通用文字识别（含位置信息版）	https://aip.baidubce.com/rest...	500次/天免费
通用文字识别（高精度版）	https://aip.baidubce.com/rest...	500次/天免费
通用文字识别（高精度含位置版）	https://aip.baidubce.com/rest...	50次/天免费
网络图片文字识别	https://aip.baidubce.com/rest...	500次/天免费

ocr api 文字图片 ocr文字识别

那年夏天

0 关注 0 粉丝 0 动态

相关推荐

Android 图片文字识别DEMO（基于百度OCR）

OCR 是 Optical Character Recognition 的缩写，翻译为光学字符识别，指的是针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技

alanlonglong 2020-06-14

利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

我们搞技术的，当然得自己学着解决现在的痛点。首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M，超过了便要收费了。

chenzhx 2019-09-06

如何使用Python进行OCR识别图片中的文字

OCR1，全称Optical character recognition，或者optical character reader，中文译名叫做光学文字识别。它是把图像文件中的手写文本，打印文本转换为机器编码文本的一种方法。OCR技术广泛用于识别打印纸张中的文

我心飞翔之家 2019-04-01

PHP+百度AI OCR文字识别实现了图片的文字识别功能

-const APP_ID = '请填写你的appid';"words": "无论对方富有或贫穷。

机器之心 2019-05-08

集成百度OCR

目前Android这块没有理想的免费OCR开源框架,项目需要,我们选择了百度的OCR 产品;这里以AS开发环境,身份证信息识别功能为例,阐述集成使用ORC的过程;private static final String APIKey = "官网上传

doomvsjing 2020-06-11

使用Tensorflow Object Detection API进行集装箱识别并对集装箱号进行OCR识别

两年多之前我在“ex公司”的时候，有一个明确的项目需求是集装箱识别并计数，然后通过OCR识别出之前计数的每一个集装箱号，与其余业务系统的数据进行交换，以实现特定的整体需求。当时正好Tensorflow Object Detection API 发布了，就

lybbb 2020-03-27

selenium+云打码+百度ocr爬取360的电话号码标记

写了个脚本，用于从www.so.com 上查询电话号码的标记情况，记录下号码所属公司、标记类型、标记人数。如下图红框中的信息。主要使用python的beautifulsoup和selenium，还用到了云打码平台和百度OCR。约4-8秒处理一个号码，只能单

云之高水之远 2019-11-10

selenium+云打码+百度ocr爬取360的电话号码标记

写了个脚本，用于从www.so.com 上查询电话号码的标记情况，记录下号码所属公司、标记类型、标记人数。如下图红框中的信息。主要使用python的beautifulsoup和selenium，还用到了云打码平台和百度OCR。约4-8秒处理一个号码，只能单

amei0 2019-11-10

PHP OCR实战：用Tesseract从图像中读取文字

它有各种各样的实际应用–从数字化印刷书籍、创建收据的电子记录，到车牌识别甚至破解基于图像的验证码。Tesseract是一个能实现OCR的开源项目。你能在*Nix系统，Mac系统和Windows系统上运行这个项目，但是只要使用一个库，我们就能在PHP项目中使

LipperZ 2016-01-15

达观数据融合自研OCR与NLP技术推出智能RPA<

2019 年7月 26 日，人工智能企业达观数据在北京召开“达道至简”为主题的产品发布会，正式推出国内首款自主研发集OCR与 NLP于一体的达观智能RPA。RPA作为一种软件产品和解决方案，在国外市场上已进入大规模发展应用。RPA 的价值在于将企业重复性劳

WarGamesdc 2020-06-30

OCR文字识别技术为人工智能添彩

当代可为是一个科学技术的社会，日新月异的科学技术正在飞速发展，生活中处处都能感受到科学技术就在身边以强有力的步伐在发展。科技的魅力就在于它正在改变着我们的生活，同时改变着世界。经过多年的创新与发展，文通科技现已成长为国内知名的高新技术企业，在全国十余个城市

luoyouren 2019-10-29

Readiris Corporate 17 for Mac(专业光学识别OCR软件)

Readiris Corporate 17 Mac是一款功能强大的专业光学识别OCR软件，可识别128种文字语言！Readiris Corporate Mac能够帮助你将纸张、PDF文件、图片文字的文字元素扫描成文字，具有自动识别和自动分析的功能，识别效率

Charliewolf 2019-10-22

OCR SDK开发者平台新增人证API接口

今年9月3-5日在厦门举办第九届金砖五国峰会。而对于召开如此重要的峰会来说，社会治安这点是很重要一点。那么，砖五国峰会期间，如何高效处理好周边的安防问题？这里，不得不提云脉人证一致解决方案了！该方案凭借其更高的可靠性、安全性和可用性优势，将成为厦门金砖会议

liuweiITlove 2017-07-28

win10预览版10074再次更新:OCR中文语言包

　　今天微软向用户推送了最新win10预览版10074更新，内容主要是OCR简体中文语言包更新。用户可以通过设置应用中的windows更新下载安装OCR简体中文语言包。一起接下去看看win10预览版10074更新:OCR中文语言包的具体内容吧！但实际安装后

regina 2015-05-12

[译]OpenCV OCR and text recognition with Tesseract

几周前,我向您展示了如何执行文本检测使用OpenCV的EAST深度学习模型。下一步是把这些区域包含文本和实际识别和OCR文字使用OpenCV和Tesseract。为了执行 OpenCV OCR 和文本识别任务，我们首先需要安装 Tesseract v4，包

Jasterwisdom 2019-07-01

OCR：精准、稳定、易用的文字识别

大家好，今天给大家介绍精准、稳定、易用的文字识别应用服务OCR。由此可见OCR实际上是让计算机认字，实现文字的自动输入，它是一种快捷、省力、高效的文本输入方法。需要注意的是OCR是指文字识别，但是OCR所采用的技术不仅仅是适用于文字识别。华为云学院现已发布

LinBSoft 2019-07-01

如何精准实现OCR文字识别？

欢迎大家前往腾讯云+社区，获取更多腾讯海量技术实践干货哦~前言2018年3月27日腾讯云云+社区联合腾讯云智能图像团队共同在客户群举办了腾讯云OCR文字识别——智能图像分享活动，活动举办期间用户耐心听分享嘉宾的介绍，并提出了相关的问题，智能图像团队的科学家

nanqi 2019-06-28

OCR如何读取皱巴巴的文件？深度学习在文档图像形变矫正的应用详解

譬如：支付宝需要对用户的身份证信息进行审核，1688需要对卖家的营业执照进行审核。此外，还有一些业务涉及的是需要专业人士才有足够能力进行审核的信用证和保单。近年来，人工智能在越来越多的任务中的表现已经超过了人类。除却算法本身，图像质量乃是影响OCR识别准确

HappinessSourceL 2019-06-28

只需5分钟，Python就可以建一个OCR服务器！附赠python学习资料

OCR已经成为Python的一个常用工具。随着开源库Tesseract和Ocrad的出现，越来越多的程序员用OCR来编写自己的库文件和bot病毒。一个OCR的小例子，如用OCR直接从截图中提取文本，省去了重新键入的麻烦。开始之前，我们需要开发一个后端服务层

petal0 2019-05-27

百度是如何做OCR结构化处理的？|技术头条

OCR技术是目前常用的一种AI能力。但一般OCR的识别结果是一种按行输出的半结构化输出。本次公开课我们邀请到了百度高级研发工程师向宇波老师，他将在12月20日（周四）带来一场主题为《基于模板的文字识别结果结构化处理技术》的分享。

我心飞翔之家 2019-05-04

那年夏天

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号