向大佬低头：用AWS Textract的Demo程序搞定图片转表格

前天折腾了一整天图片转表格并以失败告终，还被媳妇一通嘲笑，哎，郁闷呀。为了不被她看扁，我决定一定要把期中考试的成绩表弄出来。

(图源：pixabay)

话说，PadlleOCR没安装明白（安装成功之后不好用），EasyOCR安装倒是出奇地顺利，但是对付简单的英文表格尚可，期中成绩表识别得一塌糊涂。

那么是否还有其它可用的OCR方案呢？看了一下img2table支持的OCR服务还真不少：

咦，AWS竟然也有OCR服务：Textract，不过简单研究了一下，这个Textrac和上边我提到的两种OCR方案是有所区别的，之前的两种都是把OCR工具以及识别模型部署到本地，而Textract本质上把数据上传到AWS，然后再返回识别的内容。

并且和上述两个OCR方案是免费提供的不同，Textract是要花费Money的：

这个价格咋说呢？如果我每月就识别几张表格，那么还要花费$15的费用，简直是亏大了。如果有pay as you go，计费方案，折合算下来每页倒是很便宜，可惜没找到这样的计费方式。

总之，对我这种每月识别不了几张表格的人，费尽周折弄一些API接入，再每月被扣费$15，用Textract太不合算啦。

然而，当我即将果断放弃时，我注意到页面上这样一组字样：

这是什么意思？是我可以免费试用Textract工具嘛？不用和API打交道？这倒是极有吸引力呀？点开看看

首先映入眼帘的是一个文档识别的示例，从示例上可见是相当之强大：

在其下方，可以选择示例文档，也可以自己穿文档，那当然是自己上传了，哈哈哈

我们选择从本地上传：

上传文档中：

上传成功：

在这里选择如何处理文档，我选择的表格：

处理中

处理完成

选中后，下载按钮（Download result）变为可用，我们就可用将其下载到本地啦。

下载完成并解压后，发现文件夹中包含两个文件：

看了一下Excel，数据都有，但是表格格式全部丢失，里边的中文数据全都不见了：

而且，每项数据都给在前边给我加了个'，好在加得很规律，可以用替换功能清理掉。

于是我组合上了上述Textract得到的数据，以及之前用img2table得到的空表格，以及之前班级群里得到的学号以及学生的对应表，成功地复原了期中考试的成绩表。

没想到API没用成，竟然另辟蹊径地解决了这个问题，哈哈哈，这次看谁还可以嘲笑我？😡

你可能会问，之前不说不用在线转换程序嘛？好吧，Amazon毕竟大佬（窃取或者泄露信息的概率很低），向大佬低头并不可耻。😳

相关链接