标签:设计 端口 css 一段 python trap 流水线 自己的 时间
这是我在给公司打工时候做的工作,现在这部分已经完成的差不多了,所以特别的在自己的博客上记录一下,给自己看,也是给有缘人看,说不定会给你灵感。
给公司设计一个工具,它的输入是pdf文档,其中的内容是图片格式的许多法律条文。程序会读取所有的pdf文档,使用OpenCV对图片进行切割,使用pytesseract进行ocr识别,然后使用regular Expression剔除脏东西,保存成格式化的文件,这里为了快速测试,使用了csv。
工具的最终目的,是当用户随意输入一段条文时,工具会检索已经生成好的csv文档,并将用户输入与数据库中的相互比较(这里使用了tensorflow),最后输出前N个数据库中存储的类似条文。
工具设计完以后,我使用FLask + Html + css +boostrap ,做了一个简单的web gui。
以上是准备工作,不打算细讲,就是搭一个流水线,这篇内容主要记录的是如何将着一切复制到云端进行网页部署,最后让所有人能够使用。
以下是大类,按照时间顺序排列
以上内容会缓慢更新。
更新日期:6.26 星期五
Azure (Google Cloud) + Flask + Tensorflow + OpenCV + pytesseract + Gunicorn + Apache2 应用部署
标签:设计 端口 css 一段 python trap 流水线 自己的 时间
原文地址:https://www.cnblogs.com/kykai/p/13197148.html