1.前言
最近答题类app比较火爆,由于题目广并且时间短,自己打字搜索是不太可能的了,于是想自己做一个自动搜索的Python脚本
该Python脚本的原理是用adb工具将手机截图传到电脑上进行文字识别,然后百度搜索该问题,打开浏览器时间还是比较慢的
2.文字识别库pytesseract
2.1 pytesseract库的安装
这个库的安装特别容易,在命令行中输入
pip install pytesseract
即可安装
2.2 tesseract ocr引擎
tesseract ocr引擎是一个开源的强大引擎,安装Windows然后通过相关变量设置即可使用
2.3 image_to_string函数
该函数为pytesseract库的方法,将图片文本转换为文字
from PIL import Image
import pytesseract
question_text = pytesseract.image_to_string(question_img, lang='chi_sim').replace(' ','')
上述为基础用法,并且将空格替换掉
3.adb工具
3.1简介
adb全名Android Debug Bridge,通过该工具,可以在电脑端的命令行与安装手机进行交互,前提是手机开启USB调试
adb有很多功能,它可以模拟屏幕触击,之前火热的跳一跳辅助正是利用该原理进行操作的
3.2python代码中使用adb
python代码中使用adb shell很简单
import os
def pull_screenshot():
os.system('adb shell screencap -p /sdcard/screenshot.png')
os.system('adb pull /sdcard/screenshot.png')
这样操作便可以模拟命令行输入将手机端截图发送至脚本目录
4.完整代码
from PIL import Image
import pytesseract
import time
import os
import webbrowser
def pull_screenshot():
os.system('adb shell screencap -p /sdcard/screenshot.png')
os.system('adb pull /sdcard/screenshot.png')
def main():
pull_screenshot()
img = Image.open("./screenshot.png")
question_img = img.crop((65,350,1019,621))
question_text = pytesseract.image_to_string(question_img, lang='chi_sim').replace(' ','')
webbrowser.open("https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd="+question_text)
if __name__ == '__main__':
main()
使用之后发现耗时还是比较久的,在识别1-2s后才能打开浏览器进行搜索,然后我们再找答案的话就可能时间到了
于是改进可以使用爬虫,选定搜索结果的相关网页进行关键词的搜索,进行答案的排查搜索