在Linux上使用gImageReader从图像和PDF中提取文本
简介:gImageReader是一个GUI工具,用于使用tesseract OCR引擎从Linux上的图像和PDF文件提取文本。
gImageReader 是前端 Tesseract开源OCR引擎.. Tesseract最初是在HP上开发的,于2006年开源。
基本上,OCR(光学字符识别)引擎使您可以扫描图像或文件(PDF)中的文本。它默认可以检测多种语言,还支持扫描Unicode字符。
但是,Tesseract本身是没有GUI的命令行工具。因此在这里,gImageReader可以帮助并允许所有用户使用它来从图像和文件中提取文本。
让我强调一些有关它的内容,指的是我测试时的经验。
gImageReader:Tesseract OCR的跨平台前端
为了简单起见,gImageReader可用于从PDF文件或包含任何类型文本的图像中提取文本。
对于拼写检查或翻译所必需的特定用户组而言,它应该很有用。
列表中的功能可以总结如下:
- 从磁盘,扫描设备,剪贴板,屏幕截图添加PDF文档和图像
- 旋转图像的能力
- 常见的图像控件,用于调节亮度,对比度和分辨率
- 直接从应用程序扫描图像
- 能够一次处理多个图像和文件
- 定义手动或自动识别区域
- 纯文本或 人格 文档
- 显示已识别文本的编辑器
- 您可以拼写检查提取的文本
- 将hOCR文档转换/导出为PDF文档
- 将提取的文本导出为.txt文件
- 跨平台(Windows)
在Linux上安装gImageReader
警告:必须明确安装Tesseract语言包,才能从Software Manager映像/文件中检测到它。
gImageReader在某些Linux发行版(例如Fedora和Debian)的默认存储库中。
对于Ubuntu,您需要在安装前添加PPA。为此,您需要在终端中输入以下内容:
sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader
您也可以从构建服务中为openSUSE找到它,AUR将成为Arch Linux用户的地方。
所有到存储库和软件包的链接 GitHub页面..
gImageReader体验
gImageReader是一个非常有用的工具,可在需要时从图像中提取文本。 从PDF文件尝试一下,它可以工作。
从使用智能手机拍摄的照片中提取图像时,检测很接近,但有点不准确。扫描某些内容可以改善文件中字符的识别。
因此,您必须尝试一下以查看其在用例中的工作情况。 我在Linux Mint 20.1(基于Ubuntu 20.04)上进行了尝试。
我在从设置中管理语言时遇到问题,但是无法快速解决。如果遇到问题,我们建议您进行故障排除并找到有关解决方法的更多信息。
除此之外,它运行良好。
试试看,让我知道它如何为您服务!如果您知道类似(和更好)的内容,请在下面的评论中让我知道。