Skip to content

OCR 文字识别

iClick 提供了内置的 OCR(光学字符识别)功能,可以满足绝大部分自动化场景的文字识别需求。本文将说明内置 OCR 的优势,以及为什么不集成 PaddleOCR 等第三方 OCR 库。

工作原理

iClick 的内置 OCR 在 iPhone 设备端进行识别,而非在电脑主机端运行。

核心优势

  • 全球多语言支持:基于iOS系统能力,支持全球 18+ 主流语言,无需额外配置
  • 零主机资源占用:识别过程在 iOS 设备上完成,不消耗电脑 CPU、内存、显卡资源

适用场景

内置 OCR 可以满足绝大部分自动化需求:

  • ✅ 应用界面文字识别/按钮和菜单文字提取
  • ✅ 消息通知内容识别/游戏内文字识别
  • ✅ 简单的数据采集任务

推荐

如果您的需求不涉及大量文档扫描,内置 OCR 完全够用,无需考虑第三方 OCR 库。

为什么不集成第三方OCR ( 以百度paddleOcr为例 )

1. 模型文件过于庞大,单独集成某个语言不具备通用性

PaddleOCR 等深度学习 OCR 库的模型文件非常庞大

  • 单个语言模型:通常 100MB - 500MB
  • 多语言支持:需要下载多个模型,轻松超过 1GB - 3GB
  • 高精度模型:可能达到 5GB 甚至更大
  • 每种语言的服务需要单独的模型文件

2. GPU 版本要求苛刻

硬件限制

  • ⚠️ 仅支持 NVIDIA 显卡(AMD 显卡、集成显卡无法使用)
  • ⚠️ 需要中高端显卡:RTX 2060 或更高
  • ⚠️ 官方虽然有CPU版本但是效率上不具备可用性

性能瓶颈

即使是独立显卡,性能也很有限。以 RTX 3060 + 15 台 iPhone 进行按钮识别为例:

配置:NVIDIA GeForce RTX 3060 (12GB)
设备:15 台 iPhone
优化:极致的并发控制和性能优化
结果:
  - GPU 已满负荷运行(100% 占用)
  - OCR 识别速度慢到几乎无法忍受
  - 整体性能严重下降

你仍然可以使用第三方OCR

如果您仍然需要使用 PaddleOCR 等第三方 OCR 库(如文档扫描、特定语言识别等场景),并且手上有高性能的 NVIDIA 显卡,您完全可以自行集成

自行集成的优势

实际上,将 PaddleOCR 等 OCR 库搭建成独立服务是一件非常简单的事情:

  • 🚀 代码量少 - 搭建一个基础的 OCR HTTP 服务只需要几十行代码
  • 🔧 灵活可控 - 可以选择自己想要的语言模型,定制功能和参数
  • 🎯 专项优化 - 针对特定场景(如验证码)进行模型调优

适用场景

第三方 OCR 适合以下特殊场景:

场景推荐方案说明
验证码识别专用验证码模型针对性训练,识别率更高
特定语言对应语言模型如小语种、方言等
手写文字手写识别模型内置OCR对手写支持有限
表格识别表格专用模型结构化数据提取
文档扫描高精度模型大批量文档处理

商务合作:try.catch@foxmail.com