OCR 文字识别

iClick 提供了内置的 OCR（光学字符识别）功能，可以满足绝大部分自动化场景的文字识别需求。本文将说明内置 OCR 的优势，以及为什么不集成 PaddleOCR 等第三方 OCR 库。

工作原理

iClick 的内置 OCR 在 iPhone 设备端进行识别，而非在电脑主机端运行。

核心优势：

✅ 全球多语言支持：基于iOS系统能力，支持全球 18+ 主流语言，无需额外配置
✅ 零主机资源占用：识别过程在 iOS 设备上完成，不消耗电脑 CPU、内存、显卡资源

适用场景

内置 OCR 可以满足绝大部分自动化需求：

✅ 应用界面文字识别/按钮和菜单文字提取
✅ 消息通知内容识别/游戏内文字识别
✅ 简单的数据采集任务

推荐

如果您的需求不涉及大量文档扫描，内置 OCR 完全够用，无需考虑第三方 OCR 库。

为什么不集成第三方OCR ( 以百度paddleOcr为例 )

1. 模型文件过于庞大，单独集成某个语言不具备通用性

PaddleOCR 等深度学习 OCR 库的模型文件非常庞大：

单个语言模型：通常 100MB - 500MB
多语言支持：需要下载多个模型，轻松超过 1GB - 3GB
高精度模型：可能达到 5GB 甚至更大
每种语言的服务需要单独的模型文件

2. GPU 版本要求苛刻

硬件限制

⚠️ 仅支持 NVIDIA 显卡（AMD 显卡、集成显卡无法使用）
⚠️ 需要中高端显卡：RTX 2060 或更高
⚠️ 官方虽然有CPU版本但是效率上不具备可用性

性能瓶颈

即使是独立显卡，性能也很有限。以 RTX 3060 + 15 台 iPhone 进行按钮识别为例：

配置：NVIDIA GeForce RTX 3060 (12GB)
设备：15 台 iPhone
优化：极致的并发控制和性能优化
结果：
  - GPU 已满负荷运行（100% 占用）
  - OCR 识别速度慢到几乎无法忍受
  - 整体性能严重下降

你仍然可以使用第三方OCR

如果您仍然需要使用 PaddleOCR 等第三方 OCR 库（如文档扫描、特定语言识别等场景），并且手上有高性能的 NVIDIA 显卡，您完全可以自行集成。

自行集成的优势

实际上，将 PaddleOCR 等 OCR 库搭建成独立服务是一件非常简单的事情：

🚀 代码量少 - 搭建一个基础的 OCR HTTP 服务只需要几十行代码
🔧 灵活可控 - 可以选择自己想要的语言模型，定制功能和参数
🎯 专项优化 - 针对特定场景（如验证码）进行模型调优

适用场景

第三方 OCR 适合以下特殊场景：

场景	推荐方案	说明
验证码识别	专用验证码模型	针对性训练，识别率更高
特定语言	对应语言模型	如小语种、方言等
手写文字	手写识别模型	内置OCR对手写支持有限
表格识别	表格专用模型	结构化数据提取
文档扫描	高精度模型	大批量文档处理