小书芽扫描件(图片)识别使用指南

功能概要

基于视觉大模型技术，支持对扫描版PDF文档及图片进行文本识别，特别优化了对古文断句和繁体字转换的支持。

对于非扫描版pdf，在本模块下，也是将pdf一张一张转化为图片后进行识别。

功能截图

功能截图首页运行效果截图

注意事项

模型选择限制：
- 仅支持选择视觉模型进行处理
模型性能对比：
- 智谱AI GLM-4V-FLASH：
  - 优点：免费模型，响应速度快
  - 缺点：繁体字转换和文言文断句效果一般
- 硅基流动 Qwen/Qwen2.5-VL-72B-Instruct：
  - 优点：识别精度高，支持复杂文本处理
  - 缺点：处理速度较慢
  - 备注：可使用硅基流动注册赠送的额度
推荐配置：
- 对精度要求高的文档建议使用Qwen2.5-VL-72B-Instruct模型
- 对速度要求高的场景可使用GLM-4V-FLASH模型