小书芽扫描件(图片)识别使用指南
功能概要
基于视觉大模型技术,支持对扫描版PDF文档及图片进行文本识别,特别优化了对古文断句和繁体字转换的支持。
- 对于非扫描版pdf,在本模块下,也是将pdf一张一张转化为图片后进行识别。
功能截图
注意事项
模型选择限制:
- 仅支持选择视觉模型进行处理
- 仅支持选择视觉模型进行处理
模型性能对比:
- 智谱AI GLM-4V-FLASH:
- 优点:免费模型,响应速度快
- 缺点:繁体字转换和文言文断句效果一般
- 硅基流动 Qwen/Qwen2.5-VL-72B-Instruct:
- 优点:识别精度高,支持复杂文本处理
- 缺点:处理速度较慢
- 备注:可使用硅基流动注册赠送的额度
- 智谱AI GLM-4V-FLASH:
推荐配置:
- 对精度要求高的文档建议使用Qwen2.5-VL-72B-Instruct模型
- 对速度要求高的场景可使用GLM-4V-FLASH模型