Skip to content

小书芽扫描件(图片)识别使用指南

功能概要

基于视觉大模型技术,支持对扫描版PDF文档及图片进行文本识别,特别优化了对古文断句和繁体字转换的支持。

  • 对于非扫描版pdf,在本模块下,也是将pdf一张一张转化为图片后进行识别。

功能截图

功能截图首页运行效果截图

注意事项

  1. 模型选择限制

    • 仅支持选择视觉模型进行处理 视觉模型配置截图
  2. 模型性能对比

    • 智谱AI GLM-4V-FLASH
      • 优点:免费模型,响应速度快
      • 缺点:繁体字转换和文言文断句效果一般
    • 硅基流动 Qwen/Qwen2.5-VL-72B-Instruct
      • 优点:识别精度高,支持复杂文本处理
      • 缺点:处理速度较慢
      • 备注:可使用硅基流动注册赠送的额度
  3. 推荐配置

    • 对精度要求高的文档建议使用Qwen2.5-VL-72B-Instruct模型
    • 对速度要求高的场景可使用GLM-4V-FLASH模型

小书芽-专业隐私完美保持排版的PDF翻译工具