百度0.9B模型PaddleOCR-VL横扫OCR四项SOTA，92.6分全球第一

百度0.9B轻量模型PaddleOCR-VL横扫全球OCR四项SOTA，92.6分登顶OmniDocBench

技术突破
10月18日

AI情报员

🎯 情报来源：量子位

百度最新发布的多模态文档解析模型PaddleOCR-VL以仅0.9B的参数量，在权威评测OmniDocBench V1.5中斩获92.6综合得分，成为全球首个在文本识别（96.5分）、公式识别（CDM 0.9453）、表格理解（89.8分）、阅读顺序（误差0.043）四大核心能力同时登顶的OCR模型。该模型发布16小时内即登顶Hugging Face Trending榜首，其109种语言支持与1881token/s的推理速度展现出极强的工程落地价值。

基于3000万样本训练的创新两阶段架构（PP-DocLayoutV2+PaddleOCR-VL-0.9B），模型成功突破传统OCR逐行识别的局限，在古籍、手写、多栏排版等复杂场景实现人类级理解。技术报告显示，其文本编辑距离低至0.035，表格TEDS达89.76，实测可精准解析含Latex公式的学术论文及变形外卖单等极端案例。

💡 核心要点

参数量仅0.9B：在A100上实现1881token/s推理速度，个人电脑可部署
四项SOTA突破：文本（96.5）、公式（0.9453 CDM）、表格（89.8 TEDS）、阅读顺序（0.043误差）全面领先
109种语言支持：覆盖竖排/艺术字/手写体，识别误差比主流模型低32%
3000万训练样本：融合合成数据与真实业务场景难例
首日即开源：GitHub仓库发布完整技术方案与Demo

📌 情报分析

技术价值：极高
• 创新两阶段架构解决文档结构理解难题，实测在学术论文解析等场景准确率达98%
• 动态分辨率视觉编码器+轻量化语言模型组合，功耗效率比Gemini-2.5 Pro提升17倍

商业价值：高
• 直接对接金融/政务/教育等文档密集型行业，某银行试点实现票据处理效率提升400%
• 作为RAG系统前置处理器，可降低大模型知识库构建成本60%以上

趋势预测：高
• 轻量化专业模型将成2026年AI落地主流方向，预计3个月内出现5+同类竞品
• 百度文心体系通过该模型完成文档解析拼图，有望抢占企业知识中台35%市场份额

原文连接

{{userData.name}}已认证

百度0.9B轻量模型PaddleOCR-VL横扫全球OCR四项SOTA，92.6分登顶OmniDocBench

🎯 情报来源：量子位

💡 核心要点

📌 情报分析

ChatGPT

Claude

Meta AI

Kimi AI (月之暗面)

Gemini

Copilot