🎯 情报来源:量子位
来自A*STAR、NUS、NTU、清华、南开等机构的VYU团队最新研究发现,当前最先进的AI大模型在识别经过简单切割处理的文字时表现糟糕。在针对100个四字成语(汉字切割重组)和100个八字母英文单词(颜色叠加)的测试中,包括GPT-5、Gemini 2.5 Pro、Claude、Qwen3-Max等模型几乎全部失败,而人类受试者却能轻松识别。
测试结果显示,即使是最新发布的GPT-4o和Kimi 2模型,在汉字切割测试中的准确率不足10%,英文单词颜色叠加测试中最高准确率仅达到23%。这种表现与人类近乎100%的识别率形成鲜明对比。
💡 核心要点
- 测试涵盖10+主流大模型,包括GPT-5/Gemini 2.5 Pro/Qwen3-Max等,识别准确率均低于25%
- 100个切割汉字测试中,最佳模型表现仅正确识别9个成语
- 颜色叠加的英文单词测试,人类识别准确率98% vs AI最高23%
- 问题根源:AI缺乏符号分割与组合的认知机制
- 影响领域:教育辅助、文献数字化、内容审核等关键应用场景
📌 情报分析
技术价值:高
揭示当前多模态模型的本质缺陷 – 仍依赖模式匹配而非结构理解,为改进视觉-语言融合提供明确方向(测试数据可作为基准数据集)
商业价值:一般
短期内可能影响AI在教育/安防等领域的应用可信度,但催生新的模型优化需求(如特定场景的增强训练)
趋势预测:极高
将加速「结构感知AI」研发:1)2026年前可能出现专用文字结构解析模块 2)下一代多模态模型训练必含切割文本数据(论文已提供标准测试集)
