BR 技术头条
52 www.52nlp.cn / 2022-12-10 22:41 / by @技术头条 / 原作者:@52nlp

OCR技术发展综述与达观数据的实践经验

光学字符识别OCR技术(Optical Character Recognition)是指从图像中自动提取文字信息的技术。这项技术横跨了人工智能里的两大领域:CV(计算机视觉)和NLP(自然语言处理),综合使用了这两大领域中的很多技术成果。

在过往40余年的技术发展历程中,OCR始终具备很强的产业应用背景,是计算机领域里少数几个一开始就由工业界和学术界双轮驱动的领域。近年来OCR技术已经在工业界成熟落地应用,学术界里对此的研究热度反而弱于其他方向。甚至有人认为OCR技术已经充分成熟,没有更多研究必要了。然而随着近年来智能文本处理IDP(Intelligent Document Processing)在工业界的逐步落地应用,OCR和IDP相结合的应用场景越来越多,用语义理解NLP的角度进一步去延伸OCR的应用,出现了很多更有产业应用价值的场景。本文回顾了OCR技术的发展历程,并结合达观数据在工程实践方面的经验,介绍与语义分析技术结合后,当前OCR技术的一些最新发展和落地经验。

发表评论

相关分享

db www.dbform.com / 2026-05-07 14:12

OpenClaw 发展历程表:从 clawdbot 到 openclaw

这份时间线,是从 v2026.1.5 开始往后捋。按 release 命名和说明来看,这一版基本可以当成项目正式进入 clawdbot 阶段的起点。后面它先经历了 clawdbot、Clawdbot 这几个写法上的变化,中间还短暂改名成过 Moltbot,直到 v2026.1.29 前后才真正把名字切到 openclaw。

无图
zh www.zhengwenfeng.com / 2025-11-12 00:32

Go协程池深度解析:原理、实现与最佳实践

文章系统解析 Go 协程池的实现原理和实践,包括为何需要协程池、基本实现方式、协程数设置依据及性能对比测试。示例代码演示如何手动构建协程池,并推荐三种高性能第三方库(如 ants、tunny)。适合进行高并发控制和资源管理优化的场景。

无图
ix ixyzero.com / 2025-01-12 12:08

学习了解数据仓库中的分层概念

本文详细介绍了数据仓库的分层概念,包括数据运营层(ODS)、数据仓库层(DW)和数据应用层(APP)。其中,DW层进一步细分为数据明细层(DWD)、数据中间层(DWM)和数据服务层(DWS)。文章阐述了各层的功能和作用,并通过实例说明如何在实际业务中应用这些分层概念。该内容适合数据工程师、数据分析师、数据架构师以及对数据仓库设计和实现感兴趣的技术人员阅读。

无图
cr crossoverjie.top / 2025-01-12 12:04

如何选择可以搞钱的技术栈

文章探讨了如何选择有助于提升收入的技术栈。作者建议关注数据库、云原生技术(如 Kubernetes)、消息队列(如 Pulsar)等在企业中需求广泛且付费意愿强的领域。深入掌握这些技术有助于在求职和职业发展中获得更高回报。适合后端开发者、架构师以及希望提升自身市场价值的技术从业者阅读。

无图
so soulteary.com / 2025-01-12 12:02

突破内存限制:Mac Mini M2 服务器化实践指南

文章介绍了如何将 Mac Mini M2 转变为高性价比的服务器,突破内存限制。作者通过安装 Ubuntu 系统,利用持久化 KV 系统替代传统 Redis,优化内存与硬盘的数据交换,提升性能。适合对家庭服务器搭建、Mac Mini 改造、Linux 系统部署感兴趣的技术爱好者和开发者。

无图
bl blog.delphij.net / 2025-01-03 00:15

数据的长期保存

这篇文章探讨了长期数据保存的策略与实践,详细分析了存储介质的选择、数据完整性保障方法以及常见的管理问题和解决方案。作者结合实践经验,提出了一套适用于个人和企业的数据保存规划。内容适合关注数据存储、安全备份及长期保存技术的开发者、IT 管理人员,以及对数据安全感兴趣的读者,提供了具有实用价值的参考建议。

无图
pa paper.seebug.org / 2025-01-03 00:07

探索 AI 驱动的网络安全框架:深度学习技术、GPU 支持和未来增强

这篇文章详细分析了现代网络攻击中的 DGA(域名生成算法)技术,涵盖了其工作原理、分类及在恶意软件中的应用实例。通过技术解析和实际案例,展示了如何检测和防御 DGA 带来的安全威胁。内容适合网络安全研究人员、安全工程师以及对恶意软件分析感兴趣的技术爱好者,提供了系统化的学习参考。

无图
so soulteary.com / 2025-01-02 23:58

ThinkPad + Redis:构建亿级数据毫秒级查询的平民方案

如何用普通设备实现海量数据的毫秒级查询?文章分享了在 ThinkPad 上构建 Redis 系统的完整方案,详细解析了数据分片、查询优化和资源调配等关键技术,还提供了针对高效查询的实际案例。轻量化实现,高性能表现,为开发者提供了实用的参考思路,值得深入学习!

无图
in innei.in / 2024-11-23 21:56

Vercel 部署的单页应用(SPA)动态 Meta 标签实践

在 Vercel 部署的单页应用(SPA)中,配置动态 Meta Tags 可改善 SEO 和分享体验。通过中间层实现 SSR 或利用 Edge Functions 渲染动态标签,可让每个页面呈现独立内容,兼顾性能与优化效果!

无图