2021年9月,上海古籍出版社启动建设的“汇典·古籍数字服务平台”,项目聚合上海、长三角乃至更广泛地区出版社的优质古籍资源(预计超过10亿字),利用最新光学文字识别(OCR)、自然语言处理、大规模语料库和机器学习标点等古籍智能算法技术,建设面向传统文化与古籍行业的知识服务平台。
平台首页
(1)这一平台的OCR系统、自动标点与自动标引技术开发都已初见成效。其中OCR技术可以迅速识别一本书,准确率达93%,即将进一步研发,目标准确率97%。达到理想准确率后,剩下的疑难问题通过专家学者可以较快完成,把学者从大量简单重复的劳动中解放出来。
(2)这一平台还通过解析上海古籍出版社海量古籍资源内容,对其进行知识结构化揭示,重构原有的古籍内容组织形式,并创建全新的知识模块,实现古籍资源的知识化、专业化服务。
(3)在光学文字识别、自然语言处理、大规模语料库和机器学习等古籍智能算法技术的基础上,该平台赋能古籍整理出版、学术研究和国学传习,形成一个链接并服务古籍整理出版者、古籍专业研究者、传统文化爱好者的古籍内容生产与知识服务的数字化开放平台。
数据库产品页