合合信息与上海大学联合开启贵州原生态古彝文典籍数字化项目

古彝文传承至今已有数千年前史,是国际上最陈旧的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企协作协议,两边将合力完结以国家宝贵古籍《西南彝志》为中心的贵州古彝文图画辨认及数字化校正项目(简称“古彝文数字化项目”)。

上海大学社会学院院长黄晓春、合合信息智能技能渠道事业部副总经理郭丰俊一起到会签约典礼

此前,在我国西南多家高校的一起努力下,标准和通用彝文的数字化作业获得了重要打破,而上海大学携手合合信息推动的古彝文数字化项目,更侧重于对原生态彝文辨认的攻坚克难。项目将依据上海大学古彝文研讨员规划的四字节编码体系,引进合合信息智能文字辨认技能,对异体字、变体字、误用字和混用字等进行标示、辨认、比对,并由此建立起准确的彝文古籍电子数据库,在古彝文研讨范畴归于创始。

因为古彝文没有获得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出书时,需由一位彝文缮写员先将彝文字和国际编码抄写在册页的左边,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,构成现在常见的“四行体”彝汉文对译,进程相对繁琐。

毕节市彝文文献翻译研讨中心展现汉译书稿

古彝文与汉字并非一 一对应联系,存在很多的异体字、变体字。在相对标准的汉译著彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经收拾标准的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研讨人员泄漏,若想要找到某个字在一本古籍里的悉数样例,手动查阅需求消耗一整天,如建立起完善的古彝文数据库和翻译体系,可极大提高研讨功率。

“汉文古籍辨认所面临的页面破损、字形杂乱、笔迹含糊等问题,在彝文古籍辨认中悉数存在,还有一些使命是愈加特别的。”合合信息智能技能渠道事业部副总经理郭丰俊博士说到,彝文古籍经常呈现加字、替字、整句倒置、文字方向不一致等现象,给文字定位形成应战。再加上古彝文从未通过一致,异体字、变体字很多。合合信息将根据“AI+OCR”交融下的智能文字辨认技能,处理古彝文辨认的版式检测、图画处理和文字辨认的难题。

据悉,2021年、2022年国际人工智能大会上,合合信息用AI技能对甲骨文、西周钟鼎文进行精准辨认遭到重视。郭丰俊博士表明,甲骨文和古彝文追溯源头都归于以描写符号表意的文字,两种文字的辨认方法有相通之处,此次古彝文数字化项目的敞开,也成为合合信息智能文字辨认技能赋能文字维护及文明传承的重要里程碑。

返回资讯列表