标准、平台统一与资源整合——多语言知识库建设的思考和建议 - 中欧社会论坛 - China Europa Forum

标准、平台统一与资源整合——多语言知识库建设的思考和建议

王铁琨

2008

云南师范大学学报(哲社版)》2008 年第6 期

一、多语言知识库的建设

“多语言知识库”是教育部语言文字信息管理司立项支持的民族语言文字标准化、信息化重大项目,也是“中国语言资源数据库”建设和“民族语言文字信息化平台”的重要组成部分。研讨和组织建设多语言知识库,是一个功在当代、利及子孙、造福国家民族的系统工程。

中国是一个统一的多民族国家。中国要和平发展,必须推广使用一种各民族共同接受的语言文字,即普通话和规范汉字。与此同时,中国通过立法和一系列语言规划,科学处理语言文字主体性和多样性的关系,推动国家通用语言文字和少数民族语言文字的学习、使用和共同发展,中国的《宪法》《民族区域自治法》 和《国家通用语言文字法》都明确规定“各民族都有使用和发展自己语言文字的自由”。

二、多语言知识库与当今全世界语言工作者共同关心的三个问题

解决语言问题、保护语言资源、维护语言权利,这是当今全世界的语言工作者共同关心的三个问题。“多语言知识库”,既涉及语言问题的解决,也涉及语言资源的保护,更涉及语言权利的维护。所以,提出“多语言知识库”这个命题很有价值。2004 年以来,教育部语言文字信息管理司与有关高校和行政主管部门合作,陆续组建了国家语言资源监测与研究中心的平面、有声、网络、教育教材、海外华语和少数民族语言六个分中心,并通过各分中心建设的动态流通语料库,有计划地开展语言使用实态的考察与研究,范围几乎涉及到中国各种语言文字及各个应用领域、层面。监测研究的相关成果和数据,以“中国语言生活绿皮书”和《中国语言生活状况报告》的形式定期向社会发布。这一举措,使国家语言资源得到了一定程度的保护和开发,使社会语言生活得到了科学、健康的引导,监测、研究成果在国内外学术界和社会上均产生了积极的反响。这也是“多语言知识库”的一部分。

三、多语言知识库建设中应注意的问题

多语言知识库的建设受到三个方面的制约,必须引起人们的重视。一是统一标准。“多语言知识库”建设首先要坚持统一标准,否则无法做到兼容和共享。这个标准就是国际标准,以及在ISO/IEC 10646 框架下的国家标准。二是统一平台。“多语言知识库”建设要坚持统一平台。信息技术产品和科研成果,要克服平台不统一带给人们的困惑和烦恼。

三是资源整合。语言资源有语种之分(如汉语、藏语、蒙语、维吾尔语等),有地域之分(民族语言也有各种方言,如藏语就有三大方言),有古今之分(如蒙文有现代蒙古文与古八思巴文),有境内境外之分(许多跨境语言文字如傣文、苗文、哈萨克文,境内外有程度不同的区别),从载体上又可以区分为平面媒体语言、有声媒体语言和网络媒体语言。如何科学地采集和整合这些重要的语言资源,也需要研究和规划。

This document in different languages