暨南大学东南亚主要华文媒体语料库投入试用

编辑:文学社区发表日期:浏览:0

经过近4年的艰苦努力,由暨南大学华文学院海外华语研究中心主持建设的东南亚主要华文媒体语料库近日投入试用。该语料库为国家语言资源监测与研究中心的重要课题,其建成将对海外华语研究、海外教材编写尤其是东南亚地区华语研究起到极大的促进作用。据海外华语中心刘华博士介绍,东南亚主要华文媒体语料库将于近日链接至华文学院院网站供广大师生试用。(检索网址:“在线语料检索系统”http://www.globalhuayu.com/corpus1/Search.aspx,“语料库用字用语检索系统”http://www.globalhuayu.com/corpus2.aspx,)

东南亚主要华文媒体语料库的语料主要来源于东南亚华文报纸、华语网站,以新加坡、马来西亚和泰国为主。该语料库的建设综合考虑了语料的可获取性、媒体影响和信息量三个因素。时间上动态更新,逐年增加;内容上,考虑不同主题的分布情况,如政治、经济、文化、教育等等。该语料库时间跨度为2005年——2008年,总共文本数达343978个。

同时,该语料库做了自动分词和词性标注的处理。并对每一媒体的子语料库,统一做了用字用语的标记和统计分析。例如,针对汉字分类使用的统计分析,在语料库中,分别标记出了规范字、繁体字、异体字、不规范的简化字、旧印刷字形、日本汉字、旧计量用字和韩国汉字。

目前,华语中心已经完成了一个网络版的在线语料检索系统(http://www.globalhuayu.com/corpus1/Search.aspx),可检索任意字串或符号,并进行高级检索,如“与、或、非”的检索、距离检索等等。同时,还完成了一个网络版的语料库用字用语检索系统(http://www.globalhuayu.com/corpus2.aspx),该系统可检索任意汉字或词语在各个媒体子语料库中的详细使用情况,例如汉字在各个媒体中的类别(规范字或繁体字、异体字等)、频序、频次、频率、覆盖率、使用率、文本数、文档频率以及该汉字在中国大陆语料库中的详细使用情况。

基于东南亚主要华文媒体语料库,海外华语研究中心进行了东南亚华语用字用词统计调查,并完成了“东南亚华语用字用词统计调查”、“东南亚华语特色词”两个报告(约6万字),已经由《中国语言生活状况报告2008》发布。

据悉,除东南亚主要华文媒体语料库外,海外华语中心尚有三个在研项目:(1)东南亚小学华文教材用字用语调查研究(2)基于语料库方法的新加坡华语词语研究(3)基于语料库的海外华语基本词语研究。
上一篇:
下一篇:

我们爱过就好

【图】何中华老婆宋天仪是谁及个人资料 何中华被打原因

摄政王的小宠妃

有妻来袭:摄政王的宠妃

何中华老婆宋天仪资料照片,何中华被打是怎么回事