刘 华,郑 婷
(1.暨南大学华文学院/海外华语研究中心,广东,广州510610;2.三清山风景名胜区管委会,江西,上饶334703)
少儿华语教学主题分类词表构建
刘 华1,郑 婷2
(1.暨南大学华文学院/海外华语研究中心,广东,广州510610;
2.三清山风景名胜区管委会,江西,上饶334703)
少儿华语教学;主题;词表
在总结前人研究的基础上,将少儿华语、主题、词表研究三者相结合,基于语文百科性,以12套代表性的东南亚少儿华语教材为语料,构建了一个分层级的少儿华语主题库;运用计算语言学的相关技术实现主题词语聚类,并人工干预筛选出那些与主题密切相关、使用频率高、难度较低的词语,按相关度、常用度排序;少儿华语主题分类词表共60个三级话题,2970个词条。
少儿(6~12岁)处于语言习得的“关键期”,在语言学习方面有先天优势。少儿华语教学是面向海外华裔儿童进行的汉语教学,是整个华语教学的基础。“教哪些词,哪些词先教?”少儿华语教学词表建设则是华语教学中基础的基础。
面向少儿华语教学词表建设的需求,立足少儿华语教学的语文百科性特点,基于东南亚少儿华语教材语料库,本研究构建了一个分层级的少儿华语主题库;同时,运用词语聚类技术,结合专家人工干预,建立了60个少儿华语主题分类词表,并按照主题贡献度和常用度进行双排序,方便进行少儿华语教学。
2.1 少儿华语教学的特点
与面向非华裔学习者的对外汉语教学不同,少儿华语教学具有其独特性:
1)少儿性。学习者以华裔青少年为主,多以幼童为起点,在小学阶段成系统地学习。
2)语文性。以或力图以母语教育为特征,学习者有明显的中华文化背景和母语学习环境,重在通过母语学习,最终认同和传承中华文化。
3)百科性。母语特征的华文性决定了其教学内容偏重语文百科,这与对外汉语教学重语言交际功能教学不同,是少儿华语教学的典型特点。
2.2少儿华语教学主题分类的基本原则
少儿华语教学“百科性”的特点,是由其学习者母语特征决定的。这和非华裔的少儿汉语教学重在解决交际问题不同,少儿华语教学重在学知识。
由此,少儿汉语教学以交际功能性的话题为主,其分类词表也是以基于交际话题分类的词语为主;少儿华语教学则以百科知识的主题为其基础,比如“动物、自然”等,相应地,其分类词表是以基于语文百科分类的词语为主。当然,少儿华语教学也包含基础的交际教学内容,也包含一些交际性话题和词语。
因此,“语文百科性”是少儿华语教学主题分类及分类词表建设的基本原则。
3.1语料来源
语料以华语教材为主。东南亚各国的华语教学颇具代表性,其中,马来西亚,新加坡、菲律宾,泰国、印尼、越南为其代表①老挝、缅甸、柬埔寨目前还没有自编的、被大规模使用的本土特色华文教材。,分别代表了华语教学的三个不同层次。因此,本研究主要从上述国家选取教材。
同时,为了体现教材的权威性和代表性,本研究进行了东南亚小学华文教材使用情况调查②该调查由暨南大学华文学院蔡丽副教授费时3年完成,这12套教材文本也由她提供。,根据调查结果,在繁杂的教材中,选取了具有本土自编特色③或者中外合编,但由东南亚国家为主导。、成套发行、使用范围广的12套代表性的小学华文教材,作为语料来源。
表1:教材基本信息表
3.2已有话题(主题)分类方法
国家汉语国际推广领导小组办公室编写的《国际汉语教学通用课程大纲》附录的“汉语教学话题及内容建议表”列出了22个话题大类,每个话题大类下面又有若干个小类,如“植物与动物”下面有3个子话题“花草树木,瓜果梨桃,飞禽走兽”。
姜蕾(2013)发现上述“汉语教学话题及内容建议表”的“话题、功能、文化”三者相混淆。建议删除、增加、调整某些话题及功能项目。
汲传波(2005)从北京大学留学生演讲稿中归纳了一个6大类50小类的话题目录(6大类:中国社会文化、中外差异、个人信息、关于本国、语言、世界性话题)。
苏新春(2011)参考“汉语教学话题及内容建议表”和汲传波(2005)话题目录,建构了一个5大类52小类的话题库(5大类:个人信息、生活、人际交往、学习与工作、社会话题)。
黄少如(2012)建构了一个9大类54小类的少儿汉语话题库(9大类:个人信息、家庭、日常生活、学校生活、文学艺术、节日与文化、历史地理、自然景观、科学常识)。
以上话题分类或对话题内容建议表的思考具有通用性,但并不完全适用于华裔儿童,目前学界尚没有针对少儿华语教学的主题分类。少儿汉语考试(YCT)大纲只是简单列出了一些话题内容,如“选取少儿日常生活、学习、活动等方面的简单的常用的话题”,比较零散,未成体系。
3.3主题库的构建
本研究参考了以上话题分类方法,充分考虑少儿身心特点、华语教学特殊性,基于“语文百科性”基本原则,对12套少儿华语教材的课文按前人已有的主题进行归纳和梳理,并根据课文内容的实际情况,酌情对主题进行增删①删除那些归类课文数很少的主题;增加一些课文数比较多、但是前人主题无法归类涵盖的主题。,最终建构了一个拥有8个一级、41个二级、60个三级话题的少儿华语主题库。详细信息如下表:
表2:少儿华语主题库
3.4少儿华语主题库的特点
与《国际汉语教学通用课程大纲》附录的话题内容建议表相比,少儿华语主题库更具有年龄和内容针对性。话题内容以学校和家庭的日常生活为主,同时也囊括那些贴近小学生认知能力的认识自然、保护环境、社会风俗等内容,基本符合少儿学习者的年龄、心理、兴趣等方面的要求。
同时,少儿华语主题库也针对了华语教学的特殊性。文化教学在华语教学中占据相当大的份量,本研究在“文学”一级话题下设置了4个二级、14个三级话题,这些话题大多是小学生喜欢的童话、寓言、古诗和成语故事等内容。
4.1教材语料分类建库
在少儿华语语料库和主题库的基础上,本研究将12套教材语料(含主课文、课后阅读、生词表)按主题类别进行分类,做成按主题分类的60个子语料库,总计语料文本1467个(每个文本就是一篇课文)。样例如下:
图1:语料库文件示例
教材主题(仅列出一级类)及文本数的详细信息见下表:
从上表可以看到,少儿华语教材偏重“文化”“日常生活”两大主题。其中,“日常生活”大类中的课文包含一些对话体裁的交际教学内容,但非对话的知识性的介绍更多;除“日常生活”类外的其他类则基本以知识性的语文百科为主,特别是“文化”类文本数量最多。这些体现了华语教学以语文百科教学为主、交际功能教学为辅的特点。
4.2主题词语聚类
“少儿华语教学主题分类词语表”是围绕某主题的常用词语集合,是与某一主题紧密关联的词语群。例如,“家庭-成员与称谓”的主题词语有“家、代(名词)、口、家庭、父亲、儿子……”
表3:教材主题(一级类)及文本数统计表
本研究运用刘华(2007)的词语自动聚类算法在教材语料库中进行词语聚类。通过词语切分、词频统计、权重计算和特征选择这四个步骤实现词语聚类。
词语聚类的核心原理是利用词语在不同主题类别语料中分布的差异性来计算词语对于该主题类别的贡献度。比如,功能词(如“的、我们、在”)在不同类别语料中的频率几乎一样,分布均匀;而某些词语(如“家、代(名词)、口、家庭、父亲、儿子”)在“家庭-成员与称谓”类语料中的出现频率会远高于它们在其它主题类别语料的频率,它们是“家庭-成员与称谓”主题类别中的主题词语。
按此原理,本研究在60个主题分类的综合语料库中进行词语聚类,获得60个聚类词表。
4.3人工干预词表
依据词语自动聚类算法得到的词语由于语料的局限性并不完全科学合理,还需要兼顾客观统计和主观语感,进行适当的人工干预:
1)确立词与类词组合的选择原则;
2)确立选词的语体原则;
3)在前二者基础上,结合词语的主题代表性强弱进行词语筛选;
4)人工补充相关词语。
4.3.1词与类词组合的选择原则
参考史有为(2008)构建对外汉语教学最低量基础词汇、曾毅平(2013)研制两岸融通词表的做法,本研究对少儿华语教学中的词汇单位采取从宽认定的原则:
1)一般语言学意义上的词和常用的固定短语,这是主体部分。
2)根据一语习得规律以及语块教学原理,本研究将那些形式和意义完整、使用频率较高、但不是严格意义上的“词”或“固定短语”的词串也认定为词汇单位。具体有以下几种情况:
a.凝固性强的类词形式,如“点钟、越来越、为什么”;
b.词汇化倾向性强的述宾组合,如“吃饭、上课、有意思,打瞌睡”;
c.词汇化倾向性强的述补组合,如“想起、放好”;
色泽和硬度数据重复6次,其他均重复3次,结果以表示;数据处理采用SPSS 21.0及Origin 8.1软件,Duncan's多重比较,显著水平为P<0.05。
d.常用的、具有准固定短语性质的多词组合,如“好久不见、差不多、来得及”。
另外,对专名、国别化词汇、兼类词按如下方法处理:
1)有些专名具有较深的文化内涵,从服务文化教学的角度出发,筛选了其中具有代表性的词语,如“西安、黄河、孔子”等;
2)华文教材中有部分内容带有国别特征,依据高频常用原则,本词表也收入了少数国别化词语,如“外府、组屋”等;
3)有些词语兼有多种词性,在词表中用括号加以说明。如“代(名词)”等。
4.3.2选词的语体原则
为丰富词汇的多样性,本研究采取了书面语和口语兼收的方法。如“妈妈、母亲”“哪、哪儿”处理为不同词汇单位,皆选入。
4.3.3词语筛选
信封、写信、邮票、想念、华语、收信人、小芳、邮局、寄信人、大年、联络、贺年卡、寄信、外婆、便条、航空信、敬祝、写上、一封信、电话号码、包裹、加拿大、留言条、民众、右上角、月琴、母亲、码儿、平信、窗口、邮筒、另起、来信、邮政局、形声字、表姐、地址、声旁、寄来、通讯设备、邮包、恭贺新禧、语言、号码、晴和、冬天、老外、国外、友好、演唱、广场、话号、再写、电话铃、宿舍、先写、校园、特快、枫叶、问候、姓名、白鹅、早点儿、电话、打电话、手机、明明、电话亭、分别、国内……
删除“小芳、月琴、外婆、母亲……”等偶发性人名和称呼,删除“大年、另起、晴和……”等不合规范的词,删除“形声字、冬天、老外……”等在“通讯”领域类中主题代表性不强的词,得到的词语如下:
信封、写信、邮票、想念、收信人、便条、寄信人、联络、贺年卡、寄信、地址、航空信、包裹、留言条、电话、平信、邮筒、邮政局、号码、手机、电话亭、挂断、拨通、明信片、信纸、邮政编码、日期、电脑、收到、挂号信、回信、接听、包裹单、留言、超重、信箱、传真、通讯、贴、联系
4.3.4词语补充
由于语料的局限性,出现的词语也较有限,在词语筛选后,本研究结合“词语聚类在线检索”①澜科语言科技网:http∶//www.languagetech.cn/bigdata/word/demo_wordcluster.aspx。和史有为(2008)构建的“话题大类搭配语词表”适当补充相关词语。“词语聚类在线检索”是一个词语聚类扩展查询的在线检索软件,史有为(2008)的“话题大类搭配语词表”包含了日常最常用的交际用词,二者具有一定的参考价值。
在“词语聚类在线检索”中以“通讯”为核心词进行检索,基于词表服务于基础少儿华语教学的原则,补充收入了“QQ、MSN”词语。
“话题大类搭配语词表”中没有专门的通讯话题,但有与通讯话题类似的“邮电/储蓄”这一话题。对比筛选出的词语,补充了“封(量词)、打(动词)、接、寄、发、收、存、取、邮箱、电子邮件、短信、微信、微博、朋友圈、facebook、联系”等词语。
按照上述方法共为60个词表补充了428个词语。最终,60个词表去重后共有词条2970个。
4.4词语双排序
经过自动主题词语聚类得出的词语按照该词语对主题的贡献度降序排序,能让人一目了然地观察到某主题下最相关的词语,如“日常生活-通讯”主题词语依次为:
信封、写信、邮票、想念、收信人、便条、寄信人、联络、贺年卡、寄信、地址、航空信、包裹、留言条、电话、平信、邮筒、邮政局、号码、手机、电话亭、挂断、拨通、明信片、信纸、邮政编码、日期、电脑、收到、挂号信、回信、接听、包裹单、留言、超重、信箱、电子邮件、存、传真、打、QQ、收、微信、通讯、发、取、贴、寄、邮箱、MSN、微博、facebook、短信、接、封、联系、朋友圈
同时,从教学的角度,又需要将词语从易到难排列,方便常用的简单词语先教先学。因此,除了贡献度排序,本研究还可以按常用度②常用度具体计算方法参见:刘华(2010)。来排序:
发、打、联系、电话、接、封、收到、收、取、日期、设备、贴、电脑、手机、寄、联络、存、地址、通讯、号码、包裹、短信、写信、传真、留言、邮箱、拨通、想念、电子邮件、信封、邮票、接听、回信、信箱、邮政局、明信片、超重、寄信、信纸、挂断、电话亭、便条、收信人、邮政编码、贺年卡、邮筒、挂号信、平信、航空信、寄信人、留言条、QQ、微信、包裹单、MSN、微博、face⁃book、朋友圈
5.1词表选词标准比较
首先,少儿华语教学主题分类词表选词从宽,主体部分是一般语言学意义上的词和常用的固定短语,同时也包含了那些形式和意义完整、使用频率较高、并非严格意义上的“词”或“固定短语”的词串。YCT词表主要以简单常用的生活用词为主,只包括了极少量的常用短语如“弹钢琴,踢足球”等。
其次,华语教学的文化性决定了少儿华语教学主题分类词表中必须选取一定量的蕴含中华文化的词语,如成语、惯用语、历史人名等。YCT词表的词语则集中在日常生活、学校生活、家庭这些贴近学生实际交际需求的内容,文化词语数量非常少。
再次,少儿华语教学主题分类词表也选取了若干反映本土文化特色的词语,如“泰铢、组屋、肉骨茶”等。YCT词表作为通用词表则没有选取国别化词语。
5.2两词表共用和独用分析
YCT词表共收录600词,数量较少,词语难度低、使用频率高;少儿华语教学主题词分类表共收录2970词,二者共用530个词语。
共用词语中,日常生活主题类词语最多,其次是学校生活、家庭等主题的词语。
少儿华语教学主题分类词表独用的词语共2440个,多分布在“文化”“动物与植物”“自然与环境”“科学技术”这4个话题中,这充分体现了本词表“语文百科性”的建表原则。
少儿华语主题词表是对外汉语多元化词表建设的一次尝试,其创新之处不在于收录了哪些词语,而在于落实了分类词表研制的新理念和新方法。
本研究尚存在一些不足之处,如语料选取仅限于书面语教材,没有设置最低量的主题词语数,未区分各主题的核心与扩展词语,总词表未分级等。
国家汉语国际推广领导小组办公室 2008 国际汉语教学通用课程大纲[M].北京:外语教学与研究出版社.//Leading Group Office of the International Promo⁃tion of Chinese Language 2008International Curric⁃ulum for Chinese Language Education[M].Beijing:Foreign Language Teaching and Research Press.
国家汉语国际推广领导小组办公室 2009 新中小学生汉语考试(YCT)大纲[M].北京:商务印书馆.// Leading Group Office of the International Promotion of Chinese Language 2009Youth Chinese Test Syllabus[M].Beijing:The Commercial Press.
黄少如 2012 基于语料库的少儿汉语话题及话题词表构建[D].暨南大学硕士学位论文.//Huang Sha⁃oru 2012Constructing of Topic and Topic-specific Word List for Youth Chinese Test Based on Corpus[D]. M.A.Thesis of Jinan University.
姜 蕾 2013 基于教材分析的“中学交际话题表”编写设想[J].语言教学与研究(2).//Jiang Lei 2013 Writing proposal about“middle school communication topic list”based on the analysis of textbooks[J].Lan⁃guage Teaching and Linguistic Studies(2).
汲传波 2005 对外汉语口语教材的话题选择[J].云南师范大学学报(对外汉语教学与研究版)(6).//Ji Chuanbo 2005 The choice of topics for oral Chinese textbooks[J].Journal of Yunnan Normal University(Teaching and Research on Chinese as a Foreign Lan⁃guage)(6).
刘 华 2007 基于文本分类中特征提取的领域词语聚类[J].语言文字应用(4).//Liu Hua 2007 Cluster⁃ing field words by character extraction in text classifica⁃tion[J].Applied Linguistics(4).
—— 2010 词语计算与应用[M].广州:暨南大学出版社:99-102.//Liu Hua 2010Word Calculation and Application[M].Guangzhou:Jinan University Press:99-102.
史有为 2008 对外汉语教学最低量基础词汇试探[J].语言教学与研究(1).//Shi Youwei 2008 A pre⁃liminary study of the minimum of basic vocabulary for teaching Chinese as a second language[J].Language Teaching and Linguistic Studies(1).
苏新春 2011 话题分析模块及七套海外汉语教材的话题分析[J].江西科技师范学院学报(6).//Su Xinc⁃hun 2011 The topic analysis template and the topic analysis of seven overseas Chinese textbooks[J].Jour⁃nal of Jiangxi Science&Technology Normal University(6).
曾毅平 2013 论两岸对外汉语教学融通词表的研制[J].江汉学术(4).//Zeng Yiping 2013 On the cross-strait integrated lexical syllabus for teaching Chi⁃nese as a foreign language[J].Jianghan Academic(4).
Constructing of Topic-Specific Word List for Youth Chinese Teaching
Liu Hua1,Zheng Ting2
(1.College of Chinese Language and Culture/National Center for Overseas HUAYU Research,Jinan University,Guangzhou,Guangdong 510610,China;
2.Mount Sanqing Scenic and Historic Area Administration Committee,Shangrao,Jiangxi 334703,China)
Youth Chinese Teaching;topic;word list
Constructed the Youth Chinese topic bank and topic-specific word list at the basis of previous studies,which com⁃bines the research of Youth Chinese,topic and word list.First,12 sets of representative Youth Chinese textbooks were select⁃ed as the source of corpus,and a hierarchical topic bank for Youth Chinese was set up in the principle of encyclopedia of Chi⁃nese character.Then,got the cluster of topic words by using relevant technologies of Computational Linguistics,selected those closely related,widely used and relatively easy words in the cluster and rank those selected words according to the us⁃age.The Youth Chinese topic-specific word list contained 60 topics at Level Three and 2970 words.
H195.3
A
1674-8174(2017)01-0068-07
【责任编辑 苏 政】
2015-09-28
刘华(1975-),男,湖南株洲人,暨南大学华文学院教授,博士研究生导师,主要从事计算语言学、智能汉语教学和华语研究,电子邮箱:liuhua@hwy.jnu.edu.cn。郑婷(1989-),女,江西九江人,硕士,电子邮箱:975617972@qq.com。
北京成像技术高精尖创新中心资助项目“华裔学生作文自动批改研究”(BAICIT-2016008)//Bei⁃jing Advanced Innovation Center for Imaging Technology:“Research on the Automatic Correction of Overseas Chinese Stu⁃dents'Compositions”(BAICIT-2016008)