期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

基于弱标注数据的汉语分词领域移植

朱运; 李正华; 黄德朋; 张民 苏州大学计算机科学与技术学院; 江苏苏州215006

关键词:汉语分词 领域移植 弱标注数据 

摘要:近年来,基于神经网络的分词模型在封闭领域文本上取得了很高的性能。然而,在领域移植场景下,即测试数据与训练数据的领域差异较大时,分词的性能会显著下降。该文尝试利用自动获取的弱标注数据来提升领域移植场景下的分词性能。首先,对目前性能最好的BiLSTM-CRF分词模型进行扩展,引入适用于弱标注数据的损失函数;进而提出一种简单有效的数据筛选方法,从海量弱标注数据中筛选和目前领域更相关的数据;最后,该文发现数据预处理和在神经网络中引入传统特征均可以有效提高分词性能。在SIGHAN Bakeoff 2010和ZhuXian标注测试集上的实验结果表明,该文所提方法可有效提升汉语分词领域移植性能,平均F值提高了3.6%。

中文信息学报杂志要求:

{1}本刊对刊发的文章拥有版权,不得擅自转载、改编。凡转载、改编务经我刊同意,违者必究。

{2}作者简介包括:姓名、性别、出生年月、毕业学校及所学专业、工作单位、职务职称、现从事的研究工作情况。

{3}来稿若属国家自然科学基金项目或省部基金项目,请在文稿中标明其基金来源和编号,我刊可以优先审核发表。

{4}正文内连续叙述中的序号采用①……;②……;③……。分级超过3级后用网括号如:“①”,“②”表示,并采用连排。

{5}附注请一律使用当页脚注的形式,以带圈①……⑩的方式编号,使用每页重新编号的方式。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中文信息学报

北大期刊
1-3个月下单

关注 24人评论|0人关注
相关期刊
服务与支付