关键词:中文分词 法律文书 联合学习
摘要:中文分词任务是自然语言处理的一项基本任务。但基于统计的中文分词方法需要大规模的训练样本,且拥有较差的领域适应性。然而,法律文书涉及众多领域,对大量的语料进行标注需要耗费大量的人力、物力。针对该问题,该文提出了一种基于联合学习的跨领域中文分词方法,该方法通过联合学习将大量的源领域样本辅助目标领域的分词,从而提升分词性能。实验结果表明,在目标领域标注样本较少的条件下,该文方法的中文分词性能明显优于传统方法。
中文信息学报杂志要求:
{1}本刊对刊发的文章拥有版权,不得擅自转载、改编。凡转载、改编务经我刊同意,违者必究。
{2}作者简介包括:姓名、性别、出生年月、毕业学校及所学专业、工作单位、职务职称、现从事的研究工作情况。
{3}来稿若属国家自然科学基金项目或省部基金项目,请在文稿中标明其基金来源和编号,我刊可以优先审核发表。
{4}正文内连续叙述中的序号采用①……;②……;③……。分级超过3级后用网括号如:“①”,“②”表示,并采用连排。
{5}附注请一律使用当页脚注的形式,以带圈①……⑩的方式编号,使用每页重新编号的方式。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社