期刊在线咨询服务,发表咨询:400-888-9411 订阅咨询:400-888-1571股权代码(211862)

期刊咨询 杂志订阅 购物车(0)

基于深度学习和迁移学习的领域自适应中文分词

成于思; 施云涛 东南大学土木工程学院; 江苏南京210096; 中国移动通信集团南京分公司网络部; 江苏南京210019

关键词:深度学习 迁移学习 领域分词 工程法律 

摘要:为了提高专业领域中文分词性能,以及弥补专业领域大规模标注语料难以获取的不足,该文提出基于深度学习以及迁移学习的领域自适应分词方法。首先,构建包含词典特征的基于深度学习的双向长短期记忆条件随机场(BI-LSTM-CRF)分词模型,在通用领域分词语料上训练得到模型参数;接着,以建设工程法律领域文本作为小规模分词训练语料,对通用领域语料的BI-LSTM-CRF分词模型进行参数微调,同时在模型的词典特征中加入领域词典。实验结果表明,迁移学习减少领域分词模型的迭代次数,同时,与通用领域的BI-LSTM-CRF模型相比,该文提出的分词方法在工程法律领域的分词结果F1值提高了7.02%,与预测时加入领域词典的BI-LSTM-CRF模型相比,分词结果的F1值提高了4.22%。该文提出的分词模型可以减少分词的领域训练语料的标注,同时实现分词模型跨领域的迁移。

中文信息学报杂志要求:

{1}本刊对刊发的文章拥有版权,不得擅自转载、改编。凡转载、改编务经我刊同意,违者必究。

{2}作者简介包括:姓名、性别、出生年月、毕业学校及所学专业、工作单位、职务职称、现从事的研究工作情况。

{3}来稿若属国家自然科学基金项目或省部基金项目,请在文稿中标明其基金来源和编号,我刊可以优先审核发表。

{4}正文内连续叙述中的序号采用①……;②……;③……。分级超过3级后用网括号如:“①”,“②”表示,并采用连排。

{5}附注请一律使用当页脚注的形式,以带圈①……⑩的方式编号,使用每页重新编号的方式。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

中文信息学报

北大期刊
1-3个月下单

关注 24人评论|0人关注
相关期刊
服务与支付