406.
针对中文大规模开放在线课程(Massive Open Online Courses,MOOCs)视频字幕中课程概念词性丰富、领域特性显著等特点,该文提出一种融合词性、词性规则和词典等词先验知识(Word Prior Knowledge,WPK)的课程概念抽取模型WPK-MCC。该模型首先通过BERT以及字符嵌入的方式获得包含上下文和词性信息的字符表示,再利用词典匹配当前字符所在窗口的字符串,构建当前字符的4个词汇集群(当前字符在词的开头、中间、结尾,以及当前字符单独成词),并通过词性规则控制每个词的贡献权重。此外,考虑到课程概念在MOOCs中有一定的重复性,WPK-MCC模型利用当前句子所在视频字幕的上下文信息,提升课程概念抽取的效果。在MoocData数据集上的实验结果表明,WPK-MCC模型对课程概念实体抽取的F
1值达到89.42%,优于SoftLexicon等先进的模型。消融实验显示,词性、规则和词典等词先验知识以及上下文全局信息对WPK-MCC模型的帮助较大,去除词先验知识和上下文全局信息后,WPK-MCC的F
1值下降了1.13%。… …
相似文献