如何通过词向量技术来计算2个文档的相似度?

目前如何能更好滴计算文档相似度是非常火的方向,也是市场的刚需,比如在信息检索、网页搜索、智能问答等系统中,很多功能的开发都需要基于文档的相似度计算。在智能问答中,目前广泛应用的还是基于检索的方法。基于文本生成方式,生成的文本质量和效果可控性较差,还没有在工程中广泛使用。而基于检索的方法中,就十分需要判别文本的相似度。

比如在今年的中国计算语言学大会(CCL 2018)中的技术评测任务——客服领域用户意图分类,就是一个文本相似性的问题。在客服和用户对话系统的应用过程中,用户可能会有多种意图,相应地会触发客服和客户对话系统中的多个业务类型,业务类型包括查询类、办理类和咨询类三种,每个业务类型下涉及的用户意图有多种,例如查询类下有查询账单、查询积分等,办理类下有充值手机话费、重置密码等;咨询类下有咨询宽带故障、咨询宽带续费等。

因而,客服领域对话系统的一个关键任务就是正确地将用户的输入分类到相应业务类型下的具体意图(即识别出用户输入到对话系统执行某个动作之间的一个映射关系)中,从而达到识别和理解用户要表达的意图,帮助提高语言、语音导航系统的语义识别能力。目前基于词嵌入的低维稠密向量表示能比较好的表示词、段落、文档的语义和次序信息方法上:1)可利用word2vec能训练词的向量表示,在基于词的向量表示的基础上去表示文档向量。

2)可直接训练文档向量,词向量的提出者Tomas Mikolov在2014年也提出了Doc2vec(在word2vec的基础上),与Word2vec一样,Doc2Vec也有两种模型,分别为:Distributed Memory(DM)和Distributed Bag of Words(DBOW)。DM模型在给定上下文和文档向量的情况下预测单词的概率,DBOW模型在给定文档向量的情况下预测文档中一组随机单词的概率。

其中,在一个文档的训练过程中,文档向量共享(意味着在预测单词的概率时,都利用了本文档的语义)。Distributed Memory(DM):Distributed Bag of Words(DBOW)3)此外还可以利用深度神经网络模型,比如以LSTM、biLSTM等结构为基础的模型训练文本向量,计算文本相似度。

大学学校是如何规定论文查重标准的,你怎么看?

据我了解,本科论文的查重率在30%以下,硕士在10%到15%左右。如果超过了这个查重率是要重做的,不过在论文答辩之前,都会有一次查重的机会,正式点来说就是警示作用。其实,也是暗示学生不要乱来,好好弄毕业论文,别搞花里胡哨的东西,被查出来是过不了的。毕业论文查重的系统有很多,目前国内最权威的是这三家:Gocheck维普、知网NKI、万方。

用得最多的,我觉得就是中国知网了,知网跟很多的高校保持合作关系。每年都有很多的毕业生的毕业论文在中国知网上进行查重,学生能自己在大范围之内先查重一次,通过查重的结果,把相似或相同太多的部分,进行相应的修改。这也是查重的第一步而已,最重要的是要通过学校内部的查重。这关系到你自己能不能过这一关,所在高校也是有一个毕业论文系统的,你师哥师姐的论文都在这个系统里面,如果有人想找师哥师姐要论文,其实是没用的。

当然,为了通过查重,有些人使用非正式的手段。其实,我觉得论文查重是一件好事。这样可以让学生们真正学习到知识,而不是在学校混几年,拿个毕业证就可以了,什么东西没有学到,不仅是丢了自己的脸,也是丢了学校的脸啊。不过,高校毕业生越来越多,对于后来的毕业生来说,毕业难度是在增大的,查重是一个严峻的挑战,这么多年来,写过的东西很多,需要从一个刁钻的角度入手,论文的重复率才会低一些,或者是换一种表达方式,加上自己的理解等。

 2/2   首页 上一页 1 2 下一页

文章TAG:论文的相似度检测是什么  查重的相似度如何计算  
下一篇