扑克王app下载 > IT新闻 > >急求:比较两个新闻是否是报道同一个事情(同一个新闻) 要求java
IT新闻

急求:比较两个新闻是否是报道同一个事情(同一个新闻) 要求java

时间:2019-09-19 06:56作者:admin打印字号:

  急求:比较两个新闻是否是报道同一个事情(同一个新闻) 要求java实现

  急求:比较两个新闻是否是报道同一个事情(同一个新闻) 要求java实现

  不同新闻网刊登同一则新闻可能标题不一样,怎么区分他们是同一则新闻?我曾经想过用叶贝斯算法比较相似度,但是网络爬虫爬取不同的新闻门户网站,假如遇到了标题不一样但又是同一则新...

  不同新闻网刊登同一则新闻可能标题不一样,扑克王德州app下载怎么区分他们是同一则新闻?我曾经想过用叶贝斯算法比较相似度,扑克王app下载地址但是网络爬虫爬取不同的新闻门户网站,假如遇到了标题不一样但又是同一则新闻的情况,我应该怎么让它们产生交集(比较)?难道每爬取一条,我都要遍历一下已爬取的新闻进行比较?随着爬取的条目越来越多是不是很拖效率呢?

  希望懂这个的前辈高人给个这方面的算法,描述尽量详细哦,扑克王app下载地址最好能给个简单的示例。

  可选中1个或多个下面的关键词,搜索相关资料。也可直接点“搜索资料”搜索整个问题。

  展开全部用文本匹配,重复率达80%以上,扑克王app下载地址可以认为是同一新闻。扑克王app下载地址大学里面毕设论文查重用的是同一原理。追问相似度算法是默认两个进行比较的对象已经拿到。

  有没有怎么找这两个对象的?当前爬下的对象我有了,与之比对的对象难道通过遍历数据库里面的东西一次次比较?如果是这样的话,按一般的做法,随着数据库录入的东西越来越多,扑克王app下载地址会不会很拖时间?

  或者你所说的算法就能解决我的问题,麻烦你详细描述下好吗?追答新闻有时间性,扑克王app下载地址首先,可以通过设定时间范围排除大部分对像,所以库中的需比较的对象不会越来越多。

  展开全部没做过新闻比较的,不过有一种思路可以给你参考一下,你可以建立一个新闻特征的模型,比如说关键字,遇到一条新的,提取他的特征,比较现有的特征,有符合的就归到某个特征下,扑克王德州app下载没有符合的就新建一个特征。如果有关联性的数据挖掘方面的需求,那么算法会比较复杂。

上一篇:java用servlet和富文本开实现添加新闻
下一篇:java开发中新闻和关键词是什么关系?一对多还是多对多?