一般来说每个新闻都会有一个对应的ID,比如楼主的这个问题,1899746449221212820就是它对应的ID。在同一网站下,比如百度知道,这个ID是唯一的,只要是这个ID,那打开的页面肯定就是这个问题。所以,可以尝试按照ID去去重。
但是不同网站,就比较麻烦了,比如网易新闻和腾讯新闻。首先,不同新闻网站的ID编号可能不同,其次,可能会出现不同新闻网站相互抄袭,转载,所以也许看似两个不同的ID,内容却是一样的。或者再考虑新闻标题,但是这个也不排除有些新闻网站转载之后改个标题之后又重新上线了。
所以我的想法是,同一个网站按照ID去重,不同网站还是算了吧。
至于按照时间去重,数据库上做个限制就好了,用ID+时间作为组合键,uniq去重。
如有帮助,望采纳。。。