政策快报平台每天采集2000-3000条政策公告但实际去重后的新增政策大约是800-1000条。剩下的那一半多是重复的——同一份政策被不同省市网站转载了多次。一份国家级政策文件可能会被30个省级、市级网站同时转载。如果你不把它们识别出来用户会看到30条几乎一样的信息。去重这件事比想象中复杂。去重的3个层级第一层URL去重最基础同一个信源的同一个页面不会被采集两次。这是最基础的没什么好说的。但仅仅做URL去重远远不够。第二层标题发文号去重主力方案同一份政策在不同信源上标题可能略有差异但发文字号通常不变。比如国发〔2026〕1号这份文件不管在哪个网站上转载发文字号都是国发〔2026〕1号。把发文字号作为唯一键匹配上就判定为同一份政策。问题是很多政策没有发文字号。特别是通知类、公示类、函件类——没有编号只有标题。这时候就得靠下一层。第三层标题日期正文相似度去重没有发文字号的政策用标题相似度发布时间正文相似度综合判断。具体做法标题做归一化处理去掉关于通知等常见词发布时间相差不超过24小时正文计算相似度用SimHash或MinHash三个维度综合打分超过阈值就判定为重复。去重带来的新问题信息融合去重不是删掉重复的而是把多个来源的信息合成一份更完整的。实际操作中A网站有附件B网站没有C网站发布了全文D网站只有摘要。如果你简单地去重只保留一个来源可能会丢掉其他来源有的信息。所以去重之后还得做融合——把多个来源的数据合并正文取最完整的、附件取所有的、发布日期取最早的那个、发文字号取格式最标准的那个。这一层的逻辑比去重本身还复杂。一条核心原则去重的目标不是删数据是让用户看到一条完整的、准确的政策而不是几十条残缺的版本。
每天2000条政策,怎么去掉重复的?政策快报的去重方案
政策快报平台每天采集2000-3000条政策公告但实际去重后的新增政策大约是800-1000条。剩下的那一半多是重复的——同一份政策被不同省市网站转载了多次。一份国家级政策文件可能会被30个省级、市级网站同时转载。如果你不把它们识别出来用户会看到30条几乎一样的信息。去重这件事比想象中复杂。去重的3个层级第一层URL去重最基础同一个信源的同一个页面不会被采集两次。这是最基础的没什么好说的。但仅仅做URL去重远远不够。第二层标题发文号去重主力方案同一份政策在不同信源上标题可能略有差异但发文字号通常不变。比如国发〔2026〕1号这份文件不管在哪个网站上转载发文字号都是国发〔2026〕1号。把发文字号作为唯一键匹配上就判定为同一份政策。问题是很多政策没有发文字号。特别是通知类、公示类、函件类——没有编号只有标题。这时候就得靠下一层。第三层标题日期正文相似度去重没有发文字号的政策用标题相似度发布时间正文相似度综合判断。具体做法标题做归一化处理去掉关于通知等常见词发布时间相差不超过24小时正文计算相似度用SimHash或MinHash三个维度综合打分超过阈值就判定为重复。去重带来的新问题信息融合去重不是删掉重复的而是把多个来源的信息合成一份更完整的。实际操作中A网站有附件B网站没有C网站发布了全文D网站只有摘要。如果你简单地去重只保留一个来源可能会丢掉其他来源有的信息。所以去重之后还得做融合——把多个来源的数据合并正文取最完整的、附件取所有的、发布日期取最早的那个、发文字号取格式最标准的那个。这一层的逻辑比去重本身还复杂。一条核心原则去重的目标不是删数据是让用户看到一条完整的、准确的政策而不是几十条残缺的版本。