查看会员资料
用 户 名:lal***
发送消息- Email:用户隐藏
- Icq/MSN:
- 电话号码:
- Homepage:
- 会员简介:
最新会员发布资源
文件查重
- 我使用的是面向局部敏感的最小哈希签名的方法进行文档查重。设计采用了集合的思想,因为是要在一个文件夹中查找相似的文档,决定采用shingling 来表示一篇文档,运用了K-shingles技术,将一篇文档看成是一个字符串,k-shingle就是这篇文档中出现过的任何长度为k的一个字符串,在进行处理之前会去掉文档中不必要的标点符号,空格,和换行。对于k的取值,若是一般的文档则取5就够了,若是文档较长的话取9是相对而言比较安全的。(I used a locally sensitive minimum