想问一个有关问题，是关于鉴定文档是够被修改过的

想问一个问题，是关于鉴定文档是够被修改过的
比如我的D盘下面有一个tmp.txt，里面的内容是我从网页上面下载得到的源代码：

比如这里的：
http://outlet.lenovo.com/SEUILibrary/controller/e/outlet_us/LenovoPortal/en_US/catalog.workflow:item.detail?GroupID=445&Code=1291XF7

这样的一个商品，我每次检索的时候，都会把他的这个网页的源代码保存到d盘的tmp.txt中；

但是有这样的一个情况，这个商品可能在几天之后价格会发生改变，那么我的去修改这个txt文件。
目前经过人工测试，改变的情况不多，可是我目前处理是，无论他改不改变，我都把信息重新写到txt中，这样一来我在测试数据较多的情况，就会有点鸡肋。

问这么一个问题，我怎样和这个txt比对，发现网页中的数据改变之后，才去重新把对应webpage上面的源代码下载下来？

听过这么一个词，叫做全文hash的。但是没搜索到这方面的文档。

文档行业数据检索全文hash help

------解决方案--------------------
就计算 CRC 就行了

------解决方案--------------------
就是把两个文本都视为超长的字符串，然后计算各自运行 hash 编码，然后再比较编码，编码的一致性等同于文档的一致性，看到编码不一样的话，再更新文本即可。
------解决方案--------------------
方案一：对内容算md5/sha1。
方案二：HTTP协议本身已经支持文档更新检查，关注etag/If-None-Match以及Last-Modified/If-Modified-Since，我认为这是最佳的选择。
------解决方案--------------------

引用:

Quote: 引用:

就是把两个文本都视为超长的字符串，然后计算各自运行 hash 编码，然后再比较编码，编码的一致性等同于文档的一致性，看到编码不一样的话，再更新文本即可。

这个会不会很慢？

除非你有先验知识，否则怎么也得遍历一边文件，才能有把握的回答是否一致的问题。
或者就是有人事先帮你算好了，比如 #6 说的第二种情况。
------解决方案--------------------

引用:

Quote: 引用:

Quote: 引用:

Quote: 引用:

就是把两个文本都视为超长的字符串，然后计算各自运行 hash 编码，然后再比较编码，编码的一致性等同于文档的一致性，看到编码不一样的话，再更新文本即可。

这个会不会很慢？

除非你有先验知识，否则怎么也得遍历一边文件，才能有把握的回答是否一致的问题。
或者就是有人事先帮你算好了，比如 #6 说的第二种情况。

假如我使用内存数据库，会怎样？

这跟使用什么存储技术没关系，这是个逻辑问题，或者说算法问题。抛开计算机不谈，假如我给你两个文件，不告诉你关于他们内容的任何信息，然后问你他们是否一样，你怎么办？恐怕除了老老实实的遍历一遍没有什么其他可靠的方法了吧。计算机只是能够快速的执行人类的逻辑，但计算机不可能超越逻辑的。
------解决方案--------------------

想问一个有关问题，是关于鉴定文档是够被修改过的

相关推荐