想问一个有关问题,是关于鉴定文档是够被修改过的

想问一个问题,是关于鉴定文档是够被修改过的
比如我的D盘下面有一个tmp.txt,里面的内容是我从网页上面下载得到的源代码:

比如这里的:
http://outlet.lenovo.com/SEUILibrary/controller/e/outlet_us/LenovoPortal/en_US/catalog.workflow:item.detail?GroupID=445&Code=1291XF7


这样的一个商品,我每次检索的时候,都会把他的这个网页的源代码保存到d盘的tmp.txt中;

但是有这样的一个情况,这个商品可能在几天之后价格会发生改变,那么我的去修改这个txt文件。
目前经过人工测试,改变的情况不多,可是我目前处理是,无论他改不改变,我都把信息重新写到txt中,这样一来我在测试数据较多的情况,就会有点鸡肋。


问这么一个问题,我怎样和这个txt比对,发现网页中的数据改变之后,才去重新把对应webpage上面的源代码下载下来?

听过这么一个词,叫做全文hash的。但是没搜索到这方面的文档。
文档 行业数据 检索 全文hash help

------解决方案--------------------
就计算 CRC 就行了

------解决方案--------------------
就是把两个文本都视为超长的字符串,然后计算各自运行 hash 编码,然后再比较编码,编码的一致性等同于文档的一致性,看到编码不一样的话,再更新文本即可。
------解决方案--------------------
方案一:对内容算md5/sha1。
方案二:HTTP协议本身已经支持文档更新检查,关注etag/If-None-Match以及Last-Modified/If-Modified-Since,我认为这是最佳的选择。
------解决方案--------------------
引用:
Quote: 引用:

就是把两个文本都视为超长的字符串,然后计算各自运行 hash 编码,然后再比较编码,编码的一致性等同于文档的一致性,看到编码不一样的话,再更新文本即可。

这个会不会很慢?

除非你有先验知识,否则怎么也得遍历一边文件,才能有把握的回答是否一致的问题。
或者就是有人事先帮你算好了,比如 #6 说的第二种情况。
------解决方案--------------------
引用:
Quote: 引用:

Quote: 引用:

Quote: 引用:

就是把两个文本都视为超长的字符串,然后计算各自运行 hash 编码,然后再比较编码,编码的一致性等同于文档的一致性,看到编码不一样的话,再更新文本即可。

这个会不会很慢?

除非你有先验知识,否则怎么也得遍历一边文件,才能有把握的回答是否一致的问题。
或者就是有人事先帮你算好了,比如 #6 说的第二种情况。

假如我使用内存数据库,会怎样?

这跟使用什么存储技术没关系,这是个逻辑问题,或者说算法问题。抛开计算机不谈,假如我给你两个文件,不告诉你关于他们内容的任何信息,然后问你他们是否一样,你怎么办?恐怕除了老老实实的遍历一遍没有什么其他可靠的方法了吧。计算机只是能够快速的执行人类的逻辑,但计算机不可能超越逻辑的。
------解决方案--------------------