asp采集系统如何采集最新内容

来源:百度知道 编辑:UC知道 时间:2024/09/20 03:49:41
意思就是说:我采集一个网站的一个频道的内容,当我全部采集成功后,
一个月后发现这个站更新了很多新内容,我要采集这些新的,
这个程序的思路是什么样子的?
我只想到,记录最后一次采集时候本站内容的页面地址,二次采集时,每采一次从这个站最新记录开始采集,采集到与上次采集网址相同的页面就停止程序!

还有没有更好的办法?
高手解决,我用ASP
你这种想法,对待少量数据,或者说几条数据行。

网站内容很少有这样的。

我做的站是计算机教程站,也就是说有大量数据!

呵呵 2楼的办法是最笨的,你可否想过你这样做,在我采集大量数据时候,在采集每一条记录数据库都得一次比对,

当数据库有2万条记录,他也一次比对,采集速度是什么样子了??

做程序速度很重要的,得多考虑的。

这样怎么解决呢!

<meta http-equiv="refresh" content="4">
不是有个自动刷新么..秒为单位的,
你把刷新时间设置为一周,每周自动刷新这个页面,也就是再一次从头到尾的执行了一次这个页面的代码,不就是最新的了?
我个人想的....希望有帮助
-----------------------------------
其实兄台你多虑了,我不知道你是怎么做的,直接人家的数据拿来就显示在自己的页面上吗?这样还要浪费服务器资源..难道不是取到数据后,存到我们自己的数据库,然后显示在自己的页面上的时候,读自己的数据库不是效率就高了很多么?既然拿到自己的数据库,那么在采前给自己的数据库做个标题匹配就行了.看看是否数据库里已经存在了,没存在的就取过来存,存在了就扔了.
-----------------------------------
那就照上面的说的,拿人家的时间做标示符,凡是新闻肯定有标示符的,如果没有,那你自己定一个标示符,比如昨天采集的,定个时间081216,然后今天采的跟昨天的那些记录做对比就行了,不重复的拿过来,如果人家的新数据是前天,或者大前天的,那你采他的还有什么意义?

被采集页面有发布日期没?
用这个做指标.