帮我想几个关于数据挖掘的答疑问题及答案啊!!!跪求!!!

来源:百度知道 编辑:UC知道 时间:2024/07/08 23:29:06
毕业设计做到一半了,我是个女生,找别人帮忙做的,现在要交一个毕业设计的答疑,要有三个问题及答案,老师就让我们自己想问题,再给出答案。
我的毕业设计课题是,基于实时数据流的频繁模式生成,就是给定数据流,和最小支持度,最终实现输出数据流中的所有频繁项,
大侠们,随便帮我想几个问题啊,简单点的也可以啊,晚上就要交了。谢谢。答案满意的话,我还可以追加积分的。
对了,是用VC++6.0做的

SQL Server用来学习最好,因为它功能全,且操作方便
access和oracle都不适合,前者有局限,好多功能不能实现,后者太繁琐,
新建一个数据库好半天,即使机子性能好也要个把小时,其他的操作也慢,
所以SQL Server是最适合的

IT实际上有三个层次:第一层是硬件,主要指数据存储、处理和传输的主机和网络通信设备;第二层是指软件,包括可用来搜集、存储、检索、分析、应用、评估信息的各种软件

问题1: 在支持度过高时是否所有的规则都是可靠的?
答案:不一定,1) 可能是既定事实,比如奶粉和奶瓶,这个是大家工人的事实,不需要用关联规则来解释。2) 注意置信度的影响

问题2: apriori 是如何改进算法性能的?
答案:主要利用各种剪枝策略,以及在选择候选集时,充分依赖之前的频繁项

问题3:apriori 的缺点是什么,如何改进?
答案:计算支持度太慢,候选集太大,导致算法性能一般。可以使用FP tree, FP tree 不需要计算候选集,可以直接得到规则。