从超市货物之间的关联关系入手,贴近现实,学生比较好理解关联规则的应用场景,但是如何从频繁项集提升到关联规则的算法部分,学生理解起来很难。
(1)啤酒尿布案例课程思政这个案例最早提出来是 1993 年,据说其背景是在欧洲的一个工业小镇,通过研究超市的购物小票发现,所有购买了尿布的用户都购买了啤酒。通过调整货架位置来增加超市销售额,虽然后来很多学者都对这个案例的真是性,产生了怀疑,但是这个案例真实与否不影响关联规则的使用。课程思政:其实在以后的课程学习中,同学们会发现我们用于数据挖掘或者知识发现的实验数据大部分有两种方法产生:(1)real application; (2) benchmarks data;(3)artificial data.但是要注意 artificial data 不等同于造假 fake data ,,这些数据TID Items1 Bread, Milk2 Bread, Diaper, Beer, Eggs3 Milk, Diaper, Beer, Coke 4 Bread, Milk, Diaper, Beer5 Bread, Milk, Diaper, Coke 虽然可能不是真实的,但是一定是对真实数据进行了一些初步的清洗与规约而得到的高度凝练的数据。这就需要提醒各位在做的、未来要从事数据科学工作的社会主义栋梁们,要遵守科研学术道德,绝对不可以造假。
(2)十大经典挖掘算法之一的 Apriori 算法的引用次数课程思政我们用一组数据来膜拜下这个经典 Apriori 算法。1993-1995 这三年在顶级的学术会议上发表了,目前的引用率 2 万多,这是个什么概念呢?一般的,一个一流学科的教授的所有重要论文的引用率在 500 左右,500 都是一个了不起的数据,大家可以想象一下,经典算法的经典之处。课程思政:同学们,可能会觉得这个想法很简单啊,我也能想到啊,是的不复杂,但是它是在 1993 年被提出来的,这个算法的年纪可能比在做的各位都年龄大把。那个时期的计算机科学与信息科学的发展远不如如今的技术水平,所以各位同学在看待经典方法时要注意两点:(1)要结合时代因素,全面看待经典,不能以现在的技术水平,去质疑过去经典算法的影响力;(2)不要小看自己的小创造,小创意,也许在坐的左元昊同学有一个好的想法,说不定 20 年后,这个算法就叫左元昊算法呢,我们一定不能小瞧自己的创造力,每个人都应该树立远大理想,脚踏实地地一步步实现。
(3)关联挖掘不是因果挖掘课程思政比如美国的一个犯罪率调查数据显示,冰激淋售卖少,犯罪率就下降,那是不是关了冰激淋工厂就没有犯罪了呢?很明显不是这样的,因此要注意对数据关系的误解读。课程思政:数据的正确解读十分关键,特别是我们现在的一些网络谣言,有很多看似立据充分,但是解读不正确,所以要用科学的方法去看待谣言,不信谣,不传谣。