仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天小猴子和大家一起学习一个细分案例,其根据客户的购买行为对其进行细分。该示例强调了我们的方法在处理真实世界数据方面的有效性,并通过强大的数据细分技术提供有用的见解。此外,我们还应用了剖析聚类方法–这是一种更加面向业务的方法,通过检查不同细分结果中典型特征的高低指数来验证我们方法的性能。这确保了我们的细分在统计上是稳健的、相关的,并且对业务应用有意义。
细分或聚类分析是数据分析中的一种无监督学习。与使用标记数据的有监督学习不同,无监督学习在没有预定目标的情况下识别数据中的模式和结构。这种方法有几个好处:它不需要标注数据,节省了收集数据的时间和精力;它能更快地执行算法;由于对数据准备的要求较低,它具有成本效益。
用数学术语来说,监督学习的目的是最小化损失(误差)函数
Y是目标变量,f(X)是预测输出。相比之下,无监督学习侧重于在没有任何目标Y的数据集X中寻找模式。
例如,监督学习中的复购预测模型可能会根据过去的交易(使用重复性、频率和货币价值等特征)来预测客户的行为,从而预测未来的购买量。计算公式如下
其中,X包括购买历史等特征,Y是预测结果。
在对交易数据进行无监督聚类时,目标是在没有任何目标变量的情况下,根据相似的购买模式将客户划分为不同的群体。这就需要使用K-means或DBSCAN等算法来最小化聚类内部的差异:
其中S为聚类,μ为中心点,x为数据点。
细分的主要挑战来自特征选择。自变量的选择会影响结果,因为不同的特征会突出不同的模式。有效的聚类需要适当的数据处理,如标准化和共线性管理。标准化可确保特征在同一范围内,而管理共线性则可防止结果偏斜。
数据噪声和稀疏性可能会导致细分不稳定。噪声数据会掩盖真实模式,导致不可靠的分段,而稀疏数据则会产生有偏差的聚类。聚类算法的选择和聚类的数量也会对结果产生很大影响。在同一数据集上,不同的算法可能会产生不同的结果,而确定最佳聚类数量往往是主观的。
此外,无监督学习方法缺乏明确的评估指标,因此很难评估数据集的质量。这种“冷启动”问题与可根据已知目标进行验证的有监督模型形成了鲜明对比。
在本节中,我们将使用一个真实在线零售数据集的客户交易数据来演示数据细分,该数据集的时间跨度为两年(2009年12月1日至2011年12月9日)。该零售业务的主要重点是为各种场合分销与众不同的礼品。有关数据集的更多信息,在线零售II数据集。
数据获取:#公众号:机器学习研习院原文末留言即可免费获取!
数据清理和准备:第一步包括去除空值和重复值,并根据频率过滤相关的产品描述。
特征计算:计算每个产品和客户的平均数量、使用频率和使用期限。这包括按客户和产品对数据进行分组,以汇总必要的指标。
标准化:标准化特征以确保可比性。这一步骤包括对数字特征进行缩放,使其平均值为0,标准差为1。
降维:应用主成分分析法(PCA)降维,同时保留重要成分。这有助于简化数据,同时保留重要信息。
特征分箱:对PCA分量进行分选,以增强特征代表性。这包括将连续的PCA特征归类为离散的分区。
聚类算法:采用各种算法,包括K-Means、DBSCAN、聚合聚类和高斯混合模型,对数据进行聚类。
性能评估:使用剪影分数来衡量聚类质量,并解决算法选择和聚类稳定性问题。
最终输出结果显示了带聚类成员的细分数据以及每种聚类算法的性能指标,从而使人们能够全面了解细分结果。
评估细分性能不同于监督建模,例如建立回购预测模型,通常使用AUC、KS和提升图等指标。在细分过程中,我们缺少一个目标变量来衡量聚类的成功与否。虽然我们以前使用过剪影得分来评估我们的聚类,但必须指出的是,剪影得分有其局限性;它只能衡量聚类内部的一致性,而不能说明聚类方法如何有效地区分细分市场。
相反,数据剖析通常是跟踪聚类性能的首选方法。通过研究不同变量在不同聚类中的差异,我们可以深入了解定义每个细分市场的特征。这些变量在不同聚类中的指数越高或越低,表明聚类越有效。
下面是通过数据剖析评估聚类性能的方法和相应代码:
准则解释:
聚类成员定义:该函数根据所选方法(如KMeans)定义聚类成员变量名。
变量选择:从数据中选择与细分相关的原始变量(如数量、周期和任期)。
平均值计算:根据聚类成员资格对数据帧进行分组,并计算每个聚类的原始变量平均值。
计数添加:该函数在结果DataFrame中添加一列,显示每个聚类中的样本数。
指数转换:每个变量的平均值除以该变量在所有聚类中的总平均值,转换成一个指数。这样就可以比较变量的重要性和不同聚类之间的差异。
下面是一个KMeans聚类实例的剖析输出:
我们使用一个综合框架探索了通用细分技术,该框架包括数据清理、特征计算、标准化、使用PCA降维、特征分档和各种聚类算法。
虽然监督学习的传统评估指标不适用于细分,但我们强调了数据剖析对于评估聚类性能的重要性。这种方法能让我们更深入地了解数据特征在不同聚类中的变化情况,为验证细分提供了一种可行的方法。
长按👇关注-机器学习研习院-设为星标,干货速递