【算法】分类和聚类,二者大不同!

分类(Classification)与聚类(Clustering)在数据处理圈中算是出现频率较高的两类算法。但对不了解数据处理的人来说,当把二者放到一起时,很容易“傻傻分不清楚”。下面,美数菌在不涉及具体、复杂、高深的算法步骤和说明的前提下,来对两个算法进行一下浅显易懂、入门级的介绍和对比。

 
分类与聚类的本质区别
 
二者的本质区别是:对受众的标签类别是已知还是未知!
 
具体解释就是,分类对受众标签类别是已知的。即事先定义的类别,类别数量,甚至类别间的层级关系都是已知的。然后利用训练和学习完的模型把数据库中的未分类数据项,根据特征或属性映射到给定类别中的某一类中;而聚类则对受众标签类别是未知的。即没有事先预定的类别,类别数也不确定。只是根据“物以类聚”的原理,通过对算法判断规则的调整将具有相似特征的数据聚成一类。

 
分类与聚类的应用思路
 
可能从概念上理解分类与聚类的本质区别比较晦涩难懂。下面列举二者在互联网广告中的应用实例,从而来做进一步区分。其中,电商是同时利用这两种算法的典型领域。
 
分类算法应用思路
效果类广告投放的开始阶段我们称之为冷启动阶段。可能对大多数非 HERO 级别电商广告主而言,自身没有第一方数据或者数据量稀疏。这导致依靠历史数据积累才能发挥作用的算法无法派上用场。那么,在冷启动阶段如何进行广告投放?使用分类算法对广告平台预先分类出的人群做投放是明智之选。这里要强调:并不是说分类算法不需要数据积累,而是人群分类本身就是基于全局的、利用历史上受众行为得出的,已经完成了前期的数据积累、分析过程。
 
使用分类算法,就是借助强大的大数据技术,预先将广告平台人群数据按照标签属性做好分类,然后运营人员利用经验和对客户产品的深刻理解,可以从归类好的平台数据库中筛选出目标受众类来做定向投放。分类算法就相当于区分受众的工具,是电商广告主或投放平台搞清楚“对谁投广告”的过程。受众分类做得好、分得准,能大大缩短冷启动周期,减少预算浪费。
 
聚类算法应用思路
当投放开始后,随着运营人员根据实时的投放反馈数据及时优化调整投放策略,会积累越来越多的有效用户数据。这时候,聚类算法开始出场了。在电商领域,这里所说的“有效用户数据”,就是用户的电商行为数据,如商品浏览、点击、加入购物车、购买等行为数据。利用这些行为数据加上聚类算法的判断规则,协助电商广告主进行客户分群,即用不同划分标准将相似行为的用户聚到一起,比如分为:高价值用户、一般价值用户和潜在用户;或者是追求品质型用户、追求实用型用户、追求个性型用户等。然后进一步深入挖掘、刻画不同客户群的特征,从而为不同价值或不同“喜好”的客户群提供不同的营销推广方案和预算配比方案,将能最大化提升转化率和客单值。
 
聚类算法是电商广告主细分市场、细分消费者的有效工具;同时也可通过研究消费者行为,进一步高效化开拓新的潜在市场、挖掘潜在客户,最大化提高自身盈利水平。

 
说在最后
大数据的真正含义不在于“大”,而在于从海量的数据库中挖掘出隐含在其中的“有用信息”。而今天所讲的分类、聚类算法,就是把数据变得更有价值的两种常见数据挖掘算法。对于这两种算法,你不一定要“会”,但一定要“懂”!只有了解了二者的应用思路,才能通过大数据高度自动化地分析,做出归纳性的推理,从中挖掘出潜在的价值信息,帮助企业调整自身市场策略、减少风险、理性面对市场,从而保持核心竞争力,立于不败之地!

申请账号

请留下您的正确信息,我们将在2个工作日内与您联

并把账户信息发送到注册邮箱

重置