灵玖大数据应用:文本聚类组件

供应商:
灵玖中科软件(北京)有限公司
价格:
请来电询价
联系人:
张先生 
联系电话:
010-62648216 
电子邮件:
2794994234@qq.com 
邮政编码:
100080 
公司地址:
北京市海淀区中关村甲331楼14层B座3门1229号(住宅) 
商铺:
mip.zhaozhaoqu.com/sp/7372916/

详细介绍

聚类分析是一种无指导的机器学方法,在机器学、统计分析、模式辨别、数据挖掘、生物学等许多领域得到了广泛的研究与应用。聚类的基本目的是将数据对象按照的标准分成若干个簇,使得同一个簇中的对象之间相似度较大,不同簇之间的对象相似度较小。

文本聚类组件是基于相似性算法的自动聚类技术,自动对大量无类别的文档进行归类,把内容相近的文档归为一类,并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

  文本聚类算法体系:

  1、基于层次的聚类

  层次(hierarchical methods)聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它不能被撤销。这个严格规定是有用的,因为不用担心不同选择的组合数目,它将产生较小的计算开销。然而这种技术不能更正错误的决定。

  2、基于划分的聚类

  划分法(partitioning methods),给定一个有N个元组或者纪录的数据集,分裂法将构造K个分组,每一个分组代表一个聚类,K

  (1) 每一个分组少包含一个数据纪录;

  (2)每一个数据纪录属于且仅属于一个分组(注意:这个要求在某些模糊聚类算法中可以放宽);

  对于给定的K,算法给出一个初始的分组方法,以后通过迭代的方法改变分组,使得每一次改进之后的分组方案都较前一次好,而所谓好的标准是:同一分组中的记录越近越好,而不同分组中的纪录越远越好。

  3、基于密度的聚类

  基于密度的方法(density-based methods),基于密度的方法与其它方法的一个根本区别是:它不是基于各种各样的距离的,而是基于密度的。这样能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

  这个方法的指导思想是,只要一个区域中的点的密度大过某个阈值,把它加到与之相近的聚类中去。

  代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;

  4、基于网格的聚类

  基于网格的方法(grid-based methods),这种方法将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点是处理速度很快,通常这是与目标数据库中记录的个数无关的,它只与把数据空间分为多少个单元有关。

  代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

  5、基于模型的聚类

  基于模型的方法(model-based methods),基于模型的方法给每一个聚类假定一个模型,然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定是:目标数据集是由一系列的概率分布所决定的。

  通常有两种尝试方向:统计的方案和神经网络的方案。


免责声明:此产品由该企业自行上传维护,内容的真实性、准确性、合法性由发布企业负责,找找去对此不承担任何保证责任!
其他产品
移动版 | 电脑版 |