灵玖大数据应用：文本聚类组件

供应商：: 灵玖中科软件（北京）有限公司
价格：: 请来电询价
联系人：: 张先生
联系电话：: 010-62648216
电子邮件：: 2794994234@qq.com
邮政编码：: 100080
公司地址：: 北京市海淀区中关村甲331楼14层B座3门1229号(住宅)
商铺：: mip.zhaozhaoqu.com/sp/7372916/

详细介绍

聚类分析是一种无指导的机器学方法，在机器学、统计分析、模式辨别、数据挖掘、生物学等许多领域得到了广泛的研究与应用。聚类的基本目的是将数据对象按照的标准分成若干个簇，使得同一个簇中的对象之间相似度较大，不同簇之间的对象相似度较小。

文本聚类组件是基于相似性算法的自动聚类技术，自动对大量无类别的文档进行归类，把内容相近的文档归为一类，并自动为该类生成标题和主题词。适用于自动生成热点舆论专题、重大新闻事件追踪、情报的可视化分析等诸多应用。

　　文本聚类算法体系：

　　1、基于层次的聚类

　　层次(hierarchical methods)聚类方法可以是基于距离的或基于密度或连通性的。层次聚类方法的一些扩展也考虑了子空间聚类。层次方法的缺陷在于，一旦一个步骤(合并或分裂)完成，它不能被撤销。这个严格规定是有用的，因为不用担心不同选择的组合数目，它将产生较小的计算开销。然而这种技术不能更正错误的决定。

　　2、基于划分的聚类

　　划分法(partitioning methods)，给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组代表一个聚类，K

　　(1) 每一个分组少包含一个数据纪录;

　　(2)每一个数据纪录属于且仅属于一个分组(注意：这个要求在某些模糊聚类算法中可以放宽);

　　对于给定的K，算法给出一个初始的分组方法，以后通过迭代的方法改变分组，使得每一次改进之后的分组方案都较前一次好，而所谓好的标准是：同一分组中的记录越近越好，而不同分组中的纪录越远越好。

　　3、基于密度的聚类

　　基于密度的方法(density-based methods)，基于密度的方法与其它方法的一个根本区别是：它不是基于各种各样的距离的，而是基于密度的。这样能克服基于距离的算法只能发现“类圆形”的聚类的缺点。

　　这个方法的指导思想是，只要一个区域中的点的密度大过某个阈值，把它加到与之相近的聚类中去。

　　代表算法有：DBSCAN算法、OPTICS算法、DENCLUE算法等;

　　4、基于网格的聚类

　　基于网格的方法(grid-based methods)，这种方法将数据空间划分成为有限个单元(cell)的网格结构,所有的处理都是以单个的单元为对象的。这么处理的一个突出的优点是处理速度很快，通常这是与目标数据库中记录的个数无关的，它只与把数据空间分为多少个单元有关。

　　代表算法有：STING算法、CLIQUE算法、WAVE-CLUSTER算法;

　　5、基于模型的聚类

　　基于模型的方法(model-based methods)，基于模型的方法给每一个聚类假定一个模型，然后去寻找能够很好的满足这个模型的数据集。这样一个模型可能是数据点在空间中的密度分布函数或者其它。它的一个潜在的假定是：目标数据集是由一系列的概率分布所决定的。

　　通常有两种尝试方向：统计的方案和神经网络的方案。

免责声明：此产品由该企业自行上传维护，内容的真实性、准确性、合法性由发布企业负责，找找去对此不承担任何保证责任！

其他产品

移动版 | 电脑版 |