灵玖大数据应用:自然语言文本文档抽取模块

供应商:
灵玖中科软件(北京)有限公司
价格:
请来电询价
联系人:
张先生 
联系电话:
010-62648216 
电子邮件:
2794994234@qq.com 
邮政编码:
100080 
公司地址:
北京市海淀区中关村甲331楼14层B座3门1229号(住宅) 
商铺:
mip.zhaozhaoqu.com/sp/7372916/

详细介绍

  文档抽取(DocExtractor)组件是指自动识别包含在自然语言文本中的实体之间的预定义关系。所谓实体是指文本中包含的特定事实信息,如人物、组织机构、地理位置等。文档抽取在数据结构化、信息检索和自动应答系统等领域有着重要的研究意义。美国标准技术研究院(NIST)在2008年组织的自动内容抽取(ACE,AutomaticContentExtraction)评测中定义了7种实体关系类型和18种子类型。

  目前大多数中文文本分类系统都采用词作为特征项,作为特征项的词称作特征词。这些特征词作为文档的中间表示形式,用来实现文档与文档、文档与用户目标之间的相似度计算 。如果把所有的词都作为特征项,那么特征向量的维数将过于巨大,会对分类系统的运算性能造成极大的压力。在这样的情况下,要完成文本分类几乎是不可能的。寻求一种的特征降维方法,不仅能降运算复杂度,还能提高分类的效率和精度,是文本自动分类中一项重要技术。

  文档抽取的主要功能是在不损伤核心信息的情况下降向量空间维数,简化计算,提高文本处理的速度和效率。相对于其他分类问题,文本特征抽取的方式常见的有4种:

  . 用映射或变换的方法把原始特征变换为较少的新特征;

  . 从原始特征中挑选出一些代表性的特征;

  . 根据的知识挑选有影响的特征;

  . 基于数学方法进行选取,找出分类信息的特征。

  其中基于数学方法进行特征选择比较,人为因素干扰少,尤其适合于文本应用。这种方法通过构造评估函数,对特征集合中的每个特征进行评估,并对每个特征打分,这样每个词语都获得一个评估值,又称为权值,然后将所有特征按权值大小排序,提取预定数目的特征作为提取结果的特征子集。


免责声明:此产品由该企业自行上传维护,内容的真实性、准确性、合法性由发布企业负责,找找去对此不承担任何保证责任!
其他产品
移动版 | 电脑版 |