国家级高新技术企业 中华人民共和国公共安全行业标准制定单位
双软认证企业 领先的系统整体解决方案提供商
自然语言语义理解系统
  • 文章作者:佚名    点击量:    更新时间:2015年04月08日

以模拟操作的方式对各个系统进行数据抓取由于实施速度快,易于实施,没有技术障碍,因此会越来越多的被各个部门使用,而抓取来的数据是以平行模式进行扁平化保存的。带来方便的同时也带来一个问题,这么多数据如何展示?如何被检索和取用?如果再制作一个通过一层层的菜单来管理的系统来存放这些数据,则又把这些从各个系统中一层层抓取出来的数据又放入一个新的一层层束缚的传统结构中去了,模拟方式的数据抓取就失去了很大一部分意义。所以,随着抓取数据越来越多,就需要通过自然语言进行直接调用。系统对自然语言的理解,是在第一阶段模糊语义系统的基础上的进化和升级。模糊语义系统是通过人工建模的方式整理行业百科,梳理出行业规则和语义逻辑,对于小范围的数据管理是有效的,但是对于较大规模的数据管理就力不从心了。这时候就需要升级到自然语义理解系统。万赛的自然语音语义理解系统CB6500可针对任何数据集进行自学习和行业百科逻辑抽取,并可接受自然语言方式的命令对数据集进行各类方式的查询、数据处理和可视化展现。

自然语言语义理解系统采用先进的模式识别技术,不需要改变企业现存的IT结构与部署,自然语言语义理解系统提供了一个智能数据操作层, 这是一种强大的基础软件技术,能够使企业自动处理各种信息。
自然语言语义理解系统能够理解任何形式的信息内容,即理解后集成,实现了应用之间的相互通信,同时无需手动创建复杂的连接接口或使用元数据。自然语言语义理解系统技术使企业能够处理任何类型的数据,并提供了前所未有的自动化水平。
自然语言语义理解系统不需要复杂的编程、大量的集成、商业逻辑或中间设备,也不需要手工标记、链接或分类信息。其他应用程序可通过他们对非结构化信息的共同理解迅速与自然语言语义理解系统集成。自然语言语义理解系统可以运用与人类相似的方式理解信息(它能够从人类可读的文档中读取内容,直接关联概念,而不依赖于由人工标记组成的规则)。
自然语言语义理解系统的体系架构如下图,它包括三个核心模块:数据关联引擎、数据分类引擎和角色关联引擎。

数据关联引擎
自然语言语义理解系统的核心是数据关联引擎,它是一种高度可扩展的多线程进程,可对目标内容进行分析并交付给用户。数据关联引擎基于先进的模式识别技术(采用高性能概率模型技术)。自然语言语义理解系统的数据关联引擎可实现下列核心操作:
概念识别:数据关联引擎接受一段内容或关键词输入,并根据相关性或概念差异程度对概念上相关的文档进行相关的排序,然后将其返回。
自动摘要:数据关联引擎接受内容并返回内容中最重要概念的摘要。另外,可以生成与原始查询相关的上下文摘要-从而可以根据给定查询的结果提供最适当的动态摘要
有效识别:数据关联引擎可以接受描述当前用户任务的文字信息并返回与当前任务相关的文档列表。
自动超链接:数据关联引擎将内容动态链接到上下文相似的信息上,无须手工插入链接。
自然语言检索:数据关联引擎接受自然语言查询并返回与所查概念相关的结果。同时支持布尔查询及关键词查询。
数据分类引擎
借助数据关联引擎能够理解上下文信息的功能,自然语言语义理解系统提供了第二个关键模块-数据分类引擎,数据分类引擎提供高扩展性的自动分类解决方案。
自动聚类:数据分类引擎能自动将大量相关内容或类似文档集中到一起形成统一的聚类。可识别含有相似概念的信息,自动为信息分组。
自动分类:数据分类引擎能自动并组织根据概念相似性进行信息分类。还能够根据文档内容发现最适合的分类并自动打上分类标记,以便进行后续的处理、路由或归档。
自动目录生成:对大量内容或概念进行分类与识别,使得数据分类引擎能够自动生成目录。可将群集或其他概念操作作为“行业百科概念”来执行自动分类。
角色关联引擎
结合数据关联引擎和自然语言语义理解系统的第三个模块-角色关联引擎,自然语言语义理解系统 实现了一系列强大的个性化操作:
行业百科业务逻辑创建:用户可使用关键词,句子,文章等内容来创建行业百科业务逻辑,行业百科业务逻辑自动维护概念相关的结果集。
行业百科业务逻辑提示:角色关联引擎能自动发现根据概念相似性排序的类似行业百科业务逻辑。
行业百科业务逻辑训练:角色关联引擎能够对行业百科业务逻辑进行训练,产生更准确的结果。
专家定位:通过对行业百科业务逻辑的分析,角色关联引擎能自动发现具有类似兴趣的用户或者用于确定某个领域的专家。

自然语言语义理解系统基本功能
自然语言语义理解系统技术可以使传统上需要企业手工操作处理的大部分重要的过程及任务都得以自动化。本节描述自然语言语义理解系统解决方案的主要功能性操作,可以使实际商务受益,例如提高组织内部的生产力、改善信息的储存、极大地降低数据维护成本以及根除因人为干预引起的不准确性。
3.5.1内容操作
自然语言语义理解系统的核心是建立在独特的模式识别技术之上,它可以保证辅助手工或全面自动地对类似信息进行识别和匹配。
3.5.1.1自动相关链接
自然语言语义理解系统技术可以识别信息间的主要关系 ,从而实现内容间的交叉索引对照。对多种文档或格式,自然语言语义理解系统都可以在操作层识别出与其相关联的资料。
自然语言语义理解系统可以实时生成相关超链接,保证实时更新,完全不需要手工插入链接。当文档被查阅时,这些链接可以自动一次性插入到文档中,可以将以前写的文档和文章作为当前文档的参考,档案资料也可以链接到最新的新闻或相关资料。
示例:
在信息检索方面的应用:
在Internet站点上浏览一篇文章时,自然语言语义理解系统把该文动态地链接到与其上下文环境相似的内容或者实时地推荐相关的资料。
在公司中的应用:
在公司里面,当一个员工在阅读或者写文件的时候,它可以通过动态链接将不同来源的与其上下文环境相似的内容作为建议提交给该员工,这种动态链接可以让员工立即浏览到相关文档、多媒体内容和相关的电子邮件。
在电子商务方面的应用:
通过上下文环境关联,电子商务提供商可以提高客户在其网站上的逗留时间,因为可以在客户浏览产品目录或内容时,自然语言语义理解系统能够自动提供其他相关的内容或产品。
在法律领域的应用:
在法律领域,通常,自然语言语义理解系统可以提供与搜索的目标法律案例上下文环境相关的法律内容。通过动态超链接,自然语言语义理解系统可以极大地减少获取正确信息所需要的时间,识别相关已有案例,及促进对现存资料的复用。
在客户关系管理领域的应用:
当客户服务代表接到客户的询问时,经常问及到的问题答案和相关的电子邮件都会通过动态超链接的形式展现出来,这样可以让组织提高其客户服务的水平,降低一线对专业知识的需求,保证所有的询问和问题都能在最短的时间内得到解答。
受益:
数据关联引擎提供的数据自动超链接,是自动发现数据之间关系(行业百科逻辑)的重要机制之一,是将离散数据构成大数据系统的基础功能之一。
自动超链接可以极大地降低任何环境下非结构化信息的维护成本
降低查找相关信息需要的时间
降低重复劳动
让人们了解信息的更迭以及最新的信息
通过动态介绍其他的内容和产品,使管理者发现潜在的问题,或者使用户或消费者在网站上逗留的时间更长,并提高点击率。
3.5.1.2自动摘要
自然语言语义理解系统可以对内容中最主要的概念进行自动摘要,也可以根据原始查询的上下文环境进行自动摘要,并且将最适合的动态摘要提交给指定的需求。
示例:
在移动方面的应用:
自然语言语义理解系统为短消息、手机应用和其他视屏受限的设备提供自动摘要机制。自然语言语义理解系统中的实时操作可以为每摘要,并且与他们查询的上下文环境相匹配。通常,不同的用户基于不同的原因可能会认为同一条内容是自己需要的,例如,关于对无线技术的讨论,一个金融领域的用户可能会很感兴趣,而另一位前沿技术开发领域的用户也会感兴趣。对这些用户的兴趣进行自动摘要,保证他们能立即看到他们需要的信息。
在公司中的应用 :
在快速竞争的时代,公司需要尽可能快地做出正确地决策,以保持竞争优势。动态内容摘要可以帮助雇员节省大量评估信息所需要的时间。
在印刷的时候,当内容受到页面大小的限制时,动态内容摘要可以识别出最适合特殊页面布局的内容。
受益:
当显示能力有限时,动态内容摘要就特别有用,可以发送高度精确的相关信息
提高用户处理信息的能力,加速商务运作
让人们能更快地做出适当的决策
3.51.3主动匹配
尽管员工手中有涉及范围很广的信息,从内部文档到网站上最酷的新闻,但他们毕竟必须花时间和精力来找到这些对他们有用的信息。“主动匹配”可以自动帮他们做这项工作,这样他们可以更快地做出正确的决策,消除重复劳动,并且可以在他们日常工作中充分利用整个公司的信息资产。主动匹配可以将典型的文档或以数据为中心的用户界面转变成以任务为导向的智能界面,可以识别用户当前的问题,确定相关的信息并且积极主动地提示用户,让他们了解到相关内容。
示例:
在公司中的应用:
当交易人员在阅读web上的一篇文章或者阅读某个公司的新闻时,主动匹配可以自动向阅读者提供一个有序的链接,链接那些从档案数据库、信息布告板、电子邮件系统或其他新闻网站中得到相关信息。这可以保证分析人员和交易人员了解到他们不知道的信息。
受益:
主动匹配功能可以积极提供没有搜索到的信息
减少收集及时信息所需要的时间和精力
可以最大程度允许信息的复用
3.5.1.4获取和检索
自然语言语义理解系统可以根据任何语言和格式进行内容搜索,不论内容存放在哪里,并且自动地实时地将内容摘要以及与其类似信息的链接呈现出来。
自然语言语义理解系统 解决方案是可拓展的,通过理解概念,它可以保证极高的准确性和全面性。自然语言语义理解系统独特的识别能力保证强大的获取特性,包括自然语言、概念搜索、自动摘要、二次概念检索,联合检索、多语言搜索等。自然语言语义理解系统还支持传统的搜索机制,例如关键词、布尔、自动纠错及同音词。
其重要特性之一是自动摘要,它允许用户快速精练他们的搜索,精确地将焦点定位在他们需要的上下文环境上。
受益:
提供跨多个数据源的统一搜索
自然语言语义理解系统可以让用户找到他们不知道的信息
3.5.1.5自动内容综合和精练
自然语言语义理解系统让组织或企业了解自己现有信息资产的状况,对多种信息源、格式或媒介,都可以进行统一的操作,自然语言语义理解系统能操作的信息包括非结构化的数据例如HTML页面,word文档、电子表格、电子邮件及半结构化数据(XML)和结构化数据例如RDBMS表格和Lotus Notes。而且,自然语言语义理解系统还可以整合并且理解丰富的多媒体内容,例如音频、视频和图像。
整合是从不同的信息数据库里收集、抽取和导入内容、元数据及安全设置以供自然语言语义理解系统的自然语言语义理解系统分析的过程。
自然语言语义理解系统的产品集包括大量高扩展组件,它可以自动整合来自多种不同数据源的200多种不同格式的内容,这些数据源包括:
Internet应用 (HTTP, SSL, POP3, FTP, NNTP 等)
数据库(Oracle, SQL Server,DB2 等)
文件系统(Documentum, FileNet, Notes, Exchange等)
应用系统(SAP, Peoplesoft 等)
新闻组 (Reuters, Moreover, Newsedge等)
所有的组件对整合后的文件进行审计,安全授权(可选)、记录修改、删除和日志,同时可以使自然语言语义理解系统系统与数据源之间保持同步。
以数据为中心
自然语言语义理解系统解决方案不依赖任何单一文件或数据格式。自然语言语义理解系统可以处理所有类型的信息,包括结构化、半结构化和非结构化数据。
受益:
处理多来源数据的统一解决方案
自动整合数据内容和个性档案
降低人力消耗
根据广泛的信息,快速的做出适当的决策
避免重复劳动和时间浪费
3.5.1.6 自动语言探测
自然语言语义理解系统可以识别数据的语言特性,而且与数据分类引擎连接,所有的内容都能根据语言类型实时进行自动分类,这样就可以降低对手工控制成倍增长信息的需求。
受益:
改进信息管理
多语种处理解决方案
3.5.2 分类操作
自然语言语义理解系统的分类技术,让企业不再需要人工干预或人工处理信息,例如手工帖标签,一般来讲现有的电子商务应用需要适当的手工干预才可以正常运行。自然语言语义理解系统的数据分类引擎具有独特的技术架构,能持续准确地自动对数据进行分类,解决成倍增长的非结构化信息分类所带来的困扰。
采用高级模式识别技术,数据关联引擎可以通过上下文环境理解任何信息内容,自然语言语义理解系统基于此技术提供高扩展分类技术,能够完全自动地对信息进行分类。
通过实现内容采集、处理、分析和发送的自动化,自动分类可以提高企业的生产力,降低整体成本。
通过自动分类、聚类、和目录生成,自然语言语义理解系统可以使企业控制成倍增长的非结构化数据处理需求。自然语言语义理解系统的分类技术可以使数据更具可访问性,为用户提供已得到清晰定义或已按业务需要进行结构化处理的信息。同时自然语言语义理解系统为企业提供分类工具,可使企业能立即了解到他们拥有的信息。
3.5.2.1自动分类
自然语言语义理解系统的可以自动对信息进行分类,而且不需要任何手工标记。手工对文档和大量的数据进行分类和标记在当今信息爆炸时代显然不是很明智的选择。自然语言语义理解系统分类方法的灵活性可以让你精确地根据非结构化文本中的概念进行分类。它保证根据内容对所有的数据进行最准确的分类。
自动分类是处理大量信息的唯一选择。自然语言语义理解系统的分类技术是一个可拓展的解决方案,它能最大限度的处理大量信息并且使其保持一致。
与依赖严格的分类定义规则的传统关键字和布尔操作不同,自然语言语义理解系统分类技术是建立在基于概念的模式匹配处理之上的,它可以对文档进行分类,自动插入数据标记,发送内容或将其提示给用户,让用户了解与其档案密切相关的信息。
这种高效率处理意味着自然语言语义理解系统可以在24小时内每CPU可将4百万份文档进行分类,也就是说在每25毫秒内差不多可处理一份文档。自然语言语义理解系统 可以支持任何数据库并且可以识别任何格式的数据,可以集成所有的安全和访问控制,从而保证数据操作的可靠性。
示例:
信息提供商可以通过自动分类控制成倍增长的信息,其数据能够持续一致地分类,并且按照业务逻辑对分类体系进行结构化重组,改善信息的利用。
受益:
消除操作大量非结构化信息带来的困扰
消除目标不明的内容管理过程,提高生产力
减少维护信息储备的压力
持续地客观地对内容进行分类,让数据更具可访问性
3.5.2.2自动聚类
自动聚类收集大量的相关或类似的文档数据或用户档案信息,并且自动识别出信息内的主要类别。自动聚类可以让自然语言语义理解系统自动地持续一致地计算新的信息应该属于哪个类别。
示例:
在公司中的应用:
它可以识别出要集中搜索的领域、竞争公司最新的新闻或市场机遇。此外,可以用来识别用户兴趣与提供给他们的数据间的“差距”,这样通过对未来信息的储备或者整合可以消除“知识/内容差距”。
在媒体方面的应用:
可以识别新的信息。根据对以前时间段的类别进行分析,并将结果与当前的信息进行比较,可以自动识别以前没有显示出来的新类别,可以自动生成“爆炸新闻”页面,可以提示新的信息领域或者订阅组的新兴趣走势。
在客户关系管理领域的应用:
数据分类引擎可以识别什么是“热点”,即主要的话题/信息类别或兴趣。这可以让服务中心识别出客户报告上来的主要问题,保证将这些信息可以提交给客户服务代表,这样他们才能提供适当的服务满足客户的期望。
受益:
数据分类引擎的自动聚类功能是大数据系统自动发现和归纳行业百科逻辑的重要基础组成功能之一
可以快速建立对知识库的高度了解
自动识别信息走势
自动跟踪走势和主题
消除知识差距
优化企业的信息流
3.5.2.3自动分类目录生成器
根据对概念的理解,自然语言语义理解系统的分类目录生成器可以自动地持续一致地理解信息并且创建有深层次的等级体系的上下文环境分类。
消除手工分类所带来的人为干预和错误,自然语言语义理解系统的以数据内容为中心的自动分类功能可以让企业根据任何类型的数据建立分类体系,不管这些数据是非结构化的、半结构化的、结构化的,还是音频、音频/视频和图像。通常,手工分类会忽略数据间的共性,忽略有价值而责任管理员或编辑又未考虑到的主题。
聚类或其他概念化的操作可以用作该过程的“种子”。 例如,一个集合可以被自动拆分为一个分类体系。同样,一个文档也可以用来作为引子,寻找与主题类似的信息,然后再将该领域也拆分为一个分类体系。那么可以根据该分类体系了解特殊信息领域,了解整体信息剖面图,或作为自动分类的培训材料,这样可以把信息放到一个得到正式定义的、被控制的和有确定名称的分类等级体系里面。
受益:
将分类过程自动化
创建持续一致的、客观的、准确和逻辑性的分类体系
提供即时信息资产视图
减轻手工操作压力,提高生产力
3.5.3 对角色数据的采集和管理
在大数据系统中,很重要并且不可缺失的是角色数据,包括个人、固定组织和临时群体的特性、共性、个体行为模式和群体行为模式。这些数据中包含了大量的行业百科逻辑,就大数据的商业价值而言,这些数据采集的重要性往往高于基础数据的采集。基于对角色数据的采集和管理,自然语言语义理解系统可以提供广泛强大的个性化操作。为用户提供代理,让他们登记自己的兴趣,进行监控,并得到提示,了解与他们个人兴趣喜好相关的信息。自然语言语义理解系统自动个性化解决方案可以实现对目标产品或内容的高度个性化,提高响应速度,提高其竞争力和收益率。
企业应用的集成提高了生产力,个性化解决方案可以让用户有能力更快地做出正确的决策。
3.5.3.1自动建立角色数据
自然语言语义理解系统自动建立角色数据功能可以让组织或企业根据自然语言语义理解系统系统中信息的浏览、使用和提交等准确地理解个人的兴趣和行为模式。根据直接角色数据和隐含角色数据(通过点击和提交),可以生成每个用户的多面概念型角色数据,它可代表用户当前的兴趣所在,而且不需要用户填写任何形式的表格。
角色数据可以通过多种设备产生。例如,通过用户和手机/PAD进行的内容交互就可以生成一个角色数据,然后,这个角色数据可以用做在Web上推荐Internet内容或者通过电子邮件或者短消息(SMS)推荐新闻内容或广告的基础。
受益:
自动发现、管理基于角色的信息数据,并大数据化,发掘隐含其中的行业百科逻辑
完全自动地提供高相关性和高准确率的信息给用户
在不需要表格、问卷或隐私条款的情况下,了解更多用户信息,而且不需要任何产品成本
3.5.3.2专家定位
除了可以识别出已定义的兴趣社区外,还可以根据用户多个侧面的概念性角色数据自动识别出该社区内的专家。与社区和协作功能相连,自然语言语义理解系统可以识别出那些杰出的专家,并且通过团队工作和积极主动提示从而协助降低重复劳动。本功能是完全自动化的,不需要手工填写表格或者提交技能信息。其他专业技术匹配系统一般都需要这样的信息输入,而且往往还不能保证成功。
在公司中的应用:
处在不同地理位置的员工往往会在遇到问题的时候,不知道谁是这方面的专家。自然语言语义理解系统可以保证自动跟踪每个员工的专业技术角色数据,并且可以实时地将兴趣和相关文档与员工专业技术角色数据相匹配,因此自然语言语义理解系统可以自动让遇到问题的员工与该领域的专家联系上。
例如:
记者在公开发布信息之前,通常要进行长时间的调查取证。而专家定位可以帮助记者找到组织里或企业里那些在该文章或主题方面有过实践经验的人,从而可以降低新闻发布时间。
受益:
确定大数据中的核心驱动力,领域的专家往往是产生大量行业百科逻辑的驱动力,对他们的识别和加权性的信息采集是大数据成功的关键因素之一。
让企业可以清晰地了解知识社区
促进协作
降低重复劳动
改进生产力
减轻工作压力
3.5.3.3信息推送
自然语言语义理解系统可以通过多种渠道包括浏览器、移动设备(手机,PAD等),或者数字电视等给用户发送个性化的内容。针对不同的设备,同样的内容可以有不同的用途,而且,用户通过设备进行交互也可以让自然语言语义理解系统了解用户的兴趣和专业技术。
示例:
在电子商务方面的应用:
通过自动建立角色数据,可以改善电子商务网站对其客户的理解,电子商务网站可以通过移动设备或短消息、电子邮件或Internet有的放矢地向其客户发送适当的信息或广告。
在公司中的应用:
一位旅游服务公司的销售代表在拜访一位潜在客户时,自然语言语义理解系统中的页面内容可以被传送到销售代表的PAD上,这样在他去见客户之前就会获得相关信息,做好充分准备。
受益:
自动地将实时的相关的信息进行个性化整理,然后发送给移动用户
快速做出合理的决策
扩大信息的可访问性
提高竞争力
3.5.3.4社区&协作
基于强大的角色数据建立功能,自然语言语义理解系统可以自动存储多个准确的、可从多个方面理解的用户信息,自然语言语义理解系统协作解决方案可以自动将用户与有共同兴趣的用户角色数据或间接类似的用户角色数据匹配起来, 而这种匹配和协作又将不断产生新的角色数据,产生更多更有价值的行业百科逻辑,这正是大数据产生人工智能的基础之一。
示例:
社区和协作功能可以将网站或移动用户组织、连接在一起,组成论坛或聊天室,确定那些有相同购物兴趣的用户,可以让他们组成采购小组,或者确定潜在用户从而采取相应的策略。
受益:
主动的组织大数据驱动力因素,以更高效率产生更有价值的行业百科逻辑。
组织或企业能清楚地了解知识社区情况
可以促进协作
提高生产力
减少重复劳动
减轻工作压力
3.5.4 语音数据的采集和管理
自然语言语义理解系统可以整合大量的知识和多媒体信息,在这之前组织或企业做不到这一点,因为实施这样的系统对计算能力、人力、储存空间提出极大的要求,而组织或企业无法满足这些要求。自然语言语义理解系统独特的技术可以提高多媒体信息的可访问性,实现对存档资料的高度复用及方便访问。
自然语言语义理解系统可以自动整合多媒体内容,不论这些内容保存在哪里,语音数据的采集和管理技术可以实时生成音频、视频内容的概念摘要及元数据。这种独特功能可以使自然语言语义理解系统以数据为中心的基本结构能对存档的数据、实时的数据、音频和人类可阅读的文本等进行交叉索引和相互关联,这样将大大拓展大数据系统对数据的涵盖范围,而且用户可以通过自然语言查询来获取和操作多媒体文件。
示例:
在广播领域的应用:
语音数据的采集和管理可以进行语音识别,能够理解音频和音频/视频内容的片断,这样可以加快信息广播准备时间,使信息尽快投入实际广播中。
在客户关系管理领域的应用:
许多客户服务中心对其客户代表与客户间的电话进行监控。通过语音数据的采集和管理, 服务中心可以识别出经常问及的问题和企业日程需要处理的事件,这样才能不断提高其客户服务水平,积累客户服务经验。
受益:
将语音数据纳入大数据系统,全面发现语音数据、语音与其他数据之间存在的大量行业百科逻辑
对现有的信息资产起着杠杆作用
可以访问大量的多媒体内容
减少资料重复存储
将音视频流信息(如新闻广播)整合到自然语言语义理解系统中
根据语音及可视化操作,开发友好直观的用户界面
快速做出适当的决策
快速付诸应用

 

分享到: