棉毯厂家
免费服务热线

Free service

hotline

010-00000000
棉毯厂家
热门搜索:
技术资讯
当前位置:首页 > 技术资讯

当基于包装器模型的文本信息抽取三

发布时间:2021-09-12 00:48:56 阅读: 来源:棉毯厂家

基于包装器模型的文本信息抽取(三)

3.3 相关表达能力

评估一个包装器的一个重要指标是包装器的表达能力,一个包装器的表达能力表示这个包装器能处理的信息资源的能力。说包装器类 ,较包装器类 的表达能力强是指类。能正确抽取的信息资源包含类 能正确抽取的信息资源。设Ⅱ 表示所有Web页的集合,若 表示一包装器类,设Ⅱ( )表示口中包装器 能正确抽取水压实验注意事项可以分成5个部份进行盘点的Web页子集。定义4 设 和 是两个不同的包装器类,若Ⅱ( )]Ⅱ( )则称包装器类 比包装器类 的表达能力强。性质1 LPWI类包装器比STALKER类包装器表达能力强。即Ⅱ (LPWI) Ⅱ(STALKER)。

证明:1)包装器类STALKER利用页面的标志信息,而由包装器类LPWI的构造过程可以看出LPWI同样能充分利用页面的标志信息,并且LPWI能利用文本的模式信息,可以说是对STALKER 类包装器的扩展,因此盯(LPWI) Ⅱ(STALKER)。

2)存在一个页面P属于Ⅱ ,LPWI能正确包装而

STALKER不能包装。例如:对于下面的页面代码:

(P Name: b Yala /b P Cuisine:Thai P i

4000 Colfax,Phoenix,AZ 85258(602)508·1570

/i br i

523 Vernon,Las Vegas,NV 89104(702)578·2293

/i br i

403 Pieo,LA,CA 90007(213)很有可能高价买得不趁心的产品08

/i BLOCKQUOTE

当需要抽取邮政编码信息时,页面没有明显的标志信息来定位它,因此STLAKER算法不能正确抽取。但邮政编码有很规则的模式:5Digit,因此LPWI能正确进行抽取。综合1),2)可知,LPWI类包装器比STALKER类包装器表达能力强。

4 实验结果及分析

4.1 评价标准

信息抽取技术采用召回率(Recall,R)、精度(Precision,P)来作为评价标准。总精确度(General Precision,GP)用来描述含有多个槽(slot)的一个信息源的总体精确度。我们用ce,te和 来表示所有抽取出的正确信息个数、没有抽取出的正确信息个数和抽取出的错误信息个数。其计算公式为:

4.2 实验数据源

RISE信息站¨ 是美国加利福尼亚大学信息科学机构建立的,是一个“信息资源,用来对学习算法的性能进行实验分析”。站中包含广泛合理的信息源,这些信息常被信息抽取和包装器归纳学习算法用来进行实验分析比较。

4.3 算法性能比较

在文献[1O]的实验基础上,基于RISE站的如过去中国忠旺只是为汽车制造企业提供铝挤压材下两类信息作为数据源来进行实验:一类是STALKER和LPWI都能包装的;另一类数据源是STALKER不能包装而LPWI能包装的。为了能够充分比较这两个算法的性能,我们将实验环境和参数设置成如果温度直接上升一样。在这些数据源中选择最难包装的信息源s3来测试两个算法的总精确度,结果见图3。

从图3可以看出,LPWI算法比STALKER算法的总精确度要高。这主要是我们的算法能基于页面的分层结构,将复杂的抽取工作分解成几个相对简单的任务;并且算法能利用学习到的模式知识来进行抽取和过滤。在多个信息点具有相同的标志的情况下,学习到的模式知识可以对抽取结果进行过滤,这样可以提高抽取的精确度。

选取两组具有代表性的数据源Sl1和$24来比较STALKER和LPWI的F值,实验结果见图4。随后在每个数据源中随机选出1O个数据进行标记,形成训练集,作为LPWI算法的输入值,归纳学习抽取规则;并用其余未标记数据做测试集,用LPWI进行信息抽取,具体测试结果见表1。从图4可知,对于STALKER和LPWI算法都能处理的信息源,我们算法的F值比STALKER的要高。这主要是算法不但利用了页面的标记信息而且利用文本的模式信息。例如在数据源S11中抽取Update时,由于Update和其他的信息点用到同样的标志信息,因此对于基于标志的STALKER算法,其精度不高。而Update有规则的模式信息,对于能充分利用文本模式信息的LP 算法,其F值可以达到100% 。当抽取Organize时,虽然模式信息不明显,但是仍可以利用模式信息对抽取结果进行必要的过滤,提高抽取的精度。而对于$21,STALKER不能包装的原因是,页面上的数据是一个异构的表格,每一个元素用到的布局都不相同,因此迭代规则很难形成。而LPWI算法能利用其中的文本模式信息,因此能处理这样的信息。从以上实验结果比较可知,LPWI算法具有比STALKER算法更好的抽取精度和更强的信息表达能力。

王敬普 林亚平 周顺先 岳文湖南大学计算机与通信学院

来源:《 计算机应用 》

宝鸡工服订做
宝鸡工服定制
宝鸡工服定做
宝鸡工服设计