• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    智能检索环境下语义分词调整策略的研究

    时间:2023-01-17 21:35:06 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    尹梦岩 王梦霞

    (国家知识产权局专利局审查协作广东中心,广东 广州 510000)

    检索是专利行政审批中非常关键的环节,而检索离不开检索系统,传统的检索系统如中文摘要库、中文全文库、DWPI数据库,一些新的语义检索系统如Patentics、Incopat也为人们熟知,智能语义检索系统的特点在于基于语义检索模型与模型构建后的向量空间矩阵计算[1],并不局限于关键词的比对,而是整个文献之间的关系,依托于大数据的处理,从而更快更好地得到对比文件。

    相应的,国家知识产权局也推出了自己的智能检索环境,在保留原有S系统核心功能的基础上,新增加了语义检索、语义排序等智能化检索模块[2]。基于上述功能,智能检索环境提供了四种常用的检索策略,分别为纯语义检索、先语义后布尔限定、先布尔检索后语义排序和纯布尔检索[3],其中语义排序是智能检索环境的核心功能。语义排序功能的实现和其他智能检索环境类似,先提取本申请或者自定义文本中的关键词等作为语义分词,然后生成词典,计算词向量,得到语义分词的关系矩阵,对相关的文献根据关系矩阵计算相关度并进行排序。由此可见,语义分词对于文献的检索是非常关键的。一般情况,智能检索环境会给出约20个语义分词以及相关的权重,审查员在检索时可对语义分词进行增加、删减和/或更改权重,以期望更快地得到可用对比文件,然而,语义分词的调整方向有很多,如何干预分词才能够更加准确快速地定位对比文件,是值得探讨的问题,本研究结合两个案例对语义检索过程中语义分词调整的调整策略进行初步探讨。

    如前所述,语义分词可以增加、删减和/或更改权重,下面主要从增加关键分词、删除部分分词、仅保留关键分词这三个情况进行探讨,并相应地调整关键分词的权重,进而得到这三种情况下分词对对比文件的排序影响。

    1.1 案例1

    一种可降解环保扣。权利要求1范围如下。其特征在于,包括以下重量份数配比的原料:PLA和增塑剂。根据记载,本发明提供了一种可降解环保扣及其生产工艺,具备可降解环保等优点,该种渐变色树脂纽扣以及其他塑料纽扣无法进行自然降解,不能够形成二氧化碳和水等自然界常见形态的化合物,对地球环境造成巨大的威胁,故而提出一种可降解环保扣及其生产工艺解决上述问题。因此,本申请的要点在于使用聚乳酸制备成可降解的纽扣,关键词为聚乳酸+纽扣。

    首先进行纯语义检索,在智能检索数据库中选择中文全文库,语义基准为本申请的申请号,浏览前5页给出的100篇文献,其中无可用对比文件。然后进行布尔检索后语义排序,数据库不变,限定关键组分进行检索,检索式如下:(聚乳酸or PLA or聚丙交酯or P?LA)p(纽扣or扣or纽)检索结果共851篇,浏览得到文献CN101902932A,其公开了由生物质原料制成的钮或键,其具有160℃以上的热变形温度。所述的钮或键将含有树脂的成型材料成型而成,其中所述树脂包含聚乳酸;
    通过适用JIS-S-4025,具有230 N以上的强度。该文献出现在第38位,不算靠前,但经分析可知,此对比文件和本申请相关度很高,已经公开了本申请的发明构思,按照上述思路调整检索的语义分词,尝试分析语义分词和文献排序的关系。

    1.1.1 增加关键分词。展开系统中给出的语义分词,分别为固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、减水、精化、抗拉伸、切粒、搅拌釜、聚乳酸、可降解、开环、自然界、淀粉,而从前面的分析可知,关键的分词为聚乳酸、纽扣/钮扣,因此添加语义分词纽扣、钮扣,并将纽扣、钮扣和聚乳酸的权重调整为5,对比文件出现在第43位,相关度反而降低。

    降低上述语义分词的权重为4,发现该对比文件出现在第39位,相关度增加;
    继续调整权重为3,相应对比文件出现在第27位;
    调整为2/1,相应排在第14/22位。除去前面一些时间不可用的文献,这样的排序已经很靠前了。

    1.1.2 删除部分分词。从前面给出的分词中可以看出有些分词如搅拌釜、固相聚合在该申请中只是泛泛提及,和该申请关键的发明点关系不大,将这些分词删除,并将分词聚乳酸、纽扣权重调整为5,以申请号为基准进行语义排序,上述对比文件排序为第47位;
    将分词权重调整为4,对比文件排序为第36位;
    继续权重调整为3,对比文件排序为第24位。权重调整为2,对比文件排序为第15位;
    权重调整为1,对比文件排序为第17位。

    1.1.3 仅保留关键分词。将认为不相关的分词全部删除,仅保留关键的聚乳酸、纽扣/钮扣,并将权重设置为5,语义排序后该文献排在第43位。随后将分词权重依次调整为4→3→2→1,对比文件相应的排序依次为41→33→12→24。

    目前分词中仅含有上述三个分词,可以进一步探讨哪个分词对结果影响最大,设置分词聚乳酸和钮扣的权重使其不同,调整聚乳酸分词权重为5,其他分词权重为1,结果对比文件直接降到了第116位;
    调整纽扣分词权重为5,聚乳酸权重为1,对比文件排序为第46位。从上面的结果可以知道,分词聚乳酸对对比文件排序产生是负向影响,而纽扣则产生正向影响的。调整纽扣分词权重为3,聚乳酸等分词权重为2,对比文件排序为第23位。删除分词聚乳酸,对比文件排序变为第19位。

    1.2 探究小结

    对上文中探究过程进行总结,见表1。

    从表1可以看出,是否删除分词对排序影响不大,三种情况下对比文件的排序和分词权重的关系是相似的,分词权重从5变化到1时,对比文件的排序都是先变得更加靠前然后有所下降,因此设置分词权重为2或3时,对比文件排序更为靠前,有更大可能更快获得对比文件。

    表1 分词调整的探究过程总结

    1.3 原因探索

    上述语义分词的调整结果和预想有所差别,比如关键特征的分词权重很高,删除无关分词仅保留关键分词,反而对比文件的排序较低,这可能是因为智能检索环境下,以申请号作为语义基准时,对一篇文献标引的语义分词是非常多的,可能有几百个,审查员能看到的仅有前20个,存在大量看不到无法调整的语义分词,而对于对比文件的排序,并不是一两个分词决定的,而是多个分词的组合决定的,每篇文献都有大量的分词组成的组合,在这两个文献之间进行相似度的匹配,因此,在调整分词的时候,部分分词的删除可能并不是必要的,而分词的权重也并不是越重越好。

    为了验证该猜测,下面调整语义排序基准为自定义文本,排除看不到的分词的影响,和前面类似的只保留分词聚乳酸、纽扣/钮扣,并设置权重为5,对比文件排序在第192位,将权重依次调整为4→3→2→1,排序位置均为192位,并无变化。这说明貌似不相关的语义分词其实对对比文件的排序筛选是有效果的,为了验证这些分词的效果,在上述基础上手动添加系统给出的并不关键的分词,即添加固相聚合、二甲酸二丁酯、烘料、磷酸三甲酚酯、丙交酯、减水、精化、抗拉伸、切粒、搅拌釜、可降解、开环、自然界、淀粉,并且设置权重和原有的相同,语义排序后对比文件为第158位。类似地删除搅拌釜、固相聚合,对比文件变为第185位。这说明确实存在其他分词也在影响对比文件的排序,相关对比文件的排序是多个分词的组合决定的,删除不相关的分词反而会影响对比文件的位置。

    系统中对比文件给出的语义分词为酒石黄、氢氧化铋、纽扣、氧化铁棕、碳酸铅、染色性、青蓝、光泽、分散染料、JIS、半透明、珠光粉、高品质、强度高、树脂、酞青蓝、挤压、氧化铁黄、立构、透明,可以看到分词中存在着纽扣,因此上述分词调整中纽扣权重的调整对于对比文件的排序是正相关的。

    不过相关的分词和该申请差别也很大,而且和对比文件主要公开的内容也不相符,对比文件的语义分词存在着大量颜料相关的关键词,其实这只是对比文件泛泛提及的技术特征,所以直接语义检索无法得到该对比文件,这也说明了布尔检索的必要性。进一步的,该结果也说明了将看似无关的分词全部或部分删除后,对比文件反而不容易获得。

    故从案例1来看,对分词的调整建议如下:①不进行调整,也可以比较快速地得到对比文件;
    ②在进行调整时,可以先尝试增加关键的分词,相应的权重设置为2或3即可,不要进行分词的删除,因为从前面的结果来看,无关分词的存在反而提高了对比文件的顺次,这可能是因为这部分分词只是看似不相关,其实在整体上影响申请文件和对比文件之间的相似程度。

    下面结合案例2来看一下上述结论是否准确。

    一种PPE/PS合金及其制备方法和应用。权利要求1:一种PPE/PS合金,其特征在于,按重量份计,包括以下组分:PPE树脂和PS树脂总重量份为100份,重量比PPE∶PS=6∶1至1∶1;
    碳纳米管2~10份。根据说明书的记载,该申请要解决的技术问题为提供一种同时具有表面无脱碳、热变形温度高、电阻值大于E5的PPE/PS合金。主要的发明点在于通过复配一定比例的PPE/PS合金、采用碳纳米管代替导电炭黑,解决了PPE/导电炭黑的制件表面脱碳的技术缺陷。同时,具有热变形温度高、当添加玻璃纤维时,该发明PPE/PS合金还具有制件表面无浮纤的优点,满足ICTRAY盘行业的使用需求。可以看出本申请的检索要点在于组成,即聚苯醚+聚苯乙烯+碳纳米管,因此,首先想到先进行语义检索,并对语义分词进行调整。

    类似地先进行语义检索,但前200条结果均未获取对比文件。然后布尔检索后语义排序,数据库选择为CNTXT,排序基准为申请号,布尔检索式为:(聚苯醚or PPS)and(聚苯乙烯or PS)and(碳纳米管or CNT),检索结果为2 594篇,对比文件CN101580243A排序第168位。调整语义分词,仅在原有语义分词的基础上,增加分词聚苯醚、聚苯乙烯,权重调整为3,该对比文件排序在第46位。

    如若将上述关键词权重增加,调整为4,该对比文件排序在第110位,接着调整权重为5,对比文件排序为第150位。可以看出该次检索和案例1的规律相符,当然,以上的探讨并不严谨,也无法仅通过两个案例得到确定的结论。不过,从上述案例可以得到一种倾向,即为分词的权重先尝试调整为2或3,有更大的期望能够快速得到对比文件。

    从以上的探究可知,在智能检索环境中下以申请号为语义基准进行检索时,对文献标引了大量语义分词,但受限于实际应用仅能给出一小部分的分词进行调整,因此,在调整分词的时候需要谨慎,删除部分分词的必要性不大甚至有相反效果,可增加部分关键分词,而分词的权重也不宜过高,建议调整为2或3即可。

    猜你喜欢 聚乳酸分词纽扣 圈一圈 数一数小学生学习指导·低年级(2021年6期)2021-09-10聚乳酸/生物基尼龙复合材料的结晶、流变和力学性能包装学报(2021年1期)2021-04-29小纽扣大变身少儿美术(2021年4期)2021-04-26分词在英语教学中的妙用校园英语·月末(2021年13期)2021-03-15结巴分词在词云中的应用智富时代(2019年6期)2019-07-24结巴分词在词云中的应用智富时代(2019年6期)2019-07-24玩转纽扣少儿科学周刊·儿童版(2017年3期)2017-06-29飞行服为什么没有纽扣文理导航·趣味课堂(2016年3期)2016-04-26聚乳酸-聚己内酯/茶多酚复合膜的性能研究食品工业科技(2014年13期)2014-03-11聚乳酸纤维的性能特点与产品开发前景中国信息化·学术版(2013年7期)2013-09-03
    相关热词搜索: 分词 语义 策略

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章