[专利同被引聚类与专利引用耦合聚类的对比分析] 确定最佳聚类数目方法的对比分析

时间：2019-04-16 03:30:08　来源：柠檬阅读网本文已影响人

　　[摘要]同被引聚类与引用耦合聚类是两种常用的文献聚类方法，本文从聚类的时效性和实际可操作性、聚类结果的完整性和稳定性、聚类原理与专利法理逻辑和创新协同效应的契合性等方面对两种方法进行对比分析。发现引用耦合聚类方法在揭示专利间的相似性方面更具优势，同被引聚类方法则更适用于发现基础专利和揭示技术演化规律。两者若结合使用，则能在解决实际问题的过程中实现优势互补。
　　[关键词]专利聚类　专利引用　同被引　引用耦合
　　[分类号]G255.53
　　1、引言
　　如同各种图书分类法都不能满足实际的文献分类需求一样，国际专利分类法(IPc)也不能完全解决专利文献的分类问题。当面对多样而复杂的专利分类任务时，我们需要利用文献聚类的方法来弥补IPC的不足。
　　事物聚类的原因是事物间的相似，相似性判断是聚类的基础，聚类的过程实质上是对相似性进行计算的过程。
　　相似理论是对相似现象及其原理进行探讨而形成的理论体系。相似理论第1定理的内容是：可以用现象的相似来度量实质的相似，可以通过求解相似指数方程来计算相似的程度。当我们无法直接观察和判断事物间内在本质的相似性时，可以借助测度事物间外在现象的相似性来判断事物是否相似。例如，由于专利的海量性，我们无法基于人工阅读来判断专利间的相似，而通过测度专利的外部现象——引用关系的相似性，我们可以定量计算专利间相似的程度，从而为专利聚类提供依据。
　　近年来，专利间的引用关系已日渐成为专利聚类的依据。Egghe和Rousseau指出：被引专利的部分或全部内容与施引专利的部分或全部内容之间总存在着某种关系，引用关系计量就是研究这种关系的有效途径。刘林青指出：基于引用关系的文献聚类，能够呈现学科内部的知识结构，能够实现在各个层面上的知识自动聚类。刘则渊认为：从Price、Garfield到Small，引用计量理论与方法已日臻完备，并构成科学计量学和文献计量学的基础理论与主流方法。
　　2、基于引用关系计量的两种专利聚类
　　目前基于专利间引用关系的专利聚类方法可以分为同被引聚类和引用耦合聚类两种。
　　专利同被引是指两项专利同时被后来的其他专利引用的现象。如果A、B两项专利都被专利R引用，则专利A与专利B之间存在同被引关系，这种关系通常被认为是两项技术在理论或方法上同源的表现。
　　Stuart和Podoly以专利间的同被引关系为依据设计了技术相似度的计算方法；Lai设计了通过同被引分析对高被引专利进行聚类的方法和流程；Chang以专利间的同被引关系为基础对“business methodtechnology”领域的美国专利进行了聚类。
　　引用耦合是指若干专利都引用了同一专利的现象。如果A、B、C、……等若干件专利都引用了专利R作为已有技术，则A、B、C、……等若干件专利间存在引用耦合关系，这种关系通常被认为是若干发明人共同关注相似技术的表现。
　　GanzeI和Czerwon在机构、地区、国家三个层面上以专利引用耦合为依据进行了技术相似度判断；Huang基于专利引用耦合对50个台湾高技术企业进行了聚类；Lo通过专利引用耦合分析实现了遗传工程技术领域内40个机构的聚类。
　　业界对上述两种专利聚类方法都有所应用，通常认为同被引聚类是基于前向的引用视角，能够动态地反映变化信息，而引用耦合是基于后向的引用视角，可以静态地总结和描述过去的信息。但是，这两种方法在专利聚类效果上各有哪些优势和缺陷，在原理上与专利这种特殊文献的契合度如何，业界尚鲜有研究。
　　3、同被引专利聚类与引用耦合专利聚类的对比分析
　　本文试图从聚类的时效性、实际可行性、聚类结果的完整性和稳定性、聚类原理与专利法理逻辑和创新协同效应的契合性等方面对同被引聚类和引用耦合聚类进行对比分析。
　　3.1　引用耦合聚类比同被引聚类时效性更强
　　同被引聚类的前提是存在同被引关系并可以计算同被引强度，而专利从问世到被引总有一个时滞，Hall和Jaffe经统计发现：美国专利中有50％的被引发生在专利公布后的10年之内，有75％发生在20年之内。对于刚刚问世的新专利而言，被引现象尚未出现。因此，那些承载着前沿技术的最新专利，将无法被聚类。
　　再有，同被引关系的发生与专利本身的年龄直接相关，越老的专利之间发生同被引的概率越高，这就会造成越老的专利之间表现出的相似度越高即越易于被聚为同类的系统误差。
　　同被引聚类能够处理的通常是已被多次引用的较早的专利，因此这种方法应用于专利聚类时将表现出较差的时效性。
　　引用耦合聚类则可以适用于对任何最新专利技术，因为每一项专利在公布之时也同时公布了其引用信息，引用耦合数据也能够同时生成。专利间的引用耦合网络可以实时地反映当时的技术知识结构，基于此，有学者提出了使用引用耦合聚类来发现前沿技术热点的观点。
　　3.2　引用耦合聚类比同被引聚类更加实际可行
　　Lai和Wu对于专利的同被引聚类原理进行了说明：从目标专利(待聚类专利集)中选取高被引专利作为基础专利(也称种子专利)，以基础专利之间的同被引强度作为依据进行聚类，可得到若干专利类目。基于上述原理，Chang和Lai运用层次聚类法进行了专利同被引聚类实验，聚类过程如图l所示：
　　在上述的层次聚类过程中，待聚类的专利必须都是高被引专利，因为只有高被引专利才有足够高的概率与其他专利发生同被引。另外，仅能够发生同被引还不够，层次聚类法还要求这些同被引频次数值之间存在明显的差异，否则将无法进行聚类计算。但事实上，高被引专利只是专利中的极少数，大多数专利的被引频次都为1－2次，同被引频次则大多为0或1，这就使得同被引频次不仅低而且几乎不存在差异，换言之，基于同被引关系的专利层次聚类方法只是在理论上可行，而在实际中几乎无法应用。
　　相比之下，引用耦合数据则更易于获得。Karki和Krishnan经统计发现：平均每项美国专利引用在先专利5－6项，引用非专利文献1篇，这使得笔者可以获取足够的专利引用数据进行引用耦合计算，从而在高被引专利以外的更广阔的范围内实现专利聚类。
　　3.3　同被引聚类必然造成大量专利技术类别遗失
　　在同被引聚类结果中，只有高被引专利(见图2中核心区域内的点所示)所具有的技术特征才可能被专利聚类的类目所描述，而大多数被引频次一般(见图2中中间区域内的点所示)或较低(见图2中外围区域内的点所示)的专利所具有的技术特征都被聚类类目排除在外。这就使得客观上存在的大量技术特征不能被类目所描述，继而使得事实上存在的大量技术类别无法成为专利的类目。因此，同被引聚类结果所形成的类目体系不能真实地呈现技术知识体系的本来面目，不能完整地反映技术知识体系的成分和结构。
　　由于缺失了大量技术特征，遗漏了必要的技术主

相关热词搜索：专利耦合引用分析

[专利同被引聚类与专利引用耦合聚类的对比分析] 确定最佳聚类数目方法的对比分析

最新文章

热门文章