基于知识融合的少数民族文化资源可视化原型系统的设计与实现

时间：2023-04-08 19:05:05　来源：柠檬阅读网本文已影响人

文/刘影

随着知识经济时代的深入发展，知识融合在知识获取和展示等方面发挥出越来越重要的作用。与此同时，领域知识库的构建对不同数据源中录入少数民族数据的需求越来越迫切。基于此，为了更好地解决可能出现的数据冗余或冲突等问题，本文设计并实现了面向少数民族知识的可视化原型系统，以期为海量异构少数民族文化资源融合的深入研究提供助力。首先，本文构建了少数民族文化资源知识融合模型，并依托Hadoop 平台、MapReduce 框架，开发了融入少数民族文化的可视化原型系统，实现了少数民族文化资源爬取、文本资源分词、词性标注、三元组抽取以及知识融合等功能。

在知识融合算法应用研究方面，房立芳提出了一种基于关键属性的知识融合方法，并将该方法应用到数据集成处理系统中，有效改善了异构数据自动合并处理的合理性[1]；
马永军等提出一种基于深度学习模型的卷积神经网络结构实现数据融合的算法CNNMDA[2]；
闫昱姝等提出一种基于本体的多源文本知识融合算法，进而得到粒度小、精度高且完备的文本知识，随后其利用本体概念框架将文本知识结构化，并将概念框架进行融合[3]；
沈艳霞等人提出了一种多目标人工蜂群算法[4]；
罗安根在融合知识图谱的基础上提出了结构化信息的深层语义匹配的实体链接算法。[5]

为了更好地保护和传承少数民族文化，帮助大众进一步了解少数民族文化、节日风俗等内容，促进不同民族间的交流，笔者对半结构化尤其是非结构化数据进行抽取和存储，进而构建了少数民族文化资源知识融合模型。

该知识融合模型由底层数据、知识抽取和知识融合构成。其中，底层数据、知识抽取后将以RDF（资源描述框架）三元组的形式进行存储，知识融合部分主要涉及实例融合、域集融合、属性融合、概念融合等内容。

（一）少数民族知识可视化原型系统需求分析

信息技术的发展，为少数民族文化的保护和传播提供了新的方案，其中，知识融合和可视化技术是当前应用最广泛的两种技术手段。少数民族文化资源的融合和可视化呈现为少数民族特色文化资源的建设及传播提供了科学指导。因此，为了促进少数民族文化的进一步传播，笔者通过技术手段整合了百度百科、搜狗百科等网络平台中的少数民族文化资源，并在此基础上将相关词条进行可视化处理，构建出少数民族文化资源可视化融合模型。同时，笔者还将整合后的资源融入原型系统，以展示词条与对应实体间的关系，为用户获取结构化知识提供便利。

在此期间，笔者基于Hadoop平台、MapReduce框架，利用Eclipse Mars.2 Release(4.5.2)开发软件，构建了少数民族可视化原型系统。在该原型系统中，少数民族文化资源库中的数据信息一部分来源于重点实验室的现有资源；
另一部分是笔者利用爬虫工具在互联网中获取的，这部分内容可细分为饮食文化、服饰文化、交通、民俗文化、婚姻家庭等类别。此外，该原型系统界面比较简洁，菜单栏包含爬虫、分词、词性标注、抽取三元组、知识融合五个部分。在用户点击相应按钮后，系统界面将呈现对应内容。主界面左侧为资源库，中间界面主要用于展示相关功能的结果。

（二）少数民族知识可视化原型系统功能设计

为了进一步整合网络与现实中的少数民族文化资源，笔者对采集到的少数民族文化资源进行预处理，并以此形成了少数民族特色语料库。该语料库由结构化资源、半结构化资源和非结构化资源构成。为了实现少数民族知识的可视化，笔者重点处理了这些资源，进而完成了少数民族知识可视化原型系统功能的设计。该原型系统共有五个功能模块，涉及百度百科、搜狗百科、互动百科、少数民族等网络平台。笔者对网络平台爬取数据初步预处理后，对数据分词进行词性标注、命名实体识别并抽取三元组，最后将不同来源的三元组数据加以融合。

笔者依托于Hadoop 平台、MapReduce框架以及互联网搭建了原型系统框架结构。该框架结构的底层是从百度百科、搜狗百科等网络平台爬取的少数民族文化资源，以及部分少数民族重点实验室中的现有数据；
中间层的四个功能分别是分词、词性标注、三元组抽取和知识融合；
最上层是用户层，相关内容可通过用户访问接口、模块化扩展等方式呈现给用户。

（一）互联网少数民族文化资源爬取

少数民族文化资源广泛分布于互联网中，工作人员可以借助各类搜索引擎来提高信息数据采集效率。本次研究的数据来源主要是各少数民族聚居地的人民政府网、百度百科、搜狗百科等网络平台。在具体操作过程中，笔者通过在百度、谷歌等搜索引擎中输入少数民族资源关键词来搜索所需信息，并将获取到的少数民族文化资源列表处理，以形成原始数据集；
随后，笔者根据爬虫工具爬取到的字段中的标题、来源、内容、发布时间等分类信息，对原始数据进行预处理，包括去重、信息规范化、剔除无效数据等，最终形成少数民族文化资源库，并为后续少数民族文化资源可视化处理奠定基础。

（二）少数民族文本资源HMM 分词处理

考虑到从互联网中爬取的数据大部分为结构化数据，同时现实中收集到的数据多为非结构文本数据，无法直接使用，因此，笔者在进行初步预处理后，利用自定义词典和分词工具对从网络平台中收集到的少数民族数据进行了分词处理。分词结果直接关系到后续三元组抽取的准确度，故笔者利用HMM（隐马尔可夫模型）对非结构化文本数据进行分词处理，以确保达到理想的分词效果。

（三）少数民族文本资源词性标注

笔者在HMM分词的基础上结合北大词性标注集对少数民族文本资源进行词性标注处理，并在保障词性标注准确性的前提下，为下一阶段三元组抽取创造有利条件。

（四）少数民族文本资源三元组抽取

完成上述步骤后，笔者采用无监督学习的方式，结合上下文特征信息进行命名实体识别并提取数据关系。数据关系的建立一般包含两个方面：一是描述知识主题，二是通过三元组关系1 得到其他内容。例如，通过“中国少数民族人口约1.2 亿人”可抽取出如下三元组：中国少数民族、人口、1.2 亿人。而将抽取到的实体和关系进行连接，便可得到三元组，若将提取到的三元组全部存储在数据库中，还能进一步完善数据库的建设。

（五）少数民族文化资源知识融合

由于来源不同，本次研究中的少数民族资源难免存在语法、语义上的异构。为此，笔者采取一定的融合规则消除了这些语法、语义上的异构，并将处理后的资源存储到实验室已有领域知识库中，以丰富知识库资源。与此同时，知识库的充裕也能为后续各项研究提供高质量数据参考，比如知识推理、知识推荐等。如此一来，少数民族知识融合平台就能清楚直观地展示少数民族实体之间的关系。少数民族文化资源知识融合的意义不仅仅在于更好地传承少数民族文化，同时也在于为少数民族教学提供科学指导。

笔者在充分研读相关文献的基础上，对知识融合有了一定认识，并以少数民族文化资源为研究主题，结合科技手段构建了适合少数民族文化资源的知识融合模型，设计并实现少数民族可视化原型系统。本次研究也从侧面验证了知识融合技术在少数民族资源管理中的积极意义。一方面，知识融合可视化结果给予了学生更为直观的体验；
另一方面，外界也可以通过该平台进一步了解少数民族的特色文化，使少数民族文化得到更好的传承。

猜你喜欢三元组分词原型特征标三元组的本原诱导子山西大学学报（自然科学版）(2021年1期)2021-04-21分词在英语教学中的妙用校园英语·月末(2021年13期)2021-03-15包裹的一切小资CHIC！ELEGANCE(2021年45期)2021-01-11关于余挠三元组的periodic-模五邑大学学报（自然科学版）(2019年3期)2019-09-06结巴分词在词云中的应用智富时代(2019年6期)2019-07-24结巴分词在词云中的应用智富时代(2019年6期)2019-07-24一个时态RDF存储系统的设计与实现计算机技术与发展(2018年12期)2018-12-20《哈姆雷特》的《圣经》叙事原型考证英美文学研究论丛(2018年2期)2018-08-27论《西藏隐秘岁月》的原型复现剑南文学(2016年14期)2016-08-22原型理论分析“门”人间(2015年20期)2016-01-04

相关热词搜索： 可视化 民族文化 原型