• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    基于Louvain算法的高等教育社区研究*

    时间:2023-02-15 11:15:03 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    李大岭,张浩军,王家慧,李世龙,黄柯源

    (河南工业大学信息科学与工程学院,河南 郑州 410001)

    现实世界的社交关系网络中,将每一个人看作一个节点,将具有相互联系的人对应的节点直接连起来,这就构成了一个网络结构。社区结构可以描述为:将网络中的节点按照一定的规则进行分组,使得同一个组内的节点连接相对稠密,不同组之间的节点连接相对稀疏。社区发现算法就是发现网络中社区结构的算法。常见的社区发现算法大多分为2类:分离法和聚合法。淦文燕等[1]从数据场思想出发,提出了一种基于拓扑势的社区发现算法。该方法引入拓扑势描述网络节点间的相互作用,将每个社区视为拓扑势场的局部高势区,通过寻找被低势区域所分割的连通高势区域实现网络的社区划分。胡健等[2]引入边聚集系数的概念,提出基于边聚集系数的社区发现算法,在时间复杂度上有很大提升。柳助民等[3]提出来基于PCM聚类算法的Blog社区发现算法,用来识别Blog社区的核心和边界,实验取得了很好的结果。阎春霖等[4]综合考虑标签使用频率和稀疏度,并使用两者构造一个邻接矩阵进行聚类,最终完成了社区的发现。熊正理等[5]提出一种基于用户紧密度的在线社会网络社区算法,利用层次聚类算法对完整用户图进行处理进而发现潜在社区,取得不错的实验结果。康旭彬等[6]提出一种改进的、基于节点局部相似性的标签传播算法,提高了准确率并保证了时间复杂度。

    1.1 Louvain算法

    本文采用的一种基于模块度的Louvain算法,该方法可以快速且高效处理节点数目庞大的网络。算法基本原理为:①把无向图中所有的节点都看作一个社区。②依次把每个节点和与其相邻的一个节点合并,计算出模块度增益ΔQ,若所有ΔQ都小于0,则节点不合并回到原来位置;
    否则找到ΔQ最大节点,将这2个节点归为一个社区。③重复上一步,直到整个图的网络结构不再改变为止。④把每个社区压缩为一个新的超节点,社区内边为自环边,社区间的边为超节点边。⑤重复①—③步骤,直到图的网络结构不再改变[7]。

    1.2 模块度

    模块度是评估一个网络社区划分好坏的度量方法,物理含义是社区内节点的连边数与随机情况下的边数之差,取值范围为[-0.5,1],其定义由Newman提出:

    式(1)中:m为所有边的权重之和,为节点i和节点j之间的权重;
    ki为所有与节点i相连的边的权重之和ci为节点i所属的社区。

    2.1 数据来源

    研究的数据来自中国知网(CNKI),选取了2014—2021年时间段作为研究对象。在知网上通过模糊查找以(主题=高等教育)AND(文献来源=中国高等教育)作为条件,选取8年间所有的期刊文献,共计1 149篇学术期刊,保证了数据源的数量和质量。

    2.2 研究工具

    Gephi是一个可以实现数据可视化的开源的分析软件,它广泛被应用于大学里的统计研究。首先通过Gephi读取CSV类型文件,并将边类型设为无向边初步构成一个网络,其次运行模块化,通过不断地调整解析度等参数找到最优的社区划分,最后以Fruchterman Reingold的布局方式将网络结构图可视化呈现。Pycharm是一种Python的集成开发环境(Python IDE),给程序编写提供了良好的程序开发、调试环境,并极大地提高了开发时的效率。由于原始数据源并不规范,含有大量的空格、标点等一系列的数据噪音,故用Pycharm工具编写程序对得到的原始数据源进行数据处理,最后将处理过的数据进行关键词共现,即找到构成无向图的边和节点。

    3.1 文本预处理

    在进行社区发现实验之前,需要对文本进行预处理,通过数据清洗、去停用词、关键词共现处理等步骤将其转换为标准的输入数据。文章关键词含有许多噪音,且得到准确关键词之后还需通过关键词共现生成社区发现实验所需的图。本文预处理的具体流程图如图1所示。

    图1 文本预处理流程图

    3.1.1 数据清洗

    本次实验所用数据为知网的高等教育领域文章的关键词,关键词如图2所示,其中存在许多异常字符,如空格符等字符,为了不影响分析结果,在数据清洗阶段对这些数据进行了剔除;
    还存在如双一流、双一流建设、世界一流大学、世界一流学科等关键词,此类关键词皆为同义词,故使用统一关键词进行替换。

    图2 关键词词频统计

    3.1.2 去停用词

    将语料中没有意义的关键词删除,如出现高等教育、我国高等教育、教育、中华人民共和国、大学、高校等类型的关键词,此类关键词所表示的主题对于本次实验无意义,故建立一个stopwords停用词表,剔除这类关键词。

    3.1.3 关键词共现

    社区发现算法是对图结构的网络进行一系列调整进而划分成各个社区,故实验需要首先生成基于关键词共现的图结构网络,本次实验将每一篇文章当做图结构中的节点,若两篇文章出现关键词共现,则在两个节点之间建立一条连线,关键词共现的次数用来表示这条边的权重。以2年为一个时间段共分成4个时段,分别对2014—2021年这8年间的文献关键词进行关键词共现处理,得到关键词共现数据,并整理成CSV文件的形式,以2014—2015年的部分数据为例,如表1所示,其中起点和终点代表边的2个节点,关键词为边的lable值。

    表1 关键词共现表

    3.2 结果分析

    以2014—2015年的数据为例,实验首先通过读入CSV文件构建共词网络;
    其次对共词网络通过调用Louvain算法进行社区划分;
    然后调整解析度的值观察模块度Q的变化,如图3所示,当解析度为1.2时模块度Q值达到最大0.673,故选用解析度1.2作为最终阈值进行社区划分;
    最后对共词网络进行“Fruchterman Reingold”布局调整,得到最终共词网络图,如图4所示。

    图3 模块度随解析度变化情况

    用表格对图4进行统计,将每个社区中的主要关键词进行提取汇聚成2014—2015年社区表,如表2所示。并以上述方法依次得到2016—2017年、2018—2019年、2020—2021年社区表,如表3、表4、表5所示。

    图4 2014—2015年共词网络调整图

    表2 2014—2015年社区表

    表3 2016—2017年社区表

    表4 2018—2019年社区表

    表5 2020—2021年社区表

    3.3 主题热度分析

    实验统计了高等教育国际化和双一流建设文章的发文量,如图5所示,高等教育国际化的热度一直维持在较为平均的水平。而双一流建设热度曲线出现很大波动,2015—2017年“双一流”建设上升明显,查阅资料发现2015-10-24国务院印发《统筹推进世界一流大学和一流学科建设总体方案》[8]对新时期高等教育重点建设作出新部署,将“211工程”“985工程”及“优势学科创新平台”等重点建设项目,统一纳入世界一流大学和一流学科建设,2015年11月,由国务院印发,决定统筹推进建设世界一流大学和一流学科,至此双一流建设的热度开始上升。而后2017-01-24,经国务院同意,教育部、财政部、国家发展和改革委员会联合印发《统筹推进世界一流大学和一流学科建设实施办法(暂行)》;
    2017-09-21,教育部、财政部、国家发展改革委联合发布《教育部 财政部 国家发展改革委关于公布世界一流大学和一流学科建设高校及建设学科名单的通知》,世界一流大学和一流学科建设高校及建设学科名单正式确认公布,双一流建设主题的热度达到顶峰。

    图5 热度变化图

    最后通过对4个时段的社区分析进行统一的整理,共计统计“人才培养”“双一流建设”“依法治校”“中国特色现代大学制度”“高等教育改革”“创新创业”“高等教育质量”“校企合作”“审核评估”“思想政治教育”“高等教育国际化”“传统文化教育”“特色型大学”“学科建设”“人类命运共同体”“新媒体”“研究生”“疫情防控”“新文科建设”19个社区。将19个社区代表性关键词在每年关键词表中进行统计分析,首先导入Python的re模块,用re.search的方法遍历查找关键词出现的频率并记录文章发表时间,然后导入Pyecharts模块,将发表时间作为X_data,关键词和关键词出现的频率作为y_data,最后生成社区河流图,如图6所示。通过河流图看到,2014—2017年河流的流量在逐年的增加,2018年流量出现大幅度下降往后又出现上升趋势。“人才培养”“高等教育改革”“创新创业”“校企合作”的河流图8年变化幅度较小,说明学者对这类主题的关注度呈现平稳趋势。

    图6 社区河流图

    《中国高等教育》是由中华人民共和国教育部主管、中国教育报刊社主办的学术期刊,通过分析该期刊的文献,展现了中国高等教育研究的学术演进动态,揭示高等教育研究领域的研究主体、热点主题及其未来趋势。近年来,《中国高等教育》热点主题集中在双一流建设、人才培养、高等教育改革等领域。双一流建设主题聚焦“我国大学治理体系的发展演进”“中国特色世界一流大学的标志与特征”和“中国特色世界一流大学治理体系建设的路径取向”等3个方面,高等教育改革主题较为集中探讨高等教育改革的动力、逻辑和路径等内容,人才培养主题聚焦校企合作、创新创业以及深化课堂教学改革等方面。从研究社区发现和共现网络构建中可以看出,中国高等教育研究主题热度变化受国家政策文件影响大,高等教育改革重点多体现为自顶向下模式,学者积极参与到高等教育政策及改革实践讨论中,有利于贯彻落实国家意志,统一改革方向。同时,主题发现也反映出高校自主改革创新并形成研究热点以及研究成果影响势能还不足,需集思广益促进高等教育发展。

    猜你喜欢 一流节点模块 CM节点控制在船舶上的应用机械工业标准化与质量(2022年6期)2022-08-1228通道收发处理模块设计成都信息工程大学学报(2022年3期)2022-07-21“选修3—3”模块的复习备考中学生数理化(高中版.高考理化)(2022年5期)2022-06-01基于AutoCAD的门窗节点图快速构建装备制造技术(2020年2期)2020-12-14关注一流学科中学生数理化(高中版.高考理化)(2020年12期)2020-11-24我校获批4门省级一流本科课程西安航空学院学报(2020年3期)2020-08-07概念格的一种并行构造算法河南科技学院学报(自然科学版)(2020年2期)2020-05-22“双一流”建设如何推进当代陕西(2019年7期)2019-04-25抓住人才培养的关键节点中国卫生(2015年12期)2015-11-10集成水空中冷器的进气模块汽车与新动力(2012年1期)2012-03-25
    相关热词搜索: 高等教育 算法 研究

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章