• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 范文 > 正文

    高校统一数据开放平台建设研究

    时间:2022-12-10 09:40:05 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

    徐 胜

    (扬州工业职业技术学院信息中心,江苏 扬州 225100)

    2020年上海社会科学院信息研究所发布的《2020全球重要城市开放数据指数》显示:上海、北京、贵阳等5座城市位居榜单前十,充分展示了中国政府在数据开放工作中取得的成绩。政府的数据开放工作成为高校信息化建设的风向标。随着高校信息化的逐步推进和深入,各部门的业务基本实现信息系统应用与管理。在10余年的信息化建设和服务过程中,业务部门各自的信息系统聚积了庞大的管理数据可供其他业务部门进行复用和共享。比较典型的如每年新生入校时批量制发一卡通卡片,即是通过获取教务或学工的新生数据进行量化的卡片制作。再比如学生办理离校手续时,需检查其借阅书籍是否归还、学费是否缴清、申领物资是否完好等等,分别需要图书馆借阅信息、财务缴款信息和国资申领归还记录。上述场景在学校还有很多,如业务部门有很多线上管理业务需要其他部门数据的支持才能办理。这就需要基于校级的数据开放平台进行统一的数据共享与管控,以提升数据服务业务的效率。数据开放旨在解决高校信息化建设中“各行其是、信息孤岛”的现状,结合各部门实际业务,统筹推进信息系统中数据的整合共享工作,从而真正激活高校数据资产、打破数据孤岛。

    数据开放是指通过数据接口、网站等形式,在业务系统内部、系统之间或面向全社会,合理合法公开特定数据的获取与使用权限[1]。数字化校园3大平台建设项目中的公共数据交换平台[2]对学校日常运作过程中必须使用的基本数据进行整合,一定程度上缓解了系统间数据交互共享问题,但没有形成一个可持续的数据交换流程开放模式,无法真正有效地应对大量、不断变更的数据交换需求。数据交换平台没有提供一个可视化的用户图形界面,数据质量问题只能在影响业务运行之后暴露出来,数据共享严重依赖于平台厂商后台的接口配置,学校无法真正自主管理。数据交换平台中管理的数据范围有限,面对不同系统新的数据需求时,往往要重新对接,存在重复“接口费”这一老大难问题。数据获取粗放式管理,各应用厂商很容易拿到管理员权限,存在数据过度暴露的风险,数据安全无法得到保障。

    为了摒弃传统数据交换平台的弊端,实现真正意义上的数据共享,首先要完成高校数据的治理工作。全量数据治理不仅要建立和推进数据管理制度,还要避免高校在数据平台建设后出现的数据范围不足、数据量不够等问题,通过持续、全面的数据治理,制定全校统一的信息标准,对各部门管理的信息系统数据进行抽取、传输、清洗、整合、存储,建立起高校统一数据仓库。

    2.1 数据资产梳理

    高校数据资产多数分布在各业务系统中,少量的以线下表格等形式存在。管理人员需要系统地厘清学校关键业务系统及其承载的全部数据资产,形成本校的数据资源目录,以准确掌握数据资产全貌[3];
    开展对校内各部门数据和业务的摸底调研,内容包括:了解业务部门数据现状,收集本部门需要和产生数据的具体来源,汇总数据交换与共享过程中的问题、研究数据质量问题及产生根源,记录各部门数据的分析需求、建立完善的数据标准、提升数据质量等。

    资产管理人员要针对各业务系统中数据,结合系统数据字典,识别系统中原始数据内容,理解各字段的业务含义,过滤掉数据库中的过程数据、临时数据,筛选出有效的数据字段;
    依据调研成果明确每一项数据的权威来源,形成数据UCRM矩阵[4];
    按照权威数据在哪些数据表流转流通,记录下表与表、字段与字段的映射关系,理清数据间的血缘关系。

    2.2 管理信息标准制定

    管理信息指学校日常管理工作中涉及的信息集合,包括学校概况、学生管理信息、教职工管理信息、教学管理信息、科研管理信息、财务管理信息、办公管理信息、一卡通数据、图书管理信息等以及有关代码信息。管理信息标准[5]的制定意在消除因信息的缺乏、重复、一致性差,信息难以交流,信息系统互不兼容等原因造成的应用脱节、信息孤岛问题。

    信息标准编制应“向上靠拢”,对国标、部委标准中已有的规定,不重复制定,同时兼顾各业务部门目前正使用的代码及编码规则,并具备一定的前瞻性,以现有系统为基础,着眼于长远发展需求,使信息标准具有较长的生命周期。

    信息管理人员熟悉学校各个管理业务,从信息管理角度对高校管理工作进行标准化,研究校内各职能部门使用的信息系统,把各部门业务活动中需要和产生的数据进行结构化和规范化,使管理数据在横向和纵向方面连通起来。本文根据校内业务系统数据调研以及对系统数据库的识别梳理,制定扬州工业职业技术学院管理信息标准,按业务领域划分了学生管理、教职工管理、教学管理、科研管理、财务管理等15个数据集,根据业务环节,每个数据集又细分了多个数据类,每个数据类对应一张或多张数据表的结构。图1展示了信息标准数据子集的层次结构。

    2.3 建立高校统一数据仓库

    创建ODS操作数据仓库(ODS,Operational Data Store),使用ETL[6]数据处理工具抽取各业务系统数据库中的数据表、代码表,同时做一些简单的格式转换和标准映射处理,加载到ODS库中。ODS库集中存储了学校各业务系统数据,汇聚形成“数据湖”,作为治理工作的数据源,避免了治理过程中因直接对业务系统数据库操作而影响到业务运行,同时提高数据治理效率。

    3.2 GXXS 学生管理数据集3.2.1 GXXS01学生基本数据类3.2.1.1 GXXS0101 本专科生基本信息(T_GXXS_BZKSJBXX)编号字段名称字段代码类型长度主键空值取值范围说明/备注1学号XHC100是否2姓名XMC100否是3英文姓名YWXMC100否是4姓名拼音XMPYC100否是5曾用名CYMC100否是6性别码XBMC20否是7出生日期CSRQC20否是8出生地码CSDMC20否是9籍贯JGC100否是10民族码MZMC20否是11国籍/地区码GJDQMC20否是GB/T2659《世界各国和地区名称代码》采用三字母代码,如:CHN中国,USA美国

    本文依据管理信息标准中数据集,创建统一数据仓库(UDW, University Unified Data Warehouse),对ODS库中数据进行更深层次的清洗、转换,注释补全,包括对原始业务系统数据中存在的明显错误进行识别和处理(遗漏值处理、噪音数据处理、不一致数据处理等),以提升数据质量,并依据标明权威数据来源的UCRM矩阵,以及表、字段间映射关系,加载到UDW库中,形成标准化业务数据资产。

    通过全量数据采集与清洗,保证了数据在校级层面的统一标准和一致结构,同时平台具备可视化质量监测模块,直观发现数据的内容质量问题,并针对人事、教务等系统的数据问题进行重点溯源和修正,综合达成“数据可用”的目标。

    全量数据治理完成了高校统一数据仓库的建设,为统一数据开放平台提供了标准统一和高质量的数据源,能够实现多种方式的数据复用共享,节约了高校应用系统建设成本,缩短了建设时间,提高了建设效率。

    3.1 总体架构

    为了构建更为开放的数据服务生态,彻底改变原有封闭的信息化状况,学校提出了打造“数据超市”,将数据看作货架上的“商品”,提供足够便捷的访问方式,同时确保“数据商品”能够灵活拓展,满足学校不断新增的数据需求。统一数据开放平台由“数据集市”“可视化数据发布管理”“线上申请”3大核心数据业务组成,各部分功能如下。

    1) 数据集市:继承全量数据治理的成果,以数据集形式提供清晰明了的校内数据资源目录,同时提供充分的自主性,便于学校后期灵活维护数据资源的上下架。

    2) 可视化数据发布管理:面向各平台和系统提供统一的数据出口方式,屏蔽多数据源、多物理表、多查询渠道的复杂性,同时具备可视化、低门槛的操作,管理人员无需懂数据库或开发技术便可快速实现数据共享接口的发布。

    3) 线上申请:面向应用厂商、校内部门、师生个人提供统一的线上数据申请入口,丰富的API生态和配套的数据字典,实现数据资源的按需申请,省去过去数据共享方式需多方来回协调数据的麻烦。

    3.2 数据开放申请

    统一数据开放平台设置3种人员角色:平台用户、开发者、管理员。“平台用户”面向校内教职工、学生团体,为教职工日常科研工作、业务管理,以及学生毕业设计、各类赛事提供数据服务。“开发者”角色开放给学校应用系统开发厂家,以API、直连数据库形式开放数据。

    平台运维人员使用“管理员”角色,审核平台前端用户、开发者发起的数据申请。针对不同的用户角色,平台提供了数据API申请、开放数据库连接申请、文本数据下载申请、数据计算申请4种数据开放形式。

    1) 数据API申请:基于RESTful架构,客户端和服务器之间不需要建立持久的连接,采用了简单的请求/响应模型,并遵循了统一接口原则访问资源。浏览器(客户端)使用标准的HTTP方法(GET和POST)向服务端发送请求。用户提交API申请,管理员审核通过后,服务端提供一个代表数据资源URL供用户访问数据,以json、xml、text等格式返回数据。

    2) 开放数据库连接申请:用户应用申请想要直连数据库访问数据信息,后台接收到申请后,管理员针对需求选择相应的库和表,在该数据库下根据当前时间戳信息创建一个临时用户,并对表授权有且仅有查询的权限。服务端返回受访的数据库相关信息(服务器地址、数据库类型、数据库名称、用户名、密码等)。

    3) 文本数据下载申请:平台用户需要先在数据集市查看数据分类及数据样例,确定自己需要的数据内容,然后在本模块点击申请数据。用户选择数据集合下包含的表,选择需要的字段和时间,审批通过后,可以将数据以excel格式下载到本地。

    4) 数据计算申请:全量数据中心配备了由多台服务器搭建成的Hadoop集群,兼顾了高速运算及海量数据存储的能力。统一数据开放平台提供了使用方法和途径,实现为各类数据分析处理需求赋能。数据计算后的结果以API接口或文本数据的形式提供给用户进行使用。

    “开发者”角色可使用数据API申请、开放数据库连接申请以及数据计算申请等方式申请数据,而“平台用户”角色只具备文本数据下载。用户使用各自不同角色账号登录平台方可申请数据,并在管理员审核后返回所需数据。统一数据开放平台数据申请详细流程如图 2所示。

    图2 数据开放申请流程Fig.2 Data opening application process

    数据开放的首要前提是保护好数据主体权益和数据安全,避免个人隐私、部门机密、商业机密与国家机密的泄露[7]。统一数据开放平台作为数据交换的枢纽,聚集的数据具有容量大、种类多、权威性高等特点,内容可能涉及个人隐私、部门机密和国家安全,因此平台数据安全要确保万无一失。平台从数据开放全生命周期(资源配置发布阶段、数据开放申请阶段、数据开放审核阶段、数据调用运维阶段)角度考虑数据安全防护,采用相应的技术手段,有效预防和减少数据安全问题的发生。

    1) 资源配置发布阶段:对数据资源和用户角色权限分级,根据高校数据管理业务特性设置不同角色,每个角色提供多种权限级别,适应多部门协同数据管理的需求。对数据表中重要的敏感字段,例如密码、银行卡号等,以加密形式进行存储及数据流转。数据接口发布时,利用动态脱敏[8]技术,对高敏感或与个人隐私高度相关的字段进行遮蔽、字符转换等脱敏操作。

    2) 数据开放申请阶段:应用系统通过API方式获取所需数据,使用access_token作为调用凭证。依据token对用户进行身份验证以及权限管理,确保接口调用合法且有效。开发者在创建完应用后,系统生成一组与该应用唯一对应的Key、Secret,每次向服务端请求数据前将Key、Secret作为参数发送请求至服务器,服务端接受到这2个参数后,生成token返回给客户端。客户端可在限定的时间内,使用token请求相关数据。下面代码使用Python语言获取了学生基础信息,并以json格式返回数据:

    ①#首先需要获取token,是根据key和secret生成的

    ②import requests

    ③import json

    ⑤token_params={}

    ⑥token_url="http://dsjapi.ypi.edu.cn/open_api/authentication/get_access_token"

    ⑦token_params[′key′]="20200918485102751"

    ⑧token_params[′secret′]="9df420742d065359d7586d9f37030ba97114b3b0"

    ⑨token_body=requests.post(token_url,json.dumps(token_params),headers={′content-type′: ′application/json′})

    ⑩res_hash=json.loads(token_body.text)

    3) 数据开放审核阶段:对用户的数据开放申请进行严格审核,对隐私数据进行“脱敏”处理,并按照隐私数据的不同类型与保密要求实行差别化开放;
    基于条件限制的内容过滤功能,可以控制到字段级别的授权,能够对所授权的字段进行加密或添加限制条件的操作;
    可灵活配置授权时间,有效时间段内,平台用户可以不间断获取数据资源。

    4) 数据调用运维阶段:设计数据访问黑/白名单,灵活控制接口的启停,实现调用过程的自主可控;
    采用量化数据分析完善预警,预知潜在问题威胁;
    提供完整的数据调用审计以及操作记录留存功能,支持回溯查询、分析统计,更为清晰地获知数据的运转情况。

    扬州工业职业技术学院已初步建立起由数据管理组织架构、数据标准规范、数据技术管理的数据治理体系,并实现了数据采集、汇聚、清洗、管理、开放的完整数据链路,支撑了教师发展平台、云课堂、专业管理系统、学工系统、学生成长平台、档案管理系统、党建系统、超星图书馆、会议管理系统等17个应用系统的数据对接需求(图3),提供数据接口62个,累计调用接口数十万次。统一数据开放平台的建设极大降低了数据的对接门槛和使用成本,大大加快了各类应用服务的建设进度和上线使用效率。

    图3 统一数据开放平台支撑应用Fig.3 Application supported by unified data open platform

    全量数据治理统一校内各方信息标准,明确了数据的权威来源,逐步提升了数据质量,基本实现“数据全面、标准统一、质量较高、来源明确、数据及时”的数据服务局面,为高校数据开放共享提供了全面、完整、权威的数据来源。统一数据开放平台为新建信息系统、各职能部门的业务办理、数据分析以及跨部门的业务协同流程等各类型数据需求提供统一、安全、便捷的数据出口方式。后续研究将围绕数据智能门户进行,让每一个部门、每一个师生个人、每一个软件开发团队,都能够了解、感受到数据资产的存在感,能够方便地申请和获取数据,从而更积极主动地参与到数据资源建设中来。

    猜你喜欢 开放平台统一数据库 中考省级统一命题意味着什么?科教新报(2022年13期)2022-05-23基于百度地图开放平台的导航电子地图课程实践教学研究导航定位学报(2022年2期)2022-04-11通分是不是统一分数单位?小学生学习指导(高年级)(2021年5期)2021-05-18淝水之战儿童故事画报(2020年10期)2020-10-30腾讯安全应急响应开放平台正式上线中国信息化周报(2018年32期)2018-11-30数据库财经(2017年2期)2017-03-10数据库财经(2016年15期)2016-06-03统一方向 瞄准目标新高考·高一数学(2016年3期)2016-05-19中职会计教学模式的转变分析成才之路(2016年5期)2016-03-26数据库财经(2016年3期)2016-03-07
    相关热词搜索: 高校 开放 数据

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章