• 美文
  • 文章
  • 散文
  • 日记
  • 诗歌
  • 小说
  • 故事
  • 句子
  • 作文
  • 签名
  • 祝福语
  • 情书
  • 范文
  • 读后感
  • 文学百科
  • 当前位置: 柠檬阅读网 > 散文 > 正文

    文本挖掘在人文社会科学研究中的典型应用述评术:典型非文学文本

    时间:2019-04-16 03:30:32 来源:柠檬阅读网 本文已影响 柠檬阅读网手机站

      [摘要]调研文本挖掘在人文社会科学领域的应用现况,介绍国际上文本挖掘在这些领域应用的成功案例与经验,展现目前文本挖掘在人文社科领域的最新研究进展,给国内相关研究的开展提供一定的启示。
      [关键词]文本挖掘 人文社会科学 应用
      [分类号]TP391
      1、文本挖掘应用概述
      文本挖掘的概念最早出现在20世纪80年代中期,它继承了自然语言处理和数据挖掘的部分技术与理念,至今已有30多年的历史。早期,文本挖掘经历了一个曲折而缓慢的起步过程,其科学性一度受到质疑和诟病。近10年来,随着计算机技术的突飞猛进,这一领域取得了前所未有的进步和发展,逐渐成为一种主流方法论。
      当前,国际上文本挖掘的主要研究成果集中在自然科学领域,成绩令人瞩目。在人文社会科学领域的应用则相对薄弱,不仅数量上不及自然科学领域的25%,质量上也存在一定差距。在人文社科领域,国外学者及其研究成果是文本挖掘应用与实践的主流;反观国内,其应用研究在数量和质量上都与国外差距甚大。不过,CNKI反映的文献增长趋势与国外研究过往类似,说明该领域正越来越多地受到国内相关学者的重视。值得一提的是,就人文社会科学而言,国内外研究的侧重点区别较大。国外的相关研究主要集中于社会科学,目前应用比较成熟的学科包括经济学、管理科学、教育学、行为学、心理学、公共管理学、法学、社会学等;国内的研究则偏重于文史哲等人文科学,社会科学领域的相关成果不多。
      与传统思辨方法相比,人文社科研究中运用文本挖掘方法的优势有:①文本挖掘可以针对海量的文本进行整体趋势挖掘,具有传统研究中针对单个文本进行解构无法比拟的优势。如通过对海量立法文件的分析,可以发现政治家之间的社会网络关系;针对文学大文本集,可以实现作品中人物性别特征的挖掘;针对大规模历史档案,可以实现某一历史时代人们对科学、宗教、进步等观点变化的挖掘。②文本挖掘可以辅助文本内容研究,发现一些隐藏的结论。如教育学中,文本挖掘可以用于辅助在线协作平台的建设,帮助学习小组更深入地交流;人文作品的自动分类中,通过对分类指示词的研究可以拓展对作品研究的思路,对构成作品风格的特征有更深入的认识。③文本挖掘方法可以帮助解决某些人工难以解决的问题。如通过警方数字档案文本分类自动实现罪犯性格特征发现;通过分类、聚类的方法可以对文档作者归属进行研究。
      在这样的背景下,对文本挖掘的典型应用进行述评,引入国外研究的优秀经验,显得尤为重要。特别是,通过观察文本挖掘方法在国际人文社会学科领域的成功应用,可以给国内人文社会科学的发展带来借鉴作用。
      2、文本挖掘应用中的方法特点
      文本挖掘方法来源于自然科学,其技术涉及深度在自然科学与人文社科中大致相当,包括特征提取、文本检索、文本分类、文本聚类、关联规则、观点分析、文档摘要等。文本挖掘在人文社科研究中的应用有其不同于自然科学的特性,这主要是由两类学科的研究目标与语料特点所决定的。
      人文科学方面,除了以直接的科学发现为挖掘目标外,还经常运用文本挖掘方法来进行一些辅助研究。以文学领域的文本分类为例,分类的准确度并不是其目标,构成不同类别的指示词(predietor)才是探究文学语言模式的关键。此外,在算法的选择和使用上,人文领域的文本有其独特的特征,主要表现在语料的文学性上。因此,将计算机科学中的相关算法应用到该领域时需进行适当的调整。又如在文学研究中,有些停用词(stop words)、词语的不同形态(stemming处理)是作品特点的重要表征,因此特征选择需谨慎。
      社会科学方面,文本挖掘在社会科学中的应用往往由现实世界的需求所致,具体的应用成果都是用来解决现实社会中存在的问题。比如,2001年震惊世界的"911"事件引起了犯罪网络可视化的研究热潮;2005年美国国会爆发的“权利贩卖(influence-peddling)”丑闻直接导致了政治学中人物关系发现的兴起等。文本挖掘在社会科学领域的应用价值和研究意义很高,部分的领域应用已经比较成熟,比如政党立场分析、人物关系发现、犯罪网络可视化、新闻认同度分析、在线协作学习等,不仅应用的语料资源十分庞大,而且技术发展也非常深入,暗网技术(dark web)甚至得到了美国政府的重视与关注。
      文本挖掘案例分类的标准可以有很多,如按学科、技术、典型性、成熟度分类等。由于文本挖掘过程复杂、环节步骤多,很难有一种既全面又精确的分类方法,有时甚至无法界定一种应用更应属于哪一类。本文介绍文本挖掘的典型应用,主要按挖掘层次进行分类,即将文本挖掘应用分为简单的初级挖掘和深层的高级挖掘,区分初级与高级的标准是:是否发现了新的指传统的词频统计与简单文本分析方法,高级文本挖掘包括篇章分析、情感分析、本体构建、人物关系、可视化网络等。
      3、基于词频统计及简单文本分析的典型案例述评
      词频统计与分析是一种较为初级的文本挖掘分析方法,它通过统计一定长度的语言材料中每个词出现的次数,使用聚类分析、共词分析、社会网络分析等文本分析方法研究词频统计结果,以描绘词汇规律,发现隐藏在文章中的信息。这种形式的文本挖掘实现难度较低,在国内外应用已经十分广泛,此处列举两个典型代表:
      3.1 《红楼梦》作者归属判断
      作者归属是指通过对文章风格特征的分析来确定文本作品(尤其是年代久远的古典文学作品)的作者,最具影响力的研究当属对《红楼梦》一书的作者归属进行的一系列探讨。1980年6月,美国威斯康星大学陈炳藻教授在首届国际《红楼梦》研讨会上宣读了一篇《从词汇上的统计论的作者问题》的文章,开创了该领域的先河。陈炳藻教授利用计算机对《红楼梦》前80回和后40回的用字进行了测定,从数理统计学的观点出发,推断出前80回与后40回的作者均为曹雪芹一人的结论。但随后,复旦大学数学系李贤平教授给出了与之相反的回答。李贤平教授把120回看成120个样本,选取了47个虚词作为特征向量,进行了聚类分析,发现前80回聚为一类,后40回聚为一类,得出了红楼梦不是出自一人手笔的结论。这引发了相关研究和探讨的兴起。施建军对李贤平教授运用聚类分析对红楼梦作者进行判断的方法进行了具体剖析,指出了方法的不严谨之处,认为以同一部作品为对象的聚类分析不能够进行作者的判定。他以鲁迅和瞿秋白的18部作品为例,以131个常用汉字的使用频率作为两个作家的风格特征向量,进行了聚类分析的实验,得出运用聚类方法判断古典文学作品作者的可信度值得商榷。虽然文本挖掘没有给出《红楼梦》作者是谁的定论,但是它启发了类似研究的开展。在这之后,学者武晓春、年洪东等对其他作家的不同作品也做了大量的研究和实验。
      3.2 互联网儿童保护计划
      随着网络的普及和开放,在线儿童侵犯行为日益

    相关热词搜索: 述评 挖掘 人文 文本

    • 文学百科
    • 故事大全
    • 优美句子
    • 范文
    • 美文
    • 散文
    • 小说文章