一文本分析的量化方法简介第2页_重回天人之际：反思新时期古代文论研究方式的转换小说免费阅读

格格党>重回天人之际：反思新时期古代文论研究方式的转换手机访问加入书架小说详情

手机浏览器扫描二维码访问

一文本分析的量化方法简介（第2页）

分类有三种方法：字典法（diethods），根据关键词的出现次数来确定文本；有监督学习法（supervisedlearhods），先由人工构建编码练习库，然后让机器根据人工编码模式进行自动编码，最后将机器编码与人工编码相比较检验其效度；无监督学习法（unsupervisedlearhods），不需要人工事先编码，而是基于模型假设和文本性质来分类并自动将文本分配到各类别。

第三种方法比较便捷，但容易混淆重点，可以通过两项技术进行改进：一是通过混合成员模型（mixedmembershipmodels），将具体问题结构纳入分析以辅助分类；二是通过计算机辅助分类（puterassistedg）来探索众多潜在分类方法。”

[22]

文本分析的“数据挖掘”

技术可以广泛地应用在结构化的和非结构化的文本数据中。

下面我们先以结构化的文本分析为例，具体阐述自动文本分析在文学研究中的潜在应用。

所谓结构化的文本分析，主要是指已经能够被计算机识别的（也就是已经被电子化的文学作品），或者是可以直接被计算机识别的文学作品。

刘京臣指出，“‘结构化文本的数据分析’包含这样三个概念。

其一，‘结构化文本’主要是指诗、词等体式较为固定的文体，在利用技术手段处理时，因其体式上的便利，易于寻觅到声调、用韵、格律、小序等方面的结构特征，故而对这类文体较易实现技术干预。

其二，‘结构化文本’还指排除掉文字识别、大字符集、分词、断句等因素干扰，完全满足用户需求的、已进行过标注与分类的数据。

同时，还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成，一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库；另外一类是已经数字化的历代研究者的研究专著，便于分析时与文本相参。”

[23]除了结构化的文本数据之外，文本分析和“数据挖掘”

的方法在非结构化的文本数据上的应用效果更为突出。

用“数据挖掘”

的办法对文本进行分析可以帮助研究者从大量的文献，尤其是非结构化的文本数据中发现重要的规律和趋势。

当然，“数据挖掘”

的方法再好，也无法完全替代人文学者的思考。

人文学的研究，尤其是和文论相关的研究都要求学者有深厚的知识积累与独立的判断力。

基本的思考范式和理论是研究中最基础的元素。

正如前文中提到的，基本的分析框架和理论可以很好地指导“数字人文”

的研究，给“数字人文”

的研究指明清晰的方向和路径，避免很多时候大海捞针。

毫无直接目标的“数据挖掘”

不仅会浪费掉研究者宝贵的时间，还不一定能达到预想的效果。

从数据分析的后续工作来看，前文中也提到，如果没有文学的思考和文学理论的观点，数据分析的结果只是一些枯燥的数据，而不能给文学的研究任何新的启发。

这些都说明了“数据挖掘”

其实不能代替研究者自身的素养在文学研究中起到的关键性作用。

不过，我们也应该意识到基于“数据挖掘”

的文本分析方法在文学研究中能其到独特的作用。

结构化的文本分析可以帮助我们回答文学，尤其是中国古代文学研究中很多重要的问题。

正如陈仅在《竹林答问》认为“作古诗声调，须坚守杜、韩、苏三家法律”

。

刘京臣就提到了“蒋寅先生以《韩愈七古的声调分析》（《第三届中国唐代文化学术研讨会论文集》，台湾政治大学中文系1997年）为例进行详尽研究，指出清人所论，虽看似出自主观论断，然用实证之法相验却大抵不谬。”

[24]这是一种人工的分析范式。

本月排行榜

本周收藏榜

最新更新

新书入库

格格党

一文本分析的量化方法简介（第2页）

重生嫡女宅斗手册

快穿之灵愿收集

超虚拟世界

重生之官道

秦将

飞升了我又穿回来了