手机浏览器扫描二维码访问
分类有三种方法:字典法(diethods),根据关键词的出现次数来确定文本;有监督学习法(supervisedlearhods),先由人工构建编码练习库,然后让机器根据人工编码模式进行自动编码,最后将机器编码与人工编码相比较检验其效度;无监督学习法(unsupervisedlearhods),不需要人工事先编码,而是基于模型假设和文本性质来分类并自动将文本分配到各类别。
第三种方法比较便捷,但容易混淆重点,可以通过两项技术进行改进:一是通过混合成员模型(mixedmembershipmodels),将具体问题结构纳入分析以辅助分类;二是通过计算机辅助分类(puterassistedg)来探索众多潜在分类方法。”
[22]
文本分析的“数据挖掘”
技术可以广泛地应用在结构化的和非结构化的文本数据中。
下面我们先以结构化的文本分析为例,具体阐述自动文本分析在文学研究中的潜在应用。
所谓结构化的文本分析,主要是指已经能够被计算机识别的(也就是已经被电子化的文学作品),或者是可以直接被计算机识别的文学作品。
刘京臣指出,“‘结构化文本的数据分析’包含这样三个概念。
其一,‘结构化文本’主要是指诗、词等体式较为固定的文体,在利用技术手段处理时,因其体式上的便利,易于寻觅到声调、用韵、格律、小序等方面的结构特征,故而对这类文体较易实现技术干预。
其二,‘结构化文本’还指排除掉文字识别、大字符集、分词、断句等因素干扰,完全满足用户需求的、已进行过标注与分类的数据。
同时,还要尽可能多地加载满足分析所需要的第三方文献库——文献库主要由两大类组成,一类是诸如人名、职官、地名、系年、典故等具有词典性质的基础文献库;另外一类是已经数字化的历代研究者的研究专著,便于分析时与文本相参。”
[23]除了结构化的文本数据之外,文本分析和“数据挖掘”
的方法在非结构化的文本数据上的应用效果更为突出。
用“数据挖掘”
的办法对文本进行分析可以帮助研究者从大量的文献,尤其是非结构化的文本数据中发现重要的规律和趋势。
当然,“数据挖掘”
的方法再好,也无法完全替代人文学者的思考。
人文学的研究,尤其是和文论相关的研究都要求学者有深厚的知识积累与独立的判断力。
基本的思考范式和理论是研究中最基础的元素。
正如前文中提到的,基本的分析框架和理论可以很好地指导“数字人文”
的研究,给“数字人文”
的研究指明清晰的方向和路径,避免很多时候大海捞针。
毫无直接目标的“数据挖掘”
不仅会浪费掉研究者宝贵的时间,还不一定能达到预想的效果。
从数据分析的后续工作来看,前文中也提到,如果没有文学的思考和文学理论的观点,数据分析的结果只是一些枯燥的数据,而不能给文学的研究任何新的启发。
这些都说明了“数据挖掘”
其实不能代替研究者自身的素养在文学研究中起到的关键性作用。
不过,我们也应该意识到基于“数据挖掘”
的文本分析方法在文学研究中能其到独特的作用。
结构化的文本分析可以帮助我们回答文学,尤其是中国古代文学研究中很多重要的问题。
正如陈仅在《竹林答问》认为“作古诗声调,须坚守杜、韩、苏三家法律”
。
刘京臣就提到了“蒋寅先生以《韩愈七古的声调分析》(《第三届中国唐代文化学术研讨会论文集》,台湾政治大学中文系1997年)为例进行详尽研究,指出清人所论,虽看似出自主观论断,然用实证之法相验却大抵不谬。”
[24]这是一种人工的分析范式。
前世,叶颜百般痴迷沈逸之,却被对方算计,惨死后宅!而自己百般维护的妹妹,却是绿茶白莲花,不仅趁机上位还各种某黑,让她死后声名狼藉!重活一世,叶颜她要做真正的嫡女真千金,摆脱渣男,暴揍绿茶!...
叶蓁与灵主交易,穿到三千世界,通过完成任务获取灵愿来兑换物品。不过,这些身份怎么都那么惨。被挖肾,被替身,被换亲算了,为了养活一家老小,再惨也得迎上去!...
抽奖获得道具超级货架,原本以为只是一个普通的类似于背包的游戏道具,但却万万没想到游戏的设定却让其在游戏初期便展现出其强大的作用...
...
秦王扫六合,虎视何雄哉!战国之末,乱世行将结束,他重生后却成了荆轲车队中的一员。风萧萧兮易水寒,壮士一去兮不复还!亲身参与荆轲刺秦的千古大戏,他将如何抉择?...
孟秋实穿书后,手打八荒,脚踢邪魔,联合正魔两族,终于镇压妖邪,功德加身,飞升在即。飞升前,她看着人魔和谐,门人徒弟齐聚一堂,安心微笑,就此踏破虚空飞升而去。仙界什么样没见到,一睁眼一闭眼,回到了穿越前的现代。回来就回来了,能与家人团聚,也算是完成了此前的遗憾。再看看自己身体,不知道被哪路灵魂占了,当了两年的小明星。小明星什么,但家人把她拉黑了,朋友被删了个干净,自己深陷绯闻黑幕,出门不遮住脸都会被人骂,最关键的是,自己的口袋空空,花呗负债5000,还款期就在明天。而自己的违约金更高达2个亿!魔蝎小说...