切换到宽版
北斗六星!·百事通·查看新帖·设为首页·手机版

北斗六星网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
北斗六星网 六星文学 三味书屋 给曹雪芹做亲子鉴定——《红楼梦》后40章为续作的铁证!
查看: 795|回复: 16
打印 上一主题 下一主题

[杂文] 给曹雪芹做亲子鉴定——《红楼梦》后40章为续作的铁证! [复制链接]

跳转到指定楼层
主楼
发表于 2022-5-25 11:53 |只看该作者 |倒序浏览 |
搜索本主题

  跟大槐公主聊天,说到了《红楼梦》,大公主坚信这部奇书是由曹雪芹完全创作,不存在续篇。但我大学期间再读红楼时,感觉后半部分的描写明显逊色一筹。粗略的记忆是,前半部分的文字敏感点很丰富,很多人物描写的语言、细节、用词都需要仔细揣摩一番,才能捕捉到人物的心理和性格。比如某某“抢着说”,就要去思考他为什么“抢着”说,想了那么几秒,豁然开朗。另外,前半部分即便叙述一些细小的事件,三五百字之间人物心理、事情发展往往都有些曲折变化,摇曳生姿的多,平铺直叙的少。诸如此类,与后有别。

  总之,前八十回的文字耐读,叙述有趣,曲径通幽,可以逐字逐句进行精读;后四十回无论摹人叙事,都有一通到底的直白之感。

  其实,与搜罗考证历史资料、文献相比,通过文笔的差别去判断作者是否统一是最简单直接的思路,因为文字本身就才是最真实的证据。但话说回来,这方面的体验比较个性化,再加上续写者有意的模仿,使得大家更难分辨。因此,我们只能将这种差别作为自己的判断标准,而不能作为呈堂证供让公众去评判。

  因为被大公主的认真与执着所打动,我昨天重新看了《红楼梦》,决定跟她一起甄别下这个疑案。可惜手机看了半天,看得眼睛发疼,后来想想即使我看完后再洋洋洒洒写一篇前后对比的论文,也不足以直观、充分的证明我的论断,岂不白白费力?既然只是想根据前后行文风格是否相同,确定是否为同一个作者;那么,完全可以通过更科学、更客观、更直观的方式去研究。

  于是,我决定采用了一种新型的研究方法,利用大数据和概率对《红楼梦》前后全部文字进行分析,并得出极为直观和准确的数据。好比做亲子鉴定,对《红楼梦》各部分文字进行DNA测试、比较,以一目了然的结果来鉴定此事。具体方式如下:


分享到: QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友
分享分享0 收藏收藏0 顶0 踩0

沙发
发表于 2022-5-25 11:54 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 12:01 编辑

  第一步:确定方向

  我锁定“了、的、一、说、是、着、又、那、便、得、因、可、且、地、但”15个行文中最常用的助词、语气字,尝试对比《红楼梦》前后两部分中这些字的使用规律,看是否接近或统一。

  我相信,在同一种文字风格的小说中,同一个作者对这些字的使用特征是相同的,在不同部分里肯定有浮动但不可能有较大差别。既然我们无法充分明晰、证实文笔的风格差异,我们就去证实、明晰这些文字的运用差异

  我统计的是这些字的使用次数和使用率,而这些,就是作者文字里蕴含的DNA!

使用道具 举报

板凳
发表于 2022-5-25 11:55 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 12:01 编辑


  第二步:确定方法

  我计划将共120章的《红楼梦》分为前、中、后40章三部分,分别统计这些字的使用次数和使用率。前、中40章可以确定都是出自曹雪芹笔下,两组数据应该相对接近;通过这两组数据的对比,我们可以获得同一个作者,在不同文字中文字使用数据的浮动范围。

  后40章是存疑部分,其使用率可与前80章进行对比;同时对比出其与前80章使用数据的浮动范围。如两组使用率具和浮动范围接近,可视为DNA相同,基本确定是同一个作者;如果两者相差较大,可以确定不是出自一人笔下。

  以上为文字DNA对比的基本逻辑。


使用道具 举报

地板
发表于 2022-5-25 11:57 |只看该作者

  第三步:数据统计

  我在网上下载TXT版本《红楼梦》全文,统计总数字863141个;前40章271939个,中40章314982个,后40章276220。如此庞大的调研基础,完全可以确保相关数据的客观性和真实性。

  我通过word里“替换”功能,分别得出上述文字在前中后三部分中的使用量,并按大小进行了排序。出乎意料的是,“且、地、但”在清代文字中使用率较低,居然排到倒数三名;而且“地”字加上作为名词在“地上”、“背地”等词语里的应用,也排倒数第二。这三个字因为数量太小,未被我列入正式统计样本。

  根据文字使用数量,又计算出各个字的使用率。其结果如图:

附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

5
发表于 2022-5-25 11:58 |只看该作者
本帖最后由 杨逍逍 于 2022-5-25 12:01 编辑


  第四步:前、中40章文字使用率的浮动范围

  根据上图中的使用数据,让前40章的使用率“除以”中40章的使用率,即可得出不同字的使用浮动范围。

  通过对比发现,前、中40章里,上述12个字中(后三个数量太小,偶然性较大,剔除),使用率相差上下相差最大的分别是“又”和“那”字;“又”字使用率下浮16.40%,“那”字使用率上浮19.84%。除这两个字外,另外10个字的使用浮动范围都在15%以内。

  注:考量的主要的是浮动范围,其实所谓上浮并不是前40章比中40章使用率高,而是低。具体数据如图所示:



附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

6
发表于 2022-5-25 11:58 |只看该作者
五个一文化工程

使用道具 举报

7
发表于 2022-5-25 11:59 |只看该作者

  第五步:前80章和后40章使用率浮动范围

  根据基础数据,算出前80章的文字使用率,再跟后40章的进行对比;得出前80章和后40章使用率的浮动范围。

  通过对比发现,该浮动范围比前、中40章的浮动范围大了很多。“因”字上浮76.06%,“那”字下浮29.16%,12个字中浮动率在15%以内的只有“了”、“的”、“说”三个字。而“了”、“的”是最最常用的汉字,“说”也是对话为主的《红楼梦》中最常用的字。同时,12个字中有6个字(着、又、那、得、因、可)的使用率浮动空间大于20%;4个字(那、得、因、可)使用率浮动空间大于或约等于30%。

  通过对比发现,后40章中最常见的文字使用规律与前80章中的有极大差别;亦即它们的作者行文习惯有极大不同。

附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

8
发表于 2022-5-25 12:00 |只看该作者

  第六步:前80章和后40章文字使用率排名

  从10个字使用率排名角度分析。前、中40章中所提取12个字使用率排名大致相似,除了“说、是”“着、又”两组使用量接近而发生紧邻的次序调换外(但属于同一梯队),其它8个字的排名相同;这说明前、中40章文字使用习惯相同,DNA大体一致。

  后40章使用率排名与前、中相差极大,12个字中除了前3名外,其它均无法与前保持一致。这说明该部分文字使用习惯与前两者相差极大,DNA明显不同。


附件: 您需要 登录 才可以下载或查看,没有帐号?立即注册

使用道具 举报

9
发表于 2022-5-25 12:00 |只看该作者
  结论:

  通过科学的文字研究,我们发现曹雪芹所作的前、中40章文字使用规律相近,我们可将此规律视为曹雪芹文字的DNA。后40章与前两者文字使用习惯相差极大,其作者文字DNA与曹雪芹不同。

  在题裁相同,风格接近,场景相同,人物相同,历史背景相同的同一部小说里,在至少27万字以上的庞大统计基础上,如果作者相同,不可能出现DNA有较大差异的情况。

  因此可以确定,《红楼梦》前80章与后40章,文字DNA差异较大,不可能是同一个作者!

  注:本方法采用最直接的证据,最客观的数据分析,仿佛人的“笔迹鉴定”;但因为时间有限,没有增加采样数量,有兴趣的朋友可以分析更多字、词的使用规律作对比,来更准确的鉴定这一结论。

使用道具 举报

10
发表于 2022-5-25 12:04 |只看该作者
大数据处理建模是关键
嫡出耶庶出耶,拭目以俟

使用道具 举报

11
发表于 2022-5-25 12:05 |只看该作者
重磅企鹅 发表于 2022-5-25 12:04
大数据处理建模是关键
嫡出耶庶出耶,拭目以俟




天王老子说是同一人,我也不服啊!


使用道具 举报

12
发表于 2022-5-25 12:11 |只看该作者
杨逍逍 发表于 2022-5-25 12:05
天王老子说是同一人,我也不服啊!

作者有木有汉族和满族之分呢

使用道具 举报

13
发表于 2022-5-25 12:27 |只看该作者
重磅企鹅 发表于 2022-5-25 12:11
作者有木有汉族和满族之分呢



这就不知道了。大数据解决不了这问题。

使用道具 举报

14
发表于 2022-5-25 12:42 |只看该作者
杨逍逍 发表于 2022-5-25 12:27
这就不知道了。大数据解决不了这问题。

不是汤若望、南怀仁、郎世宁一脉人所写就行

使用道具 举报

15
发表于 2022-5-25 13:22 |只看该作者
这个方法好。鉴定文字和鉴定口语特点一个道理。
工程浩繁,兄弟辛苦了

使用道具 举报

16
发表于 2022-5-25 22:57 |只看该作者
别具一格,有没有申请版权

使用道具 举报

17
发表于 2022-5-26 09:45 |只看该作者
使用的频率是一个方面,使用的习惯,语言风格,也是一方面。佩服你的这种严谨态度~~~

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

北斗六星文学网所有文字仅代表作者个人言论,本站不对其内容承负任何责任。

Copyright ©2011 bdlxbbs.cn All Right Reserved.  Powered by Discuz! 

本站信息均由会员发表,不代表本网站立场,如侵犯了您的权利请发帖投诉   

平平安安
TOP
返回顶部