关于研究方法方面毕业论文开题报告范文 跟机读《白石老人自传》艺术史数字人文方法类论文范本

本文是一篇关于研究方法论文范文,可作为相关选题参考,和写作参考文献。

机读《白石老人自传》艺术史数字人文方法

摘 要 利用计算机自然语言处理的相关工具对《白石老人自传》进行词频统计、高频分布和语义网络的细读,确认《白石老人自传》的核心内容是对亲人父母的爱与悔恨,是对无真才实学、恃强凌弱之人的厌恶,据此对齐白石的特定作品重新解读.这一发现虽未能颠覆传统研究方法的成果,但仍能辅助对一个单一自洽文本的研究.

关键词 数字人文 自然语言处理 齐白石 语义网络

引用本文格式 范桢. 机读《白石老人自传》——艺术史数字人文研究方法初探[J]. 图书馆论坛,2017(7):55-67.

Analyzing The Autobiography of the Old Man Qi Baishi by Computer

——A Primary Study on the Application of Digital Humanisties Method in Art History

FAN Zhen

Abstract The paper analyzes the frequency of words,the distribution of high frequency and the semantic network of The Autobiography of the Old Man Qi Baishi by related applications of computer natural language processing. It notices that the core content and central theme of The Autobiography of the Old Man Qi Baishi are the author’s love and regret for what he had done to his parents and family,as well as the disgust of the people who doesn’t he the genuine knowledge and swashbuckling. According to the results of data processing,the paper rethinks some art works of Qi Baishi. Although this finding has not overturned the conclusions of classical method,text analysis with the assistance of computer is an excellent assistance in studying a single and self-consistent literature.

Keywords digital humanities;natural language processing;Qi Baishi;semantic network

近来大数据盛行,肇兴于欧美的数字人文研究逐渐为中国学界所熟悉和重视,但将其具体用诸中国艺术史者尚不多见.在海外,1985年英国的一群艺术史和设计史学者成立了“计算机与艺术史学会”(Computers and the History of Art,CHArt),起先只是一个讨论计算机使用的邮件小组;1990-1998年创办Computers and the History of Art杂志;1999年开始举行一年一度的计算机与艺术史年会,最近一次年会的主题是“艺术的建构与超越:制作和发明数字文化”(The Fabrication of Art and Beyond:Making and Inventing in Digital Culture)[1].纽约城市大学的新媒体学者列夫·曼诺维奇(Lev Manovich)和他的文化分析实验室(Cultural Analytics Lab)是目前备受瞩目的研究团队,它们开发的免费工具ImagePlot①可以根据图像文件的大小、尺寸、色彩进行整体排列对比,已有的项目包括对《时代周刊》(Times)封面(2009)、纽约现代美术博物馆(MoMA)的藏品(2011)[2]进行视觉化分析,比较《科学》(Science)和《流行科学》(Popular Science)1872-2007年的排版策略(2010)[3].依靠曼诺维奇的工具和方法,清华大学美术学院向帆对1984-2014年全国美展的2276幅油画作品进行可视化分析是国内仅见的研究[4].但是,ImagePlot仍然需要将图像人工制作成电子文件,如向帆分析的全国美展油画就是她和学生一一扫描录入的,色差、尺寸比例等问题难以控制,时空、作者等信息依靠人工录入,可进行的分析尚显粗疏.由于获取经典艺术图像数据比较困难,曼诺维奇的研究重点已经转向资料更易采集的网络媒体[5].2015年海德堡大学创办《国际数字艺术史期刊》(International Journal for Digital Art History),目前已出版“什么是数字艺术史”和“大图像数据视觉化”两个专号,着眼于数字艺术史的理论建构.2016年加州大学洛杉矶分校举办文化分析系列工作坊,提出了“超越文本的文化分析”,以图像、音乐、视频进行讨论,向视觉艺术以外的领域拓展.

从最早用于藏品管理、目录编制②到现在建构数字艺术史学理论,计算机在艺术史研究中的应用在技术上和理论上都取得了长足进步,但其实仍未能真正进入艺术史的研究对象——图像.究其原因:首先,艺术史图像、物质资料的数据量较之文学、历史研究的文本资料要庞大得多,也缺乏像Unicode字符集这样的业界标准,虽然受益于卷积神经网络的应用,当前以统计为基本思路的计算机视觉处理技术领先于语言处理,但仍难满足艺术史细致风格分析的需要;其次,艺术史的图像需要人工录入,艺术史的文献大多也尚未数字化或开放获取.

本文中,笔者绕开以上两方面的限制,仍然以文本为分析资料,借用自然语言处理(Natural Language Processing)和语料库语言学(Corpora Linguistics)的分析工具,结合传统研究思路,视《白石老人自传》为自洽文本进行词频统计、情感和语义网络分析,以期对齐白石部分作品重新进行“量化”解读,试图提出一种计算机辅助研究的思路.

1 数据分析

1.1 数据预处理

齐白石遗留文献按体裁分为口述、诗词、文章、日记和题跋,大部分均已整理出版,见于1996年出版的《齐白石全集》第十卷“诗文”卷.2010年《北京画院藏齐白石全集》将北京画院收藏的齐白石手稿、信札影印并释读出版,完整公布了齐白石逝世后捐赠给国家的全部作品,较之1996年版《齐白石全集》更完整.

如果按语法分类,《白石老人自传》较为特殊.齐白石遗留的其他文献均为书面语,是文言文体,唯独《白石老人自传》为口述记录,是较白话文③更口语化的文字.由于当前计算机处理古代汉语的技术难以对文言文体语料进行分词、词性标注,因此本文以《白石老人自传》为基础文本,进行艺术史数字人文研究的实验.作为齐白石研究最基础的文献,据记录者张次溪的前言,《白石老人自传》的口述记录工作分两个时段:1933-1937年(71-77岁)和1945-1948年(85-88岁)④.笔者购买和借阅了人民美术出版社1962年版《白石老人自传》、湖南美术出版社1996年版《齐白石全集》、三联书店2009年版和江苏文艺出版社2012年版《白石老人自传》⑤,扫描成pdf图片版电子书,使用ABBYY Fine- Reader 12软件对其进行OCR识别.人民美术出版社1962年版年代较久远,印刷质量不佳;《齐白石全集》版为双栏排版;而江苏文艺出版社2012年版则增加、修改了章节标题,因此,笔者决定以人工核对后的三联书店2010年版作为语料分析底本.在进行计算机自动识别程序之前,对扫描版图像文本进行预处理.预处理内容包括:删去多余页面,只留正文;矫直文本行;漂白背景,去除杂质,将文字与背景调整至最清晰对比度;放大到合适分辨率.图像预处理是为了最大程度提高计算机的识别率,减少人工干预的工作量,幸而ABBYY FindReader 12⑥能够提供非常完备的预处理功能.预处理完毕,设置好识别语言,便可进行识别.计算机会提示无法识别的内容,根据提示一一进行人工修正,最后得出总字数(中文字符)为60481字的文本语料库.

1.2 词频统计

经自动识别与人工修正,《白石老人自传》小型语料库建成.当前对于古代汉语,计算机尚缺乏成熟的技术进行初步分词,但对于现代汉语和接近于现代汉语的白话文,基于大规模语料库的统计训练非常成熟,拥有较高的准确率.笔者选用NLPIR[6]、Jieba[7]和Stanford Word Segmenter⑦三款主流分词工具,在自动分词并进行去歧义的有限人工干预后,使用AntConc[8]进行初步统计.结果发现,以频度最高的词“我”为例,三个分词工具算出的频度分别是1635、1494、1560;而以频度最高的双音节词“他们”为例,三者的频度分别是121、121、129.因为“我”还能与其他字组成词语,如“我们”“忘我”,而“他们”则较难组词,所以取“我”的最少和“他们”的最多,笔者决定以Stanford Word Segmenter的分词结果(见表1、图1及表2)进行分析.

AntConc共统计出8171个类符(type)、34144个形符(token),TTR值为23.93%⑧.其中,高频词(即出现多于1次)3001个,占全文总词数37.95%,占全文总字数80.99%;复合词(即字数大于1)7004个,占全文总词数85.72%,占全文总字数79.11%.这些高频词中,除了“的”“是”“了”等没有特别含义的助词、修饰词、语气词,以及“我”“自己”等第一人称讲述必然会大量采用的词语以外,可以很清晰地看到“画”“岁”“诗”“家”“母亲”等词语,对于口述回忆的老年时期的齐白石而言,具有重要的意义.当只统计复合词时,这种情况则更明显.

1.3 高频分布

笔者选取前15位高频复合词(见表3),使用AntConc的“Concordance Plot”功能查看其出现及分布情况,按照靠近文本开头、靠近文本结尾和较均衡分布的标准将其分为三组.

可以发现,靠近文本开头的词语占据了数量上的绝对优势(8:5:2).如果将15个词合并检索,可以清晰看到它们的分布倾向(见图2).

图2左侧部分颜色要比右侧深很多,尤以齐白石儿童时期的1863-1871年和在湘潭本地交游的1890-1902年两个时段最为明显.不过,由于时间标签是按照章节划定的,文本内部的时间推进与字数并不成比例,所以图2所反映的仍然只是一种印象.作为一种回忆,图2也显示了艾宾浩斯的所谓遗忘曲线——不重复的事情逐渐遗忘,没忘记的事情不断强化.描述早年生活的高频词数量和字数均多于晚年生活词汇,说明这部自传的重心在前端.从表3可看出齐白石对早年生活最看重的是什么.另外,描述早年生活的词汇用词集中,说明当时的生活单一、交际圈较窄;成名后交际圈变大,遇到的人更多,用词密度则变小、词汇量变丰富.根据哈布瓦赫的集体记忆理论,集体记忆形塑个体记忆,个体记忆也参与集体记忆建构的共谋[9].以此审视《白石老人自传》首尾高频复合词分布的不同,可知在一个讲求孝道、以家庭为核心、重视乡土的社会中,齐白石早年生活的表述比较单纯,晚年生活则需要进行更多建构,比如画艺精进、朋友义气、民族气节.

1.4 语义网络

绘制语义网络,首先借助AntConc提取出前15位高频复合词的语境共生关系数据共9390组,每组包含类符1、类符2、频度(frequence)与统计量(statistic)⑨四种数据,然后加上词频统计数据,利用关系网络分析工具NodeXL绘制出《白石老人自传》的语义关系网络.在图3中,每个节点(vertex)代表一个类符,节点大小(size)代表类符在文中出现的频次;每根连线(edge)代表类符与类符的语境⑩共生关系,连线的宽度(Width)是统计量(Stat1),即词汇之间的紧密程度;连线的颜色灰度(Opacity)代表频度(Freq),即词汇之间共同出现在上下文的频次.使用NodeXL的Harel-Koren Fast Multiscal可视化布局算法[10],可输出前15个高频复合词在整体语义网络中的位置和联结(见图3).

按照高频分布的分组情况,将3组高频词分别标注为3种颜色的实心圆,其他词为浅灰色空心圆.前15位高频复合词在整体语义网络中的位置都比较靠中心,只有“民国”偏离中心.在中心位置的词汇中,靠近文本首端的词汇分为两组,“父亲”与“母亲”靠近,其他词汇相互集拢,其中“我们”与“人家”几乎重合;均衡分布的5个词排布较无规律,但与首端词组成几组靠近关系:“没有”与“母亲”接近、“他们”与“父亲”接近、“时候”与“家里”接近、“知道”在“祖母”“人家”“自己”“人家”“我们”之间;靠近文本尾端的词汇中,“民国”远离其他高频复合词,“家乡”靠近中心位置、与“母亲”靠近,而与“民国”附近的词有特殊的、高频的联系.每个高频词都有一组或几组单独联系的专用共生词群位于语义网络图的边缘,如“没有”(见图4).

这些词群仅仅因为与考察的高频复合词有共同的单一联系而被划到一起,数量庞大,笔者没有一一分析.至于究竟哪些词与高频词相连,《白石老人自传》语义网络中哪些语境共生关系最具代表性,可以对加权统计量Stat1和频度Freq进行强关系筛选■,见图5.

由于加权统计量Stat1位于1~5区间,所以图5和表4显示了《白石老人自传》语义网络中最重要的22组语境共生关系.也就是说,高频复合词前15位的“没有”“民国”等词已被过滤,只剩下11个词.通过这22组语境共生关系,可以得出一些结论.比如,“祖父”一词涵盖了齐白石的祖父和外祖父,他们对齐白石最大的影响是幼时识字,祖父送他文房四宝送他上学,外祖父是私塾先生;父亲最大的爱好是“喝酒”;别“人家”家里往往是富裕的;“孺人”是齐白石对祖母的尊称,“马”是祖母的姓氏,祖母被齐白石尊称为“马孺人”;“他们”所代表的别人往往与贬义词相连,如“心机”“枉费”“苦头”,但别人又能够“赚钱”,这些贬义词都是齐白石个人的主观看法,可见齐白石的清高、傲气,因而“避不见面”;又“家乡”,家乡是离家之后才变为家乡,因而多出现在文本的尾端,齐白石离家后的家乡最重要的特征是“兵乱”和“兵匪”,兵乱、兵匪使其有家不能回,因而在晚年常常挂念.

对于暂不明晰的语境共生关系,可利用AntConc的Concordance功能回到原文本查看.下面举例说明.

(1)“烟墩岭”一词出现在第一章的第2页:“离我们家不到十里,有个地方叫烟墩岭,我们的家祠在那里,逢年过节,我们姓齐的人,都去上供祭拜,我在家乡时候,是常常去的.”[11]16“烟墩岭”与“我们”相隔一个逗号,是齐氏家族祠堂的所在地.

(2)“老老”补全是“老老小小”,它与“母亲”的语境共生关系共有2组:“我们家里,自从母亲进门,老老小小穿用的衣服,都是用我母亲自织的布做成的.”[11]20“我母亲一共生了我弟兄六人,又生了我三个妹妹,我们家,连同我祖母,我父亲母亲,和春君,我的长女菊如.老老小小,十四口人了.”[11]59两段话都是说“母亲”养育了齐白石一家的“老老小小”.“进门”则是母亲与齐家发生联系的起点.

(3)“光景”与“家里”的语境共生关系有4组:“在我祖父故去之后,经过这回丧事,家里的光景,更显得窘迫异常.”[11]45“我因家里光景不好,挣到的钱,一个都不敢用掉,完工回了家,就全部交给我母亲.”[11]53“只因年纪还轻,名声不大,挣的钱也就不会太多.家里的光景,比较头二年,略为好些,但因历年积叠的亏空,短时间还弥补不上,仍显得很不宽裕.”[11]54“我在胡家,读书学画,有吃有住,心境安适得很,眼界也广阔多了,只是想起了家里的光景,绝不能像在胡家认识的一般朋友的胸无牵挂.”[11]66每使用“光景”一次,都使齐白石想起了自家的贫穷,但除了第一个语境,后面的“家里的光景”都是在齐白石个人生活有所好转后想起了家中的情况.家庭是齐白石的负担,也是他的责任.

(4)“急得”在文本中出现3次:“这两年,正是我多病的时候,我祖母和我母亲,时常急得昏头晕脑,满处去请大夫.”[11]25“我祖母和我母亲,在急得没有主意的时候,也常常把他们(巫师)请到家来,给我治病.”[11]26“我生这场大病,是在十七岁那年的秋天,病得非常危险,又吐过几口血,只剩得一口气了.祖母和我父亲,急得没了主意直打转.”[11]52“急得”均与齐白石生病有关,事实上通过对文本的线性阅读可以知道,齐白石幼时多病,记忆中最关心他的是祖母和母亲.

(5)“一百二十”.1933年12月12日,齐白石为祖母的120岁冥诞专门写了一张文启:“祖母齐母马太君,今一百二十岁,冥中受用,外神不得强得.今长孙年七十一岁,避匪难,居燕京,有家不能归,将至死不能扫祖母之墓,伤心哉!”[11]135这组语境共生关系再次强调了齐白石有家不能归、思念家乡、思念亲人的伤心之情.

1.5 小结

通过以上计算机的分析,大致可以得出以下几个印象:

(1)在晚年进行口述的齐白石对早年生活十分看重,思念祖父、祖母、父亲、母亲,对未能见到父母最后一面十分懊恼.因为家乡战事频繁,不得已家乡变“故乡”.而且,齐白石对男性和女性的感怀是不一样的,对祖母、母亲更为感激.

(2)齐白石一生中有37年生活在民国,口述传记中记录了36年,在其生命中占据了重要位置,但他更关心“前清的旧事”.生命早期的人对他更为重要,齐白石成名后的生活越来越丰富,生命中“贵人”数目的增加,使每个人的重要性相对降低.

(3)齐白石对日本人非常警惕和痛恨.高频复合关键词“他们”在特殊语境共生关系中指占据北平的日本人.在他眼里,日本人是很有心机的,齐白石要令其心机枉费;日本人与他交往的目的是将他的画“带回”日本“赚钱”[11]147.另外一个“他们”指的是横行乡里、给老百姓吃“苦头”的回乡湘军[11]18,也是贬义用法,是齐白石对狐假虎威小人、恶人的语言习惯.

(4)依据《白石老人自传》语义网络图可还原齐白石生命中主要人物画的“用户画像”:父亲仅有的擅长事情是请人喝酒办成的(请木匠齐仙佑收齐白石为徒)[11]46;母亲照顾、养育齐家一家老小,为事事操心;祖父教他识字;祖母为他生病着急,纪念祖母的方式最为郑重.对于齐白石成名过程中的朋友,计算机也指出了他们对齐白石人生的贡献和各自的特征.比如,胡沁园喜欢召集友人“赏花”“赋诗”,令齐白石由“馆阁”体改学何绍基字,齐白石印象最深的是他第一次参加诗会,胡沁园“面带”笑容地对他鼓励提携;官员都非常“钦慕”齐白石的老师湘绮老人,二人的连结在张“仲扬”,王湘绮最重要的学生是“杨度”;将樊樊山介绍给齐白石的是夏午诒,见樊樊山需要通报,但见面就“送”齐白石“五十”两银子,他还要“推荐”齐白石去内廷供奉;陈师曾“提携”齐白石,陈师曾去世后,陈师曾的父亲陈散原还为齐白石的“诗集”作了“序文”.

(5)对于齐白石诗画印风格的演变,计算机提供的关键词是“馆里”“退之讥右军”“欢畅”■.“馆里”是计算机分词有误,补全是齐白石早年书房“借山吟馆”,借山吟馆的命名是以诗为主题的.“退之讥右军”是陈师曾为齐白石《借山图卷》题诗中的诗句,齐白石随后的解读是“劝我自创风格,不必媚求世俗”[11]112.陈师曾的建议促成了齐白石的衰年变法,是其画艺最重要的一次转折,“无怪退之讥右军”也是陈诗中劝谏生动、言辞恰当的关键一句.“欢畅”是齐白石刻印的一个特点或者目标,1910年齐白石从两广回来,住在长沙通泰街胡石庵家,与家乡的朋友“游山吟诗,有时又刻印作画,非常欢畅”[11]103.齐白石也是在这时候把汉印和赵之谦的刀法结合,开始有人向他求印了.“馆里”“退之讥右军”“欢畅”3个关键词分别概括出齐白石诗画印风格形成、转折的重要时刻.

2 重读齐白石

虽然上述分析并没有过于超出人类经验阅读,但作为一种辅助,计算机划出了史料的重点,也可以印证人们心中的假设.下面根据计算机的分析结论重新审视齐白石的画作.

根据本文1.3节高频词分布的结论,本节将聚焦于齐白石的两类作品:早年作品与口述期间的作品,并把这些作品分别与《白石老人自传》的文本内部时间(即齐白石的人生线索)和外部时间(齐白石的口述时间)进行对照.内部时间是指齐白石出生到他“暂停收件”的87岁为止(1864-1947);但外部时间只是1933-1937(71- 77岁)和1945-1948(85-88岁)两个粗略的时段,无法确定每一部分的具体口述时间.在张次溪的记录手稿发现之前,本文对外部时间的设定只能笼统估计为两个大概的时段.按照郎绍君老师的分期,因齐白石学画晚,20-56岁都可视为其绘画的早期[12]卷一:56.

2.1 于家人

齐白石留存下来的早期画作并不多,大部分是礼物、纪念和商品,因赠予、出售而得以保存.早期画作中,根据题跋明确是为家人、亲人所画的只有两幅,一幅是《黛玉葬花图》轴(1897- 1902,见图6-1)[12]卷一:74,一幅是儿女亲家邓有光的肖像[12]卷一:12.齐白石早年绘画中另有一幅《黛玉葬花图》(约1890-1900,见图6-2)[12]卷一:41,是临摹《芥子园画谱》的练习稿.两幅黛玉葬花图的人物姿态不同,与另外三幅仕女图[12]卷一:110,118,141都是《芥子园画谱》黛玉葬花图的变形.根据图6-1题跋“以付儿辈珍藏”判断,该画是齐白石从其临摹画稿中摘出,供儿子学习.

齐白石早期作品中表露心迹的也不多.唯独《芙蓉》轴(1916,1928加题,见图7)[12]卷一:138的题跋略有表露:

丙辰十月第五日,连朝阴雨.寄萍堂前芙蓉盛开,令移孙折小枝为写照.花若有情,应不负我祖孙爱汝之恩也.萍翁记于三百石印斋.是日老妻有疾,未来观也.

寄萍堂是齐白石1906年11月从梅公祠搬到茹家冲后的堂号;移孙即齐白石长孙齐秉灵,于当年的12月初七日生;丙辰为1916年.该画是齐秉灵10岁时所绘,字里行间表露出对小孙子的喜爱之情.题跋还提到其夫人陈春君正在病中,却仅为陈述语气,未表露过多感情.1922年,长孙齐秉灵病逝,即使6年之后(戊辰,1928),齐白石睹物思人暗自神伤,留下第2段题跋,嘱咐家人勿示与人:

折花人久矣不存.此小幅,记不取与人.戊辰五月十六日清捡旧簏,因添记.白石.

该画跋与《白石老人自传》完全不同,《白石老人自传》中齐白石对长辈十分感激,尤其是十分依赖女性的养育,但对子女的语气较为平淡,尤其是女儿.例如,《白石老人自传》记次女阿梅的出生,未提名字,后来阿梅的婚姻不幸,齐白石只写诗劝其另谋生路,但“始终没有答允她”回娘家的想法[11]120.儿孙辈当中,对三子齐如琨和长孙齐秉灵的笔墨最多,主要是因为他们年纪较小、比较聪明且好读书学画.齐白石诗集中有多首示儿辈、示儿孙辈的诗■,指导他们努力读书学画,前引“以付儿辈珍藏”的《黛玉葬花图》轴即是示儿孙的副产品之一.此外,另有4首写与齐良琨的画跋存世,而其他子女提到的非常少,由此推断齐白石已将二人视作能吟诗作画的朋友.写与妻子春君的诗有5首《寄内》(《白石诗草续集》、《白石诗草补编》第一编)和1首《慰姬人》(《白石诗草续集》).《寄内》作于1933年后,讲他与妻子共病,以此安慰并有惺惺相惜之感;《慰姬人》作于1902年前,是一封家书,思念妻儿劝其加餐多食,字里行间能够发现有识字的儿子作为妻子春君的中介.写与祖辈、父母的诗文除挽联和墓志祭文外,没有一篇.由此可见,在文字上能与齐白石对话的亲人只有两人,其他人因为不识字(或识字少),则被排除在外;儿孙辈中除齐良琨、齐秉灵外,其他人也学诗作画,但因资质不够而逐渐被忽视.

如何理解画跋与《白石老人自传》的不同?画作在创作之时就有功用,比如《黛玉葬花图》轴是供儿子学习的课徒稿,《芙蓉》图是为了表达对孙子的喜爱和纪念.但是,《白石老人自传》口述不是给当时人看的,也不是给身边人看的,是为了自我塑造.当然,这并不是说齐白石对父母家乡的感情是虚伪的,只是说这种感情更具隐蔽性和公共性,不能向当事人表达,却可以向外界诉说;而对儿孙辈的感情则相对轻松一点.

2.2 于朋友

《齐白石全集》第1卷另收录1组《山水六条屏》(见图8)[12]卷一:57-60,原是1900年受胡沁园本家、胡石庵之父胡辅臣嘱托而作,不过到第2年尚未动笔,嘱画人即西去.齐白石在第3年以“柏荫山房绝句画此六帧”,现余4幅,题跋:

(一)我亦人称小郑虔,春衫沦落感华颠.山林安得太平老,红树白云相对眠.题冯此山先生所画白云红树图近作.

(二)枫林亭外夕阳斜,老大逢君更可嗟.记否儿时风雪里,同骑竹马看梅花.枫林亭逢朱大旧句.

(三)偶骑蛱蝶御风还,初雪轻寒半掩关.绕屋横斜万梅树,却从清梦悔尘寰.安得蒲团便是家,冻梨无色鬓霜华.坠身香雪春如海,天女无须更散花.自题万梅家梦图二绝句.

(四)燕子飞飞落日斜,春风不改野桥花.十年壮丽将军府,独树当门卖酒家.为郭五人漳画山水并题旧句.

光绪庚子仲秋,辅公老伯司马大人以书附纸索璜画.越明年暮春,公没.又明年季秋,璜就柏荫山房选绝句画此六帧,以奉服邹五弟世大人两正.龙山社长兄齐璜白石草衣并记.

4幅条屏的题诗,除第3首明确为“自题”,其他诗句也出自齐白石之手,收在《白石诗草补编》第三编续补诗词联语,为王振德从画中补入,柏荫山房可能是齐白石较少使用的堂号.第1首提到的冯此山为湘潭地方文人,生卒字号不详,湘潭学者罗汝怀(1804-1880)《绿漪草堂集》有多处与冯此山题跋唱和的记录[13],李桓亦为之撰《湘潭冯此山先生八十寿序》[14].齐白石可能是在某个朋友处观得冯此山画并题诗,又据题诗诗意画出《白云红树图》.第2首提到的朱大是齐白石8岁时在枫林亭王爷殿蒙馆读书时的同学.第3首“万梅家梦”指的是1900年齐白石为江西盐商画《南岳全图》后租下的梅公祠,所在的莲花寨“一望都是梅花,我把住的梅花祠,取名百梅书屋”[11]84.第四首也是旧句.

初读4首诗,字里行间透露出的都是技艺精进、生活好转、交游扩大的身心愉悦.其时所绘之画也是如此,画面颜色鲜丽清新,用笔跳跃,线条轻松,以点线为主而少皴染.《齐白石全集》编者认为,该四条屏的风格来源于《芥子园画谱》和湘潭地方画家谭溥,是远游写生前的代表作[12]卷一:图释13.齐白石在母本中加入自己的生活和回忆,是典型的想象式创作,其美好的想象与文人情怀来源于其时的小康生活与过去紧巴巴日子的对比,而《白石老人自传》讲述到1900左右的生活时,也充满了愉悦轻松.诗画表现出来的这种轻松,主要源于1900年齐白石靠卖画挣了一大笔钱后,从星斗塘老屋搬到了梅公祠.回顾图2《白石老人自传》前15位高频复合词分布,正是从1902年左右开始,该书的高频复合词分布变得稀疏.诗中回忆的冯此山和朱大在《白石老人自传》中均未出现,他们可能就是被遗忘的那部分.

2.3 回忆之时

如果将画作、诗作与《白石老人自传》进行区分,那么画作、诗作应是此时此景的抒发,而《白石老人自传》则是回忆,制作时便已设定其公共传播属性,所以齐白石要在自传中一一将祖辈、父母、孩子的姓名字号出生年月讲清楚,以存后世.父母无法参与齐白石的精神世界,但仍然需要被纪念,这种补救、悔过、思念的心情在晚年越来越强烈.比如,齐白石1940年左右常画枯树归鸦题材(见图9-1~4)[12]卷五:62,63,92,297,源于其早年名作《石门二十四景》中的图式(见图9-5)[12]卷一:114,但不同于《石门二十四景》的清新,此时的《枯树归鸦》仅在下方画只留枝干的枯树,树上一些乌鸦停留,另一些往回飞,偶尔配以一两山丘、白墙黑瓦和晚霞.每画枯树归鸦,齐白石往往题一自作七绝:

八哥解语偏饶舌,鹦鹉能言有是非.

省却人间烦恼事,斜阳古树看鸦归.

诗画流露出来的信息,表面是自己坐在树下看鸦归(齐白石将自己比作枯树),实际上枯树与归鸦之间却存在一种相互转化的二元关系.乌鸦在中国文化中有“孝鸟”之说■,齐白石的望鸦归实际上是望己归,小山瓦房枯树是家乡、父母和爱人,夕阳暮色则是其“暮年北漂”的内心写照.齐白石另有三方“悔乌堂”印(见图10)[12]卷八:26,亦是如此.比较早的四幅《枯树归鸦图》均未题受画人(分别绘于1930年代末、1930年代末、1940年和1940年代初),是有感而发、有感而画,画意未受受画人关系的干扰.再看1949年后齐白石相同题材的绘画见(图9-6)[12]卷七:1,230,288,笔墨则显得轻松许多.四幅作品创作于1940年前后,彼时日军已占领北平,齐白石正处于艺术生涯的盛年,父母已去世10年(1926年3月和7月).自1919年迁居北平,齐白石曾分别于1919年末、1920年秋、1921年秋、1922年春、1926年春(仅到长沙)、1935年春(仅住3天)6次返乡省亲.1922年后已经快20年没有在家乡长住,当国家内忧外患之时,其思乡之情更为强烈.

《白石老人自传》第四章“定居北京”,记事范围从1917年到1937年.当口述讲到1931年时,张次溪留下按语:“此段以后多为白石老人亲笔所记.”[11]129之后二人见面时间减少,记录速度减慢.当白石老人讲到1934年时曾提到“民国十六年(丁卯)以后,我没曾回到家乡去过”[11]136,指的是其1926年春仅到长沙的返乡,而1935年齐白石又有过一次“孙辈不识”的回乡.所以,《白石老人自传》中1934年之事当为1935年阴历2月20日动身返乡前所记,此时文本时间已与现实时间同步.笔者以本文1.4节的语义网络分析绘出《白石老人自传》老人亲笔记述后前10位高频复合词的语义网络图(见图11).可以看到,1934年之后的关键词是齐白石当下的生活——“北平”“刻印”“宝珠”等,但仍有“家乡”独自处于网络靠近中心的位置,且不与其他高频词接近.家乡不是当时齐白石的当下生活,却是他生活的中心.以此理解《枯树归鸦图》中的思乡之情,更别有一番兴味.

3 结语

通过计算机对《白石老人自传》的相关数据进行分析,可在总体上把握其核心思想,规避线性阅读造成的一些局部判断.本文虽未能在齐白石研究这样成熟的领域取得突破性进展,但仍说明计算机可以有效辅助学者开展相关研究.根据《白石老人自传》的数据分析,本文发现贯穿该文本(话语体系)始终的是齐白石对亲人、父母的爱和悔恨,对无真才实学、恃强凌弱之人的厌恶,他在自传中极力塑造的是一种淳朴天真的形象.他的自述、诗文、画作都在同步变化和表现了其内心世界.

然而,这种自然语言处理的数字人文研究方法,弊端也很明显.计算机难以把握文本细微的情感,难以破除语言的修辞、掩饰,也难以窥探语辞背后的真实用意,换言之,历史史料背后庞大的话语体系仍然需要研究者花费毕生精力进行有效探究,计算机尚难代劳.另外,虽然本文呈现出来的数据都是可逆的,但相应分析仍然受到笔者主观影响,加上技术和数据量的欠缺,本文的结论也只是有限的判断.本文基于《白石老人自传》仅60000余字小型数据的研究,可能只是一个以偏概全的结论,这种以偏概全是由于数据量不足、技术欠缺造成的.

注释

①ImagePlot[CP/OL]. [2017-03-15]. https://github.com/ culturevis/imageplot ;其底层代码来自生物图像分析工具ImageJ,由美国国家健康研究院(National Institutes of Health)Wayne Rasband开发.

②可参考Computers and the History of Art第一卷第一期的篇目,如“CDMS:the computerization of the British Museum Collections”,“Making an index with WordPerfect”.

③白话文实际上是一个历史名词,指称1920年代通行的官话白话文.白话文与现代汉语的关系十分复杂,1932年中华民国教育部颁布《国音常用字汇》确定以现代北方官话白话文语法和北京话语音为语言,1955年中科院现代汉语规范会议沿用了《国音常用字汇》的标准,只是增加了“以北方方言为基础方言,以典范的现代白话文著作为语法规范”两项内容.《白石老人自传》中更为口语化的文字比较接近现在NLP工具分析的现代汉语.并且,语法变化的明显标志是虚词的变化,而本文分析的实词可以直接在图表中呈现,所以白话文和现代汉语的区别对本文造成的误差可以忽略.

④齐白石习惯以虚岁计算年龄.又,舒贻曾为齐白石算命,称:“丁丑年,脱丙运,交辰运.辰运是丁丑年三月二十日交,壬午三月十二日脱……”齐白石笃信其言,在丁丑年(1937,75岁)3月20日后自添两岁.本文亦照此说法计算年龄,即1937年以前虚岁计算,1937年以后虚岁+2年计算.具体内容参见:齐白石. 白石老人自传[M]. 北京:人民美术出版社,1962:92-93.

⑤据统计,截至2017年《白石老人自传》共出版中英文两种文字9种版本,题名、章节名亦有不同,如后文选用的三联版题为“白石老人自述”,但本文以人民美术出版社1962年初版《白石老人自传》的题名和章节名为准.

⑥据其称,软件识别准确率达99.8%.详见:ABBYY FindReader 12 [CP/OL]. [2016-03-15]. http://www.abbyy.cn/finereader/.

⑦Stanford Word Segmenter(http://nlp.stanford.edu/software/segmenter.html)提供PKU和CTB两种分词和词性标注标准,笔者使用的是宾夕法尼亚大学认知科学研究所(IRCS)制定的CTB(Chinese Treebank)标准:The Chinese Treebank Project(http://www.cs.brandeis.edu/~clp/ctb/).

⑧语言学中称单一文本中不重复计算的词为类符(type),又称词种,重复出现的词每一次记为一个形符(token),又称词次.本文将在容易引起歧义的地方使用该术语,不易引起歧义处使用“词汇”“词语”以方便理解.TTR值用于衡量词汇密度,即用词丰富性,计算公式为TTR等于type/token*100%.具体内容参见:梁茂成、李文中、许家金. 语料库应用教程[M]. 北京:外语教学与研究出版社,2010:9.

⑨AntConc提供了T-Score和MI(mutual information)两种统计量,简单的说T-Score与上下文共生关系出现的频次成正比,MI与上下文共生关系的重要/特殊程度成正比.为兼顾频度与效度,本文使用的统计量是T-Score和MI的加权统计量,计算公式为Stat1等于(T-Score*0.25+MI*0.75)/2.T-Score和MI的计算方式参见:Stubbs M. Collocations and semantic profiles:On the cause of the trouble with quantitative studies[J]. Functions of language,1995,2(1):23-55.

⑩ 本文将语境设定为上下文各10词.

■ 统计值和频度的数值是成倍增加的,如Stat1>4的关系有14组,Stat1>3的关系则有3261组;Freq>4的关系627组,Freq>3的关系1003组,Freq>2的关系2093组.经过测试,同时满足Stat1>4和Freq>3筛选出的22组高频复合词关系,数量适当、方便分析.

■ 分别以“诗” “画+画画”“刻印+印章+印”作为代表诗画印的关键词检索.

■《借山吟馆诗草》:《戏题斋壁.示子如移孙》;《白石诗草二集》:《示儿辈》《得儿孙辈复示》《往事示儿辈》;《白石诗草补编》:《与移孙书书后》.

■ 当时乡间流行的蒙书《增广贤文》有“羊有跪乳之恩,鸦有反哺之义”句,来自:朱利. 治家格言、增广贤文、女儿经——治家修养格言十种[M]. 上海:上海古籍出版社,1991:18.

参考文献

[1] Younan,S. The Fabrication of Art and Beyond,CHArt’s 2015 conference review [EB/OL]. (2015- 11-03) [2017-03-15]. https://ch-art.org/2015/11/03/ sarah-younan-the-fabrication-of-art-and-beyond- charts-2015-conference-review/.

[2] Hochman N,Manovich L. A View from Above:Exploratory Visualizations of the Thomas Walther Collection[M]//Abbaspour M,Daffner L A,Hambourg M M,eds. Object:Photo. Modern Photographs:The Thomas Walther Collection 1909-1949. New York:The Museum of Modern Art,2014.

[3] Cultural Analytics Lab Projects [EB/OL]. [2017-03-15].http://lab.culturalanalytics.info/p/projects.html.

[4] 向帆. 视觉文献的视觉化设计——全国美展获奖油画作品视觉化工具AwardPuzzle设计探索[J]. 装饰,2016(7):92-94.

[5] Manovich,L. Data science and digital art history[J]. International Journal for Digital Art History,2015(1):13-35.

[6] 张华平. NLPIR汉语分词系统[CP/OL]. [2017-03-20].http://ictclas.nlpir.org/.

[7] Jieba[CP/OL]. [2016-12-25]. https://github.com/ fxsjy/jieba/.

[8] Anthony,L. AntConc [CP/OL]. [2016-12-25]. http://www.laurenceanthony.net/software/antconc/.

[9] 刘亚秋. 从集体记忆到个体记忆——对社会记忆研究的一个反思[J]. 社会,2010,30(5):217-242.

[10] Koren Y,Carmel L,Harel D. ACE:A fast multiscale eigenvectors computation for drawing huge graphs[C]// Information Visualization,2002. INFOVIS 2002. IEEE Symposium on. IEEE,2002:137-144.

[11] 张次溪,齐白石. 白石老人自传[M]. 北京:生活·读书·新知三联书店出版社,2010.

[12] 郎绍君,郭天民. 齐白石全集[M]. 长沙:湖南美术出版社,1996.

[13] 罗汝怀. 罗汝怀集[M]. 长沙:岳麓书社,2013:289-290,296,600,732.

[14] 李桓. 文录下[M]//宝韦斋类稿:卷九三. 长沙:芋园,1890:8a-9b(哈佛大学燕京图书馆藏本007813597).

作者简介 范桢,复旦大学文史研究院博士研究生.

收稿日期 2017-02-13

(责任编辑:何燕;英文编辑:杨涛)

研究方法论文范文结:

关于本文可作为相关专业研究方法论文写作研究的大学硕士与本科毕业论文研究方法论文开题报告范文和职称论文参考文献资料。

1、论文采用方法

2、写论文方法

3、论文分析方法有哪些

4、国家级期刊的查询方法

5、论文调查方法

6、论文方法有哪些