
主题模型(Topic Model, TM)是一种新型文本内容分析要领,它利用机械学习算法来发现文件集(语料库)中隐藏的主题结构,不仅可以盘算生成整个语料库的主题,还可以自动给出每个文件凭据主题泛起的内容结构,即抓取每个文件的内容。在信息爆炸的网络时代,学者们需要处置惩罚海量文献,通过主题模型用机械阅读的形式,为解决文献增量超出人类精力、理解规模等问题提供了解决途径。而且,新的文献研读方式也将带来新的研究视角,甚至新的研究发现。
PP电子学者做研究要进行文献研读,研读文献通常接纳直接和近距离阅读方式,而TM则引入了新型阅读方式“远距离阅读”(distant reading)和超书架功效。将一个大型文件集的语料库作为盘算机的输入数据,只需运行TM算法,就能够自动生成在PP电子专家看来颇有解释意义的“主题”(topic)。一个主题可以看作是词汇的聚类,无论何时讨论该主题,这些词汇便会配合泛起。从概率上说,这些聚类词的共现频率高于不讨论该主题时这些词的共现频率。TM属于语义统计模型中的一种,可称为对语义进行概率统计建模的要领。其中,最简朴且应用最广的概率建模技术是布莱(David M. Blei)团队于2003年提出的隐形狄利克雷漫衍(Latent Dirichlet Allocation, LDA)。近年来,一些PP电子学者实验借助主题建模技术辅助文献研读,取得的研究结果已经展现出十分有趣的PP电子意蕴。
實現大型古典哲學語料庫的結構化
依靠人工辨識和分類,要使一個龐大的文件庫呈現清晰的結構,往往需要耗費大量人力和時間。而且傳統人工要领只能依據文章和著作的名稱、著者名、關鍵詞等外部信息,進行外圍框架分類和查詢,要想深入到文檔內容進行海量文檔庫分類,依靠人工要领難以實現。而TM則能夠根據文檔內容實現對一個龐大文件庫的結構化。這種分類治理的焦点在于主題,TM可以呈現出每個文件依據主題(20個、40個直到100個)漫衍的結構表、結構圖。
研究人員以往通常根據關鍵詞搜索查詢所需文件,若能夠直接看到文件的內容結構,根據研究主題獲取相關信息,並能夠直接看到文檔庫中其他文件與此文件主題的關聯度,那麽,研究人員不光可以便捷、高效地找到所需,而且還能夠獲得用傳統人工要领無法获得的洞見。
TM能夠經推理得出文集具有可解釋性的隱含結構,並用這種結構標注了每一個文檔,這種結構和標注可用于對信息的獲取、分類,以及對語料庫的開發。這種算法結果可以治理、組織和標記大型文本檔案。隨著越來越多高質量的數字化文獻文本資料庫的建设,人們將用新的方式查詢和分析文獻。
我们和匹兹堡大学盘算哲学家艾伦(Colin Allen)的IU(Indiana University)团队相助建设的一个包罗近18000个文本的中国古代哲学语料库,通过主题建模分析,泛起出对于中国哲学研究者和学习者颇有解释意义的主题(如图所示)。

爲史學研究提供新解讀和新證據
在使用主题建模于中国史学研究方面,哈佛大学中国史研究者米勒(Ian M. Miller)对中国清朝社会事故实况进行了考察。清朝18、19世纪泛起的民变四起的社会实况是诸多历史学家的关注点,米勒的事情另辟蹊径,通太过析清朝政府统治者批阅的奏折内容,对这一时期的实录文本质料进行主题建模,基于与暴乱相关主题中配合泛起的词群,建构了从各级官员到统治者关于其时社会时局的理解模型。差异历史时期对反映社会实况的词汇缺乏牢固界说,历史学家研究史料时不得不通过先验分类界说,而米勒通过主题建模要领,保持了研究的客观性,制止了领域模糊的词语对理解文意的滋扰,并在此基础上探究了清朝泛起的几起大型事故现象的纪律性。
加拿大汉学家森舸澜(Edward Slingerland)和美国哲学家尼克斯(Ryan Nichols)相助的团队,近年来致力于结合机械学习研究亚洲文化。2018年,他们用TM的远距离阅读要领对《论语》《孟子》《荀子》的内容进行比力,划分解释了三部论著中相同和差异的主题。他们的结果证实了许多学者接纳传统近距离阅读要领获得的结论,即荀子的论著与《论语》在语义内容上存在共性。2017年,他们接纳主题建模结合其他算法技术,分析了引起西方汉学界较大争议的问题,即中国传统思想是否以“强”身心整体论为特征。他们建设了一个从西周到宋朝的古籍文本语料库。盘算结果显示,荀子及其他中国早期思想家,在提到“心”时往往也会提到心与身体的关系,这讲明,比之身体其他器官,心在早期中国思想中具有差异的认知职位。
與文化研究存在高度親和性
此外,另有一项研究展示了主题建模技术与文化社会学研究的高度亲和性。文化社会学研究者迪马吉奥(Paul DiMaggio)和布莱于2013年相助的一项研究,选取代表性报刊刊登的公共艺术资助方面的新闻报道,使用TM分析其中的演变趋势。美国国家艺术基金(NEA)从1965年设立至今,有过两次骤降,骤降的原因除通货膨胀外,另有庞大的政治、文化、社会等多方面的影响,因此,造成1979—1996年资助连续衰减的原因,至今仍未研究清楚。
圍繞NEA爭議最猛烈的一個時段(1986—1997年),該團隊通過收集整理這十年中五家報紙的所有報道,建设了一個近8000個文本、超過300萬詞語的語料庫,使用TM分析識別出最重要的話題,從而框定了政府資助方面的討論。
TM使文化学中的重要看法如框架、一词多义性、杂语性、意义的关系性具有了可操作性。他们强调,TM进路对文化社会学研究有三大优势:1. TM发生的具有可解释性的主题内容,展现了文化意义上的解释框架。2. TM抓住了语言学家和许多文化社会学者的配合洞见,即意义从关系而非词汇中显现。3. LDA生成的结果泛起出每一篇文章中具有多主题结构,有助于从实证层面检视文化社会学的焦点洞见和文本的杂语性。