《图文并茂的伦敦新闻》中的考古学追踪

13敏读

控件创建导出工作流金宝搏彩票盖尔数字学者实验室

|由莎拉凯兹利,数字人科学专家,大风|金宝搏彩票

封面照片来自插图伦敦新闻

这个数字项目是由我对报道考古学的兴趣推动的这个图文并茂的伦敦新闻是一项出现的出版物,以其一天的一些卓越人物的精细插图和贡献。金宝搏彩票大风主要来源提供1842-2003年期间报纸的全部内容。这篇文章描述了我初步调查数据的工作流程:初始内容集创建、清理、分析、导出和可视化。一开始,研究问题必然是广泛的:

  • 哪些词语在报道考古挖掘的文章中最流行?
  • 数据集中最流行的主题或主题是什么?
  • 对于这种类型的报告,总体感觉如何?这是正面报道吗?
  • 是否有可能识别哪些考古学家直接促成出版物以及他们所取得的贡献?

参与实际的策划和分析过程提供了完善这些问题的机会,并且几乎不可避免地为未来的探索提供了新的途径。

纽伯利,珀西E.“制作一个临时科医生。“图文并茂的伦敦新闻(1923年3月10日):388。《伦敦新闻历史档案画报》,1842-2003.

我通过搜索金宝搏彩票大风主要来源文件中使用高级搜索数字学者实验室关键词,包括1881年首次出现的“考古学”;“挖掘”;还有“废墟”,我还通过现场、挖掘机和文明搜索;例如,“莱亚德”、“亚述”、“尼尼微”、“苏美尔人”、“埃及”、“坟墓”等。虽然结果并不全面,但我最终得到了2513份原始来源文件的初始内容集,大部分是带有广告的报纸文章。该语料库由一组光学字符识别(OCR)文本组成,这些文本由ILN历史档案的原始扫描生成,可通过数字学者实验室金宝搏彩票大风主要来源.

我想检查文件的内容,看看我是否可以识别经常性主题或主题,以及数据集中的积极或负面情绪的最常见词语和表达式。我选择使用Tableau来在交互式仪表板上生成多个可视化以用于显示。要创建这些可视化的统计数据,我使用了数字学者实验室使用平台中可用的工具运行一系列文本挖掘分析,使用以下工作流:

1.为了对我的内容集进行统计分析,我需要干净的删除文本中反复出现的OCR错误,也删除停止词,这是英语语言中最常见的词,并不是我研究的兴趣。我运行了一个初步的nGrams分析来识别常见的OCR错误:我将工具配置为只返回unigrams(单个单词),并将结果导出为CSV。我能够识别并清除在CSV中反映的一些经常发生的OCR错误,并将其粘贴到Clean工具的停止词列表中。我继续迭代这个过程,删除并纠正基本的OCR文本。

一旦我创建了一个干净的配置,删除了大多数最常见的OCR文本错误,我就通过我的分析工具运行收集的数据集。

2.主题建模:这个数字学者实验室使用名为MALLET的工具在文本语料库上执行LDA主题建模。该算法遍历“单词包”或收集的文本数据,识别局部相似的术语,然后将它们分组。我选择运行的配置是30个主题,每个主题包含20个主题术语,同时还应用了我创建的清理配置。我之所以选择这些主题,是因为我想超越算法会发现的最明显的主题,而是要识别数据集中不太明显的连接。我将此分析运行的结果导出为CSV,以及第二个“文档主题比例”分析电子表格,我最终没有将其用于此可视化运行,但它提供了大量有关文档的详细信息。

数字学者实验室主题建模CSV输出。

我使用Document Terms输出以及Documents by Topic弹出框检查了结果列表中返回的各个文章。

3.情绪分析:这个数字学者实验室使用AFINN情绪词典(AFINN Operation lexicon)跨时间可视化情绪,该词典根据文本中包含的单词,按+5到-5的比例将文档分为积极、中立或消极。我在清理过的数据集上运行了这个工具,并将结果导出为CSV。

我期望将这些数据可视化,可以让我了解考古学和考古报告是如何在流行出版物中呈现的;理想情况下,我希望将这篇文章与其他当代报纸的报道进行比较,同时也考虑作者——无论这些材料是由考古学家撰写的还是由专职记者撰写的。

4.集群:该分析使用k-means聚类算法进行。根据算法对文档内容的接近度或相似度等因素进行排序,将文档分成20个簇,我再次下载了CSV输出。

我发现以一种有意义的方式可视化这个输出更具挑战性,最终选择放弃聚类,而采用主题建模,它提供了足够详细的主题分解,值得关注。

5.最后,我下载了元数据对于包含作者,标题,日期和发布的所有文件以及文档ID。我想看看我是否可以识别考古学家是否定期为报纸写作,以及与更正式的学术出版物相比提供的内容和背景。金宝搏彩票这是真正的挑战开始的地方!

在Excel中处理日期

我查看了日期的格式,并指出,1900年后的日期是数值编写的,而1900年前是文本。这提示了如何清理这些差异的方法论问题,这是一个由Excel复制的问题,而不是在1900年1月1日之前识别日期。

我在网上找到了一些有用的资源,帮助我解决了这个问题,但我惊讶于它竟然如此复杂。

文章提供了良好的背景信息。虽然这邮递最终解决了我的问题。

我开始手动将文本日期分成单独列。

然后,我创建了另外三列,以便执行文本到数字的转换,并让Excel适当地呈现1900年1月1日之前的日期。

列e,f和g是附加的列,最终公式显示在功能栏中。出现的一个问题是空白字段被“1900-01-01”替换,并试图使用查找并更换不起作用。同样,我不得不手动这样做,但结果是一个表格,其中所有日期都以yyyy-mm-dd格式化。

使用导出的CSV数据在Tableau

Ngrams

回答这个问题“在报告考古挖掘的文章中最普遍的话?”我在Tableau中可视化Ngrams CSV输出。条形图被证明是最有效的可视化。

在数据清理之后,最常见的词汇包括“世纪”、“挖掘”、“遗址”,这可能是考古学相关文献中的常见词汇。提到的第一个文明是“罗马”,而这个城市是“伦敦”,考虑到报纸是在英国出版的,而且罗马考古文物经常被发现,这就不足为奇了。对这些术语的进一步改进可能会产生有关最常报道的文明的有趣结果,以及研究的重点是物质文化还是考古过程本身。

主题建模

我在Tableau中使用了一个圆形视图来可视化我的主题建模分析,以回答“数据集中最流行的主题是什么?”的问题。我发现显示所有主题或放大单个主题的选项最有帮助。

主题建模是一种定性分析,因此研究人员有责任决定算法提出的术语之间的联系,然后适当地命名主题。在这种情况下,最常见的单词围绕着我命名为“挖掘和发现”的主题分组。上面显示的术语是“站点”,它在数据集中出现了2323次。

我计划在这种可视化方面做更多的工作,返回数字学者实验室与Tableau合作,试验平台上的各种话题措施。当我继续细化OCR内容时,这些数据的粒度可以让我得到更详细的分析结果。

情绪分析

我使用的情绪分析输出来回答问题“这类报告的整体感受是什么?”“它有利据报道吗?”我在Tableau中导入了CSV并在Tableau中创建了一种情感分析可视化,以显示相对均值情绪评分和情感分数。数据随着时间的推移而被视为,在1842年至2003年之间,这是报纸的全部运行。总的来说,情绪压倒性地是积极的。

选择最积极的报告会让人想起这一点的细节,以及相关的盖尔Doc ID。金宝搏彩票

然后,我就可以进入数字学者实验室找到文件并找出使其如此积极的原因。

“天才”、“独特”、“重要”和“优秀”等词为这份文件增添了积极的色彩。回顾两次世界大战之间的这段时期,有很多关于考古学的正面报道,这是一个大活动和发现的时期。这种形象化很好地捕捉了发现的精神,而这两张折线图也很好地反映了报纸上弥漫的情绪。

5.我的最后一个问题与考古学家本人有关:“是否有可能确定哪些考古学家直接参与了该出版物的出版,以及他们做出了多少贡献?”

答案是肯定的,但有趣的是,1900年之前的文章中很少有作者的名字。我没有意识到文章在这个日期之后开始有署名直到我看到这个可视化。有一些著名的考古学家撰写文章,包括马克斯·马洛文,他在伊拉克进行挖掘,是阿加莎·克里斯蒂的第二任丈夫;霍华德·卡特/珀西·纽伯里/哈里·伯顿/A。梅斯(图坦卡蒙);亨利·法兰克福(早期埃及);彭德尔伯里(埃及和克里特岛);约翰Garstang(埃及);和许多更多。看到有那么多考古学家为这本书撰写文章,真是令人着迷。 I plan to compare authorship of similar articles from other contemporary newspapers—for instance,《纽约时报》看看ILN是异常的还是正常的。

表指示板

我的最终仪表板包括原始导出数据生成的ngrams,情感分析和主题建模分析。ngrams表明,虽然一般术语“世纪”,“挖掘,”和“网站”是我数据集中最常见的,但最常见的挖掘是罗马发现的挖掘。在与主题模型交互时,这种模式被加强:再次,最大的主题包括描述一般考古术语的主题,而该算法也通过文明或查找类型进行了良好的作业,包括埃及,亚述,罗马,希腊语,etruscan,陶器,铜牌/金属,墓等,并提供当天一些更重要的考古活动的快照。最后,情绪分析表明,两次世界大战之间的时期本质上是最积极的:在此期间,在报道良好的发现期间,在此期间有大量的挖掘。虽然我没有包括我对最终仪表板中作者的分析,但我能够识别报纸的主要贡献者,他们也发生在一天中的一些更有着名的练习考古学家。这对我开辟了新的研究角度,因为我想到了这些个人的发布挖掘报告和他们更受欢迎的写作。




会见作者

莎拉·凯奇利(Sarah Ketchley)是华盛顿大学近东语言与文明系的埃及古物学家和艺术史学者,她在那里教授数字人文学科的入门和研究生课程,并指导一个学生DH实习项目。她是盖尔的数字人文专家,支持图书馆员、教师和研究生使用盖尔数字学者实验室进行研究和教金宝搏彩票学。

发表评论