金宝搏彩票Gale的数字学者实验室:消除障碍

7.敏读

|作者温迪·库尔茨,数字人文学科专家|

作为盖尔的第一个数字人文专家,我一直期待着金宝搏彩票Gale’s正式发布金宝搏彩票数字学者实验室自从加入这个团队。一年多前,我刚在加州大学洛杉矶分校(University of California, Los Angeles)完成西班牙语语言文学博士学位,就来到了这里。由于我参与了校园和国外的数字人文项目,我很高兴能将我的经验付诸实践,参与Gale’s的开发金宝搏彩票数字学者实验室.在我作为加州大学洛杉矶分校数字人文中心的研究和教学技术顾问的四年中,我支持人文学院的教师和研究生使用技术进行教学,并参与了与该中心合作进行的数字研究项目。当我得知我的目标数字学者实验室,我立即意识到研究环境对学术和课堂使用的价值。在过去的一年里,我参与了数字学者实验室它从alpha版本发展到beta版本,现在是第一个产品版本。这篇文章描述了创建实验室的动力,并概述了我们的beta测试计划,这些测试计划决定了第一个版本的最终设计、工作流、特性和功能。文章最后描述了我们在初始发行之后的一些后续步骤。

金宝搏彩票盖尔数字学者实验室提供了一种新的方法来接近数以百万计的数字页面金宝搏彩票大风主要来源通过使用文本挖掘方法方便查询这些文档来收集。这样做,数字学者实验室解决进入数字人文领域的一些重大障碍,特别是文本挖掘和可视化项目,如用于分析的文本数据的编译和整理,以及集成各种分析工具以挖掘文档语料库。

目前,对从古登堡计划、谷歌Books、HathiTrust等网站上找到的数字文本进行分析金宝搏彩票大风主要年代唯一每次下载一个OCR(光学字符识别)文本文档,将这些文档编译成语料库,然后通过任意数量的文本挖掘工具运行集合。在下面的第一个插图中,我们看到OCR文本输出旁边的一个主要源文档,研究人员已下载该文档,然后在Voyant中上载和分析。使用此方法,收集、整理和格式化多个文档以创建用于分析的内容集的过程可能需要几个月甚至几年才能完成。最终,对于大型语料库的编纂来说,这一过程往往是不可持续的。

即使您已经创建了一个用于分析的大型数据集,在人文学科研究人员开始文本挖掘和分析的过程之前,仍有许多障碍需要跨越。在许多情况下,工具本身是复杂的,仅仅掌握一个工具就需要投入大量的时间和精力。即使是像Gephi这样的开箱即用的应用程序,也不是针对完全的初学者的,而且通常假定具备安装和使用的知识。除此之外,直到最近,像Mallet这样的工具还需要使用命令行操作,这可能会让新手感到害怕。虽然Python或R是查询数据的流行语言,但学习它们超出了许多人文学科的学生和研究人员的范围。我们在盖尔家造的东西金宝搏彩票数字学者实验室将您在平台中创建的内容集直接链接到数字工具以进行分析。学习运行命令行接口或编写自己的脚本所需的技能是很有价值的,这个过程在研究和教学中当然有它的位置。但对于刚进入该领域或在传统人文学科课堂(相对于特定的数字人文学科课程)背景下的学者来说,灵活性数字学者实验室提供了巨大的价值。

数字学者实验室是一个基于云的研究环境,允许学生和学者在一个平台上对原始OCR文本应用自然语言处理工具。它被开发用于人文学科,以探索定制策划的文件语料库。这个基础设施是专门为人文主义而设计的,有为平台使用而准备的原始内容。

金宝搏彩票盖尔数字学者实验室研究环境提供了:

  • 获取各种各样的文本金宝搏彩票大风一次源
  • 能够从这些集合构建自定义管理的内容集。
  • 访问强大的文本挖掘工具嵌入到数据集管理过程。
  • 在一个空间内组织研究。
  • 从分析中导出统计数据和可视化输出的能力。

随着我们不断迭代开发数字学者实验室,我们已经与多家高等院校进行了多轮测试,以确保产品版本提供了广泛最终用户所需的工具、内容和工作流程,以支持数字奖学金和文本挖掘。在过去的两年中,我们评估了八种不同的原型,有许多潜在用户,包括教师、数字人文实践者、图书馆员和研究生。Beta版本测试发生在2018年初,我们一直在根据测试人员的反馈对平台进行更改。我们感到幸运的是,我们与这些机构和用户密切合作,以便在我们走向正式启动时微调我们的开发工作。

该实验室减轻了与文本挖掘和可视化项目的传统工作流相关的一些痛点。我们以一种可接近的方式设计了界面,但这并不意味着平台中包含的分析方法、其含义以及对其输出的解释都很容易。理解默认工具配置如何工作以及自定义如何影响分析的输出不是可以(或应该)简化的事情。数字学者实验室这暴露了这个过程的复杂性,特别是对于新手用户来说,他们可能还没有意识到像Gale这样的发行商是如何构建文档的。金宝搏彩票处理数字学者实验室在课堂设置中,为具有不同数字素养水平的用户提供了多种讨论途径。例如,从OCR创建、元数据标准、数据集构建等内容和管理过程,到与远程阅读和可视化解释相关的主题。我们让创建和分析个性化档案的工作流程和过程尽可能对用户透明。他们不仅可以评估自己的研究成果,还可以评估Gale的后端方法金宝搏彩票数字学者实验室为了得到这些结果。

即使今天是我们的官方发布是中国历史上的一个重要里程碑数字化实验室的学者旅程,这只是开始。用户将继续定期看到更新和改进。我们将继续与该组织保持密切联系数字学者实验室在我们计划未来实验室发展的过程中,为学者、图书管理员和学生社区响应他们的需求。作为Gale的数字人文专家,Sarah Ketchley博士和我,以及数字奖学金团金宝搏彩票队的其他成员,将与用户密切合作,通过使用实验室来帮助他们实现他们的研究和教学目标。展望未来,我们的下一步包括在盖尔的集成OCR文本清洗解决方案金宝搏彩票数字学者实验室以及对工具套件的增强和可视化的更健壮的交互性。犯罪Flynit运动鞋

留下你的评论