笔迹|翻开尘封的历史：AI帮忙重整欧洲数十亿页档案刘智|ceo|酷家乐

大家好，我们的搞笑豫西八大碗又来了，今天起我们一起来分享历史知识，也许你可以得到意想不到的收获哦。海归学者发起的公益学术平台分享信息，整合资源交流学术，偶尔风月从战争到婚礼，欧洲的历史保存在整个欧洲大陆数十亿份档案中。尽管许多档案馆试图公开他们的文件，但从中寻找信息仍然是一件非常耗时的事情。简单的页面扫描不能提供研究人员需要的的关键信息，比如日期、姓名、地点，必须转化为相应的可检索数据才有实际的用途。

文章插图

谷歌公司曾经运营一个将图书馆藏书数字化的项目，但那仅仅是将这些书籍一页一页的拍成照片，阅读和辨识的工作仍然需要人类来进行。而在欧洲的许多档案馆，累计了数百年来不断产生的各种档案，包括人口登记、法庭判决、婚姻证明、银行记录等。荷兰阿姆斯特丹市档案馆保存了大量档案，光是公证人的记录，纸上就有3.5公里，约等于11800页的A4纸。这些藏品总长约50公里，相当于17万张A4纸。这些记录大部分都是手工记录，研读并且转换这些文件中的信息可能需要几十年的工作时间和天量资金。几年前，一个名为“READ”的项目开发了名为“Transkribus”的软件，开始为档案研究者提供了一种转录和搜索历史文献的新方法。这个在线平台帮助用户训练一个人工智能手写识别模型来识别并转换各种欧洲语言手写的历史文档。

文章插图

海因里希·巴塞曼1871年11月17日的手写布道稿。一个可以用基于人工智能的软件数字化的文件的示例。图源：海德堡大学图书馆训练AI时，使用者手动将50到100页现有抄本输入到系统的模型中，该模型使用机器学习来比较它已知的手写模式和用户想要转录的文档。模型自动逐行转录。为了让它顺利工作，新文档的笔迹必须与模型以前看到的相同或相似。使用者可以训练自己的模型，也可以选择预先存在的模型。一个可用的模型可以识别出英国哲学家杰里米·边沁（Jeremy Bentham）的笔迹风格，另一个则是17世纪意大利秘书的笔迹风格。在Transkribus完成了它的工作之后，使用者通常只需要略微校对来纠正一些小错误。虽然这看起来不算很完善，但是它依然可以节省档案工作者、历史学家和学者数百甚至数千个小时坐在电脑前手工“翻译”历史文献的时间。

文章插图

Ricordi出版社的总经理Giulio Ricordi写于1889年的一封信。训练这种专用的AI需要解决两个问题：一是不同的语言。虽然欧洲的大多数文字都使用罗马字母，但是不同的语种在不同的历史时期差别是很大的，用现有的翻译字库未必能够直接识别；二是不同的写作者。这些档案绝大多数都是手工书写，每个人的笔迹都是不同的，就像现代人一样，很多人写字的时候相当“随意”，AI需要足够的样本来识别那些特殊的近乎“涂鸦”的字母。现代的OCR软件可以很好地处理旧的打印文档，因为行和字之间的距离有固定的布局。但是直接对手写体做同样的处理则非常困难，要在“草书”中分离出一个字母几乎是不可能的。该项目最初的机器学习算法可以识别85%的手写文本。然而，开发者很快意识到，对于处理数千个手写档案页的档案来说，这还不够好。研究人员使用新方法来提高程序的准确性，重新设计了如何识别文本行的流程。他们没有寻找整个文本块区域，而是训练算法寻找每个单词所在的共同‘基线’，类似于信纸上那些教孩子们在页面上均匀书写的横线。这种方法使得识别率提高了很多，AI开始学会像人一样“写”字从而识别手写体。