Project Gutenberg,也就是古腾堡工程,由志愿者参与,致力于文本著作的电子化、归档以及发布。该工程肇始于1971年,是最早的数字图书馆。其中的大部分书籍都是公有领域书籍的原本,古腾堡工程确保这些原本自由流通、格式开放,有利于长期保存,并可在各种计算机上阅读。
到2007年8月为止,古腾堡工程已经收录了22,000部书籍,平均每周将新增50部。
其中主要是西方文化传统中的文学作品,比如小说、诗歌、小故事、戏剧,除此之外,PG也收录食谱、书目以及期刊。另外还包括一些非文本内容,比如音频文件、乐谱文件等。
收录中主要是英文作品,但也有相当数量的德语、法语、意大利语、西班牙语、荷兰语、芬兰语以及中文等不同语言的著作。
在可能的情况下,古腾堡以纯文本的格式发布,主要使用ASCII字符集,也常被扩展为ISO-8859-1,而中文书籍几乎全部都是以Big5大五码纯文本格式发布。志愿者提交时也可能会采用其它格式,最常见的是HTML。不容易编辑的格式,比如PDF,对于古腾堡工程的目标而言并不合适,但还是有一些这样的格式被提交。近年来,有关于XML格式的讨论,但相关进展还比较缓慢。