哈佛大学发布基于百万公有领域书籍的免费 AI 训练数据库
哈佛大学宣布发布由近百万公有领域书籍构成的免费 AI 训练数据集,但问题是哈佛还没找到公司来托管该数据集,所以该数据集尚未提供下载。数据集由哈佛新成立的 Institutional Data Initiative 创建,得到了微软和 OpenAI 的资助,包含了 Google Books 项目扫描的部分已进入公有领域的图书。该项目希望 Google 合作公开发布,但搜索巨人尚未同意托管。哈佛大学对 Google 托管持乐观态度,Google 则对此未予置评。项目执行理事 Greg Leppert 表示希望打造一个公平的竞争环境,让任何人都能访问此前只有科技巨头才有资源去汇集高质量、深度加工和精心筛选的内容库。
© 版权声明
文章版权归作者所有,未经允许请勿转载。