编程客栈() 8月21日 消息:艾伦人工智能研究android所(AI2)发布了名为Dolma的开放式文本数据集,旨在促进AI语言模型的透明度和创新。Dolma作为AI2开放式语言模型(OLMo)计划的核心,将为研究人员和开发者提供免费的数据资源,以支持更广泛的AI编程客栈研究。*
(资料图)
在GPT-4和Claude等语言模型的崛起中,人们对这些模型的强大能力感到惊叹,但模型背后的数据集却笼罩在神秘的面纱之下,引发了对透明度的担忧。为了改变这种现状,AI2决定采取一项突破性举措,向全球发布了Dolma数据集,以推动AI语言模型领域的透明度和协作。
Dolma作为AI2开放式语言模型(OLMo)计划的基石,其名称缩写代表“Data to feed OLMo"s Appetite”(供养OLMo食欲的数据)。AI2旨在通过向研究社区提供免费、开放的数据资源js,鼓励更多的创新和研究。该数据集的发布不仅是AI2首次共享关于OLMo的“数据成果”,还是AI2在透明度方面迈出的重要一步。
根据AI2的Luca Soldaini在php详细的博文中所述,Dolma数据集的来源和处理过程得到了透明记录。AI2团队详细解释了将文本还原为原始英语内容等决策的方法。AI2强调,他们计划发布更全面的论文,以深入探讨数据集的细节。
与此同时,Dolma不仅仅是一个规模庞大的开放数据集,拥有惊人的30亿标记(AI中内容量的本地度量),而且使用和许可方面也非常简便。AI2采用了“中风险成果的ImpACT许可证”,并鼓励用户:
- 提供联系信息和使用情况
- 披露基于Dolma的衍生创作
- 在相同许可下分发这些衍生创作
- 同意不将Dolma应用于禁止领域,如监视或虚假信息
AI2还为担心个人数据隐私的用户提供了专门的数据删除请求表单,以确保个人数据的保护。
Dolma的发布标志着AI2在透明度和协作方面迈出的重要一步,为AI语言模型的开放和共享知识设立了有力的先例。该数据集的开放为研究人员和开发者提供了更多的资源,将推动AI领域走向更加透明和合作的未来。用户可通过Hugging Face平台访问Dolma,这是一个对AI领域的积极而重要的发展。
关键词:
相关的文章>>
热门搜索:
资讯
更多图说健康
更多疏风解毒胶囊的作用与功效是什么?疏风解毒胶囊可以起到解毒利咽...
艾叶的功效与作用有哪些?1、散寒止痛艾叶为菊科蒿属植物艾的叶...
治疗白发的偏方有哪些?1 桑白皮30克,五倍子15克,青葙子60...
紫癜性肾炎是什么病?所谓的紫癜性肾炎,就是由于患者对于某些东...
维生素ad是什么?维生素AD是指维生素A和D的混合制剂,是两种脂溶...
乙肝小三阳严重吗?乙肝小三阳有些比较严重,也有些不太严重的,...
常见疾病
更多体育健身
更多2023中国职工太极拳大赛2023中国职工太极拳大赛将于11月17日至19日在儋
8月21日,两市震荡调整,创新药板块低开高走。截至10点30分,智...
三星GalaxyWatch5及其前身是运行WearOS的众多型号中我们最喜欢的一款,
黄河新闻网长治讯:近日,长治农商银行清华分理处工作人员利用...
提想躺着在桂林站下了火车,准备打车去看石刻。上了车,司机问...
中秋和国庆作为下半年最主要的两个节日,也是国家规定的法定节...