AI技术加速新材料发现:通过问答知识蒸馏实现高效专用语言模型

来自 实验室仪器网

随着科学文献数量的不断增长,研究人员正在转向人工智能来筛选数百万篇研究论文,并发现可以加速新材料发现的见解。

在能源部实验室超级计算机的支持下,科研团队正在开发人工智能工具,这些工具可以自动挖掘科学期刊文章以构建结构化材料数据库。然后,这些数据集用于训练旨在简化材料研究的专用语言模型。

目标是在你的实验室里拥有一个数字助理之类的东西,一种通过回答问题和提供反馈来补充科学家的工具,以帮助指导实验和指导他们的研究。

团队是最早使用ALCF计算资源将机器学习与模拟和实验结果相结合以推进数据驱动材料研究的团队之一,从开发ChemDataExtractor文本挖掘工具到根据研究论文构建自动化数据库,他们的工作为加速材料设计和发现开辟了新途径。

为了表彰该团队的创新工作,科尔和合作者最近凭借他们的论文获得了英国皇家化学学会材料化学地平线奖,设计到器件的方法提供了全色共敏太阳能电池。在这项研究的基础上,科尔继续使用ALCF超级计算机开发人工智能工具,旨在加快寻找用于能源应用、光基技术和机械工程的新材料。

工作重点是开发更小、更快、更高效的AI模型来支持材料研究,而无需从头开始训练大型语言模型(LLM)通常需要的巨额计算成本。

旨在处理和生成人类语言的人工智能模型。构建LLM首先要在大型数据集(例如文本语料库)上对其进行预训练,以帮助模型学习通用语言模式。此过程通常需要大量的计算能力。模型训练完成后,研究人员会使用更小、更有针对性的数据集对其进行微调,以确保其提供准确且相关的答案。

为了绕过昂贵的预训练过程,科研团队开发了一种方法,用于从特定领域的材料数据生成大型、高质量的问答(Q&A)数据集。使用新算法和他们的ChemDataExtractor工具,他们将光伏材料数据库转换为数十万个问答,这个过程称为知识蒸馏,以现成的人工智能模型可以轻松摄取的形式捕获详细的材料信息。

重要的是,这种方法将知识负担从语言模型本身转移开来,而不是依赖模型来,知道一切,我们让它以问答的形式直接访问精心策划的、结构化的知识。这意味着我们可以完全跳过预训练,仍然实现特定领域的效用。

团队使用问答对来微调较小的语言模型,这些模型继续匹配或优于在通用文本上训练的大型模型,在特定领域任务中实现了高达 20% 的准确性。虽然他们的研究侧重于太阳能电池材料,但该方法可以广泛应用于其他研究领域。

» 仪器设备 购买 咨询

文章标签:材料研究材料科学AI技术科学科研动态 评论收藏分享

采购、售后(仪器设备提交仪器设备信息

发表我的评论

当前位置:首页 » 科学科研动态 » AI技术加速新材料发现:通过问答知识蒸馏实现高效专用语言模型
0