Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?

今日霍州(www.jrhz.info)©️

新智元报道

编辑:英智

【新智元导读】本文介绍了当前最受科研人员青睐的AI模型,推理出色的o3-mini、全能型『DeepSeek』-R1、科研常用的Llama、编程利器Claude 3.5 Sonnet和开源『明星』️Olmo 2,它们各有优劣,为科研人员提供了多样选择。

几乎每周都有新的、令人影响深刻的AI工具发布,研究人员纷纷踊跃尝试。

从复杂的数学问题求解,到医学诊断中的精准分析,再到代码编写与论文创作,AI工具展现了巨大的潜力。

但市面上令人眼花缭乱的AI模型,究竟哪一款才是让科研工作者效率起飞的「梦中情模」,能助力科研突破,带来事半功倍的效果呢?

在这里,研究人员与《自然》杂志分享了他们当下最青睐的模型。

o3-mini:推理小能手

提到LLM,就不得不提OpenAI。2022年,OpenAI推出了聊天『机器人』️ChatGPT。

科学家们主要将ChatGPT用于查找信息或作为写作助手,如起草摘要等。而在去年,OpenAI又发布了一系列更先进的模型,其中o3-mini就是一款非常出色的推理模型。

o3-mini是一款速度很快的推理模型,并且面向注册用户免费开放。它经过训练,会以逐步推理的方式回答问题。

这种「思维链」旨在模拟人类推理过程,帮它在科学和数学领域突破了严苛的基准测试。o3-mini擅长处理技术任务,如解决编程问题和重新格式化数据。

牛津大学数学家兼AI研究人员Simon Frieder表示,在解析陌生数学证明等任务上,o3-mini表现非常出色。

不过,他也提到,o3-mini仍然无法与数学家媲美。但不可否认的是,o3-mini为科研人员在处理一些复杂问题时提供了有力的帮助。

旧金山初创公司FutureHouse的化学家兼AI专家Andrew White表示:「这些模型在组合使用时效果更佳。」

今日霍州(www.jrhz.info)©️

『DeepSeek』:全能「潜力股」

『DeepSeek』-R1也是一款备受瞩目的模型。它的能力与OpenAI的o1相当,但通过API使用的成本却低得多。这对于许多科研团队来说,是一个很有吸引力的优势。

『DeepSeek』-R1是开源权重模型,虽然其训练数据尚未公布,但任何人都可以下载基础模型,并根据自己的研究项目进行定制。

香港中文大学(深圳)的计算机科学家Benyou Wang等人正在开发可以在单机上运行或训练的版本,让更多学者能用到这个强大的模型。

和o1一样,『DeepSeek』-R1的强项是解决数学问题和编写代码。同时,它在提出假设等任务上也表现不错。这是因为『DeepSeek』选择公布模型的「思考过程」,使得研究人员能够更好地完善后续问题,提高模型的输出质量。

这种透明度在医学诊断领域也可能发挥巨大作用。Benyou Wang正在利用该模型的推理能力开展实验,致力于构建从患者评估到诊断和治疗建议的清晰路径。

今日霍州(www.jrhz.info)©️

然而,『DeepSeek』-R1也并非完美无缺。该模型的「思考过程」似乎特别长,这降低了它的运行速度,在查找信息或头脑风暴方面实用性欠佳。

与竞争对手相比,『DeepSeek』在防范模型生成有害内容方面所采取的措施似乎也较少。一些研究人员认为这种开源且功能强大的模型对于科研发展有着重要意义,而另一些人则对此持谨慎态度。

Llama:科研老伙计

Llama是Meta AI于2023年发布的一组开源权重模型,长期以来一直是科研界常用的LLM。仅通过开源科学平台Hugging Face,Llama各个版本下载量就已超过6亿次。

Llama之所以受到科研界的欢迎,很大程度上是因为它可以被下载并在此基础上进行开发。在处理受保护的数据时,能在个人或机构的『服务器』上运行至关重要,可以避免敏感信息反馈给其他用户或开发者。

今日霍州(www.jrhz.info)©️

研究人员基于Llama模型开发出了能预测材料晶体结构的『大语言模型』,还利用它来模拟量子计算机的输出结果。

北卡罗来纳大学教堂山分校的ML科学家Tianlong Chen表示,Llama很适合用于模拟量子计算机,因为相对容易对其进行调整,让它理解专业的量子语言。

不过,Llama也有一些小缺点。比如需要用户申请访问权限,这对一些人来说有点麻烦。

因此,其他开源模型,如西雅图Allen人工智能研究所开发的OLMo,以及阿里云开发的Qwen,现在常常成为科研中的首选。『DeepSeek』 V3如今也是有力的竞争者。

Claude:编程利器

在硅谷,很多人对Claude 3.5 Sonnet的编程能力赞不绝口。

Claude 3.5 Sonnet由总部位于旧金山的AI公司Anthropic开发,它不仅可以编写代码,还能解读图表等视觉信息。此外,它还有一种模式,允许其远程操作用户的计算机。

Claude的写作风格也备受赞誉。一些LLM(如ChatGPT)在去除技术语言时,可能也会误删关键信息。而Claude在润色文本的同时,更擅长保留原意。

因此,在撰写科研基金申请或为代码添加解释性注释时,Claude可能是更好的选择。

今日霍州(www.jrhz.info)©️

在一项基于数据驱动的科学任务的基准测试中,Claude 3.5 Sonnet在编程挑战方面表现出色,这些任务的数据取自生物信息学和计算化学等领域的真实论文。

虽然Claude 3.5 Sonnet作为在线聊天『机器人』️可以免费使用,但和OpenAI的模型一样,研究人员只能通过付费API,才能实现完整集成。

随着更便宜的开源模型越来越强大,人们可能会更倾向于使用开源模型。

Olmo:开源新星

对于想要深入了解内部运行机制的研究人员来说,Olmo 2是一个非常不错的选择。

Olmo 2是目前性能最出色的开源模型之一,它还附带算法的训练数据,以及用于训练和评估模型的代码。

研究Olmo 2这样的模型能让研究人员将偏差来源追溯到训练数据上,同时通过更好地理解算法如何得出输出结果,来提高效率。

今日霍州(www.jrhz.info)©️

目前,开源模型的门槛是需要一定的专业知识才能运行,但随着免费实践课程的增加,进入门槛正在逐渐降低。

如果法院判定使用受版权©️保护的内容来训练模型属于违法行为,那么像Olmo 2这样基于允许重复使用和修改的数据集所训练的模型,可能是唯一可以安全使用的模型。

参考资料:

特别声明:[Nature:科研人员最爱AI工具大盘点!从推理到编程,哪款才是最佳助手?] 该文观点仅代表作者本人,今日霍州系信息发布平台,霍州网仅提供信息存储空间服务。

猜你喜欢

偏头痛😣治疗方法有什么方法

偏头痛的治疗方法包括生活干预、物理治疗、药物治疗、神经阻滞和手术治疗。这种疾病可能与遗传、内分泌变化、环境刺激、精神因素、脑血管异常等因素有关,通常表现为单侧搏动性头痛、畏光畏声、恶心呕吐等症状

偏头痛😣治疗方法有什么方法

茅台五粮液酒单收藏版1950-2002年合集,适合酒文化爱好者吗?2026年值得关注(茅台 五粮液)

这套茅台和五粮液酒单合集,涵盖了1950-2002年的珍贵历史资料,16开线装精美制作。它不仅是一套酒单,更是了解中国白酒发展的重要文献。本文详细解读这套合集的价值、特点和适用人群,帮助您评估是否值得购买。

茅台五粮液酒单收藏版1950-2002年合集,适合酒文化爱好者吗?2026年值得关注(茅台 五粮液)

10部你不知道已经拍成三部曲的恐怖电影(10部你不知道已故的电影)

5.《V字特工队》尽管很多影迷都不愿意接受,但约翰・卡朋特的电影里,真正发展成系列的其实只有两部:第一部是《月光光心慌慌》,第二部,也是最让人意外的,就是他1998年的这部《V字特工队》。 这部第三部同样是…

10部你不知道已经拍成三部曲的恐怖电影(10部你不知道已故的电影)

绽放春晚!这位00后舞蹈编导,来自西北师大!(春晚绽放是现场表演吗)

当《来晒秋》的质朴笑脸、《宝岛恋歌》的温情汇聚、《梦底》的梦幻在荧屏上绽放时,有一位年轻的姑娘在后台紧张地攥紧了手——她是西北师范大学舞蹈学院青年教师冯琬婷,本届春晚舞蹈组最年轻的编导,一名刚入职的00后。这…

绽放春晚!这位00后舞蹈编导,来自西北师大!(春晚绽放是现场表演吗)

提炼埃格测控要点,公司介绍、市场份额与实力分析

其多项技术处于行业前沿,如磁栅测量与原点定位技术实现了纳米级分辨率,解决了断电回零痛点,对标国际精密测量水平;磁传感器智能报警技术,可应用于医疗MRI监测;光栅- 磁栅融合测量技术突破单一技术环境局限;全封…

提炼埃格测控要点,公司介绍、市场份额与实力分析