搜索内容

AI初创公司 Arthur 发布开源 AI 模型评估工具 Bench为啥孩子被吼完，却从来不记仇？知道真实原因，你就不会再吼了

小明云 • 2023 年 12 月 1 日 14:13 • 技术交流 • 185 阅读

本文概要:

1. Arthur Bench 是一个开源工具，用于评估和比较大型语言模型（LLM）的性能。

2. 它可以帮助企业在特定用例上测试不同语言模型的性能，并提供准确性、可读性、避险等指标进行比较。

3. 已有金融服务公司、车辆制造商和媒体平台等企业开始使用 Arthur Bench，加快了分析和提供更准确的答案。

站长之家（ChinaZ.com）8月18日消息:纽约人工智能创业公司 Arthur 发布了开源工具 Arthur Bench，用于评估和比较大型语言模型（LLM）的性能。

据了解，Arthur Bench 可以帮助企业在特定用例上测试不同语言模型的性能，并提供准确性、可读性、避险等指标进行比较。Arthur 首席执行官兼联合创始人 Adam Wenchel 在一份新闻声明中表示:“通过 Bench，我们创建了一个开源工具，帮助团队深入了解 LLM 提供商之间的差异、不同的激励和增强策略以及定制培训制度。”

Arthur 包含了许多用于比较 LLM 绩效的入门标准，但由于该工具是开源的，因此使用它的企业可以添加自己的标准来满足自己的需求。该工具加速了评估过程，并将学术指标转化为实际业务影响。

目前，已经有金融服务公司已经开始使用 Arthur Bench 来快速生成投资论点和分析报告。车辆制造商利用该工具创建了能够从设备手册中快速准确提取信息并回答客户问题的语言模型。

媒体平台 Axios HQ 在产品开发方面也开始使用 Arthur Bench。Arthur 开源了 Bench，任何人都可以免费使用和贡献，他们相信开源的方式可以带来最好的产品，并通过团队仪表盘来实现商业化。

Arthur 还与亚马逊网络服务（AWS）和 Cohere 合作举办黑客马拉松，鼓励开发人员为 Arthur Bench 构建新的指标。

AI初创公司 Arthur 发布开源 AI 模型评估工具 Bench为啥孩子被吼完，却从来不记仇？知道真实原因，你就不会再吼了来源于网络由小明云采集,如果触犯您的利益,请联系站长删除此文链接:https://687267.com/8406.html

THE END

二维码

打赏

西媒盘点改变世界的六个伟大数学方程式：谷歌算法上榜参考消息2018-10-11 00:21参考消息2018-10-11 00:21

基因疗法新拼算法揭示188种新型CRISPR系统“一尿成名”任素汐：上半身是平凡，下半身是贪婪，又丑又性感

下一篇>>

相关内容

发表评论

取消回复

登录后才能发表评论

共有 0 条评论

沙发空余