图片来源:Harvey
热门法律AI 工具 Harvey 于 5 月 13 日在博客中宣布,将不再仅依赖 OpenAI 的基础模型,开始采用 Anthropic 和谷歌的基础模型。
此举意义重大,因为Harvey 是 OpenAI 创业基金早期投资组合中最成功的公司之一。该基金由 OpenAI 关联运营,主要支持基于 AI 技术(尤其是 OpenAI 自身技术)开发产品的企业。尽管 Harvey 表示并未放弃 OpenAI,只是增加了更多模型和云服务选择,但这对其主要竞争对手而言仍是一次重大胜利。
2022 年 12 月披露的信息显示,Harvey 是 OpenAI 创业基金首批投资的四家初创企业之一,当时该基金仍由 OpenAI 的 CEO Sam Altman 执掌。(首批投资组合还包括 Descript、Mem 和 Speak。)
据 2025 年 2 月披露,这家估值已达30 亿美元的初创企业在红杉资本领投的 3 亿美元 D 轮融资中,吸引了 Coatue、Kleiner Perkins 及 OpenAI 基金等知名机构的跟投,自成立以来实现了爆发式增长。
值得注意的是,谷歌旗下风投机构 GV 在 2024 年 7 月领投了 Harvey 的 1 亿美元 C 轮融资(OpenAI 基金也参与了此轮)。但 Harvey 并未在将谷歌企业风投纳入股东名册后立即采用其 AI 模型(GV 还参与了 Harvey 的 D 轮融资)。
那么,是什么促使Harvey 现在决定超越 OpenAI 的模型?这家初创公司内部开发的基准测试\”BigLaw\”显示,各类基础模型在法律任务上的表现日益精进,且某些模型在特定任务上更胜一筹。
Harvey 认为,与其投入资源训练模型,不如直接采用其他供应商(如通过亚马逊云服务的谷歌和 Anthropic)的高性能推理基础模型,再针对法律市场进行微调。
公司表示,采用多样化模型也将助力Harvey 开发 AI 智能体。
Harvey 在博文中写道:“不到一年内,七款模型(含三款非 OAI 模型)在 BigLaw Bench 基准测试中已超越最初评测的 Harvey 系统。”
Harvey 的基准测试还显示,不同基础模型在特定法律任务上表现各异。例如,谷歌 Gemini 2.5 Pro 在“法律文书起草”方面表现“卓越”,但因无法完全理解“传闻证据等复杂证据规则”,在“庭前口头辩论撰写”等审前任务中“表现欠佳”。
根据Harvey 的测试,OpenAI 的 o3 在审前任务上表现优异,Anthropic 的 Claude 3.7 Sonnet 紧随其后。HARVEY 内部基准测试结果:
图片来源:Harvey
Harvey 在博客中宣布,将加入公开模型基准性能排行榜的行列。该榜单将评估主流推理模型在法律任务上的表现。公司不仅会提供综合排名,还将发布由“顶尖律师提供对模型性能的细致分析,这些见解无法通过单一分数基准体现”的研究报告。
因此,OpenAI 支持的 Harvey 不仅采用了竞争对手的模型,还加大了对包括 Google 在内的支持者持续证明自身实力的压力。不过 OpenAI 在这方面无需过多担忧。尽管 AI 基准测试日益复杂且略带政治色彩,但 OpenAI 在这个领域依然表现卓越。
Harvey 的CEO Winston Weinberg 在向 TechCrunch 发表的声明中表示:“我们非常幸运能有 OpenAI 作为 Harvey 的投资方和产品开发的关键合作伙伴。同时,随着我们持续服务全球客户需求,为客户提供更多选择也让我们倍感振奋。”
参考资料
https://techcrunch.com/2025/05/13/anthropic-google-score-win-by-nabbing-openai-backed-harvey-as-a-user/
编译:ChatGPT
文章来自于“Z Potentials”,作者“techcrunch”。