*本文由人工智能翻译。
欢迎阅读我们的系列博客首篇《与打造 PatentSight+ 内嵌的 Protégé 团队的对话》。本文基于我们与 LexisNexis® PatentSight+™ with Protégé™ 背后团队的深入交流,探讨其如何开发用于专利分析的智能代理式(agentic)AI 系统。本系列文章旨在带领读者与我们——由 AI 工程师、数据科学家、产品经理及专利分析师组成的团队——一同见证这一智能代理系统的构建与持续优化过程。本系列将深入探讨:在知识产权(IP)分析领域,如何打造一个值得信赖的智能代理式 AI,使其能够针对自然语言问题提供可执行的洞察与情报。
在本系列中,您将了解到:
在整个系列中,我们将重点介绍我们如何应对专利分析 AI 系统所面临的挑战:通过结合可信赖的专利数据、结构化分析能力以及清晰的产品设计,提供快速、可直接支持决策的专利洞察,从而推动战略性商业决策。
我们认为,用于专利分析的智能代理式 AI 系统,其价值与用户对分析结果的信任程度直接相关,因为这些分析所得的洞察会影响多项商业决策,例如并购交易、许可谈判以及业务扩张规划。然而,只有当系统具备高度可靠性,并能够持续稳定地产出可信的分析结果时,用户的信任才会建立。
研究表明,大多数人对 AI 持谨慎态度,原因包括错误信息和结果不一致等问题;同时,相较于专家用户,非专业用户更倾向于接受 AI 提供的建议。换言之,作为所在技术领域中的专利专家,您极有可能会对普通 AI 工具给出的回答提出质疑。在知识产权(IP)团队中,对于在 IP 分析中信任 AI 的顾虑则更加明显,因为在大多数情况下,专利分析所得的洞察往往构成数百万美元级别商业决策的基础,而这些决策可能对企业产生重大影响。
那么,我们应如何提升 AI 在专利分析中的可信度?我们的方法首先从确保 AI 系统的分析结果能够符合专利分析师的专业预期开始。
负责我们 AI 解决方案 PatentSight+™ with Protégé™ 的机器学习经理 Jakub Hudak 如此表示:“信任可以分为三个层次:首先,是相信工具能够兑现其基础功能承诺;其次,是相信界面能够正确筛选查询内容并呈现适当的可视化结果;最后,是相信该工具能够提供有价值、可直接支持决策的洞察。”
使用 LexisNexis® PatentSight+™ 等工具进行专利分析时,一个关键环节是通过检索语法定义查询条件。查询既可以是简单的,例如检索某一专利权人的全部数据(owner=(RELX));也可以是复杂的,例如结合 IPC/CPC 分类号与全文关键词来界定某一技术领域。
图示:当被要求识别 CRISPR 与基因编辑技术领域的主要专利权人时,Protégé 会首先生成一套检索语法,以界定分析范围。用户可以通过审查该检索语法来验证 Protégé 所生成查询的准确性。
专利分析师深知,以恰当的细化程度界定专利数据范围至关重要;这一过程需要仔细平衡检索查询的精准率(precision)与召回率(recall),以确保最终得到的数据集既不会包含过多噪声,也不会遗漏任何相关的专利权人、专利或司法辖区。
优质检索源于对检索语法的反复测试与优化。如果没有良好的检索语法,就不可能生成值得信赖、并可用于发现有意义洞察的答案。Protégé 的智能代理式 AI 系统会迭代优化查询,评估由此生成的数据集,并对其进行推理,直至确定合适的专利范围。随后,系统会展示支撑该分析的检索语法,使您能够确认其是否与您在原始提示中设定的范围相一致。
检索语法具有明确的规则。每一个开启的括号都必须正确闭合,并且只能使用有限集合中的有效布尔运算符。这也带来了一个有趣的挑战。我们如何确保系统遵循这些规则,并避免因生成拼写错误或语法错误而浪费您的时间?我们的解决方案是对模型的输出进行约束。我们预先定义有效检索查询的结构形式,使 AI 模型在生成新查询时无法偏离这一规范。正如 Jakub 所说:“检索语法必须符合特定规则;如果语法无效,它就无法执行。”
Jakub HudakMachine Learning ManagerLexisNexis Intellectual Property Solutions
技术说明 这种对系统输出进行限制的方法,有时被称为“语法约束解码(grammar-constrained decoding)”。当语言模型逐个 token 生成文本时,语法约束解码会确保下一个 token 不会从那些可能导致输出违反预定义结构(schema)的 token 子集中被采样。将语法规则定义为可验证的结构规范并非易事,但对我们而言,由此带来的用户体验提升以及系统稳定可靠的信心,都是值得的。这也意味着 AI 能够专注于真正重要的事情——当前的专利分析任务,而无需耗费精力处理检索语法规则的细节问题。
这种对系统输出进行限制的方法,有时被称为“语法约束解码(grammar-constrained decoding)”。当语言模型逐个 token 生成文本时,语法约束解码会确保下一个 token 不会从那些可能导致输出违反预定义结构(schema)的 token 子集中被采样。将语法规则定义为可验证的结构规范并非易事,但对我们而言,由此带来的用户体验提升以及系统稳定可靠的信心,都是值得的。这也意味着 AI 能够专注于真正重要的事情——当前的专利分析任务,而无需耗费精力处理检索语法规则的细节问题。
我们的智能代理系统中的大多数操作,主要集中在处理用户问题、开展必要的研究与分析,以及展示和解读分析结果。可视化生成则是一个例外。根据我们的经验,让系统生成叙述中的关键部分风险过高,因为如果在这一阶段出现“幻觉”问题,将会直接削弱用户对结果的信任,并使得用户难以有信心地向利益相关方分享这些发现。
我们还通过用户会议、行业思想领导力活动、培训课程以及网络研讨会了解到,PatentSight+ 的可视化功能在向非知识产权(IP)受众汇报分析结果时发挥着重要作用。由于这些可视化结果本身已经获得了高度信任,我们选择不去干预那些已经运作良好的部分。相反,Protégé 会判断回答某项查询所需的可视化类型及相关专利数据,然后直接从支撑所有 PatentSight+ 分析的同一数据库中获取这些信息。通过使分析始终建立在可靠数据基础之上,并在不经过 AI 二次生成的情况下直接向用户展示可视化结果,我们得以降低出现“幻觉”数据的风险。
图示:此前关于识别 CRISPR 与基因编辑领域主要专利权人的提示,最终由 Protégé 返回了上述图表。该图表本身并非由 Protégé 生成;相反,Protégé 内部的工具会直接从 PatentSight+ 数据库中调取相关信息,以避免在这一环节引入“幻觉”风险。
我们还通过限制系统可访问的专利信息来源,来降低回答中出现“幻觉”的风险。在最近一场由 LexisNexis 举办、主题为“AI 在知识产权行业中的应用”的活动中,多家领先基础 AI 模型公司的企业内部 IP 法务顾问参与了讨论。与会嘉宾普遍达成的共识是:“更优质的洞察并非仅仅来自 AI 本身,而是来自 AI 与干净、结构化且可信的数据相结合。” 使用经过筛选的数据集,并结合已验证、统一化的专利权属信息以及最新的专利有效性信息,有助于降低系统基于不完整、不一致或未经验证的专利数据进行分析的风险。
总体而言,这些选择体现了一个简单的原则。如果我们希望用户信任 AI 在知识产权(IP)分析中的应用,就必须尽可能减少系统生成或放大错误的机会。
正如 Jakub 所说:“让 AI 生成图表中的数值,其风险在于会引入一种不必要的‘幻觉’来源。” 在通常依赖专利分析来支持高风险决策的场景中,这样的风险是无法被接受的。
Protégé 的一位早期测试用户——某领先制造企业的高级知识产权(IP)分析师——表示,他们之所以信任这些结果,是因为“我非常清楚它访问的是哪一个数据库。”
我们并不预设用户会信任用于专利分析的 AI;我们通过实践去证明这种信任。我们首先构建一个可验证的系统,使其能够持续支持专利分析师,降低专利检索中的“幻觉”风险,对查询生成进行约束,并确保可视化结果基于经过筛选的专利数据,而非凭空生成的数值。这一方法体现了 PatentSight+ with Protégé 的更宏大目标:通过将可信赖的专利数据、结构化分析能力与专为战略性专利分析打造的 AI 相结合,帮助团队做出高价值的战略决策。
同样重要的,还有系统所依赖的基础。Protégé 建立在支撑 PatentSight+ 的精选专利数据之上运行,因为我们的研究表明,用户的信任不仅仅取决于流畅、精炼的回答。真正的信任来源于数据质量、结果可复现性,以及最符合专利分析师专业预期的输出。
这只是我们构建可信赖专利分析 AI 方法中的一个组成部分。在下一篇博客中,我们将探讨透明性如何帮助用户理解系统正在执行的操作,以及这为何对建立信任至关重要。此后,我们还将进一步讨论智能代理系统与预定义工作流之间的区别,以及打造这一 AI 开发团队背后所经历的过程。欢迎持续关注,并订阅我们的新闻通讯,与我们一同见证这一发展历程。
Your AI assistant for fast, decision-ready patent insights that drive strategic business decisions.