AI书房
用书来读懂AI
这里收录金京镇律师的AI、法律、产业、历史、政治、文化主题在线书。每本书都按目录、序言、章节、尾声整理,方便连续阅读。
[AI书房] 第3章 本体论:把数据变成知识的魔法
PALANTIR:战争、监视与人工智能
第二部 核心技术:本体论与决策革命
第3章 本体论:把数据变成知识的魔法
金京镇律师
一、帕兰提尔技术的心脏:本体论的定义
(1) 超越数据整合的「数字孪生」实现
2008年某个深夜,伦敦金融城一家大型银行总部召开了紧急会议。桌上堆满厚厚的报告。首席执行官开口问道:我们银行对希腊国债的敞口有多大?问题很简单。风险管理负责人打开笔记本电脑,给其他部门打了电话。一个小时过去了。他擦着汗回答:不太确定,大概10亿美元左右。首席执行官绝望了。全球顶尖的金融机构,竟然不知道自己的钱在哪里。
问题不在于缺少数据。银行拥有完整的数据。
只是这些数据用不同的语言写成罢了。贷款部门的账簿里,希腊标注为「GR」。债券交易台写的是「Hellas」。衍生品部门用的是数字国家代码。计算机根本不知道这三者指向同一个国家。这就是帕兰提尔要解决的根本问题。
帕兰提尔的工程师们在一个意想不到的地方找到了灵感:哲学著作。他们关注的概念是Ontology,中文译作本体论。这是一个哲学术语,探究世间存在什么、事物之间有怎样的关系。古希腊哲学家亚里士多德最初确立的这一概念,被帕兰提尔引入作为软件的核心原理。
帕兰提尔的官方文档这样定义本体论:将组织的世界绘制成一幅完整的图景。通过把数据集和模型映射为对象类型、属性、链接、动作等概念,将现实中的事物和事件在平台内重新构建。对人眼而言,它呈现为业务语言;对机器而言,它呈现为可运算的结构。一台翻译机。因此本体论不只是目录或模式设计工具,它是终端用户工作流的坚实基础。
由此引出数字孪生的概念。许多企业把数字孪生误解为华丽的3D画面,以为不过是把工厂在虚拟空间里漂亮地画出来。帕兰提尔所说的数字孪生完全不同。它不是装饰。它是同时承载组织语义体系和行为体系的、可运行的副本。帕兰提尔文档写道:本体论在许多环境中充当组织的数字孪生,不仅包含对象、属性、链接等语义要素,还包含动作、函数、动态安全等运动要素。之所以叫「孪生」,原因很明确:现实变了,屏幕必须跟着变;屏幕变了,下一步行动也必须跟着变。
2025年春天,美国快餐连锁品牌Wendy's出现糖浆短缺,波及6,450家门店。放在过去,这是15个人忙一整天才能解决的事。Wendy's品质供应链合作社CEO皮特·苏尔肯在帕兰提尔客户大会上说:我们5分钟就解决了。怎么做到的?
因为Wendy's的数字孪生把3,500辆卡车、34个物流中心、6,450家门店连在一块屏幕上。糖浆短缺的信号一进来,系统立刻算出最近的物流中心应该派哪辆卡车、走哪条路线送货。
数字孪生真正的力量在于它「可写入」。在高级部署环境中,帕兰提尔的数字孪生不是一面镜子,而是一块控制面板。在Foundry中所做的更改会反向传播到下游系统,可以更新ERP状态、触发工单,或重新配置供应计划。这是静态数字影子与真正数字孪生之间的决定性区别。组织从「能看到发生了什么」跃升到「能持续重新优化正在发生的事」。
2025年第一季度,帕兰提尔美国商业部门营收同比增长71%。同年第二季度,季度营收首次突破10亿美元。市值超过4,300亿美元。《经济学人》评价帕兰提尔「可能是历史上估值最高的公司」,因为市场给出了超过2024年利润600倍的估值。这些数字说明一件事:市场正在给数字孪生这个概念标上天文数字的价格。赌注押的不是收集数据的技术,而是定义现实的方法。
(2) 通过对象(Object)、属性(Property)、关系(Link)重构世界
亚历克斯·卡普经常这样问技术人员:你看世界像看Excel表格,还是像看故事?大多数数据工程师把世界看成行和列,对他们来说世界是一张巨大的电子表格。但帕兰提尔用句子重构世界。他们使用三个要素:对象、属性和关系。就像小学语文课上学的主语、形容词和动词。
先看对象。对象是世界中存在的名词。借用帕兰提尔文档的说法:对象类型充当该实体类别的蓝图。以军事行动为例,坦克是对象,排长是对象,敌军补给卡车也是对象。在传统系统里,它们分散在不同的数据库表中。人事数据库存着排长的军号,军需数据库存着坦克的参数。帕兰提尔把它们放到同一张地图上。在民用企业里,传感器、资产、工单、员工各自被定义为独立的对象类型。在医疗环境中,患者、诊疗、诊断、药物成为对象。
接下来是属性。属性是描述对象的形容词。帕兰提尔文档指出:属性是表示现实世界某个实体或事件特征的模式定义。坦克这个对象拥有「油量」属性,有「当前位置」属性,还可以加上「上次维保日期」属性。帕兰提尔支持多种基本数据类型:字符串、整数、浮点数、日期、时间戳等基础类型,以及地理坐标、地形、媒体引用、结构体、时间序列等高级类型。到这里,看起来和传统数据库区别不大。
魔法发生在第三个要素:关系。关系是动词。帕兰提尔的系统在对象之间画线,给线命名。「排长搭乘坦克」,这是关系。「坦克瞄准敌军卡车」,这也是关系。「敌军卡车运载弹药」。链接类型是两个对象类型之间连接的模式定义,链接是两个对象之间关系的单一实例。这些简短的句子汇聚起来,就构成了一个庞大的叙事。过去分析员必须在脑子里想象这些关系:从人事文件中找排长,从军需文件中找坦克,再在地图上比对敌人位置。帕兰提尔的本体论引擎预先定义好了这些关系。
至此,系统能够进行推理。这是革命性的突破。举个例子:系统发现了一个「敌军卡车」对象,这辆卡车停在「弹药库」对象附近,然后向前线移动。系统组合这些关系,推断出新事实:这辆卡车大概率在执行弹药补给任务。指挥官屏幕上出现的不是一个普通的点,而是「需要切断补给线」的作战建议。这就是帕兰提尔所说的「软件定义战争」的基础。
德国制药企业勃林格殷格翰把这一原理应用到了新药研发。他们连接跨团队数据,构建了一个将靶点、基因、疾病等术语相互关联的本体论,在数据湖上建起了企业知识图谱。结果是:约90%的研发数据通过语义层整合到一个一站式空间里。科学家用基因或疾病名搜索,就能即时看到跨越所有数据孤岛的相关数据,不再需要手动拼接不同来源的数据。
帕兰提尔的解决方案架构师之间有句常用的话:本体论本质上就是我们公司的神经系统。还有一句:一旦把某样东西映射到本体论里,就再也不用争论什么是客户、什么是资产了。
一位数据工程师这样说:我在Databricks上花了两年建数据模型,到了本体论里两周就全扔了。数据不再是死的数字。它变成了由名词和动词组成的句子,句子汇聚成了上下文。把复杂的现实世界翻译成计算机能理解的语言,这就是帕兰提尔技术的心脏。
二、摧毁数据孤岛
(1) 将碎片化数据整合为「单一事实来源」的原理
2000年代初期,美军在阿富汗战场上和看不见的敌人作战。但他们更大的敌人藏在内部,就是登录窗口。情报军官要锁定恐怖分子的位置,需要登录十多个互不相通的程序。看无人机画面的程序是一个,查通信监听记录的系统是另一个,人力情报员(HUMINT)的报告则塞在纸质档案夹里。等分析员把所有信息拼到一起的时候,恐怖分子早已逃之夭夭。
这就是数据孤岛的悲剧。Silo原本指储存谷物的圆筒形仓库,一个仓里的小麦不会和隔壁的大麦混在一起。组织的数据也一样。各部门、各机构使用的系统不同,数据格式各异。制药行业的一项调查显示,约48%的药物开发高管表示数据孤岛妨碍了部门间的协作效率。团队把宝贵时间花在核对「到底哪个数字是对的」上,资源浪费在确认数据一致性,而非提取洞见。
会议室里常见这样的场面:销售团队的数字和财务团队的数字对不上。工厂说「我们系统一切正常」。物流说「现场已经乱套了」。每个人说的都是实话,只不过是各自的实话。孤岛不是恶意,而是结构。系统一旦分离,语言也随之分离。分离的语言让组织变慢。
帕兰提尔没有拆掉这些孤岛,而是在它们之间架起了桥。很多企业做数据整合时,试图废掉所有旧系统,从头建一个巨型统一数据库,叫做数据仓库。但这条路耗时数年、费用惊人,最要命的是现场反弹剧烈,,各部门不愿被夺走用惯了的工具。帕兰提尔的路径不同,选择的是虚拟整合。
原理是这样的:原有数据库一个不动。人力部门继续用Oracle,财务部门继续用SAP。帕兰提尔的Foundry平台连接到所有这些系统上。不是物理搬迁数据,而是获取数据的含义。这叫映射。告诉系统:A系统里的「客户ID」和B系统里的「Client Number」其实指同一个人。用户通过Foundry这一个窗口就能访问全部数据。这就是所谓的「单一事实来源」,英文叫Single Source of Truth,缩写SSOT。核心数据存储并更新于一个中央仓库,所有信息经由一个权威来源路由,确保所有人使用同一套数据。会议室里再也不用为数据出处吵架了。销售总监带来的营收数字和财务总监带来的营收数字不会再有出入。在Foundry上,所有人看到的是同一个数字。有人修改了数据,所有用户实时同步。
生物技术公司渤健(Biogen)把这一原理应用到了制造现场。他们建起了制造数据的单一事实来源,将过程中的数据统一处理。效果惊人:不再需要等待单独的产线终端测试环节,可以执行连续验证。渤健的全球分析负责人说:时间序列数据与制造上下文的结合,使得高级应用成为可能。机器学习模型能够快速评估批次质量了。
经济效果是戏剧性的。Veeva Systems的研究表明,在孤岛化环境中,一项简单的方案修订需要25个以上的手动步骤和多份文件。使用统一Vault后,变成单一源文件的一步操作,更新时间从数周缩短到数分钟。这说明贯穿药物全生命周期的统一数据流对消除重复、维护每个药物的单一版本事实有多关键。帕兰提尔将这种整合扩展到了组织的全部数据资产,创造了数据、逻辑和决策共存的环境,消灭了相互矛盾的数据版本,确保所有人使用同一个正确的数字。
(2) 元数据、血统(Lineage)与权限体系的设计
把数据汇到一处很方便,但也很危险。所有信息可见,意味着任何人都可能窃取或篡改。帕兰提尔从诞生起就与情报机构共同成长,对他们来说安全不是功能,而是生存问题。所以他们对「关于数据的数据」比数据本身更看重。这就是元数据。
帕兰提尔系统中的每一块数据都贴着标签:何时生成?谁创建的?原始来源在哪里?帕兰提尔指出,本体论可以为每个字段附加丰富的元数据以及对变更的细粒度治理,,记录谁定义了什么、何时修改、为什么修改。这种记录不是伦理装饰。出了事故,数据要上法庭。
帕兰提尔2024年隐私与治理白皮书写道:理解数据血统使管理者能够可视化平台全域的数据流向。从左到右阅读,可以看到数据从采集到转换再到平台应用的完整路径。全面的数据生命与交互视图在规模化场景下提供清晰的全景。
血统(Lineage)这个概念,相当于数据的履历表。它是追踪数据在系统中流动路径的机制,将数据从源头到最终使用的全部旅程可视化。帕兰提尔的数据血统工具提供了数据在Foundry平台内如何流转的整体视角。
举个例子。一位将军在平板上看到标注了敌军预计移动路线的地图。他想知道这张地图怎么来的。点一下,就能追溯这条信息的「祖先」:这条路线是AI预测的,AI基于30分钟前无人机拍摄的照片和1小时前截获的无线电记录进行了分析。帕兰提尔2024年10-K报告指出,Foundry认为数据项目失败的原因在于「创建管道的步骤和方法难以理解和复现」。为此,它让用户追踪管道、沿踪迹回溯,弄清表中的行和列意味着什么、为何存在。当你开始追问「为何存在」,数据就不再是数字,而成为证据。
血统也改变了组织政治。有人说「那个数字不对」,对方可以沿血统一路回溯,确认从哪里开始出了偏差。口水仗变成了追溯战。在制药领域,这意味着研究人员可以把分析结果追踪到原始仪器文件和实验笔记条目,每一步都保留审计轨迹。在中央临床数据库中保持恰当的审计轨迹,就能把提交给FDA的内容追溯到源数据,提交后的更新也能被追踪。
最后是权限体系。孤岛一旦打破,人们首先想到的恐惧是:那岂不是什么都看得到了?帕兰提尔的做法是在本体论自身嵌入细粒度且灵活的安全控制。不仅对象类型和链接类型这些设计要素可以设权限,实际的对象和链接数据同样可以。
帕兰提尔的数据保护与治理文档列举了具体工具:Checkpoint是一个Foundry应用,在访问特定敏感数据前要求用户提供正当理由。敏感数据扫描器允许管理员针对组织自定义的敏感数据制定识别和处置策略。Cipher服务通过加密、解密、哈希等密码学操作对数据进行脱敏。
这套权限体系不只是「能不能打开文件」的问题,而是可以精细到数据的最小单元来设置权限。
假设CIA分析员和FBI探员在看同一个恐怖分子的档案。CIA人员的屏幕上显示恐怖分子的姓名和海外藏身点,但线人真名被遮蔽。FBI人员的屏幕上能看到恐怖分子在美国境内的犯罪记录,但看不到海外行动信息。这叫做基于目的的访问控制。不是职级高就能看全部数据,而是只有执行中的具体任务所需的数据才可以查阅。帕兰提尔拆掉了数据的墙,同时建起了最安全的金库,,用技术解决了开放与安全之间的矛盾。帕兰提尔的AIP被构建为可追踪、可审计的系统,为负责任的人机协作捕获完整的审计轨迹,确保信任与问责。AI模型用了哪些数据、数据从哪来、谁拥有访问权限,全部可追溯。
三、人机共生(Human-Machine Teaming)
(1) 不是黑箱AI,而是放大人类直觉的工具
硅谷许多AI公司试图把人类排除在外。他们的目标是全自动化,因为人会犯错、会疲劳、会情绪化。但帕兰提尔的哲学恰恰相反。亚历克斯·卡普这样问:在战场上,你愿意把扣扳机的权力交给算法吗?撇开伦理不谈,这在战略上也是愚蠢的。AI擅长识别模式,但读不懂语境。
帕兰提尔科技公司成立于2003年,诞生于9·11之后的国家安全挑战。使命是在不损害公民自由的前提下,分析海量异构情报数据集以阻止恐怖袭击。联合创始人彼得·蒂尔设想了一家使命驱动型公司,把PayPal反欺诈系统的软件原理应用于这个复杂问题。公司自创立起就不以全知全能的人工智能取代人类分析师为目标,而是做「智能增强」,,为人类决策者提供穿越复杂性的优质工具。
Palantir拒绝黑箱AI。所谓黑箱,是指有输入、有输出,但中间过程不可知的系统。基于深度学习的主流AI大多如此。AlphaGo为什么在那个位置落子,连开发者自己也说不清。下棋无所谓。但如果涉及发射导弹或拒绝贷款,性质就不同了。必须能说清楚为什么做出这样的决定。Palantir的方法依靠两项核心技术。一是思维链(Chain-of-Thought)提示。AIP逻辑函数默认采用这种提示方式,让大语言模型按照结构化计划反复生成响应。提示词先要求LLM概述计划,再逐步执行,最后给出最终答案。AIP的LLM调试器则让用户得以窥探AIP逻辑函数的内部运作,查看中间步骤和工具调用。
二是工具委派策略。AIP不把整个任务交给LLM的黑箱内部处理,而是将特定的逻辑任务委派给更具可解释性的工具。这种做法使系统可以依赖可信且更易解读的逻辑。一旦AI系统因工具使用而出现异常行为,就能检查该工具的具体逻辑和步骤,定位逻辑失败的节点。
医疗领域做过一项实验。用可解释AI替代黑箱AI,对胸部X光片提供热力图解释后,放射科医生的工作表现显著提升。可解释AI不只是给出预测分数,它提供视觉化的判断依据,让医疗专业人员能够批判性地评估AI的建议,并与自身的专业知识相结合。
Palantir的哲学是:AI不是替代人的工具,而是放大人的直觉和专业能力的工具。就像钢铁侠的战甲。Tony Stark穿上战甲,并不是战甲替他打仗,战甲只是把Tony Stark的能力放到最大。2025年美国空军的ShOC-N Capstone实验验证了这一理念。Palantir的Maven Smart System和Maverick AI被整合进动态目标打击流程,测试它们能否提升速度、规模和精度。联合综合实验改善了作战人员的决策优势和整体态势感知。
2024年Forrester Wave AI/ML平台Q3报告中,Palantir被评为领导者,在当前产品能力方面排名最高。报告写道:Palantir在AI/ML领域拥有最强大的产品之一,其愿景和路线图是打造一个将人与机器融合为共同决策模型的平台。Palantir首席架构师Akshay Krishnaswamy说:Palantir AIP驱动着公共和私营部门最严苛的应用场景,其独特之处在于将AI直接连接到一线运营。我们相信,在面向人机协作的多模态护栏、以决策为中心的本体论,以及帮助企业从AI原型走向生产所需的全方位能力方面,我们的投入已经得到了验证。
(2) 为决策优势(Decision Advantage)而设计的透明算法
战争和商业,本质相同,都是一连串的决策。比对手更快、更准地做出决定的一方赢。
这叫决策优势,英文写作Decision Advantage。过去,掌握更多情报的一方胜出。现在不同了。信息泛滥成灾。胜负取决于谁能在这片洪流中更快地捕捉到有意义的信号。
以乌克兰战场为例。侦察无人机发现了敌方坦克。放在过去,这条情报传到炮兵营需要几十分钟。报坐标、标地图、呼叫无线电。在Palantir的系统里,无人机传回画面的瞬间,AI就识别出坦克,推荐射程内最合适的己方炮兵单位。这一切只需几秒钟。
但最后的按钮由人来按。系统在屏幕上问:是否打击?指挥官确认AI推荐的武器和预估的附带损伤,然后批准。算法是透明的。为什么推荐这支炮兵部队、为什么标定这个坐标,都用数据呈现。指挥官不是机器的奴隶,而是机器的指挥者。
Palantir 2024年10-K报告在描述AIP时写道,它为组织提供了一个界面,使其能够在运营中使用AI和LLM。报告提到AI代理与人类操作员之间的安全交接、广泛的安全与审计控制,以及贯穿工作流程的统一人工审核检查点。人不是站在后面鼓掌的角色,而是被设计成随时能踩下去的刹车。
Palantir关于AI治理的文章也指向同一方向:用human-in-the-loop gates约束重大决策,通过访问控制按角色限定可见的数据和应用,并强调数据最小化与基于目的的管控。这看起来像伦理宣言,但在实务层面,它是一项产品要求,叫做「可审查的自动化」。可以自动化,但必须留下谁负责的记录。如果责任链断了,组织就会禁止这种自动化。
透明算法的核心在于:AI的决策过程可追踪、可审计。Palantir AIP以构建可解释、可理解、透明的AI系统为原则。AI系统不能成为黑箱。用户必须理解系统如何运作,才能建立信任。Palantir的方法确保AI不能在没有明确人类授权的情况下独立执行军事目标打击或重大金融交易等行动。
透明性不只是伦理要求,更是实际需要。人机协作研究表明,信息不对称和能力不对称是互补型团队绩效的两大关键来源。当人和AI各自拥有不同的信息和能力时,协作效果最佳。要有效利用这一点,就必须知道每个主体使用了哪些信息、采取了什么策略。
2025年7月进行的「面向决策优势的人机协作兵棋推演」是验证这一理念的重要里程碑。这一系列实验标志着AI集成与联合整合在战斗管理领域取得了重大进展。通过将海量传感器数据与机器学习及人类监督相融合,强化了态势感知,加速了军事决策。
Palantir的本体论是提供透明性的基础设施。数据被采集到Foundry或Gotham中,经本体论赋予上下文,再由AIP激活,使人类和AI能够运行模拟、提出行动建议。决策一旦做出,行动和结果就被回写到本体论中。这个反馈回路随着时间推移不断充实数字孪生,使后续的AI推荐更加精准,也让组织领导者能够从决策的实际效果中学习。
透明算法的长期价值在于推动组织学习。Palantir的闭环系统创造了一种复利效应:组织使用平台越多,平台就越智能、越不可或缺。这不是在堆积更多数据,而是系统性地捕获决策的背景、结果和经验教训,并反馈到未来的决策中。决策优势不是一次性的技术领先,它来自持续学习和改进的文化。Palantir提供的,正是让这种文化成为可能的技术基础设施。
2025年Palantir的年营收约44亿美元,同比增长53%。营业利润率达到51%。零负债,现金储备超过45亿美元。截至2026年1月,股价在185美元至195美元之间波动。这些数字说明了一件事:市场正在为「决策优势」这个概念赋予巨大的价值。技术负责计算,人负责决断。而决断的速度决定胜负。这就是Palantir所说的技术与人之间的正确关系。
