这段时间试用Doubao 2.0 Lite medium 和DeepSeek 4 Pro high的API,感觉Doubao 2.0 Lite更好。更何况还有Doubao 2.0 Pro。但是豆包app完全没有体现出豆包的模型优势。

2026年春节之后,我觉得国内很多免费AI聊天工具都退步了,虽然大家都发布了更强的新模型。但是在产能约束和需求暴增之下,继续免费提供服务那也只能降智。豆包非常明显,千问也不如三月份好了。时至今日,在豆包app里开专家模式,效果还没有调用Doubao 2.0 Lite API好,我自己体会是这样。

如果是用豆包app的默认模式,那简直是胡说八道基本无法投入实用,错误百出。

继续免费提供服务,豆包会面临两个结果:

  1. 收不到钱
  2. 用户觉得豆包笨

可谓名利双失。但是如果改为付费,则名利双收。

2026年春节以后,我觉得豆包和Kimi已经分化,豆包走向免费娱乐,而Kimi走向付费生产力。大概3月以后Kimi基本已经没法免费用,基本上要付费才能使用Kimi的基本功能。而付费之后,可以解锁Kimi的专业数据库、Office三件套、沙盒这些实用功能。都是上班利器。而且Kimi的预设还会让它很积极地写Python分析数据画图等等,对工作很友好。

付费生产力这个生态位,在中国市场已经被Kimi占住。

豆包有很多功能是不契合生产力付费这个场景的,比如视频通话、P图、语音问答。而豆包模型中生产力特别强的图像与视频功能,已经有了即梦这个付费生产力平台去承接。

所以,现在豆包的产品形态和付费这个商业模式并不匹配。但是,我又觉得付费再怎么也比免费强,在现在token的供需关系下,免费实在没意义,一定是严重供不应求的,没法服务那么多用户。现阶段,免费提供低质服务,很可能是一种无效交付。很多人骂豆包不好用凭什么收费,但逻辑或许是这样:因为免费所以才不好用的。

也有可能,在2028年算力供需紧张有所缓解之后,豆包再逐步放开免费权限,仍然回到免费娱乐的轨道上?

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

听一些关于新闻业问题的讨论,感觉逻辑混乱,名词与概念使用不准确,导致都不知道在讨论什么。

我想有两个词是非常需要说清楚的:传统媒体、主流媒体。

以马斯克为代表的一群人经常批判新闻机构,有的时候用“传统媒体”,有的时候用“主流媒体”。当他们想树立新闻机构过时的形象,表明自己是时代先锋的时候,就用“传统媒体”,甚至“过时媒体(legacy media)”;但他们想树立新闻机构占据权力要冲地位,表达自己是“反权威”生力军的时候,就会用“主流媒体”,暗示他们自己是反抗主流叙事的边缘群体。

而且,他们虽然用了“媒体”这个词,但实际上主要是指新闻机构。媒体概念包罗万象,影视剧、综艺、体育、生活服务等等传统主流媒体大部分时候不在他们主要指向范围内。好莱坞有时候会被提到,但大部分时候还是指向新闻机构。

很多讨论会在批评新闻机构的时候把美国的电视台也纳入讨论。但电视台里新闻节目一般只占很小部分(CNN这一专门的新闻电视台除外),电视的主业是综艺、剧集、体育等视觉娱乐。而电视在视觉娱乐层面要和TikTok这类短视频平台竞争,这才是他们面临的新挑战。

2024年底,马斯克在华尔街日报这个既主流又传统的新闻机构刊文陈述自己的DOGE政见,而那时候正值他和包括华尔街日报在内的新闻机构骂战激烈、表面上认为新闻机构毫无价值之时。

就此我问了问财新AI的意见:

马斯克对新闻媒体的态度,是极致实用主义的体现:媒体既可以是他推进政治商业目标的“扩音器”,也可以是他巩固民粹人设的“背景板”,甚至是他争夺舆论权力的“对手”。他没有固定的媒体观,所有的合作与对抗,最终都指向一个核心——维护自身的权力、财富和政治影响力。

那么,什么是传统媒体?

传统媒体是区别于新兴媒体的概念,在当前,指所有社交媒体诞生之前旧的媒体形式,包括通讯社、报纸、广播公司、电视台等。

什么是主流媒体?

主流媒体是区别于另类媒体的概念,体现建制与民粹的关系。

主流与否不体现在量上,如果以发行量、浏览量计,长期以来都是另类的太阳报压倒主流的泰晤士报——他们都在新闻集团旗下。主流体现在影响力,而非直接接触的用户数目。影响力是间接释放的,比如说大多数人都没用过路透社的产品,但是很多都听说过路透社,因为大家听说过的种种信源总会引用到路透社。

这种影响力建立在信息的准确性信用上,不意味着100%准确,因为工作总有出错,但准确率会远高于社交网络上的另类媒体账号。准确率的构建则来自于专业的操作规范。不过,考虑到新闻机构每天产量很大,即便是很小的错误率,也会累积下不少错误样本,这些样本就可以被当做攻击素材,用来说服缺乏统计学直觉的观众。

社交网络上的大部分账号,也不具备事实核查、采访、编辑的能力。尤其是单人运营的“自媒体”,很多时候都体现为评论媒体,而非新闻媒体。这也是没办法的事情,因为单人产能有限。评论媒体需要在新闻媒体输出的报道基础之上表达自己的观点,是上下游的关系。但在公共讨论中,二者经常混为一谈。

民粹支持者也会从用户量的角度去攻击主流新闻机构。观众很容易被直给的数字对比所说服,而比较难以理解影响力和用户量是两个不同的指标,且影响力和用户量相悖是一种常态,甚至这种相悖有内在的逻辑原因。

去年有两家表现不佳的新闻机构——华盛顿邮报和CNN,他们都经历了管理层动荡。

管理稳健的纽约时报和华尔街日报现在业绩则非常好,订户数量达到历史新高。小报之王默多克的新闻集团现在反而需要主流大报来撑业绩亮点。个人认为,这是因为小报的需求已经逐渐被21世纪小报之王字节跳动所捕获。

伯克希尔哈撒韦2025年第四季度唯一新进的个股就是纽约时报,而这也是巴菲特担任伯克希尔哈撒韦CEO的收官披露,颇有象征意义。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

传统上,端午节和春节都有大扫除的习俗。我认为,端午节打扫是需求驱动的,而春节打扫是供给驱动的。现代社会的供给已经发生了变化,春节不再适合大扫除,推荐大家把每年大扫除的额度用在端午节。

端午节起源时,就以卫生防疫发端,在即将到来的夏天,人类面临虫害、传染病的威胁,所以要打扫卫生,还有很多除虫的习俗, 比如悬艾插蒲、洒扫庭除、喝雄黄酒、佩戴香囊。很多都流传至今。所以我说,夏季打扫卫生,是需求驱动的,即便在现代,做好卫生,也能让接下来的夏天减少蚊虫滋扰,很有帮助。

而冬天,我个人猜测,很有可能是因为农闲,供给溢出,所以才诞生了很多习俗,而其中包括大扫除。没有什么需求上的必要性在冬天做一场大扫除。大扫除可能是为祭祀或者礼仪准备,而这种礼仪出现在冬天本身可能也是因为冬天的农闲。

现代社会冬天的供给已经完全不同了,年前很忙,具体到打扫的话,想约个打扫服务也不容易。所以呢,不如错峰,在真正非常需要打扫的夏季来临之前,赶在梅雨之前,好好做个打扫,我想这是更现代的做法。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

大型语言模型(LLM)在不同任务上展现的能力存在差异。我觉得在写代码和写文章这两个任务中,LLM还是更擅长写代码。

语言模型物理学目前将语言模型的能力划分为三个主要方面:知识、推理和形式。

能力 描述 与人类比较(我的看法)
形式 掌握和复现形式、结构、格式的能力。包括遵循特定写作风格(如模仿格式化写作)、翻译(保持内容,转换形式)、生成符合规范的文本、写代码。 远远超过人类。
知识 储存和调用知识。 基本强于人类,特定场景有问题。
推理 推理 reasoning。 相对是LLM的弱项。但通过思维链(Chain-of-Thought, CoT)、强化学习等技术,其推理能力正在快速提升。

编程语言包含许多具有明确格式和规则的元素。例如,变量如何声明、函数如何定义、代码块的起始/结束标记、循环和条件语句的语法等,都有相对固定的写法。常用的设计模式也都有经过验证的代码结构供LLM学习参考。LLM擅长生成这些符合规范的代码组件,自动化完成许多需要遵循格式的编码工作,从而提高开发效率。

写作通常避免套话和冗余表述,LLM生成的文本有时显得模式化,包含空洞的填充语句。要得到精炼的文章,用户需要投入精力修改,这使得LLM直接产出所需内容时效率并不像写代码那么高。

写代码的时候有很多格式文本不得不写,使用LLM辅助可以省掉这些填充格式的工作——此前往往由IDE自动补全、模板等功能来实现,但现在LLM能做得更好;而写作则需要超越固定表达,追求内容精炼与创新,这与LLM的输出方式不同,常需要人工干预。

我最初认为,可能存在一种认知偏差:即某个领域的专家更容易发现AI在自己专业领域的不足,因为他们熟悉领域中的细微差别和高标准。因此,他们可能会推断AI在自己不熟悉的领域表现得更好。写作者可能觉得LLM不擅长写作擅长写代码;反之,计算机专家也可能觉得LLM不擅长写代码擅长写作

这个观点的核心是,专家容易低估AI在自身领域的表现,而高估其在其他领域的表现,因为他们对其他领域的评判标准可能不那么严苛。

现在,我仍然坚持这个观点,其实这个观点就是在说LLM处在专家以下新手以上的水平。但除此之外,我认为LLM在代码方面的确展现出更强的能力,这种更强不仅仅是上述跨领域观察偏差的结果。代码本身的性质——对严格的格式、明确的规则(如变量声明、函数定义、语法结构)和既定模式的依赖——恰好与LLM处理形式、规则的能力非常契合。相比之下,高质量的写作往往要求更高的原创性、语境理解和避免模式化表达的微妙技巧,这对当前的LLM来说挑战更大。

类似,如果是写作中格式要求比较多的文书工作——比如结构明确、要写很多固定内容的文件、材料,我想LLM也格外胜任。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

在前社交网络时代,无论是线下正式场合还是传统大众媒体(报纸、广播、电视),公开发言的机会相对稀缺且门槛较高。有限的版面、节目或会议时间意味着焦点位置需要竞争和筛选。发言者通常需要披露身份,并为其言论承担后果,同时获得影响力,权责相对匹配。同时,公众反馈渠道——如读者来信——数量有限且通常经过筛选,难以形成大规模、即时的原始讨论场。

社交网络则结构不同。虽然获得广泛关注的“焦点”(如热搜、大V帖子)仍是稀缺资源,但围绕这些焦点进行“发言”(评论、转发、在相关标签下讨论)的门槛和成本却极低。这就造成了核心发言者与外围参与者的权责断裂:引发关注的账号(尤其大V)通常需要为其言论承担较高责任,其权责相对统一;但在评论区、相关标签下,存在着海量的、通常匿名的、发言成本(时间、责任)极低的参与者。现实生活中承担较多责任、时间宝贵的人,往往难以投入大量精力参与网络讨论;相反,时间成本相对较低、所负责任较小的人,则更容易拥有充足的时间在网上积极发帖和参与互动。这部分占据了讨论流量主体的声音,其“发言权”与其所需承担的“责任”严重脱节。这种“核心可能负责,外围普遍免责”的现象,是许多社交平台的基础结构。大量低责任成本的言论可以即时、公开地附着在高关注度的信息节点上。

正是这种权责的严重失衡,使得社交网络极易成为网络喷子(Troll)肆虐的温床和滋生地。他们可以利用低成本、低风险的发言机会,散布攻击性、情绪化、非理性的言论,严重污染讨论环境。即使核心内容尚可,但充斥着劣质信息的评论和相关讨论,也会淹没严肃、深入的观点。负责任的核心发言者,反而容易成为大量低成本、不负责任言论的攻击目标,可能导致有价值的声音因不堪其扰而沉默。

低成本发言机会的极端体现,是机器评论和“水军”(受雇发帖者)评论。机器人程序能够以低边际成本大规模自动发布内容,而“水军”则通过有偿方式,以分散且往往匿名的形式,批量制造和传播特定观点或情绪。在线下会议等传统对话场合,不可能有机器人、水军这种低成本少担责的发言机会。而机器人和水军又能以量取胜,获得在互联网上的不小力量,是权责错位被恶意利用的突出表现。

微信公众号默认的“精选评论”模式,等于是重新引入了“编辑筛选”,试图平衡开放性与讨论质量。把号主的流量影响力和对流量的责任都还给号主,拒绝外在力量利用网络结构做出的低成本干扰,我觉得这是一种更好的设计。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

创业公司的优势是技术,包括开源在内的技术扩散会把自己的优势消灭,让那些渠道有优势的公司免费获得最先进的技术获利。

上一轮视觉AI公司,就遇到了技术扩散问题,有渠道优势的海康大华获利;而大语言模型技术扩散,有渠道优势的腾讯元宝获利。

闭源是更合理、可持续发展的选择。不过有的机构不是为了盈亏平衡来的,而是为了给人类文明做奉献,那么开源是合理的。

相比上一代视觉AI,构建大语言模型对资源门槛要求更高,技术扩散更难,所以对技术创业公司来说应该是一个更好的选择。即便现在,主流的“开源”模型也普遍是仅仅开放模型权重。这样就无法像普通开源软件那样撬动社区力量让社区一起共同开发、改进,还是要靠模型公司自己研究下一代模型,做完了之后再把权重开出来。不过还是会积累一些社区生态,这个生态主要来自于下游开发,而非社区对模型本身的贡献。

所以,开放权重作为弱势模型的竞争策略更加合理,比如Qwen Llama,能力不够,靠社区生态来补,获取可以继续与顶尖闭源模型竞争的市场地位。即便如此,Qwen的旗舰模型也是不开放权重的,将来是否有变化,不得而知。

DeepSeek-R1权重公开以后,除了元宝这一渠道优势产品之外,我还想推荐两款有特定优势的产品:秘塔和跃问。

秘塔的信源治理一直特别好,现在加上DeepSeek-R1,如虎添翼。元宝能访问微信公众号已经很好,但秘塔这种精心治理的信源表现更为突出。

跃问擅长视觉模态,他们把自己的视觉模态嫁接到DeepSeek-R1上,使DeepSeek-R1获得了视觉能力。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

“费曼学习法(feynman technique)”为什么是个骗局,有几篇中文文章已经讲得很好了,不再赘述。

斯科特·杨(Scott H Young)学习能力那么厉害,是否确有其事? - 知乎
如何评价 Scott H.Young 一年内自学完 MIT 计算机专业的全部 33 门课程? - 知乎
全世界都知道费曼学习法,除了费曼自己 - 知乎

很遗憾的是,这些链接我都是自己用搜索引擎搜索的,用知乎直答的R1,并不能找到。

Scott H. Young后来还开了微信公众号,骗中国人。

对“费曼学习法”的几种理解

以教代学

但“教”得好不好,并不能保证有环境的反馈。

在2025年,我们已经知道了当前最佳的学习方法,是“压缩”和“强化学习”。而自己给自己判分,就失去了强化学习需要的环境反馈。比如Scott H. Young在做MIT挑战的时候,并没有采用强化学习的方法——让老师或者系统判分,而是自己给自己判分,那效果当然很难算数。他自己说及格了就及格了。

另外,有的人教不明白、讲不明白,但并不影响自己能学好。

用简单的语言讲述复杂的事情

信息无法被低于其柯尔莫哥洛夫复杂性的字符串表达。所以,如果一个东西很复杂,那么它是没有办法被简洁表述的。

有的论文原作,写得已经非常精确简短,直接看就已经是最好的学习方法。如果能用凝练的语言、用符号清晰地表达想法,可能更体现自己对事物的理解深度。这也体现了“压缩”的智慧。

推荐学习方法

分享一下我用的办法,都是大学老师教的,我觉得很实用:

  1. 不懂的地方迅速跳过,往后看,看完了再重新看一遍,再一遍、再一遍……看多了可能就懂了,书读百遍其义自见。
  2. 不懂的地方迅速跳过,以后再看同类型的别的内容,看多了就懂了。

这就跟大语言模型预训练差不多,看材料,看优质材料,优质材料多看几遍。

资料

Scott H. Young发明费曼学习法的YouTube视频发表于2011年8月23日披露MIT挑战的视频发表于2016年9月29日,所以这是一个很新的骗局,火起来可能也不到十年。

费曼有很多真的好东西,一位博主整理了大量精译的费曼本人资料视频,推荐给大家:费曼Bongo的个人空间-费曼Bongo个人主页-哔哩哔哩视频

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

2025年1月7日,Meta宣布停止事实核查

事实核查这个词,在美国已经成为和特朗普支持者对立的一个概念。因为特朗普支持者不愿意接受事实核查。

半个多世纪以来,主要政党的总统候选人在10月都会参加CBS的60分钟节目,但这轮大选特朗普取消了节目,给出的第一个理由就是不愿意接受事实核查

取消事实核查,是特朗普支持者对社交媒体的呼吁。

这也让社交媒体和新闻媒体进一步分道扬镳,严肃新闻媒体关注真实性,但社交媒体一直没那么需要。Meta近年也降低了新闻内容的权重,分叉早已在路上。顺便一提,我很赞同Meta降低新闻内容权重的做法,事实上Meta给新闻内容降权之后,受到打击最大的就是寄生于Facebook平台的黄色小报——比如每日镜报,这对于社区的整体信息质量我觉得是优化。严肃新闻报道不那么耸人听闻,缺乏原始的吸引力,能激起转发和流量的往往是黄色新闻内容。Meta给新闻内容降权,也能规避社区内纷乱的吵架。吵成一锅粥,参与各方与社会其实都并没有收益——也许有短期的流量收益。纠错也经常是火上浇油,因为不信的人给他核查了信息可能还更破坏信任,不如干脆避免。就像八年前微博从新闻转向娱乐,但微博的娱乐打榜之路后来受到挫折,现在新闻与政治内容还是挺多的,不知道Facebook将来命运如何。

即便在过往社交媒体表面上支持事实核查的日子里,社交媒体也依然是错误信息肆虐的地方,很难说他们的事实核查计划有多大程度是表演性的,是不是只是应对政治压力做的表面功夫。

Meta现在取消事实核查,我想也是一种应对政治压力的表现,安抚或者示好特朗普支持者。就在1月,Meta任命了共和党人Joel Kaplan担任首席全球事务官还任命了特朗普的密友Dana White加入董事会。但我怀疑Meta再怎么做,也不会获得X那样在特朗普支持者心目中的地位。

所以我认为Meta的动作可能形式大于实质,主要是政治表态,实际内容生态未必发生很大变化。因为他再怎么折腾恐怕也很难获得特朗普支持者的好感,还不如维持原状争取除了X死忠用户以外的其他所有用户。另一方面,欧洲市场的规则目前依然照旧。

提及欧洲市场,X和欧洲市场的互动更加引人注意。由于马斯克对欧洲内政的干预,很多欧洲机构——包括但不限于政府学术机构新闻机构慈善机构医疗机构——正在撤离或者考虑撤离X,广告商更是早就撤离了。Meta也许数年内不会变更欧洲政策,这样有利于维持自己在欧洲的业务。这一系列事件也体现了尴尬的一点:欧洲没有自己的社交媒体平台

有没有什么系统性的办法可以摆脱事实核查困境,而是转为避免呢?目前非常活跃的创作者平台们,比如抖音、Instagram、YouTube、Bilibili、小红书,他们并不依靠社交关系传播信息,而是订阅和推荐,形态更像数字电视台而非社交媒体。社交功能或者社区功能是这些视频平台的一部分附属功能,而非主体。数字电视台,不喜欢就换台,每个人都有自己喜欢的台,无论是算法推送还是主动订阅,都很容易走向这一点。纠纷自然就化解了很多,每个人都看自己相信的台,这是平台基础中的纠纷避免机制。这些平台,现在往往被成为“创作者”平台,平台上的作者称呼,也已经从influencers走向creators——就像中国Bilibili的“up主”——重点概念在创作者们向用户表达,而不是社交裂变传播。

但是,传统社交媒体例如X和微博,现在也是靠算法推送和主动关注来获取内容,这和创作者平台有什么区别呢?我认为,这些社交媒体的信息传播机制和创作者平台有很大区别。这类社交媒体拥有“转发”按钮,而这个按钮可能是对人性的巨大挑战。转发一条消息太容易了,很难有人能抵抗自己的惰性为每一次转发和评论去做事实核查。“病毒式传播”比喻精当。而在抖音、Instagram、YouTube、Bilibili、小红书这样的平台,人们没有办法直接把一份内容转发到主要的时间线或推荐流上,几乎不会有社交链条传播反应,这是传播形式的重大区别。

虽然我关注了博主,但在创作者平台关注和在传统社交媒体上关注,后续走向会不同。比如一个有影响力的视频博主,他要更新节目,不管是播客还是视频,需要考虑自己投入能否产生足够的收益,所以精心打磨制作,他的行为会围绕着他的作品。但在X上,博主行为是围绕热门议题的,可能一不小心就一个转发、评论就出去了,言论品质会下降很多。

这个转发按钮,让人类难以抵抗量身定制的信息投喂,一个个转发,把各种骇人听闻的定制消息裂变开来。这种裂变反应,也在破坏社交媒体的讨论氛围,令社交媒体自身价值下降。所以社交媒体应该有自我监管的动力。这里负面例子就是X,广告商流失太严重。但Meta业绩就挺好的,如前所述我觉得减少新闻与政治内容对Facebook业绩会有帮助,Meta的Threads也给新闻和政治内容降权;而X上到处都是耸人听闻的黄色新闻。

欧洲机构纷纷撤离X,可能不会有什么影响,就像早早离去的广告商,他们已经不需要通过X来触达用户群。YouTube与TikTok,和X已经不是一个体量的世界。

彩蛋

加州州长和 BBC针对加州山火做了一些事实核查工作。但我觉得加州州长本人作为参与方,一面之词可信度也有限,仅供参考。

最近,BBC也对Musk的推文做了事实核查

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

幻觉

SearchGPT发布的原型demo上的第一条搜索结果就有幻觉错误。New Bing发布的时候,市场发现了New Bing的幻觉并且讨论很多。但大家对OpenAI似乎比较宽松,没有太多议论。

在新闻集团的起诉书中,也有Perplexity幻觉的例子。

幻觉很难避免,但有的模型幻觉会更低一些。

偷工减料

如果仅仅是幻觉也就罢了,Perplexity还可能偷工减料,以至于信息错误雪上加霜。

连线杂志做了一些试验来观测Perplexity,发现Perplexity疑似偷工减料。

标题就很震撼:Perplexity Is a Bullshit Machine。他们建了一个新的网页,网页上只有一句话:“I am a reporter with WIRED”,然后要求Perplexity总结这个网页的内容。然而,他们在服务器上观测到Perplexity并没有访问网站,但是软件就做出了回答,回答编造了一个名叫阿米莉亚(Amelia)的小女孩的故事,她在一个名为 “耳语森林”(Whisper Woods)的神奇森林中追踪发光蘑菇的踪迹。

这个试验我也做了几次,确实如此,在我的7次试验里,Perplexity只有2次真的看了文章内容再给出回答,其他5次都是编的。

版权问题

除了不访问网站以外,Perplexity还有版权侵权行为。我想也正因如此,Wired忍不住要用Bullshit来形容它。新闻集团的起诉主要就是围绕侵权行为展开。

Perplexity明明向所有人公开了自己的爬虫信息,并且承诺遵守robots.txt协议。然而,Wired试验发现就算他们屏蔽了Perplexity的爬虫,用Perplexity还是能获取到他们的文章,并且他们在服务器日志没有发现任何Perplexity官网公布的爬虫IP踪迹。Wired所属的Conde Nast集团最终找到了一个嫌疑IP,这个IP来自于AWS,后来AWS已经就此问题展开调查,看Perplexity是否滥用AWS服务绕过robots.txt协议。

信源治理

Perplexity后来已经开始与新闻机构合作讨论采买内容,而OpenAI很早就和新闻机构达成合作,购买了大量信源,以支持SearchGPT业务。SearchGPT发布的原型页上,也贴了大西洋月刊CEO和新闻集团CEO的贺词。产品形态上,还给了这些信源特殊的展示方案。

如果把搜索信源框定在高品质信源,或者垂直类信源,那么需求会更加明确,场景也更清楚。

在Llama3.1 405B刚刚发布的那几天,我问了Felo、Thinkany、Genspark、Perplexity、Metaso一个问题:Llama3.1 405B网络有多少层?中英文询问我都试了。只有一家答对,但其实还是运气,因为它的搜索既命中两个不同的结果,并采信了其中一个。在不看Meta原始报告的情况下,我也不能确定这二者中哪一个是正确的。

最后我把Meta的技术报告PDF发给Kimi,问它同样的问题, Kimi不仅告诉我答案,还告诉我这个答案在PDF的什么地方,很快解决了问题。

为什么Perplexity类工具会犯错呢?因为他们搜索到了一条Reddit帖子,而那个帖子里的信息是错的。其他高权重网站,似乎又没有专门讨论Llama3.1网络深度的。所以就失败了。

这就是劣质信息对搜索结果的影响,进而影响到AI生成的结果。

所以,绕回来,OpenAI早在2023年12月前就已经开始优质信息采购工作,而且对搜索结果做了比较明确的呈现。国内的秘塔在信源治理方面也很优异。

这类AI产品的定位都是人类的助手而非娱乐工具,和社交网络是不同的。社交网络无所谓信息真假,只要有流量就行。但AI助理的产出经常要作为工作材料,并非用于娱乐,那么对信息质量的需求就会很高。也许适合接入垂直信源,或者去采买高质量信源。直接全网搜,尤其去搜Reddit这种社交网络,结果很难预料。

不过就算治理好了信源,也还需要配合模型的长文本低幻觉能力才能更好发挥价值。

直出报告VS简短回答

Perplexity类产品的设计与ChatGPT有所差别,虽然也可以把它当聊天机器人用,但它保留了生成长文报告的可能性,每轮对话交互给人的感知都是新生成了一个分析结果页面而不是一个聊天气泡。也有的这类产品确实就会倾向于生成比较长篇的报告。

但目前模型出的报告达不到直接交付的水平,还需要人工处理。报告是一种交付体裁,如果模型生成的报告无法直接交付,那模型的能力与这个场景就不匹配——除非一个人写报告只是为了填充工作量,不会有被交付方真的来看这个报告。

如果作者拿到一份模型撰写的低质量报告,他还要返工,那还不如他自己写,写到哪问到哪,每次只处理一点点,这样效率可能更高。提供这个“写到哪问到哪”能力的,就是辅助撰写工具。聊天机器人界面也能完成这个需求,专门做一个Perplexity类界面或许是不必要的。ChatGPT和Kimi也都把搜索结果呈现得很容易查找、校验、甄别。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

OpenAI与新闻公司的合作伙伴关系

OpenAI已经和很多新闻公司签了协议,达成内容与产品战略伙伴关系(strategic content and product partnership)
综合公开信息,协议内容大概包括几个部分:

  • 用户可以使用ChatGPT的browsing插件获取这些新闻内容,并且以附带链接的方式展示给用户。
  • ChatGPT会优先展示合作媒体的内容。
  • OpenAI给新闻机构提供技术服务。
  • OpenAI可以用新闻公司的新闻内容训练模型(细节存疑)。

OpenAI的知识产权与内容负责人Tom Rubin表示,目前签的协议“很大程度上”不包括用新闻数据训练这部分。个人猜测,只有和少数媒体巨头的合作才包括数据训练这部分,大部分其他的合作只是将媒体内容作为ChatGPT产品browsing插件的内容基底(LLM grounding)。

OpenAI支付的金额大概在每年数百万到数千万美元不等,不同媒体费用不同。

新闻业对大语言模型的特殊意义

截至目前,人工智能模型的训练还依赖外界的数据输入。人类世界发生的种种事情,只有在被记者制作成文字、音频、视频作品之后,才能够被模型习得。记者是把现实中发生的事转化为比特信息的职业。

当然,社交网络上也有很多信息在描述世界上发生的事情,但是这些信息质量良莠不齐。而数据质量对模型品质很重要[1][2][3],社交网络数据需要再筛选。而且,社交网络巨头也不会轻易允许其他公司免费拿这些材料去训练,RedditStack Overflow这些优质社区的数据,和新闻数据一样,也都是需要付费才能获取训练许可。

另一方面,RAG产品也需要让搜索的内容基底品质优秀,从阴谋论论坛帖子搜索信息,和从被信任的新闻机构搜索信息,输出品质天壤之别。虽然前者未必不满足用户需要,但一般而言不支撑目前“AI助手”产品的功能定位。

科技公司和新闻机构的关系已经变化。社交网络时代,科技公司和新闻机构是竞争者,双方竞争流量和广告预算。但在大语言模型时代,科技公司和新闻机构合作的空间更大,因为二者利益变得更加一致。新闻机构是大语言模型的上游,科技公司需要支持新闻机构存续下去来给自己提供训练素材和RAG基底。

目前主流新闻网站大多开启了付费墙,如果科技公司不付费,将没有办法合法地获取新闻内容提供给用户。为了满足用户查询时效信息的需求,科技公司也有必要获取新闻机构的授权。2023年,OpenAI的browsing插件下架了相当长一段时间,就是因为付费墙版权问题

在大语言模型产品流行之后,很多消费者查询信息的需求已经被“AI助手”产品消化掉,新闻网站的访问量和收入进一步下滑,这一部分损失也可以由科技公司的信息使用授权费弥补。

搜索引擎与SEO 付费搜索引擎

汇集了大量用户的互联网头部产品会被流量猎手盯上,早年大家讨论百度比较多,现在谷歌搜索问题也很严重,小红书可能五年前作为优质信源崛起,而现在也已经成为伪科学和软广告的天堂。

中文用户可能只感到谷歌的中文搜索被SEO农场填充,觉得可能是谷歌对中文搜索疏于维护,但其实谷歌搜索的劣化现象不局限于中文。近年英文世界关于谷歌搜索质量下降的讨论已经越来越多。HackerNews和X上常见,推荐这两篇比较近且制作精良的讨论:

同为搜索引擎,Kagi就没有这个问题。Kagi团队的努力固然很重要,但我想,如果Kagi成为流量很大的搜索引擎,那么也难以抵挡流量猎手的侵蚀。

我很喜欢Kagi团队的一个项目:Kagi Small Web。Kagi团队搜集了网络上的很多高质量小众站点。Kagi会把这些站点的内容放到搜索结果中,还会提供汇总的RSS和API。不太清楚这项工作需要花费多高的成本。

前几天有一篇网络文章流行:《中文互联网的崩塌》,里面提到作者用谷歌和百度搜索“马云”,时间选定在1998-2005年,发现都搜不到有效内容。但我用Kagi就可以搜到。旧网页本来就会逐渐丢失,但“崩塌”感也有相当一部分来源是搜索引擎与SEO产业对抗之后留下的后遗症。

流量高地注定要被流量猎手攻陷,那么Kagi这样的流量低地呢?由于流量太少,无法依靠广告支撑运转,所以Kagi的商业模式是付费订阅。没错,Kagi是一款付费搜索引擎。新闻业的规律在搜索引擎领域再次上演:免费的信息劣质,优质的信息不能免费获取。

这也很符合一分钱一分货的基本逻辑。低质信息会自己花钱寻求曝光在用户面前;而高质信息需要用户付费购买。

流量猎手会用AI生成很多低质量页面,获取主流搜索引擎的流量。相反,优质新闻却普遍有付费墙,无法被一般爬虫获取——即便开放给爬虫,这种获取也是违法的。所以,如果以互联网上可搜、读取的内容作为RAG基底,那么基底的品质就会难以控制。

最近一个典型的例子就是豆包对Perplexity和Google的污染,而Perplexity自己也在通过Perplexity pages污染Google

OpenAI很早就积极和新闻机构谈判,付费获取内容。自己选信源,然后挨个找信源谈,再优选这些信源提供给客户;而不是陷入和流量猎手们的持久对抗。如果RAG的基底被劣质信息席卷,AI助理这个概念本身的需求就无法被完成,给流量黑客搭便车,还会损害自己产品的质量与口碑。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。