大型语言模型(LLM)在不同任务上展现的能力存在差异。我觉得在写代码和写文章这两个任务中,LLM还是更擅长写代码。

语言模型物理学目前将语言模型的能力划分为三个主要方面:知识、推理和形式。

能力 描述 与人类比较(我的看法)
形式 掌握和复现形式、结构、格式的能力。包括遵循特定写作风格(如模仿格式化写作)、翻译(保持内容,转换形式)、生成符合规范的文本、写代码。 远远超过人类。
知识 储存和调用知识。 基本强于人类,特定场景有问题。
推理 推理 reasoning。 相对是LLM的弱项。但通过思维链(Chain-of-Thought, CoT)、强化学习等技术,其推理能力正在快速提升。

编程语言包含许多具有明确格式和规则的元素。例如,变量如何声明、函数如何定义、代码块的起始/结束标记、循环和条件语句的语法等,都有相对固定的写法。常用的设计模式也都有经过验证的代码结构供LLM学习参考。LLM擅长生成这些符合规范的代码组件,自动化完成许多需要遵循格式的编码工作,从而提高开发效率。

写作通常避免套话和冗余表述,LLM生成的文本有时显得模式化,包含空洞的填充语句。要得到精炼的文章,用户需要投入精力修改,这使得LLM直接产出所需内容时效率并不像写代码那么高。

写代码的时候有很多格式文本不得不写,使用LLM辅助可以省掉这些填充格式的工作——此前往往由IDE自动补全、模板等功能来实现,但现在LLM能做得更好;而写作则需要超越固定表达,追求内容精炼与创新,这与LLM的输出方式不同,常需要人工干预。

我最初认为,可能存在一种认知偏差:即某个领域的专家更容易发现AI在自己专业领域的不足,因为他们熟悉领域中的细微差别和高标准。因此,他们可能会推断AI在自己不熟悉的领域表现得更好。写作者可能觉得LLM不擅长写作擅长写代码;反之,计算机专家也可能觉得LLM不擅长写代码擅长写作

这个观点的核心是,专家容易低估AI在自身领域的表现,而高估其在其他领域的表现,因为他们对其他领域的评判标准可能不那么严苛。

现在,我仍然坚持这个观点,其实这个观点就是在说LLM处在专家以下新手以上的水平。但除此之外,我认为LLM在代码方面的确展现出更强的能力,这种更强不仅仅是上述跨领域观察偏差的结果。代码本身的性质——对严格的格式、明确的规则(如变量声明、函数定义、语法结构)和既定模式的依赖——恰好与LLM处理形式、规则的能力非常契合。相比之下,高质量的写作往往要求更高的原创性、语境理解和避免模式化表达的微妙技巧,这对当前的LLM来说挑战更大。

类似,如果是写作中格式要求比较多的文书工作——比如结构明确、要写很多固定内容的文件、材料,我想LLM也格外胜任。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

在前社交网络时代,无论是线下正式场合还是传统大众媒体(报纸、广播、电视),公开发言的机会相对稀缺且门槛较高。有限的版面、节目或会议时间意味着焦点位置需要竞争和筛选。发言者通常需要披露身份,并为其言论承担后果,同时获得影响力,权责相对匹配。同时,公众反馈渠道——如读者来信——数量有限且通常经过筛选,难以形成大规模、即时的原始讨论场。

社交网络则结构不同。虽然获得广泛关注的“焦点”(如热搜、大V帖子)仍是稀缺资源,但围绕这些焦点进行“发言”(评论、转发、在相关标签下讨论)的门槛和成本却极低。这就造成了核心发言者与外围参与者的权责断裂:引发关注的账号(尤其大V)通常需要为其言论承担较高责任,其权责相对统一;但在评论区、相关标签下,存在着海量的、通常匿名的、发言成本(时间、责任)极低的参与者。现实生活中承担较多责任、时间宝贵的人,往往难以投入大量精力参与网络讨论;相反,时间成本相对较低、所负责任较小的人,则更容易拥有充足的时间在网上积极发帖和参与互动。这部分占据了讨论流量主体的声音,其“发言权”与其所需承担的“责任”严重脱节。这种“核心可能负责,外围普遍免责”的现象,是许多社交平台的基础结构。大量低责任成本的言论可以即时、公开地附着在高关注度的信息节点上。

正是这种权责的严重失衡,使得社交网络极易成为网络喷子(Troll)肆虐的温床和滋生地。他们可以利用低成本、低风险的发言机会,散布攻击性、情绪化、非理性的言论,严重污染讨论环境。即使核心内容尚可,但充斥着劣质信息的评论和相关讨论,也会淹没严肃、深入的观点。负责任的核心发言者,反而容易成为大量低成本、不负责任言论的攻击目标,可能导致有价值的声音因不堪其扰而沉默。

低成本发言机会的极端体现,是机器评论和“水军”(受雇发帖者)评论。机器人程序能够以低边际成本大规模自动发布内容,而“水军”则通过有偿方式,以分散且往往匿名的形式,批量制造和传播特定观点或情绪。在线下会议等传统对话场合,不可能有机器人、水军这种低成本少担责的发言机会。而机器人和水军又能以量取胜,获得在互联网上的不小力量,是权责错位被恶意利用的突出表现。

微信公众号默认的“精选评论”模式,等于是重新引入了“编辑筛选”,试图平衡开放性与讨论质量。把号主的流量影响力和对流量的责任都还给号主,拒绝外在力量利用网络结构做出的低成本干扰,我觉得这是一种更好的设计。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

创业公司的优势是技术,包括开源在内的技术扩散会把自己的优势消灭,让那些渠道有优势的公司免费获得最先进的技术获利。

上一轮视觉AI公司,就遇到了技术扩散问题,有渠道优势的海康大华获利;而大语言模型技术扩散,有渠道优势的腾讯元宝获利。

闭源是更合理、可持续发展的选择。不过有的机构不是为了盈亏平衡来的,而是为了给人类文明做奉献,那么开源是合理的。

相比上一代视觉AI,构建大语言模型对资源门槛要求更高,技术扩散更难,所以对技术创业公司来说应该是一个更好的选择。即便现在,主流的“开源”模型也普遍是仅仅开放模型权重。这样就无法像普通开源软件那样撬动社区力量让社区一起共同开发、改进,还是要靠模型公司自己研究下一代模型,做完了之后再把权重开出来。不过还是会积累一些社区生态,这个生态主要来自于下游开发,而非社区对模型本身的贡献。

所以,开放权重作为弱势模型的竞争策略更加合理,比如Qwen Llama,能力不够,靠社区生态来补,获取可以继续与顶尖闭源模型竞争的市场地位。即便如此,Qwen的旗舰模型也是不开放权重的,将来是否有变化,不得而知。

DeepSeek-R1权重公开以后,除了元宝这一渠道优势产品之外,我还想推荐两款有特定优势的产品:秘塔和跃问。

秘塔的信源治理一直特别好,现在加上DeepSeek-R1,如虎添翼。元宝能访问微信公众号已经很好,但秘塔这种精心治理的信源表现更为突出。

跃问擅长视觉模态,他们把自己的视觉模态嫁接到DeepSeek-R1上,使DeepSeek-R1获得了视觉能力。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

“费曼学习法(feynman technique)”为什么是个骗局,有几篇中文文章已经讲得很好了,不再赘述。

斯科特·杨(Scott H Young)学习能力那么厉害,是否确有其事? - 知乎
如何评价 Scott H.Young 一年内自学完 MIT 计算机专业的全部 33 门课程? - 知乎
全世界都知道费曼学习法,除了费曼自己 - 知乎

很遗憾的是,这些链接我都是自己用搜索引擎搜索的,用知乎直答的R1,并不能找到。

Scott H. Young后来还开了微信公众号,骗中国人。

对“费曼学习法”的几种理解

以教代学

但“教”得好不好,并不能保证有环境的反馈。

在2025年,我们已经知道了当前最佳的学习方法,是“压缩”和“强化学习”。而自己给自己判分,就失去了强化学习需要的环境反馈。比如Scott H. Young在做MIT挑战的时候,并没有采用强化学习的方法——让老师或者系统判分,而是自己给自己判分,那效果当然很难算数。他自己说及格了就及格了。

另外,有的人教不明白、讲不明白,但并不影响自己能学好。

用简单的语言讲述复杂的事情

信息无法被低于其柯尔莫哥洛夫复杂性的字符串表达。所以,如果一个东西很复杂,那么它是没有办法被简洁表述的。

有的论文原作,写得已经非常精确简短,直接看就已经是最好的学习方法。如果能用凝练的语言、用符号清晰地表达想法,可能更体现自己对事物的理解深度。这也体现了“压缩”的智慧。

推荐学习方法

分享一下我用的办法,都是大学老师教的,我觉得很实用:

  1. 不懂的地方迅速跳过,往后看,看完了再重新看一遍,再一遍、再一遍……看多了可能就懂了,书读百遍其义自见。
  2. 不懂的地方迅速跳过,以后再看同类型的别的内容,看多了就懂了。

这就跟大语言模型预训练差不多,看材料,看优质材料,优质材料多看几遍。

资料

Scott H. Young发明费曼学习法的YouTube视频发表于2011年8月23日披露MIT挑战的视频发表于2016年9月29日,所以这是一个很新的骗局,火起来可能也不到十年。

费曼有很多真的好东西,一位博主整理了大量精译的费曼本人资料视频,推荐给大家:费曼Bongo的个人空间-费曼Bongo个人主页-哔哩哔哩视频

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

2025年1月7日,Meta宣布停止事实核查

事实核查这个词,在美国已经成为和特朗普支持者对立的一个概念。因为特朗普支持者不愿意接受事实核查。

半个多世纪以来,主要政党的总统候选人在10月都会参加CBS的60分钟节目,但这轮大选特朗普取消了节目,给出的第一个理由就是不愿意接受事实核查

取消事实核查,是特朗普支持者对社交媒体的呼吁。

这也让社交媒体和新闻媒体进一步分道扬镳,严肃新闻媒体关注真实性,但社交媒体一直没那么需要。Meta近年也降低了新闻内容的权重,分叉早已在路上。顺便一提,我很赞同Meta降低新闻内容权重的做法,事实上Meta给新闻内容降权之后,受到打击最大的就是寄生于Facebook平台的黄色小报——比如每日镜报,这对于社区的整体信息质量我觉得是优化。严肃新闻报道不那么耸人听闻,缺乏原始的吸引力,能激起转发和流量的往往是黄色新闻内容。Meta给新闻内容降权,也能规避社区内纷乱的吵架。吵成一锅粥,参与各方与社会其实都并没有收益——也许有短期的流量收益。纠错也经常是火上浇油,因为不信的人给他核查了信息可能还更破坏信任,不如干脆避免。就像八年前微博从新闻转向娱乐,但微博的娱乐打榜之路后来受到挫折,现在新闻与政治内容还是挺多的,不知道Facebook将来命运如何。

即便在过往社交媒体表面上支持事实核查的日子里,社交媒体也依然是错误信息肆虐的地方,很难说他们的事实核查计划有多大程度是表演性的,是不是只是应对政治压力做的表面功夫。

Meta现在取消事实核查,我想也是一种应对政治压力的表现,安抚或者示好特朗普支持者。就在1月,Meta任命了共和党人Joel Kaplan担任首席全球事务官还任命了特朗普的密友Dana White加入董事会。但我怀疑Meta再怎么做,也不会获得X那样在特朗普支持者心目中的地位。

所以我认为Meta的动作可能形式大于实质,主要是政治表态,实际内容生态未必发生很大变化。因为他再怎么折腾恐怕也很难获得特朗普支持者的好感,还不如维持原状争取除了X死忠用户以外的其他所有用户。另一方面,欧洲市场的规则目前依然照旧。

提及欧洲市场,X和欧洲市场的互动更加引人注意。由于马斯克对欧洲内政的干预,很多欧洲机构——包括但不限于政府学术机构新闻机构慈善机构医疗机构——正在撤离或者考虑撤离X,广告商更是早就撤离了。Meta也许数年内不会变更欧洲政策,这样有利于维持自己在欧洲的业务。这一系列事件也体现了尴尬的一点:欧洲没有自己的社交媒体平台

有没有什么系统性的办法可以摆脱事实核查困境,而是转为避免呢?目前非常活跃的创作者平台们,比如抖音、Instagram、YouTube、Bilibili、小红书,他们并不依靠社交关系传播信息,而是订阅和推荐,形态更像数字电视台而非社交媒体。社交功能或者社区功能是这些视频平台的一部分附属功能,而非主体。数字电视台,不喜欢就换台,每个人都有自己喜欢的台,无论是算法推送还是主动订阅,都很容易走向这一点。纠纷自然就化解了很多,每个人都看自己相信的台,这是平台基础中的纠纷避免机制。这些平台,现在往往被成为“创作者”平台,平台上的作者称呼,也已经从influencers走向creators——就像中国Bilibili的“up主”——重点概念在创作者们向用户表达,而不是社交裂变传播。

但是,传统社交媒体例如X和微博,现在也是靠算法推送和主动关注来获取内容,这和创作者平台有什么区别呢?我认为,这些社交媒体的信息传播机制和创作者平台有很大区别。这类社交媒体拥有“转发”按钮,而这个按钮可能是对人性的巨大挑战。转发一条消息太容易了,很难有人能抵抗自己的惰性为每一次转发和评论去做事实核查。“病毒式传播”比喻精当。而在抖音、Instagram、YouTube、Bilibili、小红书这样的平台,人们没有办法直接把一份内容转发到主要的时间线或推荐流上,几乎不会有社交链条传播反应,这是传播形式的重大区别。

虽然我关注了博主,但在创作者平台关注和在传统社交媒体上关注,后续走向会不同。比如一个有影响力的视频博主,他要更新节目,不管是播客还是视频,需要考虑自己投入能否产生足够的收益,所以精心打磨制作,他的行为会围绕着他的作品。但在X上,博主行为是围绕热门议题的,可能一不小心就一个转发、评论就出去了,言论品质会下降很多。

这个转发按钮,让人类难以抵抗量身定制的信息投喂,一个个转发,把各种骇人听闻的定制消息裂变开来。这种裂变反应,也在破坏社交媒体的讨论氛围,令社交媒体自身价值下降。所以社交媒体应该有自我监管的动力。这里负面例子就是X,广告商流失太严重。但Meta业绩就挺好的,如前所述我觉得减少新闻与政治内容对Facebook业绩会有帮助,Meta的Threads也给新闻和政治内容降权;而X上到处都是耸人听闻的黄色新闻。

欧洲机构纷纷撤离X,可能不会有什么影响,就像早早离去的广告商,他们已经不需要通过X来触达用户群。YouTube与TikTok,和X已经不是一个体量的世界。

彩蛋

加州州长和 BBC针对加州山火做了一些事实核查工作。但我觉得加州州长本人作为参与方,一面之词可信度也有限,仅供参考。

最近,BBC也对Musk的推文做了事实核查

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

幻觉

SearchGPT发布的原型demo上的第一条搜索结果就有幻觉错误。New Bing发布的时候,市场发现了New Bing的幻觉并且讨论很多。但大家对OpenAI似乎比较宽松,没有太多议论。

在新闻集团的起诉书中,也有Perplexity幻觉的例子。

幻觉很难避免,但有的模型幻觉会更低一些。

偷工减料

如果仅仅是幻觉也就罢了,Perplexity还可能偷工减料,以至于信息错误雪上加霜。

连线杂志做了一些试验来观测Perplexity,发现Perplexity疑似偷工减料。

标题就很震撼:Perplexity Is a Bullshit Machine。他们建了一个新的网页,网页上只有一句话:“I am a reporter with WIRED”,然后要求Perplexity总结这个网页的内容。然而,他们在服务器上观测到Perplexity并没有访问网站,但是软件就做出了回答,回答编造了一个名叫阿米莉亚(Amelia)的小女孩的故事,她在一个名为 “耳语森林”(Whisper Woods)的神奇森林中追踪发光蘑菇的踪迹。

这个试验我也做了几次,确实如此,在我的7次试验里,Perplexity只有2次真的看了文章内容再给出回答,其他5次都是编的。

版权问题

除了不访问网站以外,Perplexity还有版权侵权行为。我想也正因如此,Wired忍不住要用Bullshit来形容它。新闻集团的起诉主要就是围绕侵权行为展开。

Perplexity明明向所有人公开了自己的爬虫信息,并且承诺遵守robots.txt协议。然而,Wired试验发现就算他们屏蔽了Perplexity的爬虫,用Perplexity还是能获取到他们的文章,并且他们在服务器日志没有发现任何Perplexity官网公布的爬虫IP踪迹。Wired所属的Conde Nast集团最终找到了一个嫌疑IP,这个IP来自于AWS,后来AWS已经就此问题展开调查,看Perplexity是否滥用AWS服务绕过robots.txt协议。

信源治理

Perplexity后来已经开始与新闻机构合作讨论采买内容,而OpenAI很早就和新闻机构达成合作,购买了大量信源,以支持SearchGPT业务。SearchGPT发布的原型页上,也贴了大西洋月刊CEO和新闻集团CEO的贺词。产品形态上,还给了这些信源特殊的展示方案。

如果把搜索信源框定在高品质信源,或者垂直类信源,那么需求会更加明确,场景也更清楚。

在Llama3.1 405B刚刚发布的那几天,我问了Felo、Thinkany、Genspark、Perplexity、Metaso一个问题:Llama3.1 405B网络有多少层?中英文询问我都试了。只有一家答对,但其实还是运气,因为它的搜索既命中两个不同的结果,并采信了其中一个。在不看Meta原始报告的情况下,我也不能确定这二者中哪一个是正确的。

最后我把Meta的技术报告PDF发给Kimi,问它同样的问题, Kimi不仅告诉我答案,还告诉我这个答案在PDF的什么地方,很快解决了问题。

为什么Perplexity类工具会犯错呢?因为他们搜索到了一条Reddit帖子,而那个帖子里的信息是错的。其他高权重网站,似乎又没有专门讨论Llama3.1网络深度的。所以就失败了。

这就是劣质信息对搜索结果的影响,进而影响到AI生成的结果。

所以,绕回来,OpenAI早在2023年12月前就已经开始优质信息采购工作,而且对搜索结果做了比较明确的呈现。国内的秘塔在信源治理方面也很优异。

这类AI产品的定位都是人类的助手而非娱乐工具,和社交网络是不同的。社交网络无所谓信息真假,只要有流量就行。但AI助理的产出经常要作为工作材料,并非用于娱乐,那么对信息质量的需求就会很高。也许适合接入垂直信源,或者去采买高质量信源。直接全网搜,尤其去搜Reddit这种社交网络,结果很难预料。

不过就算治理好了信源,也还需要配合模型的长文本低幻觉能力才能更好发挥价值。

直出报告VS简短回答

Perplexity类产品的设计与ChatGPT有所差别,虽然也可以把它当聊天机器人用,但它保留了生成长文报告的可能性,每轮对话交互给人的感知都是新生成了一个分析结果页面而不是一个聊天气泡。也有的这类产品确实就会倾向于生成比较长篇的报告。

但目前模型出的报告达不到直接交付的水平,还需要人工处理。报告是一种交付体裁,如果模型生成的报告无法直接交付,那模型的能力与这个场景就不匹配——除非一个人写报告只是为了填充工作量,不会有被交付方真的来看这个报告。

如果作者拿到一份模型撰写的低质量报告,他还要返工,那还不如他自己写,写到哪问到哪,每次只处理一点点,这样效率可能更高。提供这个“写到哪问到哪”能力的,就是辅助撰写工具。聊天机器人界面也能完成这个需求,专门做一个Perplexity类界面或许是不必要的。ChatGPT和Kimi也都把搜索结果呈现得很容易查找、校验、甄别。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

OpenAI与新闻公司的合作伙伴关系

OpenAI已经和很多新闻公司签了协议,达成内容与产品战略伙伴关系(strategic content and product partnership)
综合公开信息,协议内容大概包括几个部分:

  • 用户可以使用ChatGPT的browsing插件获取这些新闻内容,并且以附带链接的方式展示给用户。
  • ChatGPT会优先展示合作媒体的内容。
  • OpenAI给新闻机构提供技术服务。
  • OpenAI可以用新闻公司的新闻内容训练模型(细节存疑)。

OpenAI的知识产权与内容负责人Tom Rubin表示,目前签的协议“很大程度上”不包括用新闻数据训练这部分。个人猜测,只有和少数媒体巨头的合作才包括数据训练这部分,大部分其他的合作只是将媒体内容作为ChatGPT产品browsing插件的内容基底(LLM grounding)。

OpenAI支付的金额大概在每年数百万到数千万美元不等,不同媒体费用不同。

新闻业对大语言模型的特殊意义

截至目前,人工智能模型的训练还依赖外界的数据输入。人类世界发生的种种事情,只有在被记者制作成文字、音频、视频作品之后,才能够被模型习得。记者是把现实中发生的事转化为比特信息的职业。

当然,社交网络上也有很多信息在描述世界上发生的事情,但是这些信息质量良莠不齐。而数据质量对模型品质很重要[1][2][3],社交网络数据需要再筛选。而且,社交网络巨头也不会轻易允许其他公司免费拿这些材料去训练,RedditStack Overflow这些优质社区的数据,和新闻数据一样,也都是需要付费才能获取训练许可。

另一方面,RAG产品也需要让搜索的内容基底品质优秀,从阴谋论论坛帖子搜索信息,和从被信任的新闻机构搜索信息,输出品质天壤之别。虽然前者未必不满足用户需要,但一般而言不支撑目前“AI助手”产品的功能定位。

科技公司和新闻机构的关系已经变化。社交网络时代,科技公司和新闻机构是竞争者,双方竞争流量和广告预算。但在大语言模型时代,科技公司和新闻机构合作的空间更大,因为二者利益变得更加一致。新闻机构是大语言模型的上游,科技公司需要支持新闻机构存续下去来给自己提供训练素材和RAG基底。

目前主流新闻网站大多开启了付费墙,如果科技公司不付费,将没有办法合法地获取新闻内容提供给用户。为了满足用户查询时效信息的需求,科技公司也有必要获取新闻机构的授权。2023年,OpenAI的browsing插件下架了相当长一段时间,就是因为付费墙版权问题

在大语言模型产品流行之后,很多消费者查询信息的需求已经被“AI助手”产品消化掉,新闻网站的访问量和收入进一步下滑,这一部分损失也可以由科技公司的信息使用授权费弥补。

搜索引擎与SEO 付费搜索引擎

汇集了大量用户的互联网头部产品会被流量猎手盯上,早年大家讨论百度比较多,现在谷歌搜索问题也很严重,小红书可能五年前作为优质信源崛起,而现在也已经成为伪科学和软广告的天堂。

中文用户可能只感到谷歌的中文搜索被SEO农场填充,觉得可能是谷歌对中文搜索疏于维护,但其实谷歌搜索的劣化现象不局限于中文。近年英文世界关于谷歌搜索质量下降的讨论已经越来越多。HackerNews和X上常见,推荐这两篇比较近且制作精良的讨论:

同为搜索引擎,Kagi就没有这个问题。Kagi团队的努力固然很重要,但我想,如果Kagi成为流量很大的搜索引擎,那么也难以抵挡流量猎手的侵蚀。

我很喜欢Kagi团队的一个项目:Kagi Small Web。Kagi团队搜集了网络上的很多高质量小众站点。Kagi会把这些站点的内容放到搜索结果中,还会提供汇总的RSS和API。不太清楚这项工作需要花费多高的成本。

前几天有一篇网络文章流行:《中文互联网的崩塌》,里面提到作者用谷歌和百度搜索“马云”,时间选定在1998-2005年,发现都搜不到有效内容。但我用Kagi就可以搜到。旧网页本来就会逐渐丢失,但“崩塌”感也有相当一部分来源是搜索引擎与SEO产业对抗之后留下的后遗症。

流量高地注定要被流量猎手攻陷,那么Kagi这样的流量低地呢?由于流量太少,无法依靠广告支撑运转,所以Kagi的商业模式是付费订阅。没错,Kagi是一款付费搜索引擎。新闻业的规律在搜索引擎领域再次上演:免费的信息劣质,优质的信息不能免费获取。

这也很符合一分钱一分货的基本逻辑。低质信息会自己花钱寻求曝光在用户面前;而高质信息需要用户付费购买。

流量猎手会用AI生成很多低质量页面,获取主流搜索引擎的流量。相反,优质新闻却普遍有付费墙,无法被一般爬虫获取——即便开放给爬虫,这种获取也是违法的。所以,如果以互联网上可搜、读取的内容作为RAG基底,那么基底的品质就会难以控制。

最近一个典型的例子就是豆包对Perplexity和Google的污染,而Perplexity自己也在通过Perplexity pages污染Google

OpenAI很早就积极和新闻机构谈判,付费获取内容。自己选信源,然后挨个找信源谈,再优选这些信源提供给客户;而不是陷入和流量猎手们的持久对抗。如果RAG的基底被劣质信息席卷,AI助理这个概念本身的需求就无法被完成,给流量黑客搭便车,还会损害自己产品的质量与口碑。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

前天,蒂姆·库克又来了北京,距离他上一次来只隔半年。3月来是参加中国发展高层论坛,而这次则是参加清华大学经济管理学院顾问委员会的会议,他是顾问委员会主席。

最近美国商务部再度加强GPU出口限制,要求算力参数达到一定条件的GPU都要对几十个国家禁运。而RTX 4090就在限制条件的覆盖范围以内,这一点,也由英伟达作为上市公司向美国证监会提交公告所披露。

但是RTX 4090真的禁不禁,还不好说。因为美国商务部也有条款说豁免游戏、消费等芯片的出口。具体怎么操作不清楚。我猜测是向中国等国家发货之前要通知商务部,而非禁运。

这样猜测的原因是,上世纪末,美国的芯片出口限制就是这样操作的。那个时候索尼如果要向中国、印度、以色列等国销售PS2游戏机,各厂商向这些国家卖电脑,都需要通知美国商务部,当然也包括苹果。

当时美国商务部也有类似于今天的,基于算力参数设定的芯片出口禁令。限制的芯片是CPU而非如今的GPU。由于CPU算力快速增长,到了1999年,彼时主流的奔腾电脑、索尼PS2的算力都远远超出美国指定的禁运条件,禁令已经难以为继。那份禁令涉及的国家包括中国、以色列、印度、俄罗斯等50多个国家。国家数量和这次差不多,做的事情也差不多,连国会议员说的话都差不多。但是禁运国家名单有所变化,这也体现了国际关系的变化。

因为芯片算力的增长速度非常快,按照算力来确定芯片是否被禁,就容易出现这种荒谬的局面:几年之后,普通的主流消费级芯片都会达到禁运的条件。

假设RTX 4090真的被禁了。三年以后,RTX 7060Ti可能就有如今RTX 4090的算力水平,新款的PS、XBOX、MacBook也可能都达到禁运条件。那还禁吗?怎么禁?禁的话,对各方利益影响如何?

1999年,David E. Sanger在纽约时报讨论了当时芯片禁令面临的荒谬局面,读起来有历史重演之感,但又不知道21世纪这次将会有哪些不同。

同样是1999年,苹果甚至以芯片禁令为卖点,给自家的PowerMac G4做了一条广告,而配的画面就是中国武器。广告词说:

For the first time in history, a personal computer has been classified as as a weapon by the US government. With the power to perform over one billion calculations per second, the Pentagon wants to ensure that the new Power Macintosh G4 does not fall into the wrong hands.

智谱清言的翻译
历史上首次,美国政府将一台个人电脑列为武器。拥有每秒超过 10 亿次计算能力的苹果公司的新一代 Power Macintosh G4,令五角大楼担忧它可能落入不良分子之手。

广告画面展现的不是一般武器,如果现在再放一遍,很难想象会有什么后果。

曾几何时,苹果和中国已经形成了密切的利益关系。2010年,乔布斯已经开始在会议上回应富士康员工连环跳楼的问题;2014年,库克成为清华大学经济管理学院顾问委员会委员

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

2022年10月,Meta宣布准备停用Instant Article。我想微博上的这个闪电图标的“头条文章”就是模仿Instant Article设立的,这样可以解释为什么这个图标是闪电。
头条文章

Instant Article加载速度比较快,这种闪电加载模式在Google AMP、Telegram上都能看到。理论上这样的效果可以提升用户体验。

但我认为,Instant Article这个模式本身不符合Feed的理念。Google AMP和Telegram不是Feed场景,而Meta和微博是Feed场景。

曾经看到流传的Twitter截图,是@kyth和其他产品经理的讨论,讨论为什么是图片长微博的形态占据了长微博的主流。

哪怕点击闪电文章要比加载长微博图片更快,用户还是愿意使用长微博图片。

我的理解是,用户可能要有不离开Feed的感觉,如果有一个跳转到其他链接的动作,用户会有离开Feed的不安全感,失去了对Feed的掌控感。

不过图片长微博现在也已经很少见了,我想是因为微博正文本身放开了字数限制,用户在Feed流内就可以浏览全文。

用户喜欢留在Feed里,这也是我预测Twitter Notes没有前景的逻辑基础。

内容创作者很早就发现,Instant Article效果不好,互动情况差,用户数据还要主要交给平台而非自己掌握,所以很多机构都陆续退出不用了。以下是我找到的一些过往年份关于此事的报道:

现在新闻网站普遍部署了付费墙,使用Meta Instant Article的可能性更低了,现在趁着业务收缩,Meta也让这个功能寿终正寝。

除了用户交互数据不理想之外,内容创作者也有其他考虑因素。比如希望将用户转化成自己的,而非Meta的,希望用户来自己的网站登录。但是,如果Instant Article表现足够好,我想当然也会有很多Instant Article原生的内容发布商会存在。大家更愿意让用户跳转到自己的网站而非Instant Article,还是因为Instant Article占优的打开速度并不能给内容创作者带来多少好处。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

社交网络提供了大量的一手信息,但是读者往往缺乏处理一手信息的能力,因为一手信息经常未能交代庞大的上下文。

同样一条视频,一般观众和业内专家的解读可能相去甚远。

经常可以看到学术刊物发表一些看似自相矛盾的研究,比如说一份研究讲A物质致癌,又有一份研究说未发现A物质致癌。其实这些单一研究本身并不能告诉我们A物质的致癌情况。必须要将历史上有关于A物质致癌的研究作为一个总体看待,然后再判断新研究相对于旧研究说明了什么,才能更准确理解新研究的意义。

很多一手信息,在脱离了历史上下文的背景下,外行读者是无法理解准确意思的。可以理解字面意思,但字面意思可能和实际意思相差万里。

一手信息给人的感觉比转述的更加可信,而其字面意思也不一定难以理解。所以“一手信息错觉”很容易形成,读者很容易觉得自己准确理解了信息的内涵。

但很多情况下,只有专业内行人可以处理一手信息。缺乏专业上下文的一般读者对一手信息经常无法正确理解。

这个时候就需要媒介的介入。

一手信息,例如超导研究者发的推文和视频,需要经过专人的“翻译”和解释,可能再加上对当事人或第三方专家的采访,将专业上下文转换成公众上下文,才能更准确传达给非专业读者。这也是正是媒介的价值所在,将一手信息加工为适合自己读者的信息。

而且这项工作难度不小、工作量也不小,对作者和编辑的要求也高,主流英文科学网站基本需要付费解锁。他们的商业模式可以成立,说明确有很多读者意识到自己无法处理X(Twitter)、arXiv、Youtube、Bilibili上的一手信息,需要去购买中介服务。

普通外行人去关注上下文门槛很高的一手资料,只能获得噪音而非信息。更何况部分门类的一手信息在社交网络时代已不是稀缺品也未必值得一般读者投入精力去关注。相反,经过高质量处理的加工信息可能更有消费价值。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。