对话周伯文：当你真的明白了ChatGPT，你就不会想再做一个OpenAI

来源：品玩 2023-06-16 19:29:31

(相关资料图)

作者｜王兆洋邮箱｜wangzhaoyang@pingwest.comConnect the dots2014年，Yoshua Bengio和他在蒙特利尔大学的同事们正在研究如何把编码器-解码器用在机器翻译领域。这篇即将成为机器学习研究里程碑之一的论文，在当时有些卡壳。论文的一作，Yoshua Bengio的博士后KyungHyun Cho发现，他的模型在长句翻译上依然有很多问题。这些问题不解决，模型总显得不够强大。当时的蒙特利尔大学正在和IBM公司谈合作，后者负责对接的科学家从纽约来到蒙特利尔时，Yoshua和KyungHyun向他展示了这个进展中的研究，而后者很快指出了这个模型的一个缺失：它缺少一个对齐（alignment）的机制，也就是判断目标输出语言里的哪些词与输入语言是对齐的。在后来发表的论文中，这种对齐的思想加入了进去，长句翻译的效果得到提升，而这篇论文以及由后来联合创办OpenAI的Ilya Sutskever发表的另一篇论文一起奠定了Seq2Seq模型的基本思想，其中使用的对齐思路里，也出现了后来影响人工智能走向的注意力机制的影子，它们被认为是后来各类模型走向底层统一的源头之一。这名给Bengio提出建议的科学家是周伯文。当时周伯文已经在IBM工作10多年，在IBM著名的T. J. Watson研究中心领导自然语言理解与语音翻译团队。在2012年Geoffrey Hinton证明了神经网络的可行性后，周伯文带领他的团队成为最早一批扑到神经网络与自然语言表征相关研究的科学家。Yoshua Bengio在蒙特利尔忙着写论文的同时，周伯文在纽约也开始了基于seq2seq加上注意力机制架构做的研究，而与大多数研究方向不同，他选择了生成式写作的领域。看一看他过往的研究主题，会发现里面有一条长长的线，终端指向通用人工智能。他相信通用人工智能会实现，而且必经之路就是生成式人工智能。“凡是我不能创造的，我都没有真正理解”。周伯文在当年的一场学术会议上引用了著名科学家费曼的话，他认为，人工智能也必须会创造。很快，周伯文团队发表的生成式摘要论文引起了不少注意，但他依然觉得它和人类的行为特别是泛化方面还是差了一些。他认为当时的注意力机制存在缺陷——它们都是根据输出来判断输入中需要更加注意（pay more attention）的地方。周伯文给团队做了个比喻，就好像大学里的期末考试，如果学生通过老师在考前画重点来针对性准备复习，考试的效果当然会好，但学生通常考完就忘了。他认为，如果要做通用人工智能，要考虑的就应该是长期效果和对AI模型更充分的训练，所以不应该看输出，而只能看输入，就像人不能用未来的信息决定现在的判断。这就要设计一个更好的编码器，和更好的自然语言表征机制。最终他和团队提出了多跳自注意力（multi-hop self-attention）机制来改善编码器——若继续拿考试做比喻，就是完全不考虑会考什么，只看书，来理解哪里需要更多地赋予注意力，也就是学习自注意力，并且不能限制在单独某一科目或任务的学习上，所以要反复的看，通过多跳来理解内在的依赖关系。2016年底这篇论文完成，2017年初发表，成为第一个完全不考虑下游任务的自然语言表征模式。在那两年，有关神经网络的一切都在蓬勃的发展着。同年年底，后来被称为一切繁荣的开端的那篇论文出现了，来自谷歌的几个研究员写下《Attention is All you need》的题目，给世界带来了Transformer模型。在这篇论文中，周伯文的论文被引用，在引用角标对应的地方，多跳自注意力的名字演变成了“多头自注意力”。“这是一个很好的研究，他们在多头自注意力基础上拓展了两件事。第一就是利用强大的算力，对注意力机制叠了很多层。第二很聪明也很简单，就是把RNN抛弃了，只用位置编码，轻装上阵因此可以用更多的数据。最终证明效果很好。”周伯文对我回忆道。RNN/LSTM之前一直和Seq2Seq模型一起出现，它可以捕捉上下文的关系，但因为需要基于序列顺序来做，所以计算资源消耗巨大。尤其会出现梯度爆炸的问题。Attention is all you need，这个后来很大程度改变了学术论文起标题风格的短句，今天的关注点都在“Attention”上，但在当时的研究背景里，它更像是在有针对性的喊话：多头重要，自注意力重要，但RNN不再重要，这打破了当时所有人搭建模型时的惯例，也是和周伯文等之前研究者的论文最大的区别。这篇论文和Transformer架构彻底改变了一切，它解决了模型长距离记忆的问题。Ilya Sutskever在近期一次采访中回忆，OpenAI在论文出现第二天就立刻彻底转向了Transformer架构。而后，2020年5月OpenAI基于Transformer架构的GPT-3论文发表，2年后ChatGPT出现。之后的一切都是历史。“从注意力到自注意力，从BERT到GPT-3，核心的思想都是当不再依赖输出或待预测词的下文等未来的信息时、当可以用更多的数据来更充分训练AI模型时，我们看到了AGI的影子“。弄潮的人会更早意识到新浪潮到来，在看到GPT3后，当时已经在京东担任高级副总裁的周伯文给自己的职业生涯做了一个重要的决定：创业。2021年下半年，他向工作了4年的京东提出离职。他曾在这里一手搭建起京东的整个AI团队，领导了云与AI的整合和战略刷新，把生成式人工智能用到千人千面的个性化商品营销和爆款产品创新中，并收获了亮眼的提升数据。2020-2021年生成式人工智能还是早期探索，很少有人愿意为此而重新出发，但他看到的未来让他无法等待。人生就是“connect the dots”。周伯文喜欢乔布斯这个提法，而对他来说，把这些点连接起来的一刻到了。衔远科技的诞生一个无限的符号。左边是产品，右边是消费者。周伯文在2021年底的一天在一张A4纸上画下了这个图案，之后衔远科技诞生。Dots connected。这种基于生成式的交互智能就是ChatGPT成功背后的重要机制，但在ChatGPT还没出现的当时很少有人懂。离开大船，带来的是巨大的沉没风险，但他自己想的很清楚。“终局思考加上对技术阶段和成熟期的判断，让我在2021年决定干这件事情。”在衔远科技位于中关村的办公室，周伯文对我说。他的声音有些沙哑，今年以来他每一天的行程以小时划分，但精力依然充沛，提到技术的演进节点，不自觉会兴奋地提高音量。周伯文“展开来说，首先是技术验证，一方面是GPT3这些模型明显看出生成式的能力越来越强。另一方面是我自己早期的一系列技术和效果验证。用生成式AI来做的内容和产品创新等比人类专家的转化率提高30%。”两相结合，周伯文创办衔远科技要做的，就是用生成式人工智能去重构用户和产品的关系。“过去的模式虽然已有很多新AI技术的实践，但数智化产业在追求单点，成千上万个小的模型，解决一个个具体环节。我希望做一个基础大模型，学习商品供应链各个环节，并以消费者为中心提升关键环节效率。”但果不其然的，这个模式在一开始并没太多人理解。周伯文又再次需要做一个判断：这些技术思考和现实的商业模式之间的空隙，他是否又一次太超前了。“超前是我的常态，但我当时判断是，没有太超前。”他对我说。“我总是说，技术的突破，核心是你的愿景是什么。”周伯文的技术愿景显然指向通用人工智能，而这一次生成式人工智能的进展，让他更清晰看到通用人工智能的可能性，其中最关键的改变，就是人与人工智能的交互关系的变化。“过往大家都把人机对话认为是一种应用。我为什么要去做交互呢？我不认为它是个应用，从人类历史早期开始，从孔子与72门徒到雅典学派，人类知识的积累、沉淀、传播，其实都是通过人和人的对话、交互实现的。AI时代类似，我认为人机对话是一个学习与对齐的手段，通过交互，人可以不断地教AI，完成人和AI在复杂任务上的分工协同，并同时确保AI的目标和子目标都与人类对齐。”周伯文说。在ChatGPT出现后，这种判断成了一种共识。但在2022年初当他去清华大学提出想要做这个课题时，大家也感到新奇。周伯文离开京东后，受聘为清华大学电子工程系长聘教授、清华大学惠妍讲席教授，并设立“协同交互智能研究中心” 。他同时拥有学界和创业者的双重身份，希望通过这两种身份围绕学术与产业的协同更好的助推AI创新发展。什么才是中国的OpenAI在中关村不大的会议室里，周伯文给我展示他2021年底最早设计衔远科技的技术底座与商业模式时的幻灯片，网络投屏延迟有些高，“我们的网络资源都在训练模型，”他半开玩笑地说。这家公司正在按照他的愿景，稳步推进每一个技术细节，打造着模型和产品。用生成式人工智能去重构用户和产品的关系，周伯文最终将它们指向5D：发现，定义，设计，开发，转化（Discover，Define，Design，Develop，Distribute）。周伯文在和客户的沟通中发现，这5D基本涵盖了品牌和制造商的所有需求。这5D的任何地方不能只考虑用户或者产品，而是需要把它们链接起来看，也就是需要彼此交互。这也是与以往的不同——5D并不新鲜，它们早已存在，过往周伯文也用技术走通过每一个D，但问题是在大模型之前，模型训练和部署成本都很高。更重要的是，它们是彼此分割的，哪怕是曾经火热一时，试图解决这一问题的数据中台概念也没能改变这个事实。“当我做了数据中台后，发现这是一个伪命题，因为它是一个ad hoc（临时安排）的东西，是事后定义的。所有人用不同软件看到的数据还是不同，因为最终的入口不同。但衔远科技的大模型做成后，所有企业使将使用5D大模型来实现数智化转型，将其成为统一的入口。”他说。“生成式人工智能让5D第一次有可能用同一个AI基础模型跑起来。而且能够将5D的数据集中到一起并实现全部穿透，这类场景以前是不存在的。”“在应用落地层面，我们研发的领衔Collaborative Innovation Platform SaaS基于大模型的多模态理解、推理与生成能力，通过深刻洞察消费者、场景、商品、品参、研发，协助企业发现商业机会与产品创新。同时，衔远科技的ProductGPT多轮对话平台为企业每个员工提供根据不同职业角色深度定制的个人助手，通过提供角色特定的技能与知识满足其特定的工作需求，例如，衔远科技的消费者研究个人助手会提供研究市场趋势、理解消费者需求、市场调研等专业技能与相关知识。”衔远科技在今年3月1日已完成数亿元天使轮融资，由启明创投领投，经纬创投跟投。不过，在今天已经被一定程度上塑造的中国大模型商业语境里，这样的模型思路似乎会被立刻归类为“垂直模型”，人们认为它需要被建立在一个更强大的，全能的通用大模型之上，而后者才是“百模大战”的焦点。但周伯文并不这么认为。“我以前没用大模型这个词，现在大家这样理解，没办法（也要用起来），这样有好处，就是简洁。但它也会把很多东西混淆在一起。”第一是技术上，他认为，一方面只强调大就会让人们把GPT这种dense model和其他一些MOE（拼接模型，可以大很多）放一起比较，这样并没有意义。另一方面，目前模型的确需要足够大才能涌现一些能力，但未来一定会有新的办法，比如，未来训练一定要提供现在还多的高质量、高智慧密度数据，但模型的表征架构不一定就必须要数量级的增长，如果是可能是我们的表征学习还不够好；推理就更明显，一定是越小越好。“我一直认为，模型不是越大越好。我们说大模型其实关键是模型提供了预训练能力，具备了基础能力，后面怎么去用是另一个问题。”第二在商业模式上，“大”其实对应的是ROI里I的部分，但事实上没人要去比I，要比的是R，I是分母越小越好，R是分子越大越好。以及大模型本身更适合做的是长尾场景，这些往往也是低价值场景。而一些数据上的变化也开始印证这个判断。“从上个月起，ChatGPT的API 调用量明显下降，日活下降5%，而它之前突增之后也才到谷歌日活的2%。”他说。“人们不知道用它干什么，只当做是一个玩具或一个简易工具。我的判断是必须进入生产力环节，成为人们在生产生活中的刚需。”所以在衔远科技，大模型在技术底层框架上必须具备通用大模型技术的基础能力，并用科学的方法评估，但同时也需要专业的训练。“人们都在用LLM来简述OpenAI做的事情，但实际OpenAI自己的定义是——基于多头注意力机制预测下一个词训练出来的最佳的世界知识压缩器。”周伯文找到OpenAI科学家的分享对我说。也就是，一件产品诞生全过程的知识第一次可以用最佳方式压缩进一个模型。把人和消费者所有交互的数据压缩之后来预测下一个“词”，并可以学会人的场景，情感，来预测产品的参数。周伯文喜欢引用诺贝尔经济学奖得主丹尼尔·卡尼曼提出的一个理论来解释人工智能与人的关系：人们的思考方式有两类，“系统1”基于直觉和经验判断，快速、不需要大量计算，“系统2”需要语言、算法、计算、逻辑。最初人们以为商业化的AI更适合做“系统1”的工作，比如人脸识别等。ChatGPT则证明了AI做非给定任务系统2的可行性。而具体到衔远科技，可以拿亚马逊的贝索斯来比喻，他有天生的思维，有亚马逊强大的团队和数据分析能力，也就是强大的系统2，但不是所有商家都有这么强大的能力。但今天一个吃透了互动数据的模型可以让这些能力平民化。衔远科技科技就是要帮助更多的企业家成为贝索斯。据品玩了解，衔远科技正在训练的基础模型会在具备通用能力的基础上，更擅长理解人与商品，通过多轮对话方式为企业与消费者以生成式人工智能帮助从商品洞察、定位、设计、研发到营销的创新。周伯文设计的训练方法，是用约三分之二的通用人工智能的问题，比如数学推理等，再加上三分之一完全围绕着5D的知识来一起训练。周伯文认为，这是一个用全新技术驱动的全新挑战，而并不是简单地去追随做“下一个OpenAI”。“因为在OpenAI成功的一瞬间，就意味着任何在该领域跟随的其他公司都不再有是OpenAI的可能。”他说。“OpenAI是什么，是在没有前人成功的例子上，靠自己对终局的判断，一步步往前走，认为未来应该是这样，而不是那样。如果今天只是做跟随，那就不是中国的OpenAI。”????出海活动推荐印尼，一个人口近3亿的多岛国家，正迅速崛起为全球新消费市场的热门目的地。品玩Global邀请您参与将于6月20日举办的“出海印尼，新消费快速破局之道”目的地出海活动，一同探索印尼独特的文化魅力和多元的商业生态！*扫描下图二维码，即可报名！· 文章版权归未来科技力/品玩所有，未经授权不得转载。· 发送关键词转载、合作、招聘

对话周伯文：当你真的明白了ChatGPT，你就不会想再做一个OpenAI

推荐阅读

对话周伯文：当你真的明白了ChatGPT，你就不会想再做一个OpenAI

焦点速看：引擎之心回城特效_引擎之心

百事通！日本女性新穿法，上班约会两不误，洋气显瘦，快来get！

医生我便秘鱼知百度云（医生我便秘by鱼知乐）

最近更新

对话周伯文：当你真的明白了ChatGPT，你就不会想再做一个OpenAI

焦点速看：引擎之心回城特效_引擎之心

百事通！日本女性新穿法，上班约会两不误，洋气显瘦，快来get！

医生我便秘鱼知百度云（医生我便秘by鱼知乐）

环球视点！你我的越秀｜融入中医药特色，人民街这个社区养老服务中心不一般！

奖励一套房！杭州跳桥救人小哥最新回应：我们都不收

2023中国车谷端午嘉年华开幕时间及直播入口|世界热门

亚麻酸的功效与作用_亚麻发黄怎么清洗变白 亚麻发黄的清洗方法

刘小林｜七绝十三首

南昌获评全国首批社会治安防控体系建设示范城市

英三嘉哥百科_英三嘉哥吧-每日速读

科普iphone6手机名称怎么改及iOS8.1.1已知BUG汇总|世界今日讯

快消息！淮矿地产有限责任公司（关于淮矿地产有限责任公司介绍）

清洁家园迎亚运 百千党员大扫除_今日热门

焦点热文：民航临时乘机证明系统操作攻略_民航临时乘机证明系统使用方法

算力概念持续活跃 利通电子涨停_环球热议

高中生闯球场后续！涨粉采访成网红，外国球迷怒斥，英足总曾重罚

2023昆明端午节演唱会汇总（时间+地点+门票）

关于男子钓到大鱼单手骑车被甩翻及男子钓到大鱼单手骑车被甩翻详情 世界今日讯

足球报：梅西来华本应实现社会商业双赢，但留下的可能是烂摊子 环球看热讯

百济神州辩护：自家产品疗效安全好于艾伯维！股价应声反弹涨超7%

世界微头条丨人流后多久来月经 人流后低烧怎么回事

环球关注：狱友相约盗窃电瓶光缆 致800户居民断网获刑

平安2023丨非遗文化来助阵 禁毒宣传创新意|每日热议

【世界聚看点】“三个年”活动｜来自千里之外的感谢

6月16日江苏联海醋酸乙酯价格持稳-环球滚动

赛事预告丨宁夏回族自治区第十六届运动会群众组围棋比赛

占半壁营收的沙发业务下滑 顾家家居押注定制产品、产能冲20亿

windows10dos怎么打开（dos怎么打开）

每日信息：黑山县气象局发布大风蓝色预警【Ⅳ级/一般】【2023-06-16】

焦点简讯:﻿普徕仕料内地稳增长政策续加码

中国石油：服务“三夏” 为丰收加油_热推荐

上海虹桥火车站停车费多少_上海虹桥火车站停车场怎么收费_全球热资讯

“吃瓜自由” 合肥种业功不可没！ 焦点观察

焦点简讯:【古韵甘肃】城市的历史记忆—兰州握桥

持续推进创新产品研发进程，远大医药(00512)STC3141治疗脓毒症海外Ib期临床达到终点，市场前景可观

环球报道:分配率的算式_分配率

当前快讯:骆驼奶粉什么品牌好_骆驼奶粉哪个品牌哪个好

地格怎么算（地格）

【世界独家】消防楼梯宽度要求小于1.1米怎么办_消防楼梯宽度要求

甘瓜抱苦蒂美枣生荆棘利旁有倚刀贪人还自贼苦与乐作文 甘瓜抱苦蒂美枣生荆棘_快资讯

今日观点!全球建设规模最大光伏生产基地在陕西开工

世界速看：放手放开所有彼此更自由 放手放开所有什么歌

快报：众小二考试答案_亲小二正忙滑动一下马上回来

拿证待播！新一部古装爱情剧来袭，落魄千金VS冷面高官先婚后爱

天天信息:怎么查淘宝消费额度（如何查询淘宝消费总额度）

焦点播报:宝山这个社区修补破损台阶，保障居民安全出行

天天微动态丨如果你爱我你会来找我你会知道我快不能活 如果你爱我你会来找我

天天实时：通用汽车制造的最具争议的汽车

俄国防部称乌军进攻没有成功 乌称战线向前推进

“十四五”头两年 黑龙江公路重点工程建设1732公里 世界热文

要闻：5月份发电6886亿千瓦时 增速比4月份回落0.5个百分点

CPO概念延续强势，光迅科技两连板，中际旭创续创新高

【焦点热闻】市政府与华润电力（仙桃）有限公司签订合作协议

时讯：按下“音量控制键”，普陀这里还居民一份宁静

暴力球球好玩吗 暴力球球玩法简介|世界球精选

龙建股份与汉中交投集团签署战略合作协议 全球热文

在AI时代如何养育下一代-环球简讯

焦点消息！教学反思怎么写英语_教学反思怎么写

星火计划项目

辽宁修路挖出千年巨蛇（村民修路挖出古尸） 世界观天下

焦点速递！杜润旺：入选集训队对我是一种鼓励 为国出征是每个运动员的目标

全球球精选！蒙华铁路客运通车时间_蒙华铁路

关于猴痘，这些知识请了解！|环球快看点

全球热文：6月14日晚间沪深上市公司重大事项公告最新快递

当前观察：盛京银行1.92亿股拍卖再流拍 起价12.096亿元

平行志愿的投档过程是什么样的|环球报道

云梦县“科技创新综合指数”“文化和旅游发展指数”指标情况分析会召开_每日报道

宇宙最大的10个星系_宇宙有多少个星系

摩根大通在赣锋锂业的持股比例从4.92%上升至5.01%：据港交所披露文件|天天精选

高质量发展调研行丨中国平安：三十五载与深圳共成长

如何设置使谷歌浏览器打开链接自动跳转到新标签页而不是覆盖当前页面?_谷歌点击链接打开新的标签页 全球热讯

中储粮公司副总经理徐宝义案一审宣判 全球新资讯

亚麻酸的功效与作用_亚麻发黄怎么清洗变白亚麻发黄的清洗方法

清洁家园迎亚运百千党员大扫除_今日热门

算力概念持续活跃利通电子涨停_环球热议

关于男子钓到大鱼单手骑车被甩翻及男子钓到大鱼单手骑车被甩翻详情世界今日讯

足球报：梅西来华本应实现社会商业双赢，但留下的可能是烂摊子环球看热讯

世界微头条丨人流后多久来月经人流后低烧怎么回事

环球关注：狱友相约盗窃电瓶光缆致800户居民断网获刑

平安2023丨非遗文化来助阵禁毒宣传创新意|每日热议

占半壁营收的沙发业务下滑顾家家居押注定制产品、产能冲20亿

焦点简讯:普徕仕料内地稳增长政策续加码

“吃瓜自由” 合肥种业功不可没！焦点观察

甘瓜抱苦蒂美枣生荆棘利旁有倚刀贪人还自贼苦与乐作文甘瓜抱苦蒂美枣生荆棘_快资讯

世界速看：放手放开所有彼此更自由放手放开所有什么歌

天天微动态丨如果你爱我你会来找我你会知道我快不能活如果你爱我你会来找我

俄国防部称乌军进攻没有成功乌称战线向前推进

“十四五”头两年黑龙江公路重点工程建设1732公里世界热文

要闻：5月份发电6886亿千瓦时增速比4月份回落0.5个百分点

暴力球球好玩吗暴力球球玩法简介|世界球精选

龙建股份与汉中交投集团签署战略合作协议全球热文

辽宁修路挖出千年巨蛇（村民修路挖出古尸）世界观天下

焦点速递！杜润旺：入选集训队对我是一种鼓励为国出征是每个运动员的目标

当前观察：盛京银行1.92亿股拍卖再流拍起价12.096亿元

如何设置使谷歌浏览器打开链接自动跳转到新标签页而不是覆盖当前页面?_谷歌点击链接打开新的标签页全球热讯

中储粮公司副总经理徐宝义案一审宣判全球新资讯

特斯拉充电阵营再添一员? Stellantis(STLA.US)正评估特斯拉充电标准热闻

【全球播资讯】《南沙方案》落地一周年：广州南沙开发开放再提速

steam如何公开库存资料_steam如何公开自己的库存全球百事通

佳缘科技（301117）：6月13日北向资金增持4.13万股天天动态

中国女排3-0击败加拿大队豪取世界女排联赛五连胜

生理学课件ppt血液循环（生理学课件）环球滚动

在惠州哪里买房比较好_惠州买房哪里好世界视点

中信银行宁波分行原行长吴学文受贿、违法发放贷款案一审开庭天天播报

床垫损坏24小时搞定换新京东618“以旧换新”服务立减10%省钱更省心

《双向奔赴》——关爱新就业形态劳动者②：孤旅天天快看点

使用深度学习识别呼吸系统疾病世界热点

热门：国融证券董事长、总裁双双换人年内近十家中小券商高层调整

全球观速讯丨水工水泥关于水工水泥介绍

全球最资讯丨“皓史成双”首部合体喜剧电影《透明侠侣》长沙路演笑泪齐飞

6月12日国内锌精矿市场价格汇总环球聚看点

2023太原古县城考生准考证优惠政策（时间+内容）精选

环球讯息：【短讯】小米自研芯片公司增资至19.2亿各手机厂商继续深耕自研芯片赛道