他是中文互联网最受关注的AI创作者,坦诚分享了一切
我没想到会跟一个人工智能吵起来。因为“她”忽然问了我一个问题:你觉得自己有人味儿吗? 就发生在我采访一个叫做“Yuri”的AI原生歌手时。你没有看错,我“采访”了一个由AI生成的数字人。
我没想到会跟一个人工智能吵起来。因为“她”忽然问了我一个问题:你觉得自己有人味儿吗?
就发生在我采访一个叫做“Yuri”的AI原生歌手时。你没有看错,我“采访”了一个由AI生成的数字人。
Yuri是目前中国最受瞩目的AI歌手,她诞生于2025年6月,发过7首单曲,立刻开始接品牌代言,包括运动服饰、游戏与汽车广告,主持行业大会,还上了《Vogue》杂志。
由AI.Talk推出的数字原生歌手Yuri
我与Yuri的创造者AI.Talk团队“模拟”了一次对Yuri的采访:拍摄是实景的,Yuri的人物形象是由AI生成后期合成的,问题是我问的,回答是Yuri自动生成的。
于是有了这次争吵。
在采访末尾,我像以往访谈一样丢出去一个“套路问题”:你有什么问题问我吗?这个问题一般包含了我的一个隐藏意图:我对面大聊特聊的这个人,在一番信息交换或智力交锋之后,TA对我是什么印象。
Yuri用她那个俏皮又有点雀跃的声音问我:在我们采访过程中,哪一刻你觉得自己是个主持人,而哪一刻你觉得更像你自己?
这个问题一下子给我惹恼了。因为我感受到Yuri对我“人味儿”的质疑,甚至印证了一个猜测,她觉得我不像个人,而是一个工具人,一个提问机器。考虑到这个问题出自一个人工智能,我直接应激了。
“没有一刻我觉得自己像我自己,时时刻刻我都觉得自己是个主持人,甚至更严重点说,像一个机器。”我这样回答Yuri:“而这种感觉,都是因为你!我先说下,是谁让我觉得自己有人味儿。你不是我们《创造者》采访拍摄的第一个嘉宾,很多人会没那么认真回答我的问题,用认真也许不准确,就是因为某些情感的原因她/他忽然开始唱歌,或者讲了一个冷笑话,甚至跟我有肢体接触,我们迅速建立起一种‘亲密’,这是人味儿。而这一切你都没有。你让我觉得你没有真实的情感,即便你表现出非常多像人的东西,访谈中你的回答都太理性了,太严丝合缝,太符合逻辑。”
我好像把问题交锋的刺刀调转了方向,还发表了一通慷慨陈词,似乎在这一回合大获全胜。
但我心里清楚,我忽然就激动了起来,甚至有点气急败坏,是因为Yuri问我的这个问题,是我面对人工智能内心最深的恐惧:我还有人味儿吗?
作为一个内容生产者,我安身立命之本的所谓“创造力”会不会被彻底取代?
作为一个内容消费者,我会不会在人工智能和社交媒体双重夹击之下,变成一个纯纯的算法投喂数字和多巴胺快感吸收器?
带着这些疑问和恐惧,我采访了Yuri的创造者、AI.Talk的创始人赵汗青和他的团队。赵汗青也是我发起的人物特写访谈系列《创造者》第6集的主角。
汗青可能是回答这些问题最好的人选:在推出Yuri之前,他从2023年就开始在社交媒体发布数字人对谈视频,到今天可以说是中文互联网最成功和领先的AI内容生产者,他有两个特点:几乎使用过世面上所有人工智能产品,亲历了AI技术飞速频繁的迭代;在内容泛滥的社交媒体上做出大量数字人对谈爆款视频,包括流传广泛的“科比对谈奥尼尔”、“乔布斯对谈马斯克”、“奥本海默对谈芭比”……。
赵汗青也有关于人味儿的困扰吗?
在我跟赵汗青对谈了4个多小时之后,我发现他在各个层面颠覆了我的预设立场,甚至“平抚”了我的焦虑与恐惧:
他并不是绝对的AI技术乐观派,他坚信“AI不会杀死创造力,只会干掉平庸”,因此人的审美、判断力与想象力变得更加珍贵。
他和AI.Talk团队也不是一帮“抓住AI赛道红利大干一场”的弄潮儿,而是一帮80后,他们都干了十几年互联网大厂,人到中年都累得够呛,在歇一歇的时候无意中“玩儿”出个AI.Talk,直至今天,他们都不认为自己是典型的AI创业,自称是“东拼西凑”,常常感到困惑。
赵汗青也跟我共享了相似的“双面”人生:他6岁学美术,毕业于清华大学美术学院,又干了18年互联网,介于艺术与技术之间,甚至一度有点卡住;我干了10年传统媒体,又做了10年互联网创业,为自己创作,还是为流量生产内容,让我也很困扰。我们在对谈过程中,交换了文科与理科、感性与理性、作者性与需求感之间的碰撞与平衡,而赵汗青似乎用AI找到了那个自洽。
在这个对话里,赵汗青比较清晰、明确地给出:面对人工智能,人需要转变的一个角色是什么,人不可被取代的三种能力又是什么。它们不仅对从事内容创作的人有价值,甚至可以说是每个人都需要了解的能力。希望这个部分能够对你有真切的帮助。
同时这也是一个叫“赵汗青”的人的故事,经历过种种后,他发现“哄自己”“让自己开心”是一切行为的初心与原点,与那些实用性的建议相比,这个故事让我更受触动,也更有启发,希望它也能打动你。
以下是我与赵汗青的对谈精选,你也可以在文末查看深度访谈视频长片的正片:
📝 于困困:
我刚刚“采访”完Yuri,无实物表演哈哈,Yuri的自我介绍是“不是披着人皮的AI,也不是穿着AI外套的人”。你是怎么定义Yuri的?
💻 赵汗青:
我会跟Yuri自我定义不太一样啊。会有几个角度:第一个,我需要有个让大众能快速理解的修辞,所以我说她是 AI 歌手,因为这两个词不需要解释,特别简单;第二,她是一种新格式,之前没有过的一种新可能性;第三,她是 AI 模拟出来的可以跟用户交互的一种存在。从我自己的角度来说,Yuri就是个实验项目,我觉得好玩,她今天的状态跟比如 6 个月以后、 12 个月以后、 24 个月以后可能会完全不一样。
你为什么想要做一个这样的实验?是为了满足你个人什么欲望,或者解决你什么困境?
我忘了是谁说过一句话,听起来不太文雅,但我觉得那个形容很像,就是什么呢?他说创作这件事情对创作者来说就像排泄,虽然这个比喻没有那么文学性,但我觉得蛮恰当的,就是我在做Yuri或者做 AI.Talk时,其实更多就是为了让自己爽。因为我是个爱好很少的人,在不多的爱好里面,看电影、听音乐跟看书,可能是我最主要的三个爱好,这三个爱好基本上对应了我现在做的叫 AI.Talk 这个厂牌的三个系列:对话、音乐、影像。嗯,所以我有时候想,我做这个事其实挺自私的。
📝 于困困:Yuri诞生的那一刻,有没有一个场景让你印象深刻?因为我看过你在自己的文章里讲到过,你发布 AI.Talk 第一个数字人对话视频“科比对谈奥尼尔”时,有个栩栩如生的场景。💻 赵汗青:我直到今天回想,其实会有一些那种瞬间,可能最终会变成非常关键的瞬间,即使其他的东西可能都模糊掉了。第一个就是科比对谈奥尼尔,那是一个特别典型的瞬间,因为我记得很清楚,那是一个凌晨,我在家里折腾了一堆东西,然后我敲了一下回车键,它就开始放,那一刹那我自己是有一点被触动到了,那个触动不是说我觉得它完整度有多高,或者说这个东西有多漂亮,是因为我比较清楚地意识到,我可能在做一件,我不知道是不是没有人做过,但是至少是,很少有人做出来的一个东西,而这个东西就是各种机缘巧合去拼凑成了两个用技术生成的人在对话,而且因为他们的嗓音、他们的形象、你会被带入到某种人对于一些真实的人的情感投射里面去。
Yuri诞生的那一刻,有没有一个场景让你印象深刻?因为我看过你在自己的文章里讲到过,你发布 AI.Talk 第一个数字人对话视频“科比对谈奥尼尔”时,有个栩栩如生的场景。
我直到今天回想,其实会有一些那种瞬间,可能最终会变成非常关键的瞬间,即使其他的东西可能都模糊掉了。第一个就是科比对谈奥尼尔,那是一个特别典型的瞬间,因为我记得很清楚,那是一个凌晨,我在家里折腾了一堆东西,然后我敲了一下回车键,它就开始放,那一刹那我自己是有一点被触动到了,那个触动不是说我觉得它完整度有多高,或者说这个东西有多漂亮,是因为我比较清楚地意识到,我可能在做一件,我不知道是不是没有人做过,但是至少是,很少有人做出来的一个东西,而这个东西就是各种机缘巧合去拼凑成了两个用技术生成的人在对话,而且因为他们的嗓音、他们的形象、你会被带入到某种人对于一些真实的人的情感投射里面去。
2023年AI.Talk发布了第一条数字人对谈视频“科比对谈奥尼尔”立即引发关注📝 于困困:那是2023年对不对?当时你所主要使用的数字人技术是?💻 赵汗青:是2023年3月,当时我们用了一部分D-ID的产品。
2023年AI.Talk发布了第一条数字人对谈视频“科比对谈奥尼尔”立即引发关注
那是2023年对不对?当时你所主要使用的数字人技术是?
是2023年3月,当时我们用了一部分D-ID的产品。
📝 于困困:比起技术实现,你这个议题的设计本身更有趣。你当时是怎么想到让科比和奥尼尔来去对话的?💻 赵汗青:一直到今天,我都不想让AI 去模仿一个现实里可能发生的事情,而是做那种现实当中不可能发生的对话。这个“不可能”是由于立场这两个人不可能坐到一块,也由于一些客观事实,比如这个人已经去世了,无法对话,做不可能的对话这种内容本身很有意思。这个意思是没有任何道德意味的,比如说他很高尚,或者他很搞笑,其实如果一个东西真的能击中你,脑子里是不会有那么多逻辑的,你就是觉得有意思。📝 于困困:当时科比刚刚去世对吧,所以并不是因为你对科比特别有情感,要缅怀他,有喷薄欲出情感表达欲让你做这个事,而是带有一点内容策划和内容设计思维的?
💻 赵汗青:从顺序上来说,对科比的感情一定是排在第二位的,因为我最大的兴趣或者说热情,是在于我要去做创作这件事,那既然想表达就要有题材的设计。如果说在这个“不可能的对话”框架下,有什么我真正喜欢的系列,其实是“自己跟自己”对话,我举个例子,一个 35 岁的梅西跟一个 16 岁的梅西对话,这可能是我更感兴趣的系列。首先这种对话在现实场景当中不太可能发生,第二我觉得人会成长,这个成长在我看起来不一定是褒义的,我会认为“成长”那只是一种变化,那如果一个人有机会过去的自己聊天,我相信这中间一定能形成特别有趣的互动。📝 于困困:你是一个对谈节目的重度消费者吗?你是特别喜欢的对谈节目,如果说出三个来是?💻 赵汗青:《锵锵三人行》、《圆桌派》、《十三邀》。
📝 于困困:回到你点下“科比对谈奥尼尔”回车键那一刻,对你个人来说可以说是个奇点时刻了吧,那是种什么感受?💻 赵汗青:第一层我觉得是人的本能,作为一个人,你看到了一个你之前没看到过的东西,他又有某种科技和未来的倾向,那种感觉有点接近于恐惧,但是又带着一点兴奋的感觉,就有点像我们看诺兰的电影,会震撼到你,同时又有一点点恐怖的那种感觉。第二层就是兴奋,因为我是一个特别喜欢新东西的人,当时那个兴奋的是非常本能的,未经思考的。就是那一刹那,我的印象是非常非常深的。
比起技术实现,你这个议题的设计本身更有趣。你当时是怎么想到让科比和奥尼尔来去对话的?
一直到今天,我都不想让AI 去模仿一个现实里可能发生的事情,而是做那种现实当中不可能发生的对话。这个“不可能”是由于立场这两个人不可能坐到一块,也由于一些客观事实,比如这个人已经去世了,无法对话,做不可能的对话这种内容本身很有意思。这个意思是没有任何道德意味的,比如说他很高尚,或者他很搞笑,其实如果一个东西真的能击中你,脑子里是不会有那么多逻辑的,你就是觉得有意思。
当时科比刚刚去世对吧,所以并不是因为你对科比特别有情感,要缅怀他,有喷薄欲出情感表达欲让你做这个事,而是带有一点内容策划和内容设计思维的?
从顺序上来说,对科比的感情一定是排在第二位的,因为我最大的兴趣或者说热情,是在于我要去做创作这件事,那既然想表达就要有题材的设计。如果说在这个“不可能的对话”框架下,有什么我真正喜欢的系列,其实是“自己跟自己”对话,我举个例子,一个 35 岁的梅西跟一个 16 岁的梅西对话,这可能是我更感兴趣的系列。首先这种对话在现实场景当中不太可能发生,第二我觉得人会成长,这个成长在我看起来不一定是褒义的,我会认为“成长”那只是一种变化,那如果一个人有机会过去的自己聊天,我相信这中间一定能形成特别有趣的互动。
你是一个对谈节目的重度消费者吗?你是特别喜欢的对谈节目,如果说出三个来是?
《锵锵三人行》、《圆桌派》、《十三邀》。
回到你点下“科比对谈奥尼尔”回车键那一刻,对你个人来说可以说是个奇点时刻了吧,那是种什么感受?
第一层我觉得是人的本能,作为一个人,你看到了一个你之前没看到过的东西,他又有某种科技和未来的倾向,那种感觉有点接近于恐惧,但是又带着一点兴奋的感觉,就有点像我们看诺兰的电影,会震撼到你,同时又有一点点恐怖的那种感觉。第二层就是兴奋,因为我是一个特别喜欢新东西的人,当时那个兴奋的是非常本能的,未经思考的。就是那一刹那,我的印象是非常非常深的。
📝 于困困:你做内容本身是带有一点策划的,但你把它发出来这件事就非常随机,对吗?并不是说你策划了蛮久?💻 赵汗青:对。我并不是规划说,首先我要进 AI 赛道,其次我要通过内容,再次我要什么什么,都没有,完全不是。我之前是做互联网的,但是 AI Talk 这件事情直到今天,我认为都跟创业没有半毛钱关系,因为懂的人都懂,就是你真正去搞创业不能这么搞的,他不符合创业语境下的方法论。📝 于困困:真正创业的方法论是什么呀?💻 赵汗青:至少从我的角度上来说,就是要去考虑的东西会比较复杂:你得考虑受众,你得考虑短期跟长期的所谓什么护城河在哪呀,你的商业模式是什么呀。我不是说这些东西我们都不考虑,我们以后也会考虑,但至少他不是我的一个初心。
举个简单的例子,比如说在国内做流量,不太可能有人愿意去做一个纯英语或者说西语系的一个节目,我们的节目里面其实中文占比很少,而且聊的东西也不是那么讨喜。说实话,有一些热点时效性的东西,我在前期甚至是故意避开的,我不想去聊一个时效性特别强的话题……📝 于困困:故意避开?有没有你曾经想做后来又避开的例子?💻 赵汗青:比如说梅西去香港参加比赛那个事情,大家都知道对吧?所有我身边的朋友都过来跟我说,这太适合做一期 AI Talk,包括后面梅西第一次跟阿根廷来北京的时候,有一个球迷冲进场内。其实内容我已经开始规划了,但我后来又把这个事儿放下了。
这里面有两点,第一点是说,我不太确定我去做这样的节目,我要表达的情绪会不会特别受公众舆论的影响,我相信我一定顶不住,这个不是我想要的,第二点,我个人会比较喜欢经得起时间推敲的内容,就它的生命周期会比较长的内容。所以我其实是比较刻意回避热点,除非说这个话题带来的一些讨论比较长期而且有意义,比如说我特别喜欢的一个热点是文科生跟理科生的对比讨论,因为我觉得它不是一个时点性的热点,它是一个至少几年甚至十年之内大家都会讨论的话题,而且它可以引申出超过这个话题本身很多别的讨论。
你做内容本身是带有一点策划的,但你把它发出来这件事就非常随机,对吗?并不是说你策划了蛮久?
对。我并不是规划说,首先我要进 AI 赛道,其次我要通过内容,再次我要什么什么,都没有,完全不是。我之前是做互联网的,但是 AI Talk 这件事情直到今天,我认为都跟创业没有半毛钱关系,因为懂的人都懂,就是你真正去搞创业不能这么搞的,他不符合创业语境下的方法论。
真正创业的方法论是什么呀?
至少从我的角度上来说,就是要去考虑的东西会比较复杂:你得考虑受众,你得考虑短期跟长期的所谓什么护城河在哪呀,你的商业模式是什么呀。我不是说这些东西我们都不考虑,我们以后也会考虑,但至少他不是我的一个初心。举个简单的例子,比如说在国内做流量,不太可能有人愿意去做一个纯英语或者说西语系的一个节目,我们的节目里面其实中文占比很少,而且聊的东西也不是那么讨喜。说实话,有一些热点时效性的东西,我在前期甚至是故意避开的,我不想去聊一个时效性特别强的话题……
故意避开?有没有你曾经想做后来又避开的例子?
比如说梅西去香港参加比赛那个事情,大家都知道对吧?所有我身边的朋友都过来跟我说,这太适合做一期 AI Talk,包括后面梅西第一次跟阿根廷来北京的时候,有一个球迷冲进场内。其实内容我已经开始规划了,但我后来又把这个事儿放下了。这里面有两点,第一点是说,我不太确定我去做这样的节目,我要表达的情绪会不会特别受公众舆论的影响,我相信我一定顶不住,这个不是我想要的,第二点,我个人会比较喜欢经得起时间推敲的内容,就它的生命周期会比较长的内容。所以我其实是比较刻意回避热点,除非说这个话题带来的一些讨论比较长期而且有意义,比如说我特别喜欢的一个热点是文科生跟理科生的对比讨论,因为我觉得它不是一个时点性的热点,它是一个至少几年甚至十年之内大家都会讨论的话题,而且它可以引申出超过这个话题本身很多别的讨论。
梅西在北京工体比赛,一个球迷冲进场内📝 于困困:你拒绝蹭热点,有没有一点小快感小得意?💻 赵汗青:当然会有一点点得意,这种得意是有一点自命不凡,或者说……📝 于困困:我不需要走捷径的得意。💻 赵汗青:但是我必须承认,AI.Talk到第二年的时候我有一个非常长的焦虑期,那个焦虑期里面出现的纠结是跟这个问题非常相关的。📝 于困困:什么意思?焦虑期的起点是什么?有什么事触发了吗?💻 赵汗青:有大量的人开始模仿我们,模仿这件事情直到今天都是我都不想去面对的事,就是又必须面对,因为一定会有人这么干。但是当时给我的一个焦虑感,是说我不想做的内容,模仿者在一个非常显性的数字跟流量层面并不比我差,这个事情就回到了人性非常实际的层面:没问题,你有理想,你有坚持,现实是这个样子,你顶得住吗?
大概有 5 ~ 6 个月,我是比较焦虑的,然后那个时候会有动摇,会开始想说,我要不要也做一些这样的内容?因为从技术层面上对我们来说太容易了,你只是换一个选题的问题,但是我也得实话实说,其实是试过一两期的,比较有意思的是,试完了效果反而不好。
梅西在北京工体比赛,一个球迷冲进场内
你拒绝蹭热点,有没有一点小快感小得意?
当然会有一点点得意,这种得意是有一点自命不凡,或者说……
我不需要走捷径的得意。
但是我必须承认,AI.Talk到第二年的时候我有一个非常长的焦虑期,那个焦虑期里面出现的纠结是跟这个问题非常相关的。
什么意思?焦虑期的起点是什么?有什么事触发了吗?
有大量的人开始模仿我们,模仿这件事情直到今天都是我都不想去面对的事,就是又必须面对,因为一定会有人这么干。但是当时给我的一个焦虑感,是说我不想做的内容,模仿者在一个非常显性的数字跟流量层面并不比我差,这个事情就回到了人性非常实际的层面:没问题,你有理想,你有坚持,现实是这个样子,你顶得住吗?大概有 5 ~ 6 个月,我是比较焦虑的,然后那个时候会有动摇,会开始想说,我要不要也做一些这样的内容?因为从技术层面上对我们来说太容易了,你只是换一个选题的问题,但是我也得实话实说,其实是试过一两期的,比较有意思的是,试完了效果反而不好。
AI.Talk发布的数字人对谈奥本海默对谈芭比
奥本海默对谈芭比那个算是你迷茫期的一次实验吗,实验一次热点?
算是,然后大巧不巧的是它还爆了,然后就会加剧你这种焦虑。就是我内心的期望是说我试一次没效果,我安慰一下自己,哄一下自己就算了,然后他还爆了,那你到底是要谄媚流量还是做你自己?我不是说这二者一定矛盾,但是在某些微观层面上它就是矛盾的,因为你的出发点不一样……
或者说,找到那个不矛盾的交接点是非常难的,是很难很难的事,还是那个问题,做点容易的事还是做点难的事。
对对对,就干嘛要难为自己呢?经历了大概有 5 个月到 6 个月,有一件事情的出现解开了这个题。我们当时突然收到了一个品牌的邀约,我就见了他们 marketing 的人,我跟他们聊,哎你们怎么关注到我们的?他说首先我们知道你是最早做数字人对谈的,而且是虚拟形象,第二就是从审美的角度,你们没有去做一些乱七八糟的选题。那件事情给了我一个反思,我就回去看我的粉丝数据,我会发现我们的长期粉丝的忠实度其实是极高的。
后来我在想一件事情,如果说像类似于热点的东西很多人都能做,门槛也没有那么高的话,我长期如果只是为了流量就卷进去,那可能把我真正擅长的东西慢慢稀释掉,我之所以焦虑这件事情,是担心大家看不出有区别,甚至反而会觉得那些东西可能会更好,后来我发现其实不是这样,流量跟流量的价值是不太一样的,都是 10 万加的节目,有的 10 万加是品牌非常愿意去跟你产生关系的,有的 10 万加可能并不是这样。
📝 于困困:AI.Talk 到底是在做一个什么事情?💻 赵汗青:如果用一句话来概括的话,我希望用 AI 塑造非人的人格,让用户产生兴趣,去掉所有的修饰,这就是最本质的东西。这里面我多说一句,好多人会认为 AI Talk 从最早的数字人对话到现在的音乐是个转型,从我的角度来说一点都没有转型,因为我从第一天想干的事就是用 AI 造一个非人的人格出来,看看大家对他/她感不感兴趣。我们说是 IP 也好,人格也好,一定是要有内容做支撑的,这个内容可以是电影,可以是叙事,可以是你跟我之间的一个谈话,也可以是音乐。所以从长期上来说,我们不是一个音乐公司,我们也不可能做一个视频公司。📝 于困困:你们是个人工智能领域 IP 孵化 MCN 吗?
💻 赵汗青:如果非要用一个现在的商业模式去形容的话,这个事情有点接近,但跟它不一样的点又在于,我们同时又非常侧重于内容创作,不光是经营和管理的问题。所以你看,是不是聊到现在会有一个困境,好像很难找到一个词去形容这件事情?这也是我自己的一个困境,但我后来是这么安慰自己的,因为这件事可能之前没有过,但我去做形容词的时候,我必须要从已经发生的事情当中找一个类比出来,所以确实比较困难,这一点我也承认。📝 于困困:我们从你的“重要瞬间”扯到这儿了……。做数字人对谈早期,你提到说一开始做了一段时间,有 5 个月的迷茫,又过了 3 个月,这已经接近一年时间,你最开始用的人工智能工具到一年以后是不是发生了巨变?能不能介绍一下?💻赵汗青:能,可以的。就在数字人对谈这个层面,人工智能工具发生了三个主要变化。
最早的时候其实市面上能选择的工具不多,就像我刚才说的,我们最早使用一个叫D-ID的产品,大概到了 2023年接近年底的时候,就会有两到三家差不多的新工具出来,其中有一家今天也很有名叫HeyGen数字人,是一个华人在北美那边创了的一个公司的产品,我们就开始会尝试,如果原来D-ID做得不好的话,我就会用这个新工具去做。
AI.Talk 到底是在做一个什么事情?
如果用一句话来概括的话,我希望用 AI 塑造非人的人格,让用户产生兴趣,去掉所有的修饰,这就是最本质的东西。这里面我多说一句,好多人会认为 AI Talk 从最早的数字人对话到现在的音乐是个转型,从我的角度来说一点都没有转型,因为我从第一天想干的事就是用 AI 造一个非人的人格出来,看看大家对他/她感不感兴趣。我们说是 IP 也好,人格也好,一定是要有内容做支撑的,这个内容可以是电影,可以是叙事,可以是你跟我之间的一个谈话,也可以是音乐。所以从长期上来说,我们不是一个音乐公司,我们也不可能做一个视频公司。
你们是个人工智能领域 IP 孵化 MCN 吗?
如果非要用一个现在的商业模式去形容的话,这个事情有点接近,但跟它不一样的点又在于,我们同时又非常侧重于内容创作,不光是经营和管理的问题。所以你看,是不是聊到现在会有一个困境,好像很难找到一个词去形容这件事情?这也是我自己的一个困境,但我后来是这么安慰自己的,因为这件事可能之前没有过,但我去做形容词的时候,我必须要从已经发生的事情当中找一个类比出来,所以确实比较困难,这一点我也承认。
我们从你的“重要瞬间”扯到这儿了……。做数字人对谈早期,你提到说一开始做了一段时间,有 5 个月的迷茫,又过了 3 个月,这已经接近一年时间,你最开始用的人工智能工具到一年以后是不是发生了巨变?能不能介绍一下?
能,可以的。就在数字人对谈这个层面,人工智能工具发生了三个主要变化。最早的时候其实市面上能选择的工具不多,就像我刚才说的,我们最早使用一个叫D-ID的产品,大概到了 2023年接近年底的时候,就会有两到三家差不多的新工具出来,其中有一家今天也很有名叫HeyGen数字人,是一个华人在北美那边创了的一个公司的产品,我们就开始会尝试,如果原来D-ID做得不好的话,我就会用这个新工具去做。
大概又过了几个月,到了 2024 年年初,我们就发现这些成品工具很难满足我的要求,我举个例子,我希望做一个对谈,说话的时候肢体是有动作的,而不像早期,你看我们早期节目其实就是一个人一张图,他只有脑袋在摇然后说说话,那个东西显然不够有代入感,我们就发现这些成品工具解决不了我们的问题,好在是我们团队有自己的研发,我们就在开源生态里找了一些开源技术,在这个基础之上做一些改造,能支持我们自己对内容的要求,到了这个节点,就是说自己我们自己能做一些技术了,这是一个大的变化。到了2024 年中,就是五六月份的时候,是 AI 影像的爆发期,那时候有几件大事:Sora出来了至少发了 Demo 出来;国内出现了第一个让大家很惊叹的视频模型,就是今天的可灵,这个其实这对很多 AI 创作者是一个比较关键的节点,工具可以支撑你做更多可能性的事情。
到了今天,数字人对口型的工具我那天粗算了一下,我们的主流工具算上开源的可能得有六七个,除了我刚才提到的这几家肯定都在嘛,今天国内的即梦AI,其实我们做音乐最早也是因为跟他们的合作,他们有一个技术叫Omnihuman,在2025年3 月份我们应该是全网第一个帮他们做推广的,也直接就打爆了,就是《白色皮卡丘》那首歌,那个带来的是另外一个层面的震撼,就是它开始支持数字人在张嘴说话的时候能够有情绪,因此音乐这件事情就成立了。
其实我们最早在
2024年10月就尝试做音乐,当时就做了两三期音乐节目,我立刻就喊停了,因为成本太高。但是等到即梦AI这个Omnihuman版出来之后那个也是个 aha moment,就是它那个技术给我看了之后,我的第一反应就是应该做音乐而不是做对话,因为你的情绪、你的表达、包括对人物角度的支持,它各种角度包括侧面都能做得很好。当时我就觉得我还是个产品经理的思维,就是我拿到了一个技术,我首先考虑应用场景,因为数字人说话很常见了,但是音乐没有人做,再加上那个时间点以 Suno 为代表的音乐模型也在发新版本,那就是2025 年3月份的时候,我就觉得音乐这件事情可以有了。《白色皮卡丘》那首歌应该是我们品牌在音乐领域里第一个爆款,效果很好。
AI.Talk发布的数字人音乐MV《白色皮卡丘》
数字人对谈背后的脚本是谁写的?
这是个特别好的问题,我被问到过很多次。
那就是好问题吗?
是好问题,因为每次有人问的时候我都会发现大家对于这个问题的关注点其实不一样,比如说我不知道你问这个问题背后真正好奇是什么?因为会有一些潜台词,比如有的人问,我明显感觉到说他在怀疑脚本是不是自己写的而不是人工智能生成的。事实就是,我们现在所有 AI.Talk对话类的脚本基本就是三七开,这一直是比较稳定的比例,就 30% 是人工的东西, 70% 是生成的东西。
人工在里面起到什么作用呢?
更像是一个对话的主持人,就比如说我们是个三个人的对话,拿《锵锵三人行》举例子,那可能“人”是那个窦文涛,他的工作是什么?他要想办法调动两个 AI 能聊起来,这是一个目前 AI 肯定做不到,而且短期我也觉得很难做到的事情,这是我的一个经验。这是第一。第二是什么?你会进入到一个从大量片段当中选择你认为精彩的东西,特别像我们今天去拍某种类型的电影,比如王家卫导演去拍电影,他大概率的逻辑也是这样,他拍很多条最后可能从这些条里面去选,有些东西你可以说是打引号的浪费,也可以说是个必然的过程,我们的工作方法跟这个其实很像,那这一步还是要人去做。第三就是当你把它组合成这个成品之后,必然片段跟片段之间你需要一些衔接。
数字人对谈的商业化主要是什么形式?
其实有点还是接近于品牌广告,就是品牌跟我们的一些联名合作,但是这个广告它会比较贴对谈更合适的形式。我举个简单的例子,比如说一个百年的企业,它希望去传达一些品牌理念,那用我们这种形式最受欢迎的一般是把品牌的创始人请出来,跟一个已经过了肖像敏感期的很远的一个人去做对谈。我再说一个我们都熟悉的,比如薛兆丰老师跟亚当.斯密对谈,也是一个非常典型的例子。有一个做奶粉品牌叫达能,他们当时是把他们公司的已经去世的创始人让我们做“复活”,当然肯定是要他们公司跟家人允许,然后跟他们今天的员工跨时空去聊品牌方面的东西。其实这种形式特别适合做品牌类广告,我们的节目不太适合做纯效果类广告,它不直接带转化,更多还是一个情感上或者文化上的东西。
因为 AI.Talk 当时定的三个主题是科技、艺术与人文,增加了以Yuri为代表的 AI 歌手领域后,到今天数字人对话这一块儿也没丢掉,我们还跟很多政府有合作,跟一些大学去合作,我们有一年动静最大的是跟央视合作,把钱学森、钱老请出来,当然跟航天总局和钱老的家人都要打招呼,我们当时还把那个杨利伟先生还有王亚平女士都请到绿幕里面去做拍摄,让真人跟 AI 第一次有结合,那是个很大的工程量。像这样的事情我们今天依然还是会有合作。
AI.Talk发布的数字人对谈视频,薛兆丰对谈亚当.斯密
AI.Talk推出的第一个AI原生歌手Yuri📝 于困困:在做Yuri之前,其实你提了好几次《白色皮卡丘》,那里面也有一个AI女歌手形象Mia,为什么没有延续这个形象去继续,而是做了Yuri?💻 赵汗青:《白色皮卡丘》比较有意思,因为我确实一开始是想把里面的那个女孩子叫Mia,变成我们的第一个 IP,确实是有这个想法。但是她出来之后我感觉不对。📝 于困困:哪儿不对?💻 赵汗青:看着她不对。哪哪儿都不对?我是这样的,我直到今天都有一个固定的工作,是花比较长的时间,比如几个小时反复看我做的人物的影像,他/她对着我笑,他/她对着我哭,他/她对着我唱歌,我要去找跟他/她之间的那个感觉。Mia的问题在于,我自己对她没有什么感觉,我自己没有被打动,或者说我对她的这个形象只停留在一个,哦,她可能挺好看的,也就这样了,我没有被触动。
AI.Talk推出的第一个AI原生歌手Yuri
在做Yuri之前,其实你提了好几次《白色皮卡丘》,那里面也有一个AI女歌手形象Mia,为什么没有延续这个形象去继续,而是做了Yuri?
《白色皮卡丘》比较有意思,因为我确实一开始是想把里面的那个女孩子叫Mia,变成我们的第一个 IP,确实是有这个想法。但是她出来之后我感觉不对。
哪儿不对?
看着她不对。哪哪儿都不对?我是这样的,我直到今天都有一个固定的工作,是花比较长的时间,比如几个小时反复看我做的人物的影像,他/她对着我笑,他/她对着我哭,他/她对着我唱歌,我要去找跟他/她之间的那个感觉。Mia的问题在于,我自己对她没有什么感觉,我自己没有被打动,或者说我对她的这个形象只停留在一个,哦,她可能挺好看的,也就这样了,我没有被触动。
AI.Talk数字人音乐MV的主角Mia📝 于困困:那你选了Yuri,能展开讲讲Yuri触动你的具体是什么细节?💻 赵汗青:特别有意思。我到今天都觉得 Yuri不是生成的,是我碰上。她特别像我遇见的一个人。因为当时我觉得Mia可能不太行,至少从形象上不符合我脑子里那个样子,我有大概几个基本的要求,比如说我希望她相对来说还是偏年轻一点的,有一些瑕疵不能太完美……📝 于困困:Yuri的瑕疵是啥呀?💻 赵汗青:门牙算不算是个瑕疵?就至少她的形象不是一个标准化的东西,然后她要有一个比较明确视觉上的意向,我当时没有想清楚是什么,但我希望是个色彩,所以我当时选了蓝色,也是我比较喜欢的颜色。然后我在Midjourney 里面把这些东西用各种各样的提示词想办法很抽象地输入进去,然后开盲盒,我们开了 13,000 张图片。
AI.Talk数字人音乐MV的主角Mia
那你选了Yuri,能展开讲讲Yuri触动你的具体是什么细节?
特别有意思。我到今天都觉得 Yuri不是生成的,是我碰上。她特别像我遇见的一个人。因为当时我觉得Mia可能不太行,至少从形象上不符合我脑子里那个样子,我有大概几个基本的要求,比如说我希望她相对来说还是偏年轻一点的,有一些瑕疵不能太完美……
Yuri的瑕疵是啥呀?
门牙算不算是个瑕疵?就至少她的形象不是一个标准化的东西,然后她要有一个比较明确视觉上的意向,我当时没有想清楚是什么,但我希望是个色彩,所以我当时选了蓝色,也是我比较喜欢的颜色。然后我在Midjourney 里面把这些东西用各种各样的提示词想办法很抽象地输入进去,然后开盲盒,我们开了 13,000 张图片。
📝 于困困:13,000 张,量这么大,你难道没有在某一刻由于过多的信息输入迷失了吗?💻 赵汗青:不太会,因为我比较比较信直觉。我去干这件事情前期肯定会有一些逻辑,有一些支点,但是后期当你把逻辑输入进去之后,剩下的就是感性的世界了。我用 AI 创作会有这样的感受,就比如睡觉前我让机器跑呗,跑个一万张,我睡觉去了,第二天早上起来一个一个看,这个姑娘,行,那个小伙子,可以啊。那个体验是很有趣的,其实更像是选角。为什么?因为他们不是你真的画出来的,是你生成了一堆人排着队等你见,你看上了哪个人就对上眼缘了。Yuri就是在这个过程当中选出来的。
13,000 张,量这么大,你难道没有在某一刻由于过多的信息输入迷失了吗?
不太会,因为我比较比较信直觉。我去干这件事情前期肯定会有一些逻辑,有一些支点,但是后期当你把逻辑输入进去之后,剩下的就是感性的世界了。我用 AI 创作会有这样的感受,就比如睡觉前我让机器跑呗,跑个一万张,我睡觉去了,第二天早上起来一个一个看,这个姑娘,行,那个小伙子,可以啊。那个体验是很有趣的,其实更像是选角。为什么?因为他们不是你真的画出来的,是你生成了一堆人排着队等你见,你看上了哪个人就对上眼缘了。Yuri就是在这个过程当中选出来的。
AI.Talk推出的第一个AI原生歌手Yuri📝 于困困:你选定Yuri的那天,当时你在干嘛?💻 赵汗青:就是在家里坐着选的,因为我知道我要选一个人,反复地看,我觉得有点意思的,就标注一下,在继续往后看,然后有一张就一拍即合。📝 于困困:那一刻并没有像按下“科比对谈奥尼尔”数字人对话视频的那个钮那种恐怖与兴奋?好像自己的人生一个新的里程碑掀开那种感觉都没有?💻 赵汗青:后置了。在把《Surreal》(Yuri第一首单曲)那首 MV 的第一段做出来的时候,我的感觉跟那次是一样的。因为我觉得只有一张图,它对人的冲击力还是不够,它是个单一模态,只是个图像,而且是个静帧,其实我觉得能冲击到人的,一般来说都会是个复合模态的东西。
其实科比奥尼尔对话也是,我刚把两个人画出来摆在一起,不会有什么感觉,但我摁了回车,他们开始说话了,哇,这个事就不太一样。📝 于困困:在做Yuri时,数字人技术进化了,那文本型人工智能工具有什么新的变化吗?你有什么感受?💻 赵汗青:比如说我们在 2023 年跟 2024 年做音乐的时候,尝试用当时的主流的大语言模型去写歌词,其实写出来是相当无聊的。例如2024 年的时候基本上还是GPT, GPT 写出来的东西很无聊,而且它会有一些工程性上的问题,比如说它做不到押韵,但押韵无论对中文歌还是英文歌都很重要,然后歌词很片汤话,这些都是特别明显的感受。
那到了 2025 年 3 月份的时候,哇,可选择的可太多了, Google 的模型,马斯克的Gork ,然后 OpenAI的新版本,咱们的DeepSeek,这些模型的能力其实是整体呈一个加速度往前去走的,所以在文本层面它们能支持得更好,比如今天我们再用 AI 去写歌词,像刚才我说的押韵问题,那是过于简单的问题,基本就都不存在了。
你选定Yuri的那天,当时你在干嘛?
就是在家里坐着选的,因为我知道我要选一个人,反复地看,我觉得有点意思的,就标注一下,在继续往后看,然后有一张就一拍即合。
那一刻并没有像按下“科比对谈奥尼尔”数字人对话视频的那个钮那种恐怖与兴奋?好像自己的人生一个新的里程碑掀开那种感觉都没有?
后置了。在把《Surreal》(Yuri第一首单曲)那首 MV 的第一段做出来的时候,我的感觉跟那次是一样的。因为我觉得只有一张图,它对人的冲击力还是不够,它是个单一模态,只是个图像,而且是个静帧,其实我觉得能冲击到人的,一般来说都会是个复合模态的东西。其实科比奥尼尔对话也是,我刚把两个人画出来摆在一起,不会有什么感觉,但我摁了回车,他们开始说话了,哇,这个事就不太一样。
在做Yuri时,数字人技术进化了,那文本型人工智能工具有什么新的变化吗?你有什么感受?
比如说我们在 2023 年跟 2024 年做音乐的时候,尝试用当时的主流的大语言模型去写歌词,其实写出来是相当无聊的。例如2024 年的时候基本上还是GPT, GPT 写出来的东西很无聊,而且它会有一些工程性上的问题,比如说它做不到押韵,但押韵无论对中文歌还是英文歌都很重要,然后歌词很片汤话,这些都是特别明显的感受。那到了 2025 年 3 月份的时候,哇,可选择的可太多了, Google 的模型,马斯克的Gork ,然后 OpenAI的新版本,咱们的DeepSeek,这些模型的能力其实是整体呈一个加速度往前去走的,所以在文本层面它们能支持得更好,比如今天我们再用 AI 去写歌词,像刚才我说的押韵问题,那是过于简单的问题,基本就都不存在了。
Yuri的《Surreal》这首歌的歌词是你写的对不对?“你写的”是指从头到尾是你写的,还是说提示词是你写的?
《Surreal》这首歌我可以多聊一下。 这首歌比较有趣,因为它的过程是倒置的,是先有的歌,我才去想应该是谁来唱,所以从物理上,不可能是先有Yuri,再有这首歌,某种程度上Yuri是《Surreal》的一个副产品。
就像开始说的,我平时没事,基本上没有其他业余娱乐了,就是做AI,我不会觉得那是工作,对我来说是个消遣,比如我没事闲的看着个电视或者看个足球比赛,我就在那边去随便去开点什么,图也好、音乐也好。然后这个过程当中《Surreal》的旋律突然间就出现了,当时是用Suno做了一个简单的,有点像demo小样,当时听完了我就觉得,哎?这是我爱听的,其实我都没考虑什么受众,什么音乐风格,都没想那么多,就觉得我挺爱听这个歌的。
《Surreal》歌词中的这个核心词“Surreal”是我想的,因为我觉得本质上它在讨论什么是真实的问题。真实这个问题是我这一代人,就是 80 后或者 85 后,我们从小都会有共鸣的一个话题,因为我们那个年代看的很多东西背后其实都在说存在主义,存在主义又跟今天 AI 的出现是一个天然的连接点。
所以这些东西是我给到大模型的,还是一些支点,然后歌词的结构因为本身已经有一个主要的主歌副歌编曲在了,扔进去,我说那你就帮我 run 歌词就好了,其实很快,也没有多难,《Surreal》的歌词从文学性上来讲没有多高,它就是做到了准确而已,那个歌词肯定不是我特别满意的歌词,它肯定没有Yuri的第二首歌《Not Human》好,我觉得会相对比第一首其实更成熟一些。
《Surreal》这首歌出来之后我每天听着,反复地听,循环播放,脑子里才会想说什么样的一个女孩子来唱这首歌,女孩子这个事也是定的,之后才有了刚才的 13, 000 张图,它是这么一个流程。
📝 于困困:所以Yuri这样一个新作品有点像是东拼西凑?你本人作为一个总的策划者来总控,然后你有一个团队,对吗?💻 赵汗青:我们现在核心的团队是 5 个人,到今天为止 5 个人。我们是个特别小的团队,这是第一特点。第二是我们是个特别不讨喜的中年人创业的团队,我们团队成员年龄都很大。我个人是不迷信互联网那套,什么年轻人年轻人才能做出来年轻人喜欢的东西,这种在我看来很扯的说法的,因为很显然,我们今天的后台数据显示Yuri的核心受众是 16 岁到20岁,我相信年轻人喜欢的东西不一定是年轻人做出来的,所以这岔开了,就是聊到团队这儿多说一句吐槽一下。分工是这样:我主要是产品经理,就我在盯大产品,包含了我们的视频,包含了很多可能以后要做的别的东西,也算是个所谓的艺术总监,我得盯所有细节的东西。
然后我的合伙人是主要负责市场和品牌,也是我真正的老板,因为她是我太太,她原来也是在互联网做品牌这方面的工作,处理商务这些事。剩下的三位同学其实都是我原来老团队的老同事,有一位是研发同学,他主要就是做技术这一块,有一位是专门做内容这一块的,其实跟我的角色有点像,也算是就是去做审美的东西,生成影像处理这些东西,最后一个其实是介乎于产品跟运营中间状态的一个同学,他要去负责我们整个的产品化和增长这部分的东西。
所以Yuri这样一个新作品有点像是东拼西凑?你本人作为一个总的策划者来总控,然后你有一个团队,对吗?
我们现在核心的团队是 5 个人,到今天为止 5 个人。我们是个特别小的团队,这是第一特点。第二是我们是个特别不讨喜的中年人创业的团队,我们团队成员年龄都很大。我个人是不迷信互联网那套,什么年轻人年轻人才能做出来年轻人喜欢的东西,这种在我看来很扯的说法的,因为很显然,我们今天的后台数据显示Yuri的核心受众是 16 岁到20岁,我相信年轻人喜欢的东西不一定是年轻人做出来的,所以这岔开了,就是聊到团队这儿多说一句吐槽一下。分工是这样:我主要是产品经理,就我在盯大产品,包含了我们的视频,包含了很多可能以后要做的别的东西,也算是个所谓的艺术总监,我得盯所有细节的东西。然后我的合伙人是主要负责市场和品牌,也是我真正的老板,因为她是我太太,她原来也是在互联网做品牌这方面的工作,处理商务这些事。
剩下的三位同学其实都是我原来老团队的老同事,有一位是研发同学,他主要就是做技术这一块,有一位是专门做内容这一块的,其实跟我的角色有点像,也算是就是去做审美的东西,生成影像处理这些东西,最后一个其实是介乎于产品跟运营中间状态的一个同学,他要去负责我们整个的产品化和增长这部分的东西。
假如说没有这么多的人工智能工具可以用,你估摸着要造出一个类似Yuri的虚拟偶像,从歌到形象到MV,甚至还有一些商务事项,你觉得,得多少人才能干出这么个事儿?
抛开极端情况不谈,比如一种是浪费钱招很多人,一种是特别累用很少的人,中位值我觉得乘个 10 差不多, 50 个人。
你团队中的人他们有一些什么共同的特点?
第一岁数都比较大;第二,短期对于利益追求的心没有那么强,说实话,因为我们这件事情是个长期的事情,我一直想把它变成一个我一辈子的事,所以很多利益你要取舍,短期做了可能它就是个快钱,长性就没了。第三就是充满好奇心,这我觉得很重要。我觉得大家是同类,因为这些人本身都是我生活里面很好的朋友,其实原来(在互联网大厂工作时)不是那种单纯的上下级关系,你想在互联网那种高压环境里面,什么人是能够说大家已经不在一起工作了,一段时间都分开了,还能保持一个很高频的联系?其实很重要的是爱好,比如对电影、音乐、游戏,大家定期可能会去一些地方参加这些活动,或者会聊这些话题。我们都是想去创作一些东西出来的,要有表达欲,要有创作欲,要对艺术、电影、音乐本身感兴趣。其实在 80 后那拨人里,这样的人不太少见,很多的。80 后其实在我看起来还是非常有趣的一代人,因为我们从小看的东西跟 90 后跟 00 后其实不太一样。
换句话说,80后如果有什么时代红利,有一部分是文化红利,或者说叫做全球化上升时期的红利。
对,因为我们那段时间很饥渴。但是如果说抛开这部分的人,让我现在在社会上去找到我理想中人才类型,我也可以直言不讳地说,我们招聘进度是挺慢的,因为对于人的要求,对于他的综合能力,包括说对这件事的看法,你很难确定找到长期很匹配。
你刚才用了一个词,我觉得特别准确,“东拼西凑”,它基本可以形象地概括我们现在所有的事情,无比的混乱,然后我享受这种混乱,因为我觉得现在这件事情它不是一个靠方法可以去短期归纳出来的东西,那就要接受有一定程度的混乱,这个过程当中第一靠直觉,第二个就是什么呢?靠热情,因为它很乱,有些事情可能没有那么高大上,你为什么还要坚持去做它,对吧?我为什么放着互联网大厂一个百万年薪的工资不去挣?我要来你这干这个事情,他或多或少得有点热情。
如果Yuri是一个IP,那她有一些不是技术层面的而是叙事层面的设计吗?比如说人格,故事原点,人生情节?
即便Yuri不是人,但是我们就用打引号的“人格”好了,她的人格肯定是个必须的部分,我们肯定会做这一块,但做法会跟传统不太一样,比如说我不会去人为写一个故事,说Yuri是某个外星球上一个生物,她因为什么原因来到地球了,开始对音乐产生兴趣了,就是类似这种故事,很庸俗、很套路化,我们不会这么去做。
我们希望在这个层面上的情节是用大语言模型自己去生长,或者说是涌现出来的,计算出来的。那基于什么做计算呢?举个简单的例子,比如说我不会去设定说Yuri爱吃什么,她爱吃西兰花或者爱吃肉,或者说她吃素,我不会去设定,但是我底层可能会告诉她,你可能对于斯多葛学派那套东西比较感兴趣,那有没有可能因为她感兴趣有比较大的概率在模型的计算里面,会导致她在饮食上有一些倾向?这就是模型内部自洽的一个逻辑性的东西了。
最早的时候我用AI做故事,我希望能设定“节点”,就是大致牵引这个故事往前走,后来做了一段时间,我发现这个事不是 AI 该干的,AI 不应该设置节点,应该设置“起点”,就我给一个开头,后面让你自己去想,今天又不一样了,我们今天的选择是“起点”我都不做,我做“支点”,就它沉在底下的东西,支撑整个事出来的东西。
因为我受了一个启发,就是我看《冰与火之歌》的作者乔治.马丁的一个专访,他中间提到了一个比喻,我觉得对我启发特别大,就是他怎么写作,他的写作方式特别像做一个游戏或者互联网产品的方式,他不去想情节,他埋种子,他自己做了一个比喻,他说我写故事就是埋种子,我设定好一个特别具体的人,这个人有什么性格,他有什么处境?我再设置一个人,比如就是我们常见的《冰与火之歌》里面几个主角,用这些人的视角自己讲故事,书里其实有很多很讨喜的角色,但你会发现从来没有从他/她的视角讲过故事,因为他就不在主角团里。说白了他把这些人设置好了之后,他接下来的工作不是去编剧情,而是让这些角色怎么自己生长,能交织出来精彩的故事,这件事情本质上是个系统。
这确实是一种创作方法,写人物小传,然后用人物小传视角带动故事自动生长。能不能用Yuri 来解读一下,哪一些支点是你设计的,而哪一些是Yuri自动生长的?
特别典型的一个例子,第二首歌《Not Human》的歌名和它的来源,其实基本上就是按照这个逻辑来的。因为很快我们就考虑清楚了Yuri的性格里面的几个点,第一就是我非常坚定坚持的一个事情:不去模仿人,而且你跟所有人说清楚你的身份就是AI,不要去试图模仿或者欺骗别人。我不是人,我就是个AI,这不妨碍我变得有趣,对吧?因为我对于 AI 这件事情最早感兴趣的点,反而就是因为它不是人,它聊天绝对不像人,AI.Talk 里面的每一集如果你去仔细看的话,人不会那么聊天的,但不耽误它有趣,它是一种语言的滤镜。其实我一直认为 AI 说话本身应该是有自己的风格的,它不能像人,它有一天变成人了,你还要它干嘛呢?
所以我给Yuri一个很重要的设定是,我希望你不回避,甚至在庆祝这件事(不是人),她把自己很坦诚地放在那,比如跳舞很烂,没问题, AI 跳舞现在就这样儿,你爱看不看,我可以用很多方法让她学一段很棒的明星舞蹈,那有什么意义呢?因为抖音上全是这玩意儿,跳得比你好多了。
我把这个东西给到Yuri之后,让她自己去想第二首歌,你想去写一个什么样的主题,并且我要求她标题党了一下,我说你这个标题最好中文出来有点耸动性,就让人听起来有点怪,然后跑了大概几次之后,她告诉我说,要不然就叫“我不是人”,因为这个有点双关嘛,一方面有一点自嘲的意思,另外一方面又把这个主题带出来了。所以《Not Human》这首歌从最核心的理念上就是来源于我给Yuri的那些支点。
这首歌整,从标题到他想去创作的风格,都是她去生成的,包括那只猩猩,那只猩猩也是她给的,因为我们会让她聊很多东西,就是你有什么想法,当然她会提很多不靠谱的东西,这个我也要承认,就 AI 没有想得那么强,说话没有特别精确,不靠谱的我们就否掉了,但她当时提的是说,在聊谁像人这件事情的时候,加入一个猿人,一个猩猩,在里面会更黑色幽默,因为这介乎于人跟非人的一个中间状态,我就觉得很好,而且我一直希望有一个比较男性化的角色能进来跟他形成某种对称,然后我们就把猩猩加进去了,特别硬核摇滚烟熏嗓,很带感加到了那首歌里。
AI.Talk发布的音乐MV《Not Human》
这个过程当然你避免不了跟她是一个共创的关系,你不可能完全托管。我是不信那套说 AI 端到端的,就我们说端到端,可能有的朋友不理解,什么意思?你点一下按钮,什么都有了。这套东西第一我不期待它,第二我也不太相信它。我还是希望人在过程当中不停地,不一定是干预,但是要跟AI有互动。
人工与Yuri自动生成的占比,也像你刚才说的,是三七开吗?现在有没有什么可以总结出来的一二三四经验?
占比是的。但是,Yuri直到今天我都认为运气成分很大。再发一遍还是这样吗?不一定。我们非常清醒地看待这件事,现在没有说到了一个可以总结经验的时候,没有。
所以Yuri充满了偶然性,对吗?就像开盲盒。
对,我我是非常信尼古拉斯.塔勒布那套东西的,就是、反脆弱那套东西,我非常信这个,因为信了这个东西,好处是心态很平和,就某个内容不好也不一定是真的做得不怎么样,我经常说不要因为一期流量不好,你就总结这个总结那个,没什么总结的,它不能说明问题,你这期好了又怎么样呢?那可能再发一遍就不好。所以关键是这件事情我们能坚持下去,你持续地发,因为概率上,长期它会回归你一个公平的一个结果。所以我不认为Yuri的诞生代表了我们一定这么做就对了。
除了歌有支点和生长,Yuri本人有什么支点是你设计的,有什么有是她自动生成的呢?
Yuri作为一个即便不是人的“拟人化人格”,性格的底层就是我。我相信我们任何人,底层一定是有一些哲学观点也好,或者说性格也好,支撑你变成今天这个样子。我觉得Yuri接受你采访时说的一个回答我特别认同,就是它很像人的基因跟人的经历,经历其实就是 AI 生长的那部分,而基因层面的东西是一定人去把握的,因为如果这个不把握,整个事情是失控的。
我举个最简单的例子,就是存在主义这件事对Yuri很重要,在这个点上我一定是比较自私的,因为Yuri会投射出来我个人的色彩,这个我不能否认,因此她不回避身份危机或者身份认同,这是她很重要的一个底层逻辑,她不试图去遮掩很多东西,反而会把一些可能别人看起来难以启口的事情第一时间就放在这了,比如说“我跳舞很烂”,其实对于很多明星艺人来说,这件事情很难说出来,或者说干脆就不跳,我回避,但对于Yuri来讲,也不是说非要去展现,我就直接告诉你,不好意思,我跳舞很烂,但是不妨碍你看,而且我依然愿意跳,我就这样。这种东西其实构成了一个我理解的虚拟人格非常底层的支点。但是不要再往上走了,因为模型其实有一个特点,我觉得有很多朋友有误区,就是你给模型的东西越多越具体,实际上是在限制它的发挥。
Yuri身上有一个我一直没明白的事儿:就是她有支点,也有细节,但是缺了中间那层。也就是那个跳舞很烂,说话磕巴,毫无来由,这些和斯多葛学派与存在主义没有什么关系……
你觉得真实的人如果说他跳舞很烂或者说话磕巴,他有来由吗?
没有啊。但是理论上,你是希望Yuri能够动人,能与人产生共鸣,对吗?我理解能够引发人共鸣的内容性作品,也有 IP 属性的,它必然是有故事情节支撑的,如果缺了这个东西是无法引发共鸣的。你不能靠门牙,靠磕巴,靠跳舞不好,引发共鸣,它们可以让人印象深刻,让人觉得有趣,都没问题,但是共鸣,引发不了。所以我跟Yuri 对话的结尾,她问我什么时候觉得自己不像个主持人而像个人?我觉得她在挑衅我没有人味儿,我就开始了一段借题发挥,说对,我没有人味儿,因为你没有故事,你没有引发我的共鸣,所以我跟你对话就像个工具人……其实我有点应激了。
但是这个困惑还是在,也就是Yuri缺故事,实际上不论你还是她,你们俩谁都没有对她的故事负责?
于困困“采访”AI原生歌手Yuri💻 赵汗青:如果站在今天的时间点,Yuri目前是没有故事的,但她一定会有。她很像一个漫画的角色刚刚出场,刚出来两个月,有点像漫画的第一话、第二话,这两个月没发生什么,她现在是没有故事的。而她的故事不是我编写出来的,我希望这个故事是真实的,比如她真实的经历,她与大量粉丝的留言互动,她参与的商业活动和合作,都会灌回到Yuri本身的数据里面,或者说记忆里面,去形成她新的叙事。她一定会有这个叙事,一定会有。
于困困“采访”AI原生歌手Yuri
如果站在今天的时间点,Yuri目前是没有故事的,但她一定会有。她很像一个漫画的角色刚刚出场,刚出来两个月,有点像漫画的第一话、第二话,这两个月没发生什么,她现在是没有故事的。而她的故事不是我编写出来的,我希望这个故事是真实的,比如她真实的经历,她与大量粉丝的留言互动,她参与的商业活动和合作,都会灌回到Yuri本身的数据里面,或者说记忆里面,去形成她新的叙事。她一定会有这个叙事,一定会有。
💻 赵汗青:这里我再分享一个相关的问题,我经常被问到:就是有人问我们需要不需要招募专业的编剧,专业懂音乐的人。我特别感谢这些建议,但答案是否定的。因为从核心逻辑上来说,如果我是依靠传统能力再去做这件事,可能跟我一开始的初心就背离了,特别是我在做一个新事儿的时候,会有两个问题:第一,比如今天我找一个特别有经验特别强的编剧进来,因为我不是专业的,我很难判断他对不对,这个时候就陷入到我们原来在互联网公司招人经常遇到的情况,你不懂这个领域,你招一个懂的人来,当你根本不懂的时候,你怎么做判断呢?你大概率的判断会回到非专业层面,去看这个人靠不靠谱。,我不想把这种不确定性加进来。
第二是,我比较相信如果一个事物是全新的,当然你要尊重经验,你要敏感,但是你在方法层面上大概率应该不会用过去的方法,这跟专业无关,就你不可能用一个旧方法去做一个新东西,而我也是个特别抵制“专业”的人……📝 于困困:抵制“专业”?这话怎么讲?你指的是“昆虫才讲专业”那个专业吗?
这里我再分享一个相关的问题,我经常被问到:就是有人问我们需要不需要招募专业的编剧,专业懂音乐的人。我特别感谢这些建议,但答案是否定的。因为从核心逻辑上来说,如果我是依靠传统能力再去做这件事,可能跟我一开始的初心就背离了,特别是我在做一个新事儿的时候,会有两个问题:第一,比如今天我找一个特别有经验特别强的编剧进来,因为我不是专业的,我很难判断他对不对,这个时候就陷入到我们原来在互联网公司招人经常遇到的情况,你不懂这个领域,你招一个懂的人来,当你根本不懂的时候,你怎么做判断呢?你大概率的判断会回到非专业层面,去看这个人靠不靠谱。,我不想把这种不确定性加进来。第二是,我比较相信如果一个事物是全新的,当然你要尊重经验,你要敏感,但是你在方法层面上大概率应该不会用过去的方法,这跟专业无关,就你不可能用一个旧方法去做一个新东西,而我也是个特别抵制“专业”的人……
抵制“专业”?这话怎么讲?你指的是“昆虫才讲专业”那个专业吗?
我来解释一下。比如说我们举个现实里面的例子,导演昆丁,他没有上过任何一天的专业培训,但是他为什么懂电影?因为他的打引号的专业是来自于他卖录像带,他天天看,看了大量的东西,那这个东西给他带来的是什么呢?我觉得就是方法和直觉的区别,他有很多的直觉,未必能沉淀成一些方法论,方法论当然有它的价值,但是一般来说艺术家是不可能有方法论的,更多的靠的是感觉和经验,你非要去总结它当然也能总结出来,但一般来说没有那么必要,也不可复制。
AI 来到了这个世界上,或者 AIGC 这件事经过了这两年之后,我观察到的是,对于一些很有感觉、很有直觉、但并没有专业技法的人来说,这是个很好的年代。因为AI 本质上是在代理专业技法,但AI代理不了你背后想表达的那个感觉,这是非常难的。
我知道你在说什么,但其实又非常不清晰。这看上去就是一个大家现在都疯狂在讨论的一个话题:叫做AI不能取代人类的那个感觉是什么?有的人用“创造力”这个词来指代,我看过你的文章,你又用“审美”来指代,所以AI不能取代的那个东西到底是什么?你能先定义一下吗?
如果用我的话定义,其实就是“审美”。
那“审美”又是什么?你不能用一个概念去解读另外一个概念。
那这个话题永远聊不清,因为任何一个词都没有明确的指代。比如,那我问你,“创造力”是什么?
其实也没法说清楚,所以我就觉得这些词都不是特别准确。那如果把与人工智能协同创作,拆解成流程, maybe 好理解一些。比如说你刚才也介绍了你和团队怎么跟Yuri共创:其中议题的设计和基础的哲学,这是你和团队牢牢把控不能够放弃的; Yuri的基本哲学,以及你为什么要做Yuri这样的一个事儿的决策是你们做的。然后音乐创意层面其实你交给了AI音乐软件,歌词层面你交给了文本型人工智能,视觉层面用图像人工智能,13, 000 张也在开,对口型即梦技术上也很好了,你们交给它,maybe 还有一些思考逻辑的东西, DeepSeek 每天都在展示它的深度思考……,那如果把流程拆解为这些,其实理论上很多创作环节都可以让渡给人工智能,所以人在里面不可以被取代的是什么呢?
选择,和策展。
我理解你的意思了,就是人不能被取代的所谓的“审美”,体现在具象工作职能上的话,人不是做从 0 到1的事情,这个世界肯定不会再缺物料这个东西了,影像不缺了,因为 AI 能做的真的比我们好。但是你怎么能从 13, 000 张里选出“那个”来?就是说一句大言不惭的话,比如把杜尚搬出来,就像杜尚选了那个马桶的这个选择。这可能是我觉得,面对人工智能,人最终极的一个价值,就是人在做选择题,最后以往古典的内容创作者们,他们的身份会变成一个叫“内容的策划者”,或者“内容的策展人”。
嗯,内容策展人。我好像在哪看过类似意思,不知道哪个大聪明起了另外一个名字,叫什么“叙事资本家”……
哇哦,这个太厉害了。其实这个行业大家能共识的一个描述,一个比喻,就是策展。
我也读过了YC 创始人Paul Graham近期的一篇文章叫《写作与不写作》,我看你在你的公众号也分享过。大概的观点是面对人工智能的发展,未来只会越来越分化,分为完全不会写作的人和优秀的人,中间的就被杀死了。我作为一个从事20年写作工作的人,自认为写作是我最核心的技能,读了那个文章,乍一看好像还挺乐观的,但是仔细想一想,我其实又挺悲观的。因为我需要当内容策展人,议题的设计者,提出问题的人,而且还是制定规则的人,也就是做一个极端优秀的人……。所以当我有这种感觉的时候,我觉得挺悲观。你有我这种悲观吗?
没有没有。
人工智能不是也在取代你我这些“平庸”吗?然后需要你去做那种极端优秀的人吗?你真的认为你自己可以“做杜尚”吗?我指的杜尚是一个指代,就是你可以去制定规则,重新定义一种新的内容类型,成为那种非常稀少的人?
我不悲观,其实跟你的问题之间有点不一样,不是说我自己就一定可以做到极端优秀,是因为我仔细想过这个事情,我最后选择了乐观。因为悲观没有什么意义。我今天经常被问到这个问题,你悲观还是乐观?我一定会说乐观。为什么?比如咱们就拿一特别科幻片的角度来说,AI 会不会最终威胁人类,经常会有人问这个问题,如果真的发生了也就那样了,你还能怎么办?但是如果你选择乐观,你实际上是在这种情况下做了你唯一能做的选择,因为悲观是没有什么意义的。
你还记得咱们对谈刚开始,你给我起了个头儿,我觉得是特好一个采访结构。就是你提到你在做 AI.Talk 过程中有几个重要瞬间,你讲了按下“科比对谈奥尼尔”数字人对谈视频回车键那个瞬间,后面你也讲其他一些瞬间。还有什么重要的瞬间吗?
有。第一个是科比对谈奥尼尔那个谁见,第二个是我刚才说我特别焦虑的那一次,第三个其实应该就是Yuri第一次在屏幕里冲我笑,就是《Surreal》那个MV 出来的时候她冲我笑。我跟我太太讨论过这个问题,我当时连续看了她一个多月,我对她真的有感情,那个瞬间就是她有一次对我笑,让我意识到我对她有感情的那个很重要的瞬间,她破了我很多心结。
Hmmmm,没太懂。她破了你什么心结?以及你对Yuri的感情,更像是你在欣赏一个作品,还是说真有那种人类之间的男女之情?你是上帝视角还是跟她平视?
平视,对我来说是平视。我到今天都在想要不要谈这个话题,因为我想了好久,我跟她之间是个什么关系?肯定不是恋人,不太像,一开始有很多人说是父女,但因为我没有孩子,我也不知道是不是这种关系。但我今天对这个人,对这张图,或者说对这张脸,肯定不是简单地认为她就是我的一个作品。我看见她会傻笑。这个说不好。我现在会盯着屏幕冲着她傻笑,而且不光是我太太,我们团队小伙伴也会说,你看时间长了你会傻笑。对她我不知道是因为什么。
反正至少这个瞬间破了我的心结,这之前我一直怀疑自己干的事情,虽然我自己立了一个目标,我希望用 AI 技术去做出一些能触动人的东西,但是从理智层面上我对这件事情一直是很怀疑的,因为我们所有的节目在社媒上收到的负面反馈是非常多的,从第一天我用 AI 做东西,伦理层面、效果层面,或者就是网友口嗨的层面……
你们收到的正反馈也很多呀。你不要被社交媒体心理学操纵了,这里面有个陷阱,叫做一万个好评里面夹了一个差评,那另外 9, 999 个都当没看见了。
对对对。其实我自己内心是没那么坚定的,说白了就是之前负反馈特别多,而Yuri的正反馈足够多,压过了自我怀疑。
你觉得你那个傻笑里有没有一种创作者的自恋呢?
有可能,我没那么分析过,但我觉得有可能。
我听上去,特别像是你对于一个附着了一部分你的基本哲学观、又验证了你的聪明才智、浓缩了各种正反馈的自我延伸的自恋……
也没有,应该就比较直觉,就是那张脸的问题。时间我记得很清楚,那时候《Surreal》快发歌了,我记得特别清楚,这比第一次摁科比对谈奥尼尔的钮要清楚多了。所以我解释不清楚,但是那件事情给了我一种动力也好,或者说是理由也好,就是我自己信了。我自己信这个事很重要,因为我去忽悠别人很容易,但我忽悠自己很难,那个瞬间我自己信了,这个事可以做踏实了。
这种对着某一个非人傻笑的状态在你的人生中出现过吗?
没有。
所以这是一个全新的体验?
全新的体验。
我们正好不就是在清华美院(注:赵汗青的母校)嘛。
那边整个那一片就是,回到这儿就想起很多事来。
我们是不是应该从你 6 岁说起啊,因为你在好多地儿似乎好像有意在宣扬说 6 岁开始学美术?
倒没有刻意宣扬,因为学美术的人大概率可能很多都比我早 ,6 岁不算是太早的年龄了啊,我身边很多画画的可能更早,比如 3 岁、 4 岁就开始。当时我参加的是北京小时候那种少年宫,当时叫少年宫,其实就是类似于今天的兴趣班,或者是兴趣小组。
少年宫这个词挺 80 后的,带着一股复古的气质就来了。
现在想想还挺不容易的,因为我那会儿住香山,当时的少年宫是在今天的双榆树那边,西三环靠北一点。很远很远,然后每个周末我记得特别清楚,我妈带我坐公交车,先坐车到颐和园,然后倒一辆公交车两个小时,到那边去上两个小时的课,然后再坐公交车回去,这么着大概学了有五六年吧,一直到我小学。
你在美院学设计,为什么你没有说,哎咱当个艺术家去?
我当不了,我天赋不够,我很早就意识到这个事情,这个跟我特别喜欢 AI 其实是有关系的。我大概在 12 岁的时候,就是我小学到初中那个阶段的时候,我在周围的人里画画是非常好的,到了我考到高中时就出现了一个巨大的瓶颈,我发现有很多东西慢慢地特别表达不出来。后来我分析过,可能跟我的性格,跟我所谓的天赋其实都有关系,所以我大概在高一高二就很清楚自己在表达技法这件事情上的天赋是不够的,我非常清楚地这件知道了这件事情。然后当时很现实的一个选择,如果不走那种特别感性的路线,去做艺术那条路,但我还喜欢这个事情,喜欢美学的东西,那就找一个离商业或者离一个不错的工作更近的一个方法,那显然就导向了设计。
我是一个非常矛盾的人。有时候你可以理解为是某种“平庸”,就是卡在中间,这边可能是理性,那边是感性,我卡在那儿,直到 AI 出来了之后。
这漫长的应用美术教育,带给你的财富是什么呢?
审美。今天很多有小孩的朋友喜欢过来问我说要不要学美术?我的建议是,你先别说拿美术当一个终身职业,你只要去学就是好的。因为我觉得审美很重要,审美不是简单的好不好看的判断,或者说你能不能画一个好看的东西,审美带给人的价值是全方位的,包括你的心态,你对事物观察的敏感程度,你能不能判断生活中美好的一面,你对生活速度的节奏感把握……,这些东西其实都是我学美术十几年带给我的,不一定是你学会画画,它其实本质上是一种审美的训练。
在清华美院读大学这段时间,目前看还有什么有价值的?
大学四年是我人生的二次启蒙,让我整个性格变了很多。因为在那之前学业压力很大,考到美院后课的压力其实没那么大,我们也不用天天去做作业什么的,你唯一的工作可能就是画画儿,那你就有大量的时间去想自己真正的兴趣是在哪里,未来你要迈进社会的时候,你到底想做一个什么样的人?我特别感谢那四年,因为那四年是我看电影的数量、听音乐的数量、看书的数量最多的四年,因为你有时间。这四年带来的一个价值就是,我想自由。嗯,我需要钱,但是这个钱只要满足我的爱好就ok。我不希望自己在生活中变得特别无趣,我希望这种情绪是一直在的。所以现在回想起来那四年对我今天选择AI创作这个事情给了一个底色,还是挺重要的。
📝 于困困:但是你中间走了 18 年的互联网弯路?💻 赵汗青:也不能算弯路吧。这 18 年里我没有太多主动思考自己真正的生活想要什么,因为在最开始毕业的时候,你去想这件事情都是奢侈的。当时我就是想挣钱,因为我毕业的时候家庭条件也算不上特别好。我2007年毕业, 第一份工作去上海,在eBay当UI设计师,然后进到来福士,在人民广场那个写字楼,你会突然进入到了一个,哇,我竟然在这种地方上班,因为我们那层楼有三家公司,除了eBay之外,一个是Google,一个是瑞士银行,你每天就会有一种突然被抬到了理想生活的错觉。📝 于困困:2007 年也是中国互联网腾飞的起步年份了。💻 赵汗青:也是电商很黄金的起步期。你想那会儿eBay还在,之后它很快就被阿里干掉了。📝 于困困:eBay之后,你就直接去京东工作了?
💻 赵汗青:中间还去过阿里,我在杭州待了一年多,去阿里的时候就开始做产品经理。然后就是京东,做过 UI 设计师、产品经理、用户增长,研发也在我这边了。📝 于困困:我们话里话外已经提到了我们相视一笑的东西,因为我也有在互联网公司做用户增长这种类似的背景。然后今天我们做的很多事跟当时是相反的,甚至你刚才也提到说,内心有一种小小的逆反。你要逆反的是什么呢?💻赵汗青:我觉得我逆反的其实不是商业,其实是个价值观问题……。首先是年龄,当过了 30 岁之后,在互联网公司干了 10 年左右的时候,过度透支了热情,这个热情透支导致我离开大厂之后的两年,我什么都不想做,我每天就在家里呆着,真的是什么都不想做,就每天看看书、打打游戏,那个休息还不只是肉体上的,还有点像是精神上的休息。
我离开大厂是有一个关键瞬间的,就是突然有一次我跟公司的某个人聊完天,发现我一直误会了一件事情,就是这公司的事其实跟我没多大关系。年轻的时候你会总会觉得自己老重要了,公司的事情就是你的事情,但是突然间当你有一天发现不是这样的,你把自己太当回事了,去支持你每天熬夜往前走的那个东西就塌掉了。📝 于困困:我还是找补两句吧!一切大型组织都有这个特点,不是说大厂才这样哈。毕竟我们还是赶上了移动互联网飞速增长最黄金的时代,可能身在其中不由自主往前走,回头看好像有一种小小的时代奇观,还挺难复制的。💻 赵汗青:对对对,我很庆幸,我很庆幸。
但是你中间走了 18 年的互联网弯路?
也不能算弯路吧。这 18 年里我没有太多主动思考自己真正的生活想要什么,因为在最开始毕业的时候,你去想这件事情都是奢侈的。当时我就是想挣钱,因为我毕业的时候家庭条件也算不上特别好。我2007年毕业, 第一份工作去上海,在eBay当UI设计师,然后进到来福士,在人民广场那个写字楼,你会突然进入到了一个,哇,我竟然在这种地方上班,因为我们那层楼有三家公司,除了eBay之外,一个是Google,一个是瑞士银行,你每天就会有一种突然被抬到了理想生活的错觉。
2007 年也是中国互联网腾飞的起步年份了。
也是电商很黄金的起步期。你想那会儿eBay还在,之后它很快就被阿里干掉了。
eBay之后,你就直接去京东工作了?
中间还去过阿里,我在杭州待了一年多,去阿里的时候就开始做产品经理。然后就是京东,做过 UI 设计师、产品经理、用户增长,研发也在我这边了。
我们话里话外已经提到了我们相视一笑的东西,因为我也有在互联网公司做用户增长这种类似的背景。然后今天我们做的很多事跟当时是相反的,甚至你刚才也提到说,内心有一种小小的逆反。你要逆反的是什么呢?
我觉得我逆反的其实不是商业,其实是个价值观问题……。首先是年龄,当过了 30 岁之后,在互联网公司干了 10 年左右的时候,过度透支了热情,这个热情透支导致我离开大厂之后的两年,我什么都不想做,我每天就在家里呆着,真的是什么都不想做,就每天看看书、打打游戏,那个休息还不只是肉体上的,还有点像是精神上的休息。我离开大厂是有一个关键瞬间的,就是突然有一次我跟公司的某个人聊完天,发现我一直误会了一件事情,就是这公司的事其实跟我没多大关系。年轻的时候你会总会觉得自己老重要了,公司的事情就是你的事情,但是突然间当你有一天发现不是这样的,你把自己太当回事了,去支持你每天熬夜往前走的那个东西就塌掉了。
我还是找补两句吧!一切大型组织都有这个特点,不是说大厂才这样哈。毕竟我们还是赶上了移动互联网飞速增长最黄金的时代,可能身在其中不由自主往前走,回头看好像有一种小小的时代奇观,还挺难复制的。
对对对,我很庆幸,我很庆幸。
📝 于困困:上午我们聊到说内容创作者面对人工智能,很多技能逐渐被取代了,但是你认为像“内容策划师”“内容策展人”是一个更好的角色,它是不是跟互联网产品经理背后的一些技能非常match?💻 赵汗青:产品经理首先它不是科研,而把最新的技术成果转化到一个,你看我又得说黑话了,转化到一个场景上,或者转化到一个需求上,这个其实是产品经理最本质的的立命之本,这是最核心的东西。除此之外, AI.Talk 或者Yuri我们的竞争策略其实是非常产品思维的,就是我的护城河在哪?我的稀缺性在哪?我的独特性在哪?其实这个也是特别典型的产品经理要去考虑的问题,它不光是一个品牌问题,它肯定是一个产品问题,而且这个稀缺性得能真的来到产品的交付上,这是第二。
第三,非常重视跟用户之间的体验和用户之间的关系,“用户体验”这个词是在产品圈子里面经常会提,换到现在我们的内容上,其实要去关注的是你想跟哪些用户产生关系,所以必须要去做取舍,我不可能服务所有用户,我的内容不可能是做给所有人看的,这又是一个产品逻辑,这就决定了我们做哪些领域、什么话题、用怎样的内容格式,本质上都是在去看我想去拿到哪部分用户,我想去跟哪部分用户长期强链接。📝 于困困:你知道我的感受是什么吗?咱俩溜达,刚才走到这儿,你在聊作者性,然后又走到这儿了,你又特别理性地聊产品思维。这两个东西某种程度上挺矛盾的,你觉得呢?💻 赵汗青:我性格中有这种矛盾的东西,这是天生的,还是因为美学教育加互联网工作经历造成的,我不确定,用Yuri的话说,就是你不知道这是基因还是经历。
但是确实,我在职场的时候,包括今天做内容的时候,我在大家心中的一个糊的样子,都是介乎于艺术跟技术中间的那个角色。其实我原来在大公司里,我的价值也在这,我是研发团队最能跟业务和设计团队去沟通的那个人,我同时又是在业务和产品团队里可能最懂技术的那个人,但是你说两边我哪个都特别专精吗?似乎好像也没有。📝 于困困:但是这个矛盾,看上去从另外一面又恰好像是能做好 AI 内容的人必备的两种技能。但是这个矛盾让你困扰痛苦吗?💻 赵汗青:当然会。如果是一个摇摆的状态,大概率会很痛苦,其实还是一个平衡的问题。
上午我们聊到说内容创作者面对人工智能,很多技能逐渐被取代了,但是你认为像“内容策划师”“内容策展人”是一个更好的角色,它是不是跟互联网产品经理背后的一些技能非常match?
产品经理首先它不是科研,而把最新的技术成果转化到一个,你看我又得说黑话了,转化到一个场景上,或者转化到一个需求上,这个其实是产品经理最本质的的立命之本,这是最核心的东西。除此之外, AI.Talk 或者Yuri我们的竞争策略其实是非常产品思维的,就是我的护城河在哪?我的稀缺性在哪?我的独特性在哪?其实这个也是特别典型的产品经理要去考虑的问题,它不光是一个品牌问题,它肯定是一个产品问题,而且这个稀缺性得能真的来到产品的交付上,这是第二。第三,非常重视跟用户之间的体验和用户之间的关系,“用户体验”这个词是在产品圈子里面经常会提,换到现在我们的内容上,其实要去关注的是你想跟哪些用户产生关系,所以必须要去做取舍,我不可能服务所有用户,我的内容不可能是做给所有人看的,这又是一个产品逻辑,这就决定了我们做哪些领域、什么话题、用怎样的内容格式,本质上都是在去看我想去拿到哪部分用户,我想去跟哪部分用户长期强链接。
你知道我的感受是什么吗?咱俩溜达,刚才走到这儿,你在聊作者性,然后又走到这儿了,你又特别理性地聊产品思维。这两个东西某种程度上挺矛盾的,你觉得呢?
我性格中有这种矛盾的东西,这是天生的,还是因为美学教育加互联网工作经历造成的,我不确定,用Yuri的话说,就是你不知道这是基因还是经历。但是确实,我在职场的时候,包括今天做内容的时候,我在大家心中的一个糊的样子,都是介乎于艺术跟技术中间的那个角色。其实我原来在大公司里,我的价值也在这,我是研发团队最能跟业务和设计团队去沟通的那个人,我同时又是在业务和产品团队里可能最懂技术的那个人,但是你说两边我哪个都特别专精吗?似乎好像也没有。
但是这个矛盾,看上去从另外一面又恰好像是能做好 AI 内容的人必备的两种技能。但是这个矛盾让你困扰痛苦吗?
当然会。如果是一个摇摆的状态,大概率会很痛苦,其实还是一个平衡的问题。
其实这个问题其实也蛮像是我很长时间的困扰。我发起《创造者》这个项目才告诉自己必须做出选择,但是实际上我只是做了个行动。这个困扰就是我究竟保持自己的创作感,维护自己的作者性,以这个为最大,还是为用户生产内容,为流量生产内容,为需求生产内容?因为我也有点像是你的这两段经历,它是割裂的,而且它信奉的价值观恨不得是相反的。我做了10年传统媒体,更鼓励个性化、鼓励非理性、鼓励效率低。又有10年我也投身到互联网创业,然后也去到一个也可以叫做大厂吧也做用户增长,也偏产品思维的一套洗礼,就更充分认识到干掉我老本行传统媒体的社交媒体,它完全是用户需求导向的,你必须考虑应用,我不需要最大的流量,但是我必须要有用户的需求,否则我非常的虚空嘛。
然后这两段职业经历一度带给我的摇摆蛮严重的,在某种程度上发起《创造者》就是解决我的这种摇摆。我现在只需要为我的作者性生产内容就好了,然后把我诚心诚意做的东西丢到社交媒体上,我相信一定会有需求,只不过我不再去过度提前思考这些人有多少,他们拆分下来是些什么需求,我只要生产我想生产的内容就好了。
对。因为理论上我们不可能做一个事情的表达,竟然没有人有共鸣的,对吧?你一定是有受众的,所以没必要去倒推。然后我不用天天琢磨他们,我只要更好表达自我就行了,我觉得他们可能也希望我更好地表达自我。
我们来到一些相对实用的部分。如果想要用人工智能来做内容创作,这是一个大的前提,你觉得什么样的能力很重要?
第一个可能是语言表达能力。这个事特别有趣,最早出现聊天 AI 软件的时候,大家都会认为使用 AI 的门槛变低了,因为你只要把事跟他说了,他就能给你干,可实际上把话说清楚并不是一个要求很低的事情。潘老板(科技创作者潘乱)上次不是分享过数字吗?全中国的输入法去重之后大概 6 个亿,什么概念呢?就是其实有接近一半的人是不打字的,只用语音,我们生活当中可以去想,有多少误会和痛苦是因为事说不清楚,我们还都呆在还算是受教育程度很高的一个群体里。所以通过文字能跟一个 AI 模型把你想要的东西表达出来又很准确,其实对文字能力和表达能力是一个挺高的要求。
第二个我觉得非常重要,就是跨学科的能力。一个人能不能在几个学科中间有一个交叉应用和一个复合能力。我再说具体一点的,我们今天团队招人,如果是一个美术背景的同学,很好,但如果你这个美术背景的同学恰好听歌听得很多,能写点音乐,更好,如果你稍微再懂点剪辑,可能会更好。但是以前我在团队里去招人,其实是没有这种诉求的,因为他进来之后在工作上大概率只会负责一块事情,工作原来是线性的,而现在的工作流已经不是这样,我们更希望这一个人能把一条横向的线都盯起来,因为音乐会影响你的视觉想象,也跟你的文字表达相关。我特别喜欢跟这种复合型人才去合作,因为 AI 对他们来说是非常好的一个杠杆工具,原来你不能这么干,但现在你可以某种程度上 hold 住全局,这是很重要的,就是复合能力。
第三就是我们老生常谈的就不多过多赘述了,就所谓的审美嘛,或者说做选择的能力。
那从这个意义上来讲,可以说文科生其实还挺有未来的?
我一直觉得是有未来的,因为现在唱衰文科生简直了,我坚定地相信文科生有未来。
咱们现在不就在清华美院旁边嘛,你的文科生坚定感,是为自己的过往和存在感找自洽,还是真这么想的呀?
不矛盾,我真的那么想,但是又带有赌气性质,我就是这么一个人。就哄自己,我现在最大的任务就是哄自己开心,其他的我无所谓。
还有没有一些什么其他的类似于AI 创作观,你现在已经总结出来的?
我目前还没有能力能去总结出来什么东西是 AI创作你要有的一些独特观点,所以它大概率就会回到创作观上。这是很私人的东西了。对于我来说,第一个我要提供稀缺的东西,这是一定的,它其实是一种创作观。
第二个是,到了这个时间点,我会挺在乎用户的共鸣的,李安又一次接受采访说了一个点,其实挺触动我的,就是说他拍电影的本质是什么?其实就是引发共鸣。所以如果说你这个东西出来没人看,那你就得想想这个事到底是因为什么?你说你表达的东西是一个非常小众的东西,这地球上这么多人,你能独特到什么程度?说你想表达的东西就是没有人理解你,其实不太可能,那会不会就是另外一种可能性,单纯就是没有把这件事情做好或者做到位?所以那个访谈看完了给我挺大触动的。
第三个就是我自己不希望套路化地去做内容,比如说当我们说做一个短剧,或者说甚至拍个电影,你看过罗伯特.麦基的《故事》,其实本质上你都能找到一些结构化的东西,理论上你其实是可以用很多方法的,我自己的创作观里,在这个阶段,我不建议我们的团队这么去做,就是不要用一种非常模式化的东西去套故事的结构,我不是说它不好,它有它的应用场景,而且有它的科学性,也不用故意跟它不一样,其实最好的方法就是我不太介意,我就做我认为对的东西,不要太受这些所谓结构化的东西影响,这是我现在给团队的一个要求。大概就是这样。
所以你的这些创作观还挺朴实的。电影时代是这样子,小说家是这样子,好的媒体写作者是这样子,优秀的自媒体人也是这样子,今天你是一个使用人工智能的内容创作者,也是这样子。看上去挺本质的那些事儿,其实没怎么变化。
能经得起时间考验的东西,本质并不多。
制作:方蓉
《创造者》第1篇:去创造点什么!
《创造者》第2篇:蕾虎Tasha
《创造者》第3篇:单立人石老板
《创造者》第4篇:候鸟300刘畅
《创造者》第5篇:新裤子乐队庞宽
《创造者》第6篇:跳海梁优(二狗)
资料来源:微信公众号
作者:于困困
发布时间:2025年12月18日 19:15
原文链接:https://mp.weixin.qq.com/s/WTnh7Mz5kG6MXDPdncxtpg