从一个「练习」的机会到技术积淀

不管是怎么开始的,总之大家肯定会兴致勃勃地开始构建各种 AI 原型系统,这样做也有很多好处:

  1. 带来快速的内部成功,大家可以迅速庆祝公司的创新文化,所有人都会由衷为自己鼓掌。
  2. 这是个既有趣又令人兴奋的「练习」—— 相比起乏味的日常工作,这是个很好的分散注意力的机会。
  3. 这给了团队成员接触新技术的机会。

当这些兴奋感逐渐消退后,大部分项目一定会停滞不前。如何让这些项目不成为负债而是资产呢,我的答案是让他们成为真的技术积淀。

首先,大部分原型一定会废弃。但是这就跟 NASA 的 X 系列测试机一样,它们虽然注定会被拉到飞机拆解场,也不赚钱,但留下的技术积淀必须能对后续项目有帮助。

对 Pando 这种小团队来说,源码、系统、技术分享都是很好的积淀方式。但是最理想的当然是产品化。

原型系统产品化

在之前《人类替代计划:一份使用 AI 代替公司同事的指南》 中,我说 AI 对老板的威胁之一是「没有搞清楚这一代人工智能能干什么不能干什么」

如果团队领导者连 AI 的上下界在哪都不清楚,那他做的决策自然也不可靠。

就我目前浅薄的认识来看,这代 LLM 确实能改变很多很多场景。但他们中的大部分,都体现在两方面:降低成本;提升效率与体验。

既然这两点是明确的,那么沿着这两点去做产品化,不但有了确定的目标,还有了可以观察的指标。

例如我上文提到的 i18n-cli 项目,在它出现之前,我们之前的文本翻译都用众包平台来完成,存在有两个问题:

  1. 额外的成本。就我们这点儿翻译量,每个月几百美元是常态。
  2. 质量都欠佳。由于众包平台本来就提供机器辅助翻译,所以大部分翻译者其实是依靠机器翻译的,实际进行人工调校的不多。

既然如此,那就让 AI 来做这个事情好了。使用 i18n-cli 翻译文案,翻译 500 字不到一美分。在基本没有降低翻译质量的前提下,节约了翻译的费用,还缩短了交付流程。

再比如 PAL9000,作为一个客服系统,给它灌输好知识库以后,90%的用户咨询不再需要人工解释,省下客服的费用,还提高用户体验。

因此这两个项目脱离了原型系统以后被一直沿用至今。

准备融合 AI 到当下的业务

刚才提到的客服也好翻译也好,都没有真正的让 AI 进入到业务里,只是在周边打转转,干点省钱提速的活儿。

在经过一段时间的观察以后,我很确信 AI 应该融入到业务里:虽然我还不是很确定具体要做什么,但是我知道有一些工作是无论如何都必须做的。

因此我决定应该把这些「必须做」的工作单独拿出来。这就是 Botastic 诞生的原因。而 Botastic 的目标也就明确了:

  1. 实现「必须做」的工作
  2. 完全把业务建立在 OpenAI 上让人非常不安,需要能够随时切换到开源的 LLM 上。
  3. 用团队熟悉的技术栈来实现。
  4. 能够迅速基于这个框架搭建出新 AI 应用

现在我们基于 AI 的所有服务都基于 Botastic,那一堆数字人就是在其上很容易就搭建出来了。并且如果需要——例如来自所在国家的禁令——可以随时切换到开源的 LLM 上。

小心使用 AI 替换现有的方案

一个比较有意思的进展是我们在尝试使用 LLM 来实现一些功能,而这些功能在以前需要完全不同的技术储备来实现,比如内容推荐、语义搜索、行为预测等等。

使用 LLM 替换的原因是,如果用 LLM 来实现,会超级简单。不过,并非所有常见功能都能很容易地实现替换。

一个典型的例子是语义搜索。最初的时候,我觉得向量数据库 + ChatGPT 会是一个很好的方案。但是测试下来发现,如果简单地把用户输入拿去做 AI 的语义搜索会有很大问题,这个问题我在《# 面向 AI 的编程:是时候该坐下来应对不确定性了》 提到了:用户在大多数情况下无法给出完整信息。

这时候不但需要补全信息,还需要更换和优化用户关键字才行。

除了技术上的问题,还有交互体验上的。例如:语义搜索结果中不包含用户输入的关键字,这会让一些常见的搜索交互优化失效,无法高亮显示用户关键词。

An image to describe post

因此,如果要用 AI 替换现有方案,得小心一点。不但有意料之外的工程量,效果也可能和预期有偏差,还可能需要不同的团队角色共同协助来解决。

给交互设计带来的挑战

LLM 和 Whisper 这样的项目的出现,让基于对话(文本对话或语音对话)的交互方式变得比之前容易很多。这对设计来说有了很多新的可能性:

  • 天生对视障人士友好
  • 完全自然语言的对话式 UI,可以不用视觉 UI
  • 对话式 UI 可以优化非主流设备(头戴显示器、穿戴设备)的交互体验

很多产品都很容易忽略「视障人士」。其实老年人都是视障人士,中年人都是准视障人士。观察一下程序员都能发现,程序员年龄越大,编辑器的字号也越大。

产品体验对中老年的关怀,不仅仅是一句「晚年吉祥」那么简单。相传中共中央之前邀请老兵代表开表彰会,时任总理周恩来会在老兵代表们的座位上挨个试一遍,并且告诉工作人员调低灯光亮度,因为老年人眼睛惧光。

因此,如果某个功能有可用性问题,不妨考虑一下对话式 UI,说不定就能解决。


和其它技术类似,区块链也好,AI 也好,也都遵循 Gartner Hype Cycle:技术触发器 → 充满期望的高峰 → 失望的低谷 → 觉醒的斜坡 → 生产力高原。

An image to describe post

我们虽然不一定能准确预判当下 AI 技术处于哪一个阶段,或者确定这个阶段有多长,但是作为小团队,相较大公司应该有更多灵活性:在新技术出现以后应该去快速尝试,能迅速了解它的边界,尝试给团队成员更多成长的机会,然后考虑如何利用它。

但是同时,也要明确知道能做到什么程度,什么时候应该收手,不要陷入追新的泥潭。

就这一轮 AI 技术来说,虽然我对 AI 的潜力依然保持很乐观的态度,但我们已经做到了目前能做的最远边界,接下来是否要继续推进就取决于自己业务对 AI 的需求了。