这是一个系列文章,从各个角度来评估一个问题:“我的业务要不要用 AI ?能不能用 AI?” 本期评估角度——数据。
这是一个系列文章,从各个角度来评估一个问题:“我的业务要不要用 AI ?能不能用 AI?”
本期评估角度——数据。
在人工智能普及之前,大家用的产品都是「基于规则」的。
我们通过总结规则,然后让计算机自动的执行这些规则,我们日常工作和生活中很多问题都是基于规则来处理的,比如:
基于规则的好处就是:所以人都能知道在什么情况下得到什么结果,一切都是可以预判的。
但是基于规则的方法也有很大的弊端:很多问题,很难(甚至无法)总结出有效的规则。
人工智能发展到现在(2019年),最核心的底层逻辑是:「基于数据」。
规则能很好解决的问题当然是用规则来解决,因为他的成本低,可解释性强。但是很多问题没有有效个规则,这个时候人工智能的价值就凸显了。
「基于数据」的方法简单说就是:从海量数据中找规律,这些规律是很抽象的,并不能总结成具象的规则。比如:
基于数据的好处是:只要有足够多的优质数据,那么机器就能学会某些技能,数据越多,能力越强。
但是基于数据的方法也有明显的弊端:机器只能告诉你「是什么」,但是无法告诉你「为什么」。
《》有详细介绍这段历史
上文已经说明了「基于数据」的逻辑,那么支撑这个逻辑的就是「数据」。
没有数据,就无从基于数据。所以想要用人工智能,需要考虑业务场景的数据3要素:
他们3个类似金字塔的结构,先有「数据可获取」再谈「数据全面」,有了「数据全面」再谈「数据多」。
想要解决问题,就需要具备「跟这个问题相关的数据」。比如上面提到的例子:
给机器看海量的猫和狗的照片,它就具备了「区分猫和狗」的能力。
这里需要的数据不光是照片本身,还需要将照片里的猫和狗标注出来,如下图:
所以,你要考虑的问题是:
假如我们只能看到 10% 的照片,现在让你区分照片中是猫还是狗,这会非常难。如下图:
当我们能看到照片的 50% 时,还能猜一下。
当我们可以看到100%的照片时,就信心十足了。
人是如此,机器也是如此,你都不让我看全,我怎么分析啊!
所以,当我们想要利用人工智能技术来解决实际问题时,你需要仔细分析这个问题:
还是区分猫和狗的例子。猫大概有40多个品种,狗大概有接近200个品种。并且照片可以从不同的角度,不同的背景,不同的光线下拍摄,会产生无数种组合。
想要有效的区分猫和狗,需要大量的不同的照片才行。kaggle(很权威的 AI 竞赛网站)上有很多区分猫和狗的训练数据,大部分都是上万的量级(1w+的猫和1w+的狗)。
区分猫和狗这种非常简单的任务都需要上万的数据,对于更复杂的任务,就需要上百万甚至上亿的数据。具体要多少跟你要解决的问题复杂度,模型选择,预期结果都有关系。
不过有一条原则是不会变:数据越多,效果越好!
假如你是游戏公司的老板,想利用人工智能技术提升游戏的收入,从数据角度评估一下是否可行?
电商平台通过推荐算法可以让购物者花更多钱,那么在游戏里结合推荐算法,理论上也可以让玩家花更多的钱。
推荐算法的本质是:挖掘用户需求,将匹配需求的商品推荐给用户。
应用到游戏里则是:挖掘用户的需求和他的消费能力,将匹配需求的道具,以合适的价格推荐给用户。
第一步:数据是否可获取?
游戏算是数字化程度很高的领域了,但即便如此,还是有部分因素并没有数据化。比如:
够不够用呢?下一步全面性的时候再分析。
「数据可获取」看似是一个很白痴的问题,但是很多行业的数字化程度非常低,这个问题对于他们来说并不简单。
第二步:数据全面性是否够用?
想要判断玩家的需求和消费能力,大致有下面一些影响因素:
还是参考电商的经验,亚马逊、阿里巴巴都已经验证过:
在缺失「聊天数据」「心理活动数据」「电商平台外数据」的情况下,依然能有效的挖掘出用户需求,刺激消费。
而游戏不但有推荐的权利,还有定价权,可以通过降价进一步的刺激消费。所以全面性角度是 OK 的。
PS:所以在全面性的评估上,不需要理论上 100% 全面,而是达到可用的程度即可,这个事前只能找案例参考。
第三步:数据够不够多?
推荐系统是一种特殊性的情况,他对数据量的要求很有弹性,在数据量少的事情有很多手段来解决冷启动的问题。随着数据量的增多,算法的作用逐步加大。
一个新用户下载了淘宝,依然不妨碍推荐,只不过用的越多推荐的越靠谱一些而已。
PS:在评估数据是否足够时,尽量找经验丰富的技术咨询一下。
所以,经过3个数据角度的评估,「通过推荐算法提升游戏收入」的设想应该是可行的。
评估能不能用人工智能技术时,「数据」可以说是最重要的一个维度。
具体评估时,想清楚下面3个问题:
3个问题需要同时满足,才算是「貌似可行」。
在评估「要不要用」和「能不能用」人工智能时,需要考虑很多问题。这个系列还会持续更新,关注我的公众号查看所有内容: