什么是巨量资料?它所需要的人才又是什么?
巨量资料,或说海量资料,它的特性就是大量、即时、多样及质差。打个比方,社群网站如脸书的留言,对脸书公司来说,它获取来自全球超过12 亿的甪户资料,就可说是巨量资料。不过,进一步将巨量资料抽丝剥茧,并将其结果作为决策依据,找出商机,也有人说是一种“采矿(data mining)”,常常是可以挖出黄金的。
工研院巨量资料科技中心主任余孝先指出,巨量资料分析为何被称为挖矿,举日本的7-ELEVEN 为例,他们发展出一套“753 感冒指数”:就是一天中温差达到7 度,今天与昨天的温差达到5 度,且湿度差大于30%的话,代表感冒的人会增加,因此店家就要把感冒药、温度计及口罩备妥,以因应需求增加。这就是公司从巨量资料中挖到的黄金。
余孝先以自身的工作为例,他常以一位资料科学家的身份,带着一组电脑工程师及专业人士,以专案形式对某行业或公司,进行主题性的巨量资料分析。
以巨量资料中心对国内LED 半导体产业进行的制程分析为例,透过晶圆生产的每道制程留下的数据,进一步分析哪些是异常的数据,致使造成不良品。分析出来后,就可将不良品发生几率下降,甚至事先预测到不良品,未出货就先挡下。
他透露,国内的零售业、银行及电信业者,近来也纷纷成立巨量资料小组,以开始从巨量资料中挖宝。
提供巨量资料分析平台软件的赛仕(SAS)电脑副总高芬蒂表示,一般来说,要从一堆的资料中去找到宝,两种人才不能少,一是资料科学家(Data Scientist),大多为资深人员,除熟悉电脑,也要对该领域的专业有一定了解,才能在此专业领域中“挖”到有用的资料。另一种人是巨量工程师,具备统计及资讯背景,懂得运用软件在大海中“捞”到宝。
不过,国内资料科学家人才极少,企业的做法是先组成一个团队,找资讯、统计、专业(金融或电信)人员,甚至心理学、社会学背景的人一起组成,一起采矿。
最有名的就是玉山银行的CRV(客户风险与价值)秘密部队,运用巨量及资料采矿等技术,捕捉了解到消费者的生活风格和行为模式,早先一步提供“客制化”的服务。据了解目前编制已超过50 人,还在扩充中。
余孝先指出,资料科学家必须有硬功夫与软实力。硬功夫就是良好的资讯或数学背景,了解Hadoop 技术,会写程式,懂得资料分析应用。软实力则包括与人沟通能力,并带有好奇心,最好有市场行销的概念。最后就是该行业的专业度,必须要能熟悉行业的属性,找出问题,并开发商机。
高芬蒂透露,业界对这类人才需求很高, 但大学没有类似科系培养此人才,因此现在很多业者与大学合作,包括东吴、淡江及辅仁等将陆续开类似的课程,或办短期培训课程,希望将现有资讯工程师能转型为巨量资料的人才。
她指出,目前已有业界以巨量工程师5-6 万月薪征才,资料科学家则开出6-7 万元月薪在找人,或由公司出培训费用,让工程师进修,以成为巨量资料人才。
最后提醒,资料科学家挖出来的是商业机会,因此不要过于重视技术及资讯能力, 反而要有商业头脑、市场敏锐度,如此才能真正挖到黄金,甚至挖到金脉。