site logo: ept.kan.center

吕锡民:AI在文本分析的商机与挑战

人气: 122
【字号】    
   标签: tags: , , , ,

【大纪元2019年08月18日讯】曾被认为是外星人的天才科学家Jim Gray,在论述大数据(Big Data)的专书“第四波(The Fourth Paradigm)”中提到,人类科学演进历史基本上可分为四个世代:(1)实验(Experiment);(2)理论(Theory);(3)计算(Computation);以及,(4)数位化(Data-driven)[1]。所言确凿,进入二十一世纪,人类文明社会所产生的数据,早已摆脱过去的指数型态,反之是以阶梯方式跳跃成长,专家估计到2025年,全球每天将有463 EB (1 exabytes=260 bytes))的数据产生,相当于212,765,957张DVD的容量[2]。

这么多的数据可分成结构化与非结构化两类,前者型态简单且容易分析,而后者结构复杂,不易分析但有价值,特别在这网路发达时代,每天都有巨量的文本资讯(Text Data)产生,潜在庞大商业利益特别值得开发。

在文本分析(Text Analysis)中,利用机器学习(Machine Learning)的AI(Artificial Intelligence)技术,促成人们可以快速和简单方式,处理大量非结构化文本数据。从示例中学习之外,并可随着时间推移改进定制模型,企业因此可以自动执行日常任务并节省团队宝贵时间,中高阶主管更可获得相关见解,有效推动决策过程。

对于没有编程(Coding)技能的人来说,自动文本分析可能听起来太复杂了,但并非总是如此,例如使用AI平台,每个人都可以创建客制化文本分析模型,甚至可以使用预先训练的模型达到特定目的,而无需编写任何程式码。然而,当内建有机器学习功能的分类器被使用时,训练数据必须转换成机器可以理解的东西,即向量(编码某些信息的数字列表)。然后,藉由向量使用,透过连接各节点的AI平台或系统提取相关的特征(信息片段),从而有助于从现有数据中学习并对即将出现的文本进行预测。

企业每天都会生成大量信息,80%的业务数据都是非结构化的文本数据。无论是从事销售,客户服务,营销还是产品设计制造,分析原始文本数据都是非常重要。以物流业为例,如果利用人工进行物品分类,不但标记过程非常耗时,并且过程重复也不准确。另外在一般公司,从票据持有到产品意见回馈和售后客户互动,每个主要业务流程都有文本数据产生。然而,分析大量文本资料令人生畏,这就是为什么以AI为本的文本分析越来越受欢迎的原因,尤其是其能够透过机器学习,让企业的繁琐任务和流程实现自动化。

结合AI的文本分析软体具有广泛的业务应用程序和用例,让一些企业使用此类技术时,最大限度地提高效率,减少员工花费在重复性任务上的时间,这些任务可能会对营业额产生很大影响。举例来说,面对数百万社交媒体短语,如线上评论和回馈,此时,分析人员可以AI文本分析软体进行反复调查、排序、归类、分析,从中获得一般客户服务或销售之后的满意度分布等有效资讯。

以更深层的意义来看,从事客户体验、产品营销或销售工作的业者,可运用相当多的文本分析应用程序完成流程自动化并获得更好的洞察力,而这些洞察力都可由非资讯工程技术背景者取得,这一切都是拜先进AI深度学习功能所赐。

科学概念上,深度学习是一组受人类大脑工作原理启发的算法和技术,其中大量的训练数据(数百万个案例)生成语义丰富的文本表示,然后输入以机器学习逻辑所建立的不同类型模型中,如类神经网路,此种深度学习模型能够做出比传统机器学习模型更准确的预测结果。

此处所谓的机器学习逻辑,是先将收集到的文本转换为向量后,然后将它们与预期输出一起输入机器学习算法,借此创建分类模型,接着训练好的模型可以选择最能代表文本的特征进行分析,或者更进一步将看不见的文本转换为向量,提取相关特征,以遂行预测功能。

在AI的文本分析应用中有一个特别有用的选项是情绪分析(Sentiment Analysis),它分析对文本中给定主题的意见。通过使用情绪分析模型分析提及的社交媒体,自动将它们分类为正面、中性或负面。如果同时使用主题分类器分析特殊命题,分析者还可以了解社群成员谈论内容,甚至作出结论或摘要。

总括来讲,具有商业发展潜力的AI文本应用案例或调查分析对象可包括:社交媒体、品牌或产品的销售和营销策略、客服满意度、票务(如路线和分类)、紧急检测、客户消费心理、商业知识管理等等。

以AI赋能的机器或系统具有类似于人类的智慧,因此,结合AI的文本分析在处理新兴问题上是大有可为的。20世纪30年代,在杜林机理论(Turing Machine Theory)影响下,以及深度类神经网路(Deep Neural Network, DNN)出现的重新点燃,AI方法已经广泛应用在各项研究领域,包括自然语言处理。

基本上模仿大脑内大规模、并行、分散等方式的表示与计算能力,人工类神经网路(ANN)是设计AI的最古老方法之一。在各种类神经网路中,递归类神经网路(RNN)允许神经元的创建与处理输入模式具有任意序列的记忆体,其中各层之间的连接形成循环;深度类神经网路(DNN)或深度置信网路(DBN)采用分层结构,其具有多个限制型波兹曼机器(RBM),透过逐层连续学习程序来工作,RBM形成无向图形模型,没有”可见-可见”和”隐藏-隐藏”连接,DBN的优点在于其无监督学习的能力,由于多层结构而具有快速推理与弹性;另外一种卷积类神经网路(CNN)是建立在可卷曲的可训练滤波器层上,因此结果阶层可形成越来越复杂的特征。基本上,CNN与DBN是不同的,其中DBN是一种生成模型,描述数据和相应目标之间的联合分布,而CNN则是一种判别模型,是以数据为条件下描述目标分布。因此,网路数据妥善及效率处理无疑是AI在文本分析中大显身手的机会。

现在是资讯爆发时代,网路数据是一个庞大知识宝藏,无庸置疑地,它为AI提供建立模型与分析趋势的机会。但是,要导出与数据完全匹配的简单模型或模式不是那么简单。另外很有可能的是,由许多参数组成的导出结果非常难以解读,并且缺乏实际应用价值。其次,为了及时保存和处理网路数据,大量存储和计算资源需要发展,与此同时也会衍生巨大潜在私人资讯安全威胁与风险。此外,在应用大多数AI算法之前,通常需要以分散方式收集数据。这些因素不可避免地增加了记忆体和处理器的成本开销。总之,定价与精确决定了AI赋能文本分析是否能够成功运作的两大关键因素。

英国物理学家霍金曾说出一句警世名言:“全面发展AI的话,人类恐自取灭亡”。言外之意在于强调使用AI过程当中,道德(Ethics)规范的重要性,如果据此延伸至“文本分析”,那么个人隐私保护无异是一项无限上纲了。
参考文献

[1] Gray, J. (2009), The Fourth Paradigm: Data-Intensive Scientific Discovery, Edited Hey, T., Tansley, S. and Tolle, K., Microsoft Research, Redmond, Washington, USA.[2] https://www.garyfox.co/how-much-data-is-generated-each-day/

(注;作者为工研院前研究员)

责任编辑:高义

评论
2019-08-18 12:43 PM
Copyright© 2000 - 2016   大纪元.