大数据学习路线-如何选择正确的数据集成工具

时间:2018-04-23 10:59来源:未知 作者:成都达内 点击:

  大数据学习路线-如何选择正确的数据集成工具

  如今的数据往往来自多笑眯眯擅、文件系统、数据湖或存储库。为了满足各类业务需求,我们必须将数据与其他数据源的记录系统相集成,从而支持分析、面向客户的应用程序或者内部工作流。而这又带来了新的问题——我们该如何选择正确的数据集成工具,从而对各类数据加以归纳?今天的文章将就此展开探讨。

  大数据学习路线

  数据不在一个数据库,文件系统,数据库或存储库中。为了满足许多业务需求,必须将数据与其他数据源的记录系统集成,然后用于分析,面向客户的应用程序或内部工作流程。例子包括:

  ·来自电子商务应用程序的数据与用户分析,客户关系管理中的客户数据以及其他主数据源集成在一起,以建立客户群并定制营销信息。

  ·物联网传感器数据与运营和财务数据库中的数据相关联,以控制吞吐量并报告制造过程的质量。

  ·员工工作流应用程序,可将跨多个SaaS平台和内部数据源的数据和工具连接到一个易于使用的移动界面。

  许多组织也对数据科学家,数据分析师和创新团队提出了数据要求,他们在集成内部和外部数据源方面的需求日益增长:

  ·开发预测模型的数据科学家通常会加载多种外部数据源,例如计量经济学,天气,人口普查和其他公共数据,然后将其与内部资源融合。

  ·试验人工智能的创新团队需要汇总可用于训练和测试算法的大型复杂数据源。

  ·业务和数据分析师,特别是曾经在电子表格中执行分析的数据驱动营销部门,现在可能需要更复杂的工具来加载,加入和处理多个数据馈送。

  1. 数据技术与功能市场规模庞大

  问题是:用什么工具和做法来整合数据源?什么平台被用来自动化操作数据?正在委托哪些工具供数据科学家和数据分析师在使用新数据源时更加努力?在开发跨多个数据源和API进行交易的应用程序时,有效的开发和开发工具能够实现更快速的应用程序开发?

  由于许多组织具有不同类型,数量和速度的数据,并随着时间的推移而产生不同的业务需求,因此可能已有不同的方法和工具用于集成数据。很容易坚持这些,并将它们扩展到新的使用案例。虽然使用数据工具的任何人可能比其他人更熟悉一种方法,但对于具有多种业务和用户需求的组织而言,应用一刀切的数据集成方法可能并不是最佳选择。

  此外,随着越来越多的组织投资于数据解决方案,大数据解决方案有一个健康的市场。结果是现在有许多新的平台和工具来支持数据集成和处理。

  有了这么多的工具,希望将数据处理作为核心功能的组织应考虑各种工具类型,根据业务和技术需要应用这些工具类型。与数据技术合作或负责数据技术的技术人员应该熟悉可用工具的类型。在这里,我调查了七种主要类型的工具:

  ·编程和脚本数据集成

  ·传统的提取,转换和加载(ETL)工具

  ·数据高速公路SaaS平台

  ·面向用户和数据科学家的数据准备工具

  ·用于应用程序开发的API和数据集成

  ·具有数据集成功能的大数据企业平台

  ·AI注入数据集成平台

  2. 数据集成编程与脚本

  对于任何具有基本编程技能的人来说,将数据从源文件移动到目标文件的最常见方式是开发一个简短的脚本。这可以在具有存储过程的数据库内完成,作为按预定作业运行的脚本完成,也可以是部署到无服务器体系结构的小型数据处理代码片段。

  这些脚本通常以几种模式之一运行。它们可以按照预定义的时间表运行,也可以作为由事件触发的服务运行,或者在满足定义的条件时作出响应。他们可以从多个来源获取数据,在将数据传送到目标数据源之前加入,过滤,清理验证和转换数据。

  脚本是移动数据的快捷方式,但它不被认为是专业级的数据处理方法。要成为生产级的数据处理脚本,它需要自动执行处理和传输数据所需的步骤,并处理多种操作需求。例如,如果脚本正在处理大量数据或快速移动的数据,则可能需要使用Apache Spark或其他并行处理引擎来运行多线程作业。如果输入数据不干净,程序员应该启用异常处理并在不影响数据流的情况下踢出记录。程序员还应该执行重要的计算步骤记录以便于调试。

  编写脚本来支持这些操作需求并不是微不足道的。它要求开发人员预测数据集成和相应程序可能出现的问题。另外,开发自定义脚本在使用许多实验数据源时可能不具有成本效益。最后,数据集成脚本通常难以完成知识转移知识,并且难以跨多个开发人员进行维护。

  出于这些原因,具有较大数据集成需求的组织通常会超越编程和脚本数据集成。

  3. 传统提取、转换与加载(简称ETL)工具

  自20世纪70年代以来,抽取,转换和加载(ETL)技术已经出现,IBM,Informatica,Microsoft,Oracle,Talend等平台在功能,性能和稳定性方面已经成熟。这些平台提供可视化编程工具,让开发人员能够分解并自动执行从源中提取数据,执行转换并将数据推送到目标存储库的步骤。由于它们是可视化的,并将数据流分解为原子步骤,与难以解码的脚本相比,管道更易于管理和增强。另外,ETL平台通常提供操作界面来显示数据管道崩溃的位置并提供重启它们的步骤。

  多年来,ETL平台增加了许多功能。大多数人可以处理来自数据库,平面文件和Web服务的数据,无论他们是在本地,在云中还是在SaaS数据存储中。它们支持各种数据格式,包括关系数据,XML和JSON等半结构化格式,以及非结构化数据和文档。许多工具都使用Spark或其他并行处理引擎来并行化作业。企业级ETL平台通常包括数据质量功能,因此数据可以通过规则或模式进行验证,并将异常发送给数据管理员进行解决。

  一个常见的ETL示例是组织何时将销售前景的新文件加载到CRM中。在加载之前,这些数据源通常需要清理物理和电子邮件地址,这可以通过使用规则和标准数据源进行转换来完成。然后将清理后的记录与CRM中已经存在的记录进行匹配,以便现有记录得到增强,同时添加之前没有的数据并添加新记录。如果ETL很难确定某行是匹配还是新记录,则可以将其标记为要审查的异常。

  当数据源持续提供新数据并且目标数据存储的数据结构不会频繁更改时,通常会使用ETL平台。这些平台专为开发人员编写ETL而设计,因此对于混合专有,商业和开放数据存储的数据流操作最为有效。

  4. 面向SaaS平台的数据高速公路

  但是,是否有更有效的方法从常见数据源中提取数据?也许主要数据目标是从Salesforce,Microsoft Dynamics或其他常见CRM程序中提取帐户或客户联系人。或者,营销人员希望从Google Analytics等工具中提取网络分析数据,或试图将客户数据推送到营销工具(如Mailchimp)中。您应该如何防止SaaS平台成为云中的数据孤岛,并轻松实现双向数据流?

  如果您已经拥有ETL平台,请查看供应商是否提供通用SaaS平台的标准连接器,或者有可以从开发合作伙伴处购买的市场。

  如果您没有在ETL平台上进行投资,并且您的数据集成需求主要是连接通用平台,那么您可能需要一个易于使用的工具来构建简单的数据高速公路。

  Scribe,Snaplogic和Stitch等数据高速公路工具提供了简单的网络界面,可以连接到常见的数据源,选择感兴趣的领域,执行基本转换,并将数据推送到常用目的地。

  数据高速公路的另一种形式有助于更接近实时地整合数据。它通过触发器进行操作,因此当源系统中的数据发生更改时,可以将其操作并推送到辅助系统。 IFTTT,Workato和Zapier就是这类工具的例子。这些工具对于将单个记录从一个SaaS平台转移到另一个SaaS平台时使用“如果是这样的”逻辑特别有用。在评估它们时,请考虑它们集成的平台数量,处理逻辑的功能和简单性以及价格,以及特定于您的需求的任何因素。

  5. 面向用户与数据科学家的数据准备工具

  当非技术和技术含量较低的用户想要加载和清理新的数据源时,有一种新的数据准备工具针对这些用户,以帮助他们执行数据集成。

  要实施基本的数据集成和混合,请考虑贵组织中任何商业智能系统已提供的数据集成功能。 Looker,QlikView和Tableau等工具提供基本的数据集成,建模和转换。您还可以使用它们发布和共享虚拟数据源。

  如果数据科学家和数据分析师正在处理大量数据源或花费大量时间来处理数据,则与BI工具集成的数据准备工具可能是明智的投资。

  什么是数据争夺?这是业务用户和数据科学家需要在数据源上进行的所有工作,以使其可用于分析。它通常从分析数据开始,逐场分析显示有多少百分比有数值与数据集有什么不同值。使用配置文件数据,分析师会清理具有不同值的字段(例如“纽约”和“纽约”),合并和删除字段,或使用公式创建计算字段。他们还可以执行行级操作,如删除重复项和合并记录。

  数据准备工具通常围绕类似电子表格的用户界面进行设计,以便让用户可视化数据配置文件并混合数据源。但与传统电子表格不同,这些工具捕获用户执行的数据处理步骤并启用可视化和编辑操作。这些工具中的大多数可以使用它们捕获的这些脚本来自动化具有持续运营需求的数据馈送的数据流。

  有独立的数据准备工具,如Alteryx,Paxata和Trifacta。另外,传统的ETL厂商如IBM和Talend已经开发了面向商业用户和数据科学家的数据准备工具。

  6. 用于应用程序开发的API与数据集成方案

  如果您的目标是开发需要连接到多个数据源和API的Web或移动应用程序,则有API和应用程序开发工具可以简化这些集成。这些工具不是将数据集成到中央存储库中,而是提供各种选项,以便在使用多个API和数据源时支持更快的应用程序开发。

  应用程序集成有几种不同的平台类型和工具提供者Dell Boomi,Jitterbit和Mulesoft等平台旨在简化API和数据访问,并充当数据总线以集中交互。像Built.io,OutSystems和Pow Wow Mobile这样的低代码和移动开发平台可以实现集成,并提供开发和开发环境,以快速构建和运行应用程序。

  7. 大数据企业平台与数据集成功能

  如果您正在Hadoop或其他大数据平台之上开发功能,您可以选择将数据集成到这些数据存储:

  ·您可以开发脚本或使用支持大数据平台的ETL工具作为端点。

  ·您可以选择具有ETL,数据治理,数据质量,数据准备和主数据功能的端到端数据管理平台。

  你可以做到这一点。

  许多提供ETL工具的供应商也出售具有这些增加的大数据功能的企业平台。还有像Datameer和Unifi这样的新兴平台可以实现自助服务(如数据准备工具),但是可以在支持供应商的Hadoop发行版之上运行。

  8. AI驱动型数据集成平台

  在跨脚本,ETL,数据准备,应用程序集成服务和大数据平台的过程中,为开发人员,数据科学家,数据管理员和分析人员提供了大量实际的手动数据集成工作。供应商知道这一点,而一些下一代数据集成工具和功能将包括人工智能(AI)功能,以帮助自动化重复性任务或识别难以找到的数据模式。例如,Informatica正在营销Claire,“智能数据平台”,而Snaplogic正在营销Iris,它“推动自我驱动整合”。

  9. 找到正确的数据集成工具组合

  考虑到平台类型,每个空间竞争的供应商数量以及用于分类选项的分析师术语,数据集成选项列表可能令人望而生畏。那么,您如何才能为现在和未来的数据集成需求决定正确的工具组合?

  简单的答案是它需要一些纪律。首先清点已经使用的工具,编制成功应用的使用案例的编目,并成功地使用这些工具捕获人员。向他们提供其他难以实施解决方案的示例用例,因此在寻找其他工具时可能会有所帮助。

  了解数据集成主题专家的感受。也许有数据集成脚本需要持续维护,财务团队对重复性工作感到沮丧,或者使用ETL解决方案进行开发对于营销团队的需求来说太慢了。也许数据科学家花费大量的时间用一种编程语言来纠缠数据并创建一个庞大的代码库。也许很多数据集成需求都与少数标准平台相关,并且标准化集成方法将带来运营收益。

  通过一个清单,数据集成专家团队可以在请求新的或增强的数据集成时审查实施选项。 如果新的请求像已经实施并且正在工作的请求,则团队应该有信心再次应用它。 如果不是,它可以选择尝试使用现有工具进行实施,或者考虑使用新工具进行概念验证,如果这是一个高度不同的数据集成工作。

  当有新的业务需求和不断变化的技术环境时,这种整合用例和审查新用例的规范是最佳实践。

  (来源:网络大数据,侵删)

(责任编辑:成都达内)

CopyRight © 2002-2016 成都达内科技职业技能培训学校 (www.cdtedu.com) 版权所有 成都达内 川公网安备 51019002000307号 网站地图