ETL的方法很多,常用的有三种。一是借助ETL工具(比如Oracle的OWB,SQLServer2000的DTS,SQLServer2005的SSIS服务,Informatic等等)实现,一个是SQL方式的实现,另一个是ETL工具与SQL相结合。前面两种方法各有优缺点,借助工具可以快速建立ETL工程,屏蔽复杂的编码任务,提高工作速度,降低难度,但缺乏灵活性。SQL方法具有灵活性,提高了ETL的运行效率,但代码复杂,技术要求较高。再次,将前两种方法结合在一起,将大大提高ETL的开发速度和效率。
本部分需要在调查阶段做大量的工作,首先要弄清楚数据来自于几个业务系统,每个业务系统的数据库服务器运行哪些DBMS,是否有手工数据,手工数据量有多大,是否存在非结构化数据,等等,在收集这些信息后,才能设计出数据提取。
这种类型的数据源的设计是相当简单的。一般而言,DBMS(SQLServer,Oracle)将提供数据库连接功能,使DW数据库服务器与原始业务系统之间直接建立链接关系,即可直接进行Select语句访问。
通常还可以使用ODBC的方式对这一类数据源进行连接,比如SQLServer与Oracle之间。在您无法建立数据库链接的情况下,有两种方法可以实现:在将源数据导入ODS之前,使用工具将源数据导出为.txt或.xls文件。另一种方法是通过程序界面实现。
业务人员可以接受培训,使用数据库工具将这些数据导入指定数据库,然后从指定的数据库中提取。也可能需要使用工具来实现。
对大量数据的系统,必须考虑增量抽取。一般而言,业务系统会记录业务发生的时间,我们可以使用一个增量标记,每一次抽取前判断一个ODS中记录的最大时间,然后再根据该时间到业务系统取大于此时间的全部记录。在业务系统中,通常不存在或者部分存在业务系统的时间戳。
以上是关于北方互联的小编给大家的一些分析,希望对大家有所帮助,详细了解可询问线上客服,或者客服处留言哦,我们会尽快回复您,详细为您解答……