ETL簡介
ETL增強了資料整合能力,分別代表Extract(提取)、Transform(轉換)和Load(加載),涵蓋了從一個來源中提取資料、資料處理和轉換,最後載入到另一個資料來源的過程。資料目的節點,我們提供了四個功能節點,以下將詳細介紹。
- 資料來源 此節點設定為讀取資料,並且可以在單一同步任務中包含多個資料來源節點。
- 資料目的地 此節點用於寫入資料,單一同步任務中只能存在一個資料目的節點。
一、篩選器
如果新增該節點,則會在資料同步過程中對資料進行篩選,然後同步篩選後的資料。您可以在任意節點之間新增「篩選」節點,具有多個篩選條件或條件群組。
注意:此功能僅在終極版中可用。
新增篩選器節點:
設定篩選條件:
二、連接多個表
此節點支援異質資料庫之間的多表連接,同時也支援外部資料庫之間的連接。
多表連結可以增強各個業務系統之間資料的互動和關聯,使資料成為真正有價值的資源。
- 更全面:多表連接將分散的資料整合成更完整、更全面的資料集,提供更豐富、更詳細的資料資訊。
- 多維度:透過設定多個表格之間的關係,可以從不同維度、不同角度分析資料。
1. 設定步驟
- 按一下任何同步任務,將滑鼠懸停在兩個節點之間,然後按一下【+】按鈕新增「加入多個表」節點。
- 新增完成後,會出現「讀取資料來源」和「加入多個表」節點。
- 讀取資料來源:用於選擇要連接的資料來源,可以是工作表,也可以是外部資料庫。
- 連接多表:用於設定連接方式和連接條件。
- 設定多表連接
首先選擇資料來源,然後在「連接多表」節點中設定連接條件。
- 如果需要連接更多表,可以新增額外的「連接多個表」節點。
2. 三種類型的連接
- 內連接
內連接是一種映射,只會顯示兩個表中都存在的資料。
- 左連接
左連接顯示左表中的所有資料,並且僅顯示右表中與左表相同的資料。沒有對應資料的部分顯示為NULL。
- 右邊連接
它與左連接相反。
3. 多表連接的限制
- 可以在任意節點之間增加“Join multiple table”節點;
- 無法為相同資料來 源、資料庫或表格新增其他關係;
- 如果兩個表格之間的欄位重疊,則重新命名;
- 在欄位設定中,如果是資料庫,主鍵欄必填;如果是工作表,rowid 欄位是必填的。
4. 使用案例
例如,目前有三個工作表:學生工作表、數學成績工作表和語文成績工作表。現在,您需要在一張工作表中顯示同一學生不同科目的分數。
- 準備資料。
- 創建同步任務。
- 設定資料來源和目標。
- 同步方式:「同步時要求資料處理」。
注意:如果創建任務僅用於資料同步,則可以選擇「僅同步資料」。
- 新增“連接多個表”節點
- 設定多表連接的資料來源 新增“Join multiple table”節點後,會出現另外兩 個節點。
資料來源:在此設定第二個工作表,即中國分數工作表。對於分數欄位,為了區分來源,這裡將其重新命名為Chinese Scores 。
連接多個表:使用左連接連接「學生」工作表和「中文分數」工作表,因為「學生」工作表包含所有學生,但「中文分數」工作表可能不包含所有學生。
- 加入條件:可以設定多個條件,這裡只選擇Name 。
- 編輯欄位:在這裡您將看到兩個工作表中的欄位。這裡選取的欄位是可以在下一個節點中使用的欄位。我們不需要下一個節點中的中國分數工作表中的姓名欄位,因此可以在此處取消選中它。
- 加入數學分數工作表
新增第二個「加入多個表」節點以加入數學分數工作表。
- 連接類型:左連接
- 加入條件:這裡,嘗試從學生工作表中選擇姓名欄位,因為學生工作表中的資料是完整的。
- 編輯欄位:數學分數工作表中的名稱欄位也是不必要的,因此也可以在此處取消選取。
- 設定目的地
學生工作表、中文分數工作表和數學分數工作表已設定為資料來源。現在您需要設定將寫入此資料的目標表。
對於目標表,您可以創建新工作表或選擇現有工作表。這是創建新工作表的範例。
- 新工作表名稱:資料庫或應用中新工作表的名稱。
- 主鍵欄位:欄位名稱後面有鍵符號的欄位為主鍵欄位。由於同步過程中需要主鍵欄位,所以這裡是必填的。
- 發佈同步任務並檢查。
三、分類和匯總
它用於資料分析,幫助使用者辨識資料中的變化和異常,從而監控並提供問題回饋。
常用於:
- 資料分析與決策:將大量原始資料轉化為有意義的資訊,幫助更好地理解資料並做出明智的決策;
- 報表產生:根據類別和聚合結果,方 便地產生報表和視覺化資料;
- 監控與回饋:透過分類和彙總的結果,幫助監控業務和績效指標,並提供回饋,以便及時採取行動。
1. 設定步驟
- 按一下任意同步任務,將滑鼠懸停在兩個節點之間,然後按一下【+】新增「分類和聚合」節點。
- 設定欄位。
- 分類欄位:可以選擇任意欄位;
- 聚合欄位:根據欄位類型支援不同的功能。
- 文字類型:最大值和最小值函數;
- 數字類型(包括日期):求和、求平均、求最大值、求最小值的函數;
- 計數:僅行計數 (*)。
2. 分類和聚合節點
- 只有被選為分類欄位和聚合欄位的欄位才會被傳遞到下一個節點;
- 必須為聚合欄位選擇一個函數。
3. 使用案例
以上述的「連接多表」節點的資料為例,為班級增加一欄,進行分類匯總,可以看到不同班級語文、數學的最高分、最低分和平均分數。
- 準備資料。
- 新增“分類和聚合”節點。
- 設定節點。
分類領域:類
聚合欄位:選擇語文和數學成績,然後為每個成績選擇最大值、最小值和平均值。
- 設定目的地。
新增一個表來儲存匯總資料。
- 更新並發佈同步任務。
四、合併資料
透過該節點,使用者可以將兩張表的結果合併為一個結果集,大大簡化設定,提高效率。
1. 設定步驟
- 按一下任一同步任務,將滑鼠懸停在兩個節點之間,然後按一下[+]新增「合併資料」節點。
- 新增後會出現兩個節點,「讀取資料來源」和「合併資料」。
◦讀取資料來源:此處選擇需要連接的資料來源,可以是工作表,也可以是外部資料庫。
◦合併資料:在此設定合併資料的操作方法。
支援六種合併資料的方式:
- UNION:合併資料,同時從兩個表中刪除重複資料,僅保留唯一資料;
- UNION ALL:合併資料,同時保留兩個表中的所有資料;
- INTERSECT:僅保留兩個表中都存在的資料,並刪除重複資料;
- INTERSECT ALL:只保留兩個表中都存在的資料,不刪除重複資料;
- EXCEPT:只保留左表中存在但右表中不存在的資料,並刪除重複資料;
- EXCEPT ALL:只保留左表中存在但右表中不存在的資料,不刪除重複資料。
2. 合併資料節點的限制
- 如果欄位具有相同的名稱和類型,則欄位將合併。
3. 使用案例
以上面「分類聚合」節點的資料為例,將資料與分校的資料合併。
- 準備資料。
來自「分類和聚合」節點的資料:
各分校資料:
- 新增“合併資料”節點。
- 設定節點。
- 設定欄位。
- 創建目標工作表。
- 更新並發佈同步任務。