Amazon Web Services 向所有客戶提供 AWS Glue
西雅圖--今天,Amazon.com 旗下公司(納斯達克股票代碼:AMZN)推出了 AWS Glue,這是一種完全托管的提取、轉換和加載 (ETL) 服務,使客戶可以輕松準備數據并將其加載到 Amazon Simple Storage Service (Amazon S3)、Amazon Redshift、Amazon Relational Database Service (Amazon RDS) 以及在 Amazon Elastic Compute Cloud (Amazon EC2) 上運行的數據庫中進行查詢和分析。客戶只需在 AWS 管理控制臺中單擊幾下即可創建和運行 ETL 作業。客戶只需將 AWS Glue 指向其存儲在 AWS 上的數據,AWS Glue 就會發現相關的元數據(例如表定義)并對其進行分類,生成用于數據轉換的 ETL 腳本,并將轉換后的數據加載到目標數據存儲中,從而預置所需的基礎設施完成工作。借助 AWS Glue,數據可以在幾分鐘內用于分析,而且由于 AWS Glue 是無服務器的,因此客戶只需為執行數據準備和加載作業時消耗的計算資源付費。要了解有關 AWS Glue 的更多信息,請訪問 。
“我們從各種數據源中提取格式、模式和質量各不相同的臨床試驗數據、醫學詞匯和科學出版物,以便為我們的客戶提供見解”
數據集成——從各種來源提取數據、對其進行規范化并將其加載到數據存儲中——通常占實施分析項目所需時間的 75%。客戶可能會花費數月時間手動編碼和編輯 ETL 腳本,隨著數據量的增長和新數據源的添加,這些腳本通常會變得更加復雜和容易出錯。而且,運行 ETL 作業需要在作業之間經常閑置的專用硬件。 AWS Glue 消除了創建、管理和修改 ETL 作業所涉及的所有無差別繁重工作,從而顯著加快了分析項目的 ETL 階段。
在抓取客戶選擇的數據源后,AWS Glue 識別數據格式和架構以構建統一的數據目錄,提供客戶選擇數據的集中視圖。這使客戶可以輕松地在各種數據存儲中搜索和管理他們的所有數據,而無需手動移動它。當客戶從數據目錄中識別出數據源(例如,數據庫表)和目標(例如,數據倉庫)時,AWS Glue 會匹配架構并生成可定制、可重用、可移植和可共享的數據轉換代碼。開發人員可以安排任意數量的 ETL 作業,其余的由 AWS Glue 管理——根據客戶 ETL 工作負載自動調整計算資源。通過簡化創建 ETL 作業的流程,AWS Glue 允許客戶構建涵蓋數千個作業的可擴展且可靠的數據準備平臺,并具有內置的依賴關系解析、調度、資源管理和監控功能。
“AWS 的可擴展、可靠的云存儲與我們廣泛的分析服務相結合,使客戶能夠比以往更輕松地收集、存儲、分析和共享數據,”亞馬遜數據庫、分析和人工智能副總裁 Raju Gulabani 說網頁服務。 “雖然看到今天在 AWS 上運行了多少分析令人驚訝,但許多人告訴我們,有一個方程式仍然太難了——清理和準備大量數據以供分析。我們開發 AWS Glue 以消除 ETL 所涉及的大部分無差別繁重工作。通過對客戶的所有數據進行編目并自動執行 ETL 流程,AWS Glue 不僅消除了分析中的大量麻煩。它還使客戶能夠將他們的數據存儲在他們想要的任意數量的來源中,并使用他們選擇的任何 AWS 服務快速開始分析所有數據。”
NewsCorp 是一家全球性的新聞和商業信息提供商,每天向 50 多個國家/地區的數億消費者提供內容。 “在 NewsCorp,我們正在 AWS 上構建一個世界級的數字平臺,以向我們的外部客戶分發內容,并促進我們所有業務的數據驅動決策。我們合并來自各種來源的數據,并將其持續加載到我們基于 Amazon S3 的數據湖中,”NewsCorp 首席數據官 Simon Smith 說。 “AWS Glue 在推斷、分類和轉換數據的能力方面無與倫比。借助 AWS Glue,我們的數據科學家和分析師始終可以訪問我們數據湖中可用的最新數據。 AWS Glue 數據目錄會自動檢測新數據的可用性,推斷其元數據并使其在 Amazon Athena 中隨時可用,以便我們可以開始查詢該數據。我們的 AWS Glue ETL 作業將各種數據格式的原始數據無縫轉換為 Amazon Athena 優化的 Parquet 數據格式。最好的部分是 AWS Glue 是無服務器的。我們不必提供或管理任何資源來準備分析數據。”
21 世紀福克斯擁有全球媒體公司組合,每天以 50 種語言覆蓋超過 18 億戶家庭。 “作為我們整體數據戰略的一部分,我們正在 Amazon S3 上構建 PB 級數據湖,以便我們的高管可以通過統一的數據平臺訪問任何數據資產。我們從各種來源引入數據,從我們的 ERP 系統到點擊流和移動分析,對其進行處理,并以可查詢的形式提供,”21 世紀福克斯全球首席信息官 John Herbert 說。 “我們總是有興趣嘗試新產品,以減少管理數據湖的管理開銷。 AWS Glue 自動發現新數據、提取相關元數據并通過中央數據目錄使其可用的能力給我們留下了深刻印象,因此我們可以立即開始查詢這些數據。我們期待著讓 AWS Glue 成為我們數據湖的一個組件。”
myTomorrows 是一個在線平臺,以臨床試驗和早期訪問計劃的形式提供信息和治療選擇。 “我們從各種數據源中提取格式、模式和質量各不相同的臨床試驗數據、醫學詞匯和科學出版物,以便為我們的客戶提供洞察力,”myTomorrows 首席技術官 Robert-Jan Sips 說。 “AWS Glue 的自動架構發現和代碼生成功能對于像我們這樣快速發展的小型組織來說確實是游戲規則的改變者。 AWS Glue 使載入新數據集變得極其簡單且經濟高效,其無服務器產品使測試和運行我們的 ETL 作業變得輕而易舉。我們的開發人員喜歡他們可以簡單地將筆記本連接到 AWS Glue,并且無需任何加速時間即可開始工作。”OLX 集團在 40 多個國家運營在線交易平臺網絡,在全球擁有超過 3 億月度用戶。 “我們將所有在線市場的數十億每月訪問和頁面瀏覽量的點擊流數據收集到 Amazon S3 上的中央數據湖中。我們一直在尋找能夠使我們的數據攝取管道穩健、可靠和自動化的產品,”OLX 數據工程經理 Jakub Orlowski 說。 “我們抓住了第一次開始使用 AWS Glue 的機會,并且喜歡它的易用性、靈活性和零管理開銷。 AWS Glue 自動將我們數據湖中的原始 JSON 數據轉換為 Parquet 數據格式,并通過中央數據目錄使其可用于搜索和查詢。我們可以使用 Zeppelin 筆記本編輯 AWS Glue 生成的 ETL 代碼,一旦完成,AWS Glue 就會在無服務器 Spark 平臺上運行所有內容。 AWS Glue 將使我們能夠將我們的數據創新和民主化努力提升到一個新的水平,并使數據生產者和消費者比以往任何時候都更加緊密。”
OST 是 APN 合作伙伴,在為連接產品構建企業云解決方案方面擁有專業知識,正在與全球最大的辦公家具制造商之一 Herman Miller 合作,將物聯網和大數據帶入工作場所。 “我們正在與 Herman Miller 合作開發物聯網平臺和分析解決方案,以從支持傳感器的家具中收集實時數據,在數據湖中對其進行分類,然后運行機器學習算法。辦公室員工受益于即時的人體工程學調整,雇主可以衡量其空間的有效性,以實現最佳的房地產使用,”OST 高級建筑師 Alex Jantz 說。 “AWS Glue 幫助我們將 DevOps 時間縮短了一半。我們從一個自動生成的腳本開始,然后根據需要使用 Zeppelin 筆記本對其進行自定義。 AWS Glue 完全重新定義了我們對 ETL 的看法。我們只關注自定義代碼,其余的由 AWS Glue 負責。”
客戶可以通過 AWS 管理控制臺開始使用 AWS Glue。 AWS Glue 在美國東部(弗吉尼亞北部)區域可用,并將在未來幾個月擴展到其他區域。
關于亞馬遜網絡服務
11 年來,Amazon Web Services 一直是世界上最全面、應用最廣泛的云平臺。 AWS 為計算、存儲、網絡、數據庫、分析、應用程序服務、部署、管理、開發人員、移動、物聯網 (IoT)、人工智能 (AI)、安全、混合和企業應用程序提供 90 多項功能齊全的服務,來自美國、澳大利亞、巴西、加拿大、中國、德國、印度、愛爾蘭、日本、韓國、新加坡和英國 16 個地理區域的 44 個可用區 (AZ)。 AWS 服務受到全球數百萬活躍客戶的信賴——包括增長最快的初創公司、最大的企業和領先的政府機構——為他們的基礎設施提供支持、使其更加敏捷并降低成本。
關于亞馬遜
亞馬遜遵循四項原則:以客戶為中心而非以競爭對手為中心、對發明的熱情、對卓越運營的承諾以及長期思考。客戶評論、一鍵購物、個性化推薦、Prime、亞馬遜物流、AWS、Kindle Direct Publishing、Kindle、Fire 平板電腦、Fire TV、亞馬遜 Echo 和 Alexa 是亞馬遜率先推出的一些產品和服務。欲了解更多信息,請訪問并關注@AmazonNews。
特別聲明:以上文章內容僅代表作者本人觀點,不代表ESG跨境電商觀點或立場。如有關于作品內容、版權或其它問題請于作品發表后的30日內與ESG跨境電商聯系。
二維碼加載中...
使用微信掃一掃登錄
使用賬號密碼登錄
平臺顧問
微信掃一掃
馬上聯系在線顧問
小程序
ESG跨境小程序
手機入駐更便捷
返回頂部