AWS Certified AI Practitioner (AIF-C01) study plan

AWS Certified AI Practitioner (AIF-C01) 學習指南

這是一份我用來學習https://www.youtube.com/watch?v=WZeZZ8_W-M4的學習指南

Introduction

  • AWS Certified AI Practitioner (AIF-C01) 是一項 AI 認證。
  • 此認證旨在教授 AI 雲端工作負載的基礎知識
  • 涵蓋 AWS 在傳統 ML 管線託管式 AI 服務以及 GenAI 和大型語言模型 (LLM) 方面的服務。
  • 此認證更側重於協助 C 級主管和決策者了解並採用 AWS 生態系統用於 AI/ML。
  • 然而,課程內容會包含許多開發人員實務內容。
  • 考慮此認證的對象包括:AI 工程師、資料科學家,或需要在開發工作中使用 AI 相關內容的開發人員。
  • AI 工程師是指使用託管式 AI 服務建立 AI 解決方案、建構 ML 管線,或在某種程度上與資料科學家合作的人。
  • 如果您希望架構 ML 或 GenAI 的商業使用案例,您會需要此認證。
  • 考試方式可在現場線上進行,透過 Pearson VUE 平台進行監考。
  • 考試包含 65 題,其中 50 題計分15 題不計分
  • 通過分數為 700 分 (總分 1000 分)。
  • 採用量表計分 (scaled scoring),約為 70%。
  • 考試題型包括多重選擇多重回應排序配對以及案例研究。排序、配對和案例研究是新增的題型。
  • 建議在準備此認證之前,具備 AWS Cloud Practitioner 認證。
  • 不需要具備開發程式碼、ML 演算法、實作資料工程或特徵技術、設定超參數、建構/部署 AI 管線、進行數學或統計計算等能力。但來源建議進行實務操作以加強理解。

AI and ML Fundamentals

  • 人工智慧 (AI):模擬人類行為的機器。這是非常廣泛的術語。
  • 機器學習 (ML):無需明確程式設計就能在特定任務上表現更好的機器。需要編寫 ML 模型程式碼,但一旦模型建立,它就能利用複雜演算法完成任務。可以將其視為執行計算的特殊演算法。
  • AI 與 GenAI 的區別在於:
    • AI 側重於理解和決策。
    • GenAI 側重於創建新的和原始的輸出。GenAI 也能做到前者的能力,但額外具備生成能力。
    • 在資料處理方面,AI 分析現有資料並基於此進行決策。GenAI 使用現有資料來生成資料和未曾見過的輸出。
    • 在應用方面,AI 通常更具廣泛適用性。GenAI 非常側重於創造性、創新性的合成內容生成。
  • 考試包含五個領域 (domain),每個領域有不同的權重:
    1. 人工智慧與機器學習的基礎 (Fundamentals of AI and ML)
    2. 生成式人工智慧的基礎 (Fundamentals of Gen AI)
    3. 基礎模型應用 (Applications of Foundation/Foundational Models)
    4. 負責任人工智慧指南 (Guidelines of Responsible AI)
    5. AI 解決方案的安全性、合規性與治理 (Security Compliance Governance AI Solutions)
  • 來源特別提到 GenAI 內容佔比很大。

Data

  • 資料標記 (Data Labeling):識別原始資料 (圖像、文字檔、影片等) 並添加一個或多個有意義和資訊豐富的標籤以提供上下文,使機器學習模型能夠從中學習的過程。
  • 對於監督式機器學習 (supervised machine learning),標記是產生訓練資料的先決條件。每筆資料通常會由人類標記。Amazon Recognition 中識別邊界框或分類圖像就是一個監督式學習的例子。
  • 對於非監督式機器學習 (unsupervised machine learning),標籤將由機器生成,可能不是人類可讀的。
  • 基本事實 (Ground Truth):一個標記正確的資料集,用作訓練和評估給定模型的客觀標準。訓練模型的準確性取決於基本事實的準確性。因此,基本事實資料對於成功很重要。
  • 資料整理 (Data Wrangling):將資料從一種原始形式轉換、映射到另一種格式的過程,目的是使其更適合各種下游用途,例如分析。也稱為資料清洗 (data munging)。
  • 資料整理有六個核心步驟:
    1. 發現 (Discovery):了解您的資料,並在後續步驟中記住特定領域的細節。
    2. 建構 (Structuring):將內容組織成更容易在最終結果中工作的結構。
    3. 清理 (Cleaning):刪除異常值、更改空值、刪除重複項、刪除特殊字元等。
    4. 轉換 (Transforming):根據您的特定需求更改或組合資料,例如將數據類型轉換為數值。
    5. 豐富 (Enriching):添加額外的資料或資訊以提高資料集的價值。
    6. 驗證 (Validating):確保資料在轉換後是準確和一致的。
  • 探索性資料分析 (Exploratory Data Analysis, EDA):分析和調查資料集,用於 ML 用例或一般資料用例。可以使用 SageMaker notebook 進行,它預裝了 Python 資料工具 (例如 pandas)。SageMaker Studio Labs 也提供 Jupyter notebooks,並且提供免費的 CPU 和 GPU。Amazon Athena 允許您對 S3 儲存桶中的半結構化資料 (例如 CSV, JSON, Parquet) 使用 SQL 進行分析。

Gen AI Primer

  • 生成式人工智慧 (Generative AI, GenAI) 側重於創建新的和原始的輸出
  • 這與 AI 的側重於理解和決策不同。
  • GenAI 可以處理多種模態 (modality) 的資料,包括文字、圖像、音訊、分子等。
  • 例如,GenAI 可以透過基因組資料進行藥物發現。
  • 許多人將 GenAI 與大型語言模型 (LLMs) 聯繫起來。
  • LLMs 生成類似人類的文本,是 GenAI 的一個子集。
  • 由於 LLMs 是目前最受歡迎和最發達的 GenAI 形式,它們常被混同於整個 GenAI。
  • LLMs 通常處理文本模態,但也可以是多模態的,即可以跨多種模態工作。

Bedrock

  • Amazon Bedrock 是一種建立生成式 AI 應用程式的方式。它允許您在初期無需編寫程式碼即可進行操作。
  • 它提供了一個低程式碼/無程式碼的經驗來創建 GenAI 應用程式。
  • Bedrock 整合了多個第三方和 Amazon 開發的基礎模型 (foundation models)
  • 基礎模型是經過大量資料訓練的通用模型。它們是預訓練 (pre-trained) 的,可以針對特定任務進行微調 (fine-tuned)
  • Bedrock 的主要組成部分包括:
*   **模型目錄 (Model Catalog)**:允許您選擇要使用的模型進行推論或預測。
*   **自訂模型 (Custom Models)**:可以透過**微調 (fine-tuning)** 或**持續預訓練 (continuous pre-training)** 來創建自訂模型。
    *   **持續預訓練**使用**未標記的資料**,提高模型的**一般知識**。
    *   **微調**使用**標記的資料**,使模型能夠執行**非常特定的任務**。
    *   當您部署自訂模型時,必須使用**預留吞吐量 (provisioned throughput)**。
*   **遊樂場 (Playgrounds)**:無需編寫程式碼即可使用模型。Bedrock 提供三種遊樂場:
    *   **聊天遊樂場 (Chat Playground)**:與支援聊天補全的 LLM 互動。
    *   **文本補全遊樂場 (Text Completion Playground)**:與 LLM 互動以預測下一個文本。在聊天補全出現之前,只有文本補全。對於單詞回應或文本到文本補全很有用,例如分類或歸類。
    *   **圖像遊樂場 (Images Playground)**:與生成圖像的 LLM 工作。
*   **提示管理 (Prompt Management)**:儲存提示模板 (prompt templates),有利於測試針對不同變數的提示。
*   **知識庫 (Knowledge Base)**:基本上是 **RAG (Retrieval Augmented Generation)** + 資料儲存 (例如 Amazon OpenSearch Service 或其他)。可以從多種來源攝取內容 (結構化和非結構化資料),並透過 AI 能力豐富內容。支援多種檔案類型 (text, markdown, HTML, docx, CSV, Excel, PDF 等),但單個檔案不能大於 50MB (推測為 MB)。要解析 PDF 需要開啟進階解析 (Advanced parsing)。需要將資料嵌入 (embedding) 到向量儲存 (vector store) 中。支援多種嵌入模型 (例如 Titan text embeddings, Cohere embed)。
*   **代理 (Agents)**:提供代理工作流程 (agentic workflows)。讓 LLM 更方便地連接知識庫、使用工具等。代理可以定義函式 (稱為工具) 來執行程式碼,例如呼叫 Lambda 函式。
*   **Guardrails**:預過濾器和後過濾器,用於控制、修正問題或阻止不喜歡的內容。也與負責任 AI 相關。
*   **水印偵測 (Watermark detection)**。
*   **推論 (Inference)**:支援批次推論 (batch) 和預留服務 (provisioned)。
*   **評估 (Eval assessments)**:用於評估模型。
*   Bedrock 可以與 **LangChain** 和 **LlamaIndex** 等**開源軟體**整合。這些軟體可以作為許多不同 LLM 模型的**適配器 (adapter)**。雖然 Bedrock 本身提供了許多模型的訪問權限,但 LangChain 和 LlamaIndex 的生態系統在某些方面更豐富。

Datastores for GenAI

  • 將向量化的嵌入儲存在向量儲存 (vector store) 中對於 GenAI (特別是 LLMs) 很重要。
  • Amazon OpenSearch Service 可以用作向量儲存。它基於 Apache Lucene,提供多種搜尋方法,包括向量相似性搜尋、K 近鄰 (K-Nearest Neighbor, KNN)、語義搜尋 (semantic search)、混合搜尋 (hybrid search)、多模態搜尋等。這使其成為處理 LLM 向量數據的有力選擇。
  • Pinecone 是一種第三方向量資料庫服務,可以與 Amazon Bedrock 整合。您可以在 Bedrock 的知識庫設置中選擇 Pinecone 作為向量資料庫。Pinecone 允許您建立索引來儲存向量,並指定維度 (dimension) 和度量 (metric) (例如 cosine)。它可以在特定的 AWS 區域中配置。
  • PGVector 是 PostgreSQL 資料庫的一個擴充功能,可以讓 PostgreSQL 儲存向量資料。您可以建立包含 vector 資料類型欄位的表格。它需要指定向量的維度。

PartyRock

  • Amazon PartyRock 是一個無程式碼開發環境,用於快速建構低級別的 Web 應用程式。
  • 可以透過 partyrock.aws 存取。
  • PartyRock 由多個 LLM 提供支援。
  • PartyRock 是免費使用的。
  • 它具有多個專門的代理 (specialized agents),每個代理可以有自己的框 (稱為小部件 widgets),執行特定的任務,並且可以依賴其他代理的輸出。
  • 應用程式可以透過連結輕鬆分享,或在 PartyRock 中被發現。
  • 可以使用 Google, Apple 或 Amazon 帳戶登入。
  • PartyRock 對於原型設計代理探索 LLM 用途的實際應用很有用。
  • 然而,來源認為它非常有限,而且有時不如直接使用 LLM 和框架 (如 LangChain 或 LlamaIndex) 簡單。

SageMaker

  • Amazon SageMaker 是一個統一的機器學習平台,用於建構端到端的 ML 解決方案。
  • SageMaker ML 管線/工作流程階段 (AWS 文檔中定義的 ML 工作流程變體):
    1. Fetch (獲取): 從儲存庫或公共資料集獲取資料。
    2. Clean (清理): 清理資料,例如正規化不一致的值。
    3. Prepare (準備): 轉換資料,例如組合屬性創建新屬性。
    4. Train (訓練): 使用演算法訓練模型。SageMaker 提供內建演算法或可從 Hugging Face 獲取。
    5. Evaluate (評估): 確定模型的準確性。SageMaker 提供內建功能來評估模型。
    6. Deploy (部署): 將模型部署到伺服器上運行。SageMaker 提供模型託管服務,使其易於從開發轉移到生產。
    7. Evaluate (持續評估/監控): 持續監控模型,收集基本事實並評估模型以識別漂移 (drift)。模型漂移是指模型預測的準確性隨著時間的推移而下降,通常是由於資料或輸入/輸出變數的變化引起。
  • SageMaker 服務與 ML 管線階段的關聯:
    • Data Readiness (資料準備):
      • 資料收集: Amazon S3 (儲存資料), AWS Glue Data Catalog (儲存中繼資料/模式), AWS Data Lake (從多個來源導入資料)。通常一起使用。
      • 探索性資料分析 (EDA): SageMaker notebook (預裝 Python 資料工具), SageMaker Studio Labs (免費 CPU/GPU 的 Jupyter notebooks), Amazon Athena (對 S3 中的半結構化資料使用 SQL)。
      • 資料預處理/整理: SageMaker Data Wrangler (用於 ML 管線) 和 AWS Glue DataBrew (更通用的工具)。這兩者都是視覺化工具,無需編寫程式碼。Glue DataBrew 提供 250 多種預設轉換。
    • Feature Engineering (特徵工程): SageMaker Feature Store。用於儲存、管理和共用 ML 特徵的儲存庫。支援線上儲存 (online store) (低延遲、即時推論) 和離線儲存 (offline store) (訓練和歷史記錄)。資料可以使用 PutRecord API 異步寫入線上儲存,並緩衝後寫入離線儲存。可以透過 GetRecord, PutRecord, DeleteRecord API 與 Feature Store Runtime 互動。Data Wrangler 可以將特徵輸出到 Feature Store。
    • Training and Fine-tuning (訓練和微調):
      • 使用 SageMaker Estimators 封裝訓練作業。
      • SageMaker JumpStart 是一種快速開始使用模型的方法,提供許多來自 Hugging Face 的模型。它提供筆記本,可以快速開始運行模型。
    • Model Serving (模型服務):
      • SageMaker Endpoints 和區域特定端點,接受 HTTPS 請求。用於託管在 SageMaker 中的模型的推論請求。
      • Batch Transform (批次轉換): 用於對大量資料進行離線推論。
      • 可以使用單一模型TensorFlow Serving 模型推論管線 (inference pipeline) 應用前處理和後處理步驟。推論管線允許 Model containers 按順序運行。
    • Model Monitoring (模型監控): SageMaker Model Monitor。監控生產中 ML 模型的品質。可以對即時端點或定期運行的批次轉換作業進行持續監控。用於監測模型漂移。
    • Model Management (模型管理): SageMaker Model Registry。允許對 ML 模型進行治理、編目、版本控制和部署。可以用於編目模型以進行生產、管理模型版本、關聯中繼資料 (例如訓練指標)、管理模型的核准狀態以及使用 CI/CD 自動化部署。模型群組 (model groups) 是模型的邏輯分組,包含多個版本。
    • Orchestration (工作流程編排): SageMaker Pipelines。一個用於建構 ML 管線並直接整合到 SageMaker 中的工具。它提供了與 SageMaker 整合、Studio 整合、資料血緣追蹤 (data lineage tracking) 和步驟重用 (step reuse) 等優勢。管線定義是一系列相互連接的步驟,以 JSON 格式定義,並使用有向無環圖 (Directed Acyclic Graph, DAG) 編碼。
    • Explainable AI (可解釋性 AI): SageMaker Clarify。在資料準備後、模型訓練後以及部署的模型中檢測潛在的偏見 (bias)。它透過檢查屬性並提供偏見指標來量化各種公平性標準。可以用於識別資料中的不平衡以及檢查和監控訓練模型的偏見。Clarify 使用的術語包括 feature, label (observed/predicted), sample, dataset, bias。
    • Data Labeling (資料標記): SageMaker Ground Truth。一個完全託管的資料標記服務,便於建構高準確度的 ML 訓練資料集。它涉及使用工作團隊標記資料。需要 input manifest file (基本上是 JSON Lines 檔案) 儲存在 S3 儲存桶中,並符合多項要求 (CORS, 格式, 地區, 編碼, 大小等)。支援圖像、文字、影片、點雲等資料格式。
    • Human Review (人工審查): Amazon Augmented AI (A2I)。允許對機器學習系統進行人工審查以保證精確度。與 Ground Truth 的區別在於,Ground Truth 用於標記資料,而 A2I 用於人類審查模型預測的準確性
  • SageMaker Python SDK:用於在 SageMaker 上訓練和部署 ML 模型的程式庫。與 boto3 不同,它更專注於 SageMaker 和特定的 ML 工具整合。提供了高級抽象,如 estimators (訓練封裝)、models (封裝模型)、predictors (提供即時推論)、sessions (提供對 SageMaker 環境的訪問)。
  • SageMaker Processing:允許在完全託管的基礎設施上輕鬆運行預處理、後處理和模型評估工作負載。有助於特徵工程、資料驗證、模型評估、模型解釋等。可以使用單一 SageMaker 內建映像、自訂 Docker 映像或處理容器映像。可以與 scikit-learn 和 Apache Spark 一起使用。SageMaker Processing 旨在與 SageMaker Pipelines 一起使用。

Evaluations

  • 使用性能評估指標 (performance evaluation metrics) 評估不同的 ML 模型。
  • 使用的指標類型取決於您執行的任務類型。
  • 常見的指標包括:
    • 分類 (Classification): 準確度 (accuracy), 精準度 (precision), 召回率 (recall), F1 分數 (F1 score), ROC AUC。
    • 迴歸 (Regression): MSE, RMSE, MAE。
    • 排名 (Ranking): NDCG, Mean Average Precision (MAP)。
    • 統計指標 (Statistical metrics): 相關性 (correlation)。
    • 電腦視覺 (Computer Vision): IoU, mAP。
    • 自然語言處理 (NLP): Perplexity, BLEU, METEOR。
  • SageMaker Clarify 提供偏見指標 (bias metrics) 來量化各種公平性標準。
  • SageMaker Clarify 也提供許多預訓練偏見指標 (pre-training bias metrics)

AI Dev Tools

  • LangChainLlamaIndex開源軟體 (open-source software),可以與 Amazon Bedrock 和許多其他服務整合。
  • 它們充當許多不同類型 LLM 模型的適配器 (adapter)
  • LangChain 和 LlamaIndex 生態系統比 Amazon Bedrock 的模型訪問生態系統更豐富,尤其對於更多功能。
  • 這些工具可以幫助編排與 LLMs 的互動、連接資料來源等。它們與 Amazon Bedrock 的 Agents 和 Prompt Flow (Azure 也有同名服務) 等服務競爭。來源認為如果需要建構真實世界的應用程式,使用 LangChain 或 LlamaIndex 會更好。

AWS Managed ML

  • Amazon Comprehend: 一種自然語言處理器服務,擅長分析文本。可以用於即時分析或批次處理。
  • Amazon Translate: 一種神經機器翻譯服務,提供更準確自然的文本翻譯。有即時和異步批次處理模式。使用簡單,提供源文本、源語言和目標語言即可。
  • Amazon Poly: 一種文本到語音 (text-to-speech) 服務。可以將文本轉換為語音。支援多種聲音,並可以使用 SSML (Speech Synthesis Markup Language) 控制語音的方面 (例如停頓、強調、發音、語速、音調等)。可以上傳語音詞典文件 (lexicon file) 來指定特定單詞的發音。
  • Amazon Kendra: 一種企業機器學習搜尋引擎服務。使用自然語言語義理解來建議問題答案,而不是簡單的關鍵字匹配。可以與 Amazon Lex 聊天機器人整合。組件包括 index, data source, data source template, schemas, document edition API。支援多種資料來源連接器 (S3, SharePoint, Box, PostgreSQL 等)。它主要處理文件 (documents) (如 PDF, Word 文檔) 並返回文件中的相關部分。有 Enterprise 和 Developer 兩個版本。
  • Amazon Lex: 一種用於建構對話介面 (conversational interfaces) 的服務,例如聊天機器人。用於自動化任務。核心組件包括 bot, version, alias, language。定義意圖 (intents) (代表您要執行的操作)。使用示例語句 (sample utterances) 提供使用者可能表達意圖的文本示例。使用詞槽 (slots) (intent 所需的使用者輸入) 來收集資訊。詞槽需要指定詞槽類型 (slot type)
  • Amazon Personalize: 一種即時推薦服務。使用與 Amazon 平台本身相同的技術。建立推薦的流程涉及創建 data set group,然後創建 data sets (user interaction data [必需], user data [可選], item data [可選])。資料集通常是 CSV 檔案,需要 JSON schema 映射,並儲存在 S3 中。需要創建 solution 和 recipe (預定義的 AWS 演算法)。支持事件追蹤 (event tracking) 和過濾器 (filters)。最後,創建 campaign 以建立生產端點獲取推薦。用戶項目互動資料需要至少包含 user ID, item ID 和 timestamp (Unix timestamp 格式)。
  • Amazon Rekognition: 一種電腦視覺服務。來源中作為監督式機器學習需要標記資料的例子提及,用於識別圖像中的邊界框或對圖像進行分類。

GenAI Security

  • 來源提到了一份由 AWS 制定的生成式 AI 安全範圍矩陣 (Generative AI Security Scoping Matrix)
  • 此矩陣有助於確定在使用或建構 GenAI 解決方案時應考慮的安全範圍。
  • 矩陣定義了不同的範疇 (Scope):
    • Scope 1:消費者應用程式 (Consumer app):您的企業消費公共的第三方 GenAI 服務 (無論是免費或付費)。您不擁有或看到訓練資料或模型,不能修改或擴充它,直接調用 API,並根據條款使用應用程式。
    • Scope 2:企業應用程式 (Enterprise app):您的企業使用第三方企業應用程式來生成 AI。這與 Scope 1 類似,只是針對企業級應用。
    • Building GenAI (建構 GenAI):此範疇涉及企業建構自己的應用程式
      • 使用現有第三方 GenAI 基礎模型 (直接整合)。
      • 微調 (fine-tuning) 這些模型。
      • 自行訓練模型 (self-training models)
  • 來源指出,此矩陣的實施可能尚未強制執行,但已包含在考試指南中。

Athena

  • Amazon Athena 是一個交互式查詢服務
  • 它使您能夠使用標準 SQL 直接分析 Amazon S3 中的資料。
  • Athena 適用於結構化半結構化資料,例如 CSV、JSON、Parquet 和 Avro 檔案。
  • 您不需要加載資料到資料庫中。
  • Athena 可以直接查詢AWS Glue Data Catalog 中的資料。
  • 它通常與 AWS Glue 緊密整合。
  • 在使用 Athena 查詢 S3 中的資料時,您需要定義表格並指定序列化/反序列化器 (SerDe),以決定如何解析 S3 檔案中的資料。例如,可以使用 Hive 的 SerDe 並使用正規表達式解析檔案。
  • Athena 是無伺服器 (serverless) 的。

AWS Glue

  • AWS Glue 是一個無伺服器資料整合服務
  • 它使分析使用者能夠發現、準備、移動和整合來自多個來源的資料
  • 主要用例包括分析機器學習應用程式開發
  • 核心功能包括:
    • 資料發現 (Data Discovery) 和連接到 70 多種不同的資料來源。
    • 將您的資料目錄集中管理到AWS Glue Data Catalog
    • 現代 ETL (Extract, Transform, Load) 或 ELT 流程。
    • 清理和轉換資料
    • 集中式目錄 (Centralized Cataloging)
  • AWS Glue Data Catalog 是一個集中式的元資料儲存庫。它儲存有關資料的模式和結構資訊,而不是實際資料。它與 Amazon Athena 緊密整合,允許您查詢編目資料。AWS Lake Formation 也使用相同的 Data Catalog。
  • AWS Glue Studio 允許您視覺化地建構 ETL 管線。也稱為視覺化 ETL (Visual ETL)
    • 管線由節點 (nodes) 組成。
    • 節點類型包括 Sources (資料來源), Transforms (對資料進行的操作), Targets (資料目的地)。
    • 您可以查看和編輯自動產生的Python 程式碼
    • 支援版本控制,可以連接到 AWS CodeCommit, GitHub, GitLab 或 Bitbucket。
  • AWS Glue DataBrew 是 AWS Glue 的一個組成部分 (或相關服務),但來源將其描述為獨立的視覺化資料準備工具。它允許使用者在不寫程式碼的情況下清理和正規化資料。它提供了超過 250 個現成的轉換。它是無伺服器的,按使用量付費。

OpenSearch

  • Amazon OpenSearch Service 基於 Apache Lucene 搜尋庫
  • 它提供了一種攝取、索引、搜尋和聚合資料的方式。
  • 除了傳統的全文搜尋,它還可以被用作向量儲存 (vector store)
  • 它支援多種搜尋方式:
    • 向量相似性搜尋 (Vector similarity search)
    • K 近鄰 (K nearest neighbor, KNN)
    • 語義搜尋 (Semantic search)
    • 混合搜尋 (Hybrid search)
    • 多模態搜尋 (Multimodal search)
  • 此外,它還支援異常偵測 (anomaly detection) 等功能。
  • 由於其多樣化的查找資訊的能力,它是處理 GenAI (特別是儲存向量化嵌入的 LLM) 時非常值得考慮的服務。
  • 在 Bedrock 知識庫中,Amazon OpenSearch Serverless (無伺服器版本) 可以用作向量儲存。

Lake Formation

  • AWS Lake Formation 是一個資料湖 (data lake) 服務。
  • 它旨在對 Amazon S3 上的資料湖進行集中治理、安全和全球共享
  • 資料湖旨在儲存海量資料,通常使用物件或檔案作為儲存介質。它是一個集中地,從各種來源提取資料,進行轉換和處理,然後使資料可用於程式、API 或發布。資料湖通常會將資料發布到元資料目錄 (meta catalog)
  • Lake Formation 服務管理精細的存取控制 (fine-grain access controls)
  • 它管理 AWS Glue Data Catalog 中的中繼資料。AWS Lake Formation 和 AWS Glue 使用相同的 Data Catalog
  • Lake Formation 提供自己的權限模型 (permissions model),透過簡單的Grant (授予)Revoke (撤銷) 機制來擴充 IAM 權限模型
  • 它允許內部、外部和跨多個帳戶共享資料。
  • 它提供在欄 (column)、行 (row) 和單元格 (cell) 級別強制執行的精細控制 (granular controls)
  • 它與多個 AWS 服務整合,包括 Athena, QuickSight, Redshift Spectrum, EMR, Glue。

希望這份學習指南對您有所幫助!

AWS Certified AI Practitioner (AIF-C01) study plan

https://blog.kwunlam.com/AWS-Certified-AI-Practitioner-AIF-C01-study-plan/

Author

Elliot

Posted on

2025-05-28

Updated on

2025-05-31

Licensed under