AWS Clean Rooms ML - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

AWS Clean Rooms ML

AWS Clean Rooms O ML permite que duas ou mais partes executem modelos de aprendizado de máquina em seus dados sem a necessidade de compartilhá-los entre si. O serviço fornece controles de aprimoramento de privacidade que permitem que os proprietários de dados protejam seus dados e o IP do modelo. Você pode usar modelos de AWS autoria ou trazer seu próprio modelo personalizado.

Consulte uma explicação mais detalhada de como isso funciona em Trabalhos entre contas.

Para obter mais informações sobre os recursos dos modelos de ML para salas limpas, consulte os tópicos a seguir.

Como o AWS Clean Rooms ML funciona com AWS modelos

Uma visão geral de como o AWS Clean Rooms ML funciona com AWS modelos.

Trabalhar com modelos semelhantes exige que duas partes, um provedor de dados de treinamento e um provedor de dados iniciais, trabalhem sequencialmente AWS Clean Rooms para reunir seus dados em uma colaboração. Esse é o fluxo de trabalho que o provedor de dados de treinamento deve concluir primeiro:

  1. Os dados do provedor de dados de treinamento devem ser armazenados em uma tabela de catálogo de AWS Glue dados de interações com itens do usuário. No mínimo, os dados de treinamento devem conter uma coluna de ID de usuário, de ID de interação e de carimbo de data e hora.

  2. O provedor de dados de treinamento registra os dados de treinamento com AWS Clean Rooms.

  3. O provedor de dados de treinamento cria um modelo de semelhanças que pode ser compartilhado com vários provedores de dados de seed. O modelo de semelhanças é uma rede neural profunda que pode levar até 24 horas para ser treinado. Ele não é retreinado automaticamente e recomendamos que você retreine o modelo semanalmente.

  4. O provedor de dados de treinamento configura o modelo de semelhanças, incluindo se deseja compartilhar métricas de relevância e a localização dos segmentos de saída do Amazon S3. O provedor de dados de treinamento pode criar vários modelos de semelhanças configurados com base em um único modelo de semelhanças.

  5. O provedor de dados de treinamento associa o modelo de público configurado a uma colaboração que é compartilhada com um provedor de dados iniciais.

Esse é o fluxo de trabalho que o provedor de dados de seed deve concluir a seguir:

  1. Os dados do provedor de dados iniciais podem ser armazenados em um bucket do Amazon S3 ou podem vir dos resultados da consulta.

  2. O provedor de dados de seed abre a colaboração que compartilha com o provedor de dados de treinamento.

  3. O provedor de dados iniciais cria um segmento de semelhanças na guia Clean Rooms ML da página de colaboração.

  4. O provedor de dados de seed poderá avaliar as métricas de relevância, se elas foram compartilhadas, e exportar o segmento de semelhanças para uso fora do AWS Clean Rooms.

Como o AWS Clean Rooms ML funciona com modelos personalizados

Com o Clean Rooms ML, os membros de uma colaboração podem usar um algoritmo de modelo personalizado dockerizado que é armazenado na Amazon ECR para analisar seus dados em conjunto. Para fazer isso, o fornecedor do modelo deve criar uma imagem e armazená-la na AmazonECR. Siga as etapas no Guia do usuário do Amazon Elastic Container Registry para criar um repositório privado que conterá o modelo de ML personalizado.

Qualquer membro de uma colaboração pode ser o fornecedor do modelo, desde que tenha as permissões corretas. Todos os membros de uma colaboração podem contribuir com dados de treinamento, dados de inferência ou ambos para o modelo. Para fins deste guia, os membros que contribuem com dados são chamados de provedores de dados. O membro que cria a colaboração é o criador da colaboração, e esse membro pode ser o provedor do modelo, um dos provedores de dados ou ambos.

No nível mais alto, aqui estão as etapas que devem ser concluídas para realizar a modelagem personalizada de ML:

  1. O criador da colaboração cria uma colaboração e atribui a cada membro as habilidades e a configuração de pagamento adequadas. O criador da colaboração deve atribuir a capacidade do membro de receber saídas do modelo ou receber resultados de inferência ao membro apropriado nesta etapa, pois ela não pode ser atualizada após a criação da colaboração. Para obter mais informações, consulte Criando a colaboração.

  2. O provedor de modelos configura e associa seu modelo de ML em contêineres à colaboração e garante que as restrições de privacidade sejam definidas para os dados exportados. Para obter mais informações, consulte Configurando um algoritmo de modelo.

  3. Os provedores de dados contribuem com seus dados para a colaboração e garantem que suas necessidades de privacidade sejam especificadas. Os provedores de dados devem permitir que o modelo acesse seus dados. Para ter mais informações, consulte Contribuindo com dados de treinamento e Associando o algoritmo do modelo configurado.

  4. Um membro da colaboração cria a configuração de ML, que define para onde os artefatos do modelo ou os resultados da inferência são exportados.

  5. Um membro da colaboração cria um canal de entrada de ML que fornece informações para o contêiner de treinamento ou contêiner de inferência. O canal de entrada de ML é uma consulta que define os dados a serem usados no contexto do algoritmo do modelo.

  6. Um membro da colaboração invoca o treinamento do modelo usando o canal de entrada de ML e o algoritmo do modelo configurado. Para obter mais informações, consulte Criação de um modelo treinado.

  7. (Opcional) O treinador de modelos invoca a tarefa de exportação do modelo e os artefatos do modelo são enviados ao receptor dos resultados do modelo. Somente membros com uma configuração de ML válida e a capacidade do membro de receber a saída do modelo podem receber artefatos do modelo. Para obter mais informações, consulte Exportação de artefatos do modelo.

  8. (Opcional) Um membro da colaboração invoca a inferência do modelo usando o canal de entrada de ML, o modelo treinado e o algoritmo do modelo ARN configurado por inferência. Os resultados da inferência são enviados para o receptor de saída da inferência. Somente membros com uma configuração de ML válida e a capacidade do membro de receber resultados de inferência podem receber resultados de inferência.

Aqui estão as etapas que devem ser concluídas pelo fornecedor do modelo:

  1. Crie uma imagem ECR docker da Amazon compatível com SageMaker IA. O Clean Rooms ML suporta somente SageMaker imagens docker compatíveis com IA.

  2. Depois de criar uma imagem docker compatível com SageMaker IA, envie a imagem para a Amazon. ECR Siga as instruções no Guia do usuário do Amazon Elastic Container Registry para criar uma imagem de treinamento de contêineres.

  3. Configure o algoritmo do modelo para uso em Clean Rooms ML.

    1. Forneça o link do ECR repositório da Amazon e todos os argumentos necessários para configurar o algoritmo do modelo.

    2. Forneça uma função de acesso ao serviço que permita que o Clean Rooms ML acesse o ECR repositório da Amazon.

    3. Associe o algoritmo do modelo configurado à colaboração. Isso inclui fornecer uma política de privacidade que define controles para registros de contêineres, registros de falhas, CloudWatch métricas e limites sobre a quantidade de dados que podem ser exportados dos resultados do contêiner.

Aqui estão as etapas que devem ser concluídas pelo provedor de dados para colaborar com um modelo de ML personalizado:

  1. Configure uma AWS Glue tabela existente com uma regra de análise personalizada. Isso permite que um conjunto específico de consultas pré-aprovadas ou contas pré-aprovadas use seus dados.

  2. Associe sua tabela configurada a uma colaboração e forneça uma função de acesso ao serviço que possa acessar suas AWS Glue tabelas.

  3. Adicione uma regra de análise de colaboração à tabela que permita que a associação do algoritmo do modelo configurado acesse a tabela configurada.

  4. Depois que o modelo e os dados são associados e configurados no Clean Rooms ML, o membro com a capacidade de executar consultas fornece uma SQL consulta e seleciona o algoritmo do modelo a ser usado.

Depois que o treinamento do modelo é concluído, esse membro inicia a exportação dos artefatos de treinamento do modelo ou dos resultados de inferência. Esses artefatos ou resultados são enviados ao membro com a capacidade de receber a saída do modelo treinado. O receptor de resultados deve configurá-los MachineLearningConfiguration antes de receber a saída do modelo.