Armazenamentos de dados

Os armazenamentos de dados são usados pelas ferramentas de armazenamento de dados para encontrar respostas às perguntas dos utilizadores finais a partir dos seus dados. Os repositórios de dados são uma coleção de Websites, documentos ou dados em sistemas de terceiros, cada um dos quais faz referência aos seus dados.

Quando um utilizador final faz uma pergunta ao agente, o agente procura uma resposta no conteúdo de origem fornecido e resume as conclusões numa resposta coerente do agente. Também fornece links de apoio às fontes da resposta para o utilizador final saber mais. O agente pode fornecer até cinco fragmentos de respostas para uma determinada pergunta.

Origens do armazenamento de dados

Existem diferentes origens que pode fornecer para os seus dados:

  • URLs de Websites: rastreie automaticamente o conteúdo do Website a partir de uma lista de domínios ou páginas Web.
  • BigQuery: importe dados da sua tabela do BigQuery.
  • Cloud Storage: Importe dados do seu contentor do Cloud Storage.
  • AlloyDB: importe dados do seu cluster do AlloyDB.
  • Bigtable: importe dados de uma tabela do Bigtable.
  • Firestore: importe dados da sua coleção do Firestore.
  • Cloud SQL: Importe dados de uma tabela do Cloud SQL.
  • Spanner: Importe dados de uma tabela do Spanner.

Origens de arquivos de dados de acesso restrito

A Google oferece muitas origens de dados originais e de terceiros adicionais como uma funcionalidade de acesso restrito. Para ver uma lista de origens disponíveis e pedir acesso, consulte a secção Origens de dados da loja adicionais nesta página.

Conteúdo do Website

Quando adiciona conteúdo do Website como origem, pode adicionar e excluir vários sites. Quando especifica um site, pode usar páginas individuais ou * como caráter universal para um padrão. Todo o conteúdo HTML e PDF é processado.

Tem de validar o seu domínio quando usar conteúdo de Websites como origem.

Limitações:

  • Os ficheiros de URLs públicos têm de ter sido rastreados pelo indexador da Pesquisa Google, para que existam no índice de pesquisa. Pode verificar esta situação com a Google Search Console.
  • É indexado um máximo de 200 000 páginas. Se o arquivo de dados contiver mais páginas, a indexação falha nesse ponto. Todo o conteúdo já indexado permanece.

Importar dados

Pode importar os seus dados do BigQuery ou do Cloud Storage. Estes dados podem estar em formato de Perguntas frequentes ou não estruturados e podem ter metadados ou não ter metadados.

As seguintes Opções de importação de dados estão disponíveis:

  • Adicionar/atualizar dados: Os documentos fornecidos são adicionados ao repositório de dados. Se um novo documento tiver o mesmo ID que um documento antigo, o novo documento substitui o antigo.
  • Substituir dados existentes: todos os dados antigos são eliminados e, em seguida, os novos dados são carregados. Esta ação é irreversível.

Armazenamento de dados de Perguntas frequentes

Os arquivos de dados de FAQs podem conter respostas a perguntas frequentes (FAQs). Quando as perguntas do utilizador são associadas com elevada confiança a uma pergunta carregada, o agente devolve a resposta a essa pergunta sem qualquer modificação. Pode fornecer um título e um URL para cada par de pergunta e resposta apresentado pelo agente.

Os dados têm de ser carregados para o armazenamento de dados no formato CSV. Cada ficheiro tem de ter uma linha de cabeçalho que descreva as colunas.

Por exemplo:

"question","answer","title","url"
"Why is the sky blue?","The sky is blue because of Rayleigh scattering.","Rayleigh scattering","https://en.wikipedia.org/wiki/Rayleigh_scattering"
"What is the meaning of life?","42","",""

As colunas title e url são opcionais e podem ser omitidas:

"answer","question"
"42","What is the meaning of life?"

Durante o processo de carregamento, pode selecionar uma pasta onde cada ficheiro é tratado como um ficheiro CSV, independentemente da extensão.

Limitações:

  • Um caráter de espaço adicional após , causa um erro.
  • As linhas em branco (mesmo no final do ficheiro) causam um erro.

Armazenamento de dados não estruturados

Os armazenamentos de dados não estruturados podem conter conteúdo nos seguintes formatos:

  • HTML
  • PDF
  • TXT
  • CSV

É possível (mas pouco comum) importar ficheiros do contentor do Cloud Storage de outro projeto. Para o fazer, tem de conceder acesso explícito ao processo de importação. Siga as instruções na mensagem de erro, que vai conter o nome do utilizador que precisa de acesso de leitura ao contentor para fazer a importação.

Limitações:

  • O tamanho máximo do ficheiro é de 2,5 MB para formatos baseados em texto e de 100 MB para outros formatos.

Armazenamento de dados com metadados

Pode fornecer um título e URL como metadados. Quando o agente está numa conversa com um utilizador, pode fornecer estas informações ao utilizador. Isto pode ajudar os utilizadores a criar rapidamente links para páginas Web internas não acessíveis pelo indexador da Pesquisa Google.

Para importar conteúdo com metadados, tem de fornecer um ou mais ficheiros JSON Lines. Cada linha deste ficheiro descreve um documento. Não carrega diretamente os documentos reais. Os URIs que contêm links para os caminhos do Cloud Storage são fornecidos no ficheiro JSON Lines.

Para fornecer os seus ficheiros JSON Lines, tem de fornecer uma pasta do Cloud Storage que contenha estes ficheiros. Não coloque outros ficheiros nesta pasta.

Descrições dos campos:

Campo Tipo Descrição
id de string Identificador exclusivo do documento.
content.mimeType de string Tipo MIME do documento. Os tipos "application/pdf" e "text/html" são suportados.
content.uri de string URI do documento no Cloud Storage.
structData de string Objeto JSON de linha única com campos title e url opcionais.

Por exemplo:

{ "id": "d001", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/first_doc.pdf"}, "structData": {"title": "First Document", "url": "https://internal.example.com/documents/first_doc.pdf"} }
{ "id": "d002", "content": {"mimeType": "application/pdf", "uri": "gs://example-import/unstructured/second_doc.pdf"}, "structData": {"title": "Second Document", "url": "https://internal.example.com/documents/second_doc.pdf"} }
{ "id": "d003", "content": {"mimeType": "text/html", "uri": "gs://example-import/unstructured/mypage.html"}, "structData": {"title": "My Page", "url": "https://internal.example.com/mypage.html"} }

Armazenamento de dados sem metadados

Este tipo de conteúdo não tem metadados. Em alternativa, fornece links URI para os documentos individuais. O tipo de conteúdo é determinado pela extensão do ficheiro.

Configuração de análise e divisão em blocos

Consoante a origem de dados, pode configurar definições de análise e divisão em partes conforme definido pela Pesquisa do Vertex AI.

Use o Cloud Storage para um documento de arquivo de dados

Se o seu conteúdo não for público, armazená-lo no Cloud Storage é a opção recomendada. Quando cria documentos de arquivo de dados, fornece os URLs dos seus objetos do Cloud Storage no formato: gs://bucket-name/folder-name. Cada documento na pasta é adicionado ao repositório de dados.

Quando cria o contentor do Cloud Storage:

Siga as instruções do início rápido do Cloud Storage para criar um contentor e carregar ficheiros.

Idiomas

Para ver os idiomas suportados, consulte a coluna da loja de dados na referência de idiomas.

Para o melhor desempenho, recomenda-se que os armazenamentos de dados sejam criados num único idioma.

Depois de criar um arquivo de dados, pode especificar opcionalmente o idioma do arquivo de dados. Se definir o idioma do repositório de dados, pode associar o repositório de dados a um agente configurado para um idioma diferente. Por exemplo, pode criar um repositório de dados em francês que esteja associado a um agente em inglês.

Regiões suportadas

Para ver as regiões suportadas, consulte a referência de regiões.

(Acesso restrito) Origens de armazenamento de dados adicionais

Os tipos de armazenamento de dados adicionais estão listados na tabela seguinte. Estão disponíveis como funcionalidades de acesso restrito. Pode preencher o formulário de lista de autorizações para pedir acesso. Após a aprovação, pode ver estas opções quando cria um novo repositório de dados em Aplicações de IA.

Origens de dados da Google Store

Origem do armazenamento de dados Descrição
Google Drive Link para o Drive da sua organização.
(Pré-visualização) Google Gmail Link para o Gmail da sua organização.
(Pré-visualização) Google Sites Link para os Sites da sua organização.
(Pré-visualização) Calendário Google Link para o Calendário da sua organização.
(Pré-visualização) Grupos Google Link para os Grupos da sua organização.

Origens de armazenamento de dados de terceiros

Origem do armazenamento de dados Descrição
(Pré-visualização) AODocs Importe dados do seu sistema de gestão de documentos AODocs.
Caixa Importe dados do site do Box da sua organização.
Confluence Cloud Importe dados do seu espaço de trabalho do Confluence Cloud.
(Pré-visualização) Confluence Data Center Importe dados do seu espaço de trabalho do Confluence Data Center.
Dropbox Importe dados do seu armazenamento do Dropbox.
EntraID Importe dados do sistema EntraID da sua organização.
(Pré-visualização) HubSpot Importe dados do site do HubSpot da sua organização.
Jira Cloud Importe dados do seu sistema de gestão de tarefas do Jira.
(Pré-visualização) Jira Data Center Importe dados do seu site do Jira Data Center.
(Pré-visualização) Marketo Importe dados do sistema de marketing Marketo da sua organização.
(Pré-visualização) Notion Importe dados do espaço de trabalho do Notion da sua organização.
OneDrive Importe dados do armazenamento do OneDrive da sua organização.
Microsoft Outlook Importe dados do Microsoft Outlook.
Salesforce Importe dados do Salesforce.
ServiceNow Importe dados do ServiceNow.
SharePoint Importe dados do sistema SharePoint da sua organização.
(Pré-visualização) Shopify Importe dados do sistema Shopify da sua organização.
Slack Importe dados do Slack.
Microsoft Teams Importe dados do Microsoft Teams.
(Pré-visualização) WordPress Importe dados do site do WordPress da sua organização.

Configure um arquivo de dados de terceiros através de um conetor

Esta secção descreve o processo de configuração de um arquivo de dados através de dados de terceiros. Pode encontrar instruções específicas para cada origem de dados de terceiros na documentação da IA generativa.

Fornecedores de identidade

Os fornecedores de identidade permitem-lhe gerir utilizadores, grupos e autenticação. Quando configura um arquivo de dados de terceiros, tem a opção de usar um fornecedor de identidade da Google ou um fornecedor de identidade de terceiros.

Fornecedor de identidade Google:

  • Todos os utilizadores do agente têm de iniciar sessão com as respetivas credenciais Google. Pode ser qualquer endereço de email ou qualquer conta que use o Google como fornecedor de identidade (por exemplo, o Google Workspace).@gmail.com Este passo é ignorado se os utilizadores falarem com o agente através do Google Cloud diretamente, porque a identidade Google está automaticamente incorporada no sistema.
  • Pode atribuir acesso a contas Google através do IAM.

Fornecedor de identidade de terceiros:

  • Os utilizadores do agente iniciam sessão com credenciais não pertencentes à Google, por exemplo, um endereço de email da Microsoft.
  • Tem de criar um Workforce Pool usando Google Cloud que contenha os fornecedores de identidade que não pertencem à Google. Em seguida, pode usar o IAM para conceder acesso a todo o conjunto ou a utilizadores individuais nesse conjunto.
  • Não é possível usar este método com projetos Google Cloud configurados na organização@google.com.

Conetores

Os armazéns de dados de terceiros são implementados através de um conetor. Cada conector pode conter vários armazenamentos de dados, que são armazenados como entidades no sistema de agentes conversacionais (Dialogflow CX).

  • Antes de criar um arquivo de dados, tem de configurar cada região com um único fornecedor de identidade em Google Cloud -> Agent Builder -> Settings. Todos os armazenamentos de dados nessa região vão usar o mesmo fornecedor de identidade. Pode escolher uma identidade Google ou uma identidade de terceiros num grupo do Workforce. A credencial da Google é considerada uma identidade diferente se estiver num conjunto de talentos. Por exemplo, test@gmail.com é considerada uma identidade diferente de workforcePools/test-pool/subject/test@gmail.com.

    • Crie um workforce pool (se necessário).
    • Aceda a Agent Builder Definições e selecione Identidade Google ou Identidade de terceiros. Clique em GUARDAR para guardar a identidade na região.
    • Agora, pode criar um repositório de dados na região.
  • Cada arquivo de dados guarda os dados da lista de controlo de acesso (ACL) com cada documento. Este é um registo dos utilizadores ou grupos que têm acesso de leitura a que entidades. Durante a execução, um utilizador ou um membro do grupo recebe respostas do agente que têm origem em entidades às quais tem acesso de leitura. Se um utilizador não tiver acesso de leitura a nenhuma entidade no repositório de dados, o agente devolve uma resposta vazia.

  • Uma vez que os dados no arquivo de dados são uma cópia da instância de terceiros, têm de ser atualizados periodicamente. Pode configurar os intervalos de atualização numa escala de tempo de horas ou dias.

  • Depois de configurar o arquivo de dados e clicar em Criar, o arquivo de dados pode demorar até uma hora a aparecer na lista de arquivos de dados.

Rastreio do armazenamento de dados

Esta funcionalidade inclui duas partes:

  1. Apresentação dos rastreios de execução internos da loja de dados e das latências dos passos no simulador de agentes.
  2. Exportação de rastreios e dados de latência para o Cloud Logging e o BigQuery.

Veja os dados no simulador

Para apresentar dados de rastreio e execução nos dados do agente, expanda os detalhes acerca de uma interação da conversa clicando no indicador de expansão à direita da resposta do agente.

O separador Execução apresenta os rastreios de execução do arquivo de dados interno, incluindo as seguintes informações:

  • A entrada do utilizador original.
  • A consulta tal como foi reescrita pelo motor do repositório de dados.
  • Os sinais de qualidade durante vários passos de execução, incluindo o estado da verificação de segurança, o estado da verificação de estabilidade, o resultado da verificação de fundamentação e o estado da verificação de segurança.
  • Fragmentos de pesquisa da pesquisa na loja de dados.
  • A lista de documentos de apoio a partir dos quais foram obtidos os fragmentos.

O separador Latência apresenta um gráfico de tempo para vários passos de execução do armazenamento de dados. A lista de passos pode variar consoante a forma como o armazenamento de dados foi configurado, bem como o fluxo de execução. Os dados apresentados podem incluir o seguinte:

  • Correspondência de Perguntas frequentes: o repositório de dados executou um passo de correspondência de Perguntas frequentes.
  • Reescrita de consultas: o repositório de dados reescreveu a consulta do utilizador original.
  • Pesquisa: o arquivo de dados executou a pesquisa de fragmentos.
  • Resumo: o armazenamento de dados resumiu a resposta.
  • Verificações de segurança: o repositório de dados executou passos de verificação de segurança.

Veja dados de rastreio noutras localizações

  • Se o agente conversacional estiver configurado com o registo do histórico de conversas, também pode ver o rastreio do arquivo de dados no histórico de conversas.

  • Se o agente de conversa estiver configurado com o Cloud Logging, também pode ver rastreios e latências no Explorador de registos.

  • Se o agente conversacional estiver configurado com o BigQuery Export, também pode ver rastreios e latências numa tabela do BigQuery exportada.

O que se segue?

Para ver instruções sobre como criar um arquivo de dados e usá-lo com um agente, consulte a documentação das ferramentas de arquivo de dados.