É necessário um conjunto de dados etiquetado de documentos para treinar, atualizar ou avaliar uma versão do processador.
Esta página descreve como aplicar etiquetas do esquema do processador a documentos importados no conjunto de dados.
Esta página pressupõe que já criou um processador que suporta a preparação, a preparação adicional ou a avaliação. Se o seu processador for suportado, vai ver o separador Preparar na consola Google Cloud . Também pressupõe que criou um conjunto de dados, importou documentos e definiu um esquema do processador.
Nomeie campos para a extração de IA generativa
A forma como os campos são denominados influencia a precisão com que os campos são extraídos através da IA generativa. Recomendamos as seguintes práticas recomendadas ao atribuir nomes a campos:
Dê ao campo o mesmo nome do idioma usado para o descrever no documento: Por exemplo, se um documento tiver um campo descrito como
Employer Address
, dê ao campo o nomeemployer_address
. Não use abreviaturas, comoemplr_addr
.Atualmente, os espaços não são suportados nos nomes dos campos: em vez de usar espaços, use
_
. Por exemplo:First Name
teria o nomefirst_name
.Iterar os nomes para melhorar a precisão: a IA Documental tem uma limitação que não permite a alteração dos nomes dos campos. Para testar nomes diferentes, use a ferramenta de mudança do nome da entidade para atualizar o nome da entidade antiga com um mais recente no conjunto de dados, importe o conjunto de dados, ative as novas entidades no processador e desative ou elimine os campos existentes.
Aprendizagem zero-shot e few-shot
Os modelos com o Gemini têm aprendizagem de poucos exemplos e sem exemplos, o que pode criar modelos de alto desempenho com poucos ou nenhum dado de preparação.
A aprendizagem sem exemplos é um exemplo de aprendizagem automática em que um modelo pré-preparado sem qualquer preparação adicional aprende a reconhecer e classificar classes e entidades que não encontrou antes durante os testes.
A aprendizagem com poucos exemplos é um processo em que um modelo aprende a reconhecer e classificar novas classes e entidades com apenas alguns exemplos de preparação por classe. Tira partido do conhecimento de modelos pré-preparados em conjuntos de dados grandes e bem etiquetados para melhorar o desempenho em tarefas de poucos exemplos.
A aprendizagem com poucos exemplos torna-se mais eficaz quando o conjunto de dados de preparação está organizado e cuidadosamente etiquetado. Normalmente, isto significa ter, pelo menos, 10 exemplos de testes e 10 exemplos de preparação disponíveis para o modelo aprender.
Opções de etiquetagem
Seguem-se as opções para etiquetar documentos:
Manual: etiquete manualmente os seus documentos na Google Cloud consola
Etiquetagem automática: use uma versão do processador existente para gerar etiquetas
Importe documentos pré-etiquetados: poupe tempo se já tiver documentos etiquetados
Etiquete manualmente na Google Cloud consola
No separador Preparar, selecione um documento para abrir a ferramenta de etiquetagem.
Na lista de etiquetas de esquema no lado esquerdo da ferramenta de etiquetagem, selecione o símbolo "Adicionar" para selecionar a ferramenta Caixa delimitadora para realçar entidades no documento e atribuí-las a uma etiqueta.
Na captura de ecrã seguinte, os campos EMPL_SSN
EMPLR_ID_NUMBER
, EMPLR_NAME_ADDRESS
,
FEDERAL_INCOME_TAX_WH
, SS_TAX_WH
, SS_WAGES
e WAGES_TIPS_OTHER_COMP
no documento foram atribuídas etiquetas.
Quando seleciona uma entidade de caixa de verificação com a ferramenta Caixa delimitadora, selecione apenas a caixa de verificação e não o texto associado. Certifique-se de que a caixa de verificação da entidade apresentada à esquerda está selecionada ou desmarcada para corresponder ao que está no documento.
Quando etiquetar entidades principal-secundário, não etiquete as entidades principais. As entidades principais são apenas contentores das entidades secundárias. Etiquete apenas as entidades secundárias. As entidades principais são atualizadas automaticamente.
Quando etiqueta entidades secundárias, etiqueta a primeira entidade secundária e, em seguida, associa as entidades secundárias relacionadas a essa linha. Repara nisto na segunda entidade secundária quando etiqueta essas entidades pela primeira vez. Por exemplo, numa fatura, se etiquetar a descrição, parece ser qualquer outra entidade. No entanto, se etiquetar a quantidade a seguir, é-lhe pedido que escolha o elemento principal.
Repita este passo para cada elemento publicitário selecionando Nova entidade principal para cada novo elemento publicitário.
As entidades principal-secundária são suportadas para tabelas com até três camadas de aninhamento. Os modelos de base suportam três níveis de campos (avó, pai, filho), pelo que as entidades secundárias podem ter um nível de entidades secundárias. Para saber mais sobre a aninhagem, consulte o artigo Aninhagem de três níveis.
Tabelas rápidas
Quando etiqueta uma tabela, pode ser repetitivo etiquetar cada linha várias vezes. Existe uma ferramenta muito útil que pode replicar a estrutura de uma entidade de linha. Tenha em atenção que esta funcionalidade só funciona em linhas alinhadas horizontalmente.
- Primeiro, etiquete a primeira linha como habitualmente.
Em seguida, mantenha o ponteiro sobre a entidade principal que representa a linha. Selecione Adicionar mais linhas. A linha torna-se um modelo para criar mais linhas.
Selecione o resto da área da tabela.
A ferramenta adivinha as anotações e, normalmente, funciona. Para todas as tabelas que não consegue processar, anote-as manualmente.
Use atalhos de teclado na consola
Para ver os atalhos de teclado disponíveis, selecione o menu
na parte superior direita da consola de etiquetagem. Apresenta uma lista de atalhos de teclado, conforme mostrado na tabela seguinte.Ação | Atalho |
---|---|
Aumentar | Alt + = (Opção + = no macOS) |
Reduzir | Alt + - (Option + - no macOS) |
Aplicar zoom para ajustar | Alt + 0 (Opção + 0 no macOS) |
Desloque a página para ajustar o zoom | Alt + deslocamento (Opção + deslocamento no macOS) |
Movimento panorâmico | Deslocar a página |
Deslocamento invertido | Shift + deslocamento |
Arraste para deslocar | Espaço + arrastar com o rato |
Anular | Ctrl + Z (Control + Z no macOS) |
Refazer | Ctrl + Shift + Z (Control + Shift + Z no macOS) |
Etiquetagem automática
Se estiver disponível, pode usar uma versão existente do processador para começar a etiquetar.
A etiquetagem automática pode ser iniciada durante a importação. Todos os documentos são anotados com a versão do processador especificada.
A etiquetagem automática pode ser iniciada após a importação de documentos na categoria não etiquetada ou etiquetada automaticamente. Todos os documentos selecionados são anotados com a versão do processador especificada.
Não pode fazer a preparação nem a preparação adicional em documentos etiquetados automaticamente nem usá-los no conjunto de testes, sem os marcar como etiquetados. Reveja e corrija manualmente as anotações com etiquetas automáticas e, de seguida, selecione Marcar como etiquetado para guardar as correções. Em seguida, pode atribuir os documentos conforme adequado.
Importe documentos pré-etiquetados
Pode importar ficheiros JSON Document
Se o entity
no documento corresponder à etiqueta no esquema do processador, o entity
é convertido numa instância de etiqueta pelo importador. Existem várias formas de obter ficheiros de documentos JSON:
Exportar um conjunto de dados de outro processador. Consulte o artigo Exporte o conjunto de dados.
Enviar uma solicitação de processamento a um processador existente.
Use o conjunto de ferramentas de importação para converter etiquetas existentes de outro sistema, por exemplo, etiquetas no formato CSV em documentos JSON.
Práticas recomendadas para etiquetar documentos
É necessária uma etiquetagem consistente para formar um processador de alta qualidade. Recomendamos que:
Crie instruções de etiquetagem: as instruções devem incluir exemplos para os casos comuns e os casos extremos. Algumas sugestões:
- Explicar que campos devem ser anotados e como etiquetar de forma consistente. Por exemplo, quando etiquetar "amount", especifique se o símbolo da moeda deve ser etiquetado. Se as etiquetas não forem consistentes, a qualidade do processador é reduzida.
- Etiquete todas as ocorrências de uma entidade, mesmo que o tipo de etiqueta seja
REQUIRED_ONCE
ouOPTIONAL_ONCE
. Por exemplo, seinvoice_id
aparecer duas vezes no documento, etiquete todas as ocorrências. - Geralmente, é preferível etiquetar primeiro com a ferramenta de caixa delimitadora predefinida. Se falhar, use a ferramenta de seleção de texto.
- Se o valor da etiqueta não for detetado corretamente pelo OCR, não corrija manualmente o valor. Isso tornaria o conjunto de dados inutilizável para fins de preparação.
Seguem-se algumas instruções de etiquetagem de exemplo:
- Bank Statement Parser
- Analisador de utilitários
- Pay Slip Parser
- Analisador de despesas
- Analisador de faturas
- Forme os anotadores: certifique-se de que os anotadores compreendem e conseguem seguir as diretrizes sem erros sistemáticos. Uma forma de o conseguir é fazer com que diferentes formandos anotem o mesmo conjunto de documentos. O formador pode, em seguida, verificar a qualidade do trabalho de anotação de cada formando. Pode ter de repetir este processo até os formandos atingirem um nível de precisão de referência.
- Revisões iniciais: os primeiros documentos (cerca de 10) etiquetados para um exemplo de utilização por um novo etiquetador devem ser revistos antes de etiquetar um grande número de documentos para evitar um grande número de erros que tenham de ser corrigidos.
- Revisões da qualidade das anotações: dada a natureza trabalhosa das anotações, mesmo os anotadores com formação podem cometer erros. Recomendamos que as anotações sejam verificadas por, pelo menos, mais um anotador com formação.
Adicione um comando de descrição
Quando adiciona etiquetas ao esquema no extrator personalizado e no classificador personalizado, pode adicionar uma descrição para a etiqueta. Isto ajuda a preparar o processador fornecendo um comando com o qual identificar a etiqueta. Pode experimentar pequenas variações para testar a qualidade da resposta. Por exemplo, "valor total", "valor total da fatura" ou "valor total da fatura".
Sincronize novamente o conjunto de dados
A resincronização mantém a pasta do Cloud Storage do conjunto de dados consistente com o índice interno de metadados da IA Documental. Isto é útil se tiver feito alterações acidentais à pasta do Cloud Storage e quiser sincronizar os dados.
Para sincronizar novamente:
No separador Detalhes do processador, junto à linha Localização de armazenamento , selecione
e, de seguida, selecione Voltar a sincronizar conjunto de dados.Notas de utilização:
- Se eliminar um documento da pasta do Cloud Storage, a resincronização remove-o do conjunto de dados.
- Se adicionar um documento à pasta do Cloud Storage, a resincronização não o adiciona ao conjunto de dados. Para adicionar documentos, importe-os.
- Se modificar as etiquetas dos documentos na pasta do Cloud Storage, a resincronização atualiza as etiquetas dos documentos no conjunto de dados.
Migre o conjunto de dados
A importação e a exportação permitem-lhe mover todos os documentos num conjunto de dados de um processador para outro. Isto pode ser útil se tiver processadores em diferentes regiões ou Google Cloud projetos, se tiver diferentes processadores para testes e produção, ou para consumo offline geral.
Tenha em atenção que apenas os documentos e as respetivas etiquetas são exportados. Os metadados do conjunto de dados, como o esquema do processador, as atribuições de documentos (preparação/teste/não atribuído) e o estado de etiquetagem de documentos (etiquetado, não etiquetado, etiquetado automaticamente) não são exportados.
Copiar e importar o conjunto de dados e, em seguida, formar o processador de destino não é exatamente o mesmo que formar o processador de origem. Isto deve-se ao facto de serem usados valores aleatórios no início do processo de preparação. Use a chamada API importProcessorVersion
para importar/migrar exatamente o mesmo modelo entre projetos. Esta é a prática recomendada para a migração de processadores para ambientes superiores (por exemplo, desenvolvimento para preparação para produção para produção), se as políticas o permitirem.
Exporte o conjunto de dados
Para exportar todos os documentos como ficheiros JSON
Document
para uma pasta do Cloud Storage,
selecione Exportar conjunto de dados.
Alguns aspetos importantes a ter em conta:
Durante a exportação, são criadas três subpastas: Test, Train e Unassigned. Os seus documentos são colocados nessas subpastas em conformidade.
O estado de etiquetagem de um documento não é exportado. Se importar os documentos mais tarde, estes não são marcados como etiquetados automaticamente.
Se o seu Cloud Storage estiver num Google Cloud projeto diferente, certifique-se de que concede acesso para que o Document AI possa escrever ficheiros nessa localização. Especificamente, tem de conceder a função de criador de objetos de armazenamento ao agente do serviço principal da IA Documental
service-{project-id}@gcp-sa-prod-dai-core.
. Para mais informações, consulte o artigo Agentes de serviços.
Importar conjunto de dados
O procedimento é o mesmo que Importar documentos.
Guia do utilizador da etiquetagem seletiva
A etiquetagem seletiva ajuda com as recomendações sobre que documentos etiquetar. Pode criar conjuntos de dados de preparação e de teste diversificados para preparar modelos representativos. Sempre que a etiquetagem seletiva é realizada, são selecionados os documentos mais diversificados (até 30) do conjunto de dados.
Receber documentos sugeridos
Crie um processador de CDE e importe documentos.
- São necessários, pelo menos, 100 para a preparação (25 para os testes).
- Depois de importar documentos suficientes e após a etiquetagem seletiva, deve aparecer a barra de informações.
No caso de um processador CDE com zero documentos sugeridos, importe mais para ter documentos suficientes na divisão para amostragem.
- Isto deve ativar os documentos sugeridos na Categoria sugerida. Deve poder pedir documentos sugeridos manualmente.
- Existe um novo filtro na parte superior para filtrar os documentos sugeridos.
Etiquete documentos sugeridos
Aceda a Categoria sugerida no painel da lista de etiquetas do lado esquerdo. Comece a etiquetar estes documentos.
Selecione Etiquetagem automática na barra de informações se o processador estiver preparado. Etiquete os documentos sugeridos.
Em seguida, pode selecionar Rever agora na barra quando tiver documentos sugeridos no processador para navegar. Todos os documentos etiquetados automaticamente devem ser revistos para garantir a precisão. Comece a rever.
Faça a preparação depois de etiquetar todos os documentos sugeridos
Mova-se para Formar agora na barra de informações. Quando os documentos sugeridos estão etiquetados, deve ver a seguinte barra de informações a recomendar a formação.
Funcionalidades suportadas e limitações
Funcionalidade | Descrição | Suportado |
---|---|---|
Apoio técnico para processadores antigos | Pode não funcionar bem com processadores antigos com o conjunto de dados importado anteriormente |