Location via proxy:   [ UP ]  
[Report a bug]   [Manage cookies]                
Busca avançada
Ano de início
Entree

Teste e Implementação do Algoritmo NER-BERT em Conformidade com o Padrão ISO 20022

Processo: 24/03872-3
Modalidade de apoio:Bolsas no Brasil - Programa Capacitação - Treinamento Técnico
Vigência (Início): 01 de maio de 2024
Vigência (Término): 31 de dezembro de 2024
Área do conhecimento:Ciências Exatas e da Terra - Ciência da Computação - Sistemas de Computação
Pesquisador responsável:Aloisio Mota Rodrigues Junior
Beneficiário:Fernando Ferreira Lopes
CNAE: Desenvolvimento de programas de computador sob encomenda
Consultoria em tecnologia da informação
Tratamento de dados, provedores de serviços de aplicação e serviços de hospedagem na internet
Vinculado ao auxílio:23/10398-3 - HUB FUNDOS: plataforma computacional para a padronização de informações na indústria de fundos de investimento, AP.PIPE
Assunto(s):Processamento de linguagem natural   Transformação digital
Palavra(s)-Chave do Pesquisador:Hub Fundos | Indústria de Fundos | Iso 20022 | Processamento de Linguagem Natural | Transformação Digital | Tecnologia para o mercado financeiro

Resumo

Nos últimos dez anos, a indústria de Fundos no Brasil tem crescido continuamente dois dígitos ao ano. Apesar do constante crescimento, a indústria ainda não está na era digital: papel, telefone, e-mail e tarefas manuais dominam o cotidiano das instituições e dos cotistas (investidores detentores de cotas de fundo), sejam eles pessoas físicas ou jurídicas. Vale ressaltar que, além dos cotistas, a indústria de fundos é um ecossistema complexo, composto basicamente por gestores, distribuidores, administradores fiduciários, custodiantes, controladores de passivo, controladores de ativo, auditores, reguladores e autorreguladores e câmaras de compensação e liquidação. Com o elevado número de atores no ecossistema desta importante indústria, torna-se indispensável a gestão fluida das informações pertinentes ao seu amplo funcionamento. Neste contexto, um dos principais desafios está em estabelecer uma comunicação eficaz e eficiente entre os diferentes participantes nos processos de negócio que envolve a gestão de fundos de investimento, de modo que a padronização de toda a documentação disponível, e por conseguinte das informações trocadas entre todos os atores, se caracteriza por um eixo de investigação necessário e crucial. Sabe-se que muitas das informações oriundas das diferentes fontes estão em um formato não-estruturado, o que torna ainda mais onerosa a tarefa de leitura, identificação e posterior cadastro dos dados de interesse. Muitos termos e diferentes domínios de negócios oriundos da indústria de fundos de investimento devem ser avaliados e estruturados conforme o padrão de mensagens da ISO 20022,que trata-se de uma norma internacional que estabelece um padrão para troca de mensagens no setor financeiro. Essa norma define um idioma universal para as comunicações financeiras, facilitando a interoperabilidade entre diferentes sistemas, melhorando a eficiência das transações e possibilitando avanços significativos na indústria financeira global. Logo, uma ferramenta computacional que seja capaz de incorporar recursos para a padronização de tais informações seria um diferencial neste nicho de mercado, em especial para o idioma português. Neste sentido, o presente projeto de pesquisa científica e tecnológica propõe o desenvolvimento de um algoritmo computacional fundamentado em uma técnica do campo do Processamento de Linguagem Natural (NLP), denominada Reconhecimento de Entidades Nomeadas (sigla NER - Named Entity Recognition) e um algoritmo de aprendizagem profunda pré-treinado (BERT), a fim de extrair automaticamente os diferentes termos e expressões relacionadas as mensagens coletadas de diferentes fontes da aludida indústria de fundos. As etapas previstas no projeto contemplam a coleta de dados em documentos cujos textos estejam digitalizados, mas também textos extraídos de documentos impressos, além de informações transcritas a partir de áudios obtidos de reuniões e telefonemas, por exemplo. Após a construção de um único repositório de dados em texto (corpus textual), o projeto prevê ao menos três etapas seguintes, cuja finalidade será investigar as melhores abordagens para o pré-processamento e a limpeza do conjunto de dados e em especial o desenvolvimento de um modelo de linguagem natural do tipo NER-BERT. O modelo NER deverá ser treinado e validado, de tal forma que os principais elementos identificados nas mensagens trocadas sejam rotulados e padronizados de acordo com o preconizado pela norma ISO 20022.

Matéria(s) publicada(s) na Agência FAPESP sobre a bolsa:
Mais itensMenos itens
Matéria(s) publicada(s) em Outras Mídias ( ):
Mais itensMenos itens
VEICULO: TITULO (DATA)
VEICULO: TITULO (DATA)