Centro de Documentação da PJ | ||||
| SILVA, Miguel Mendes Vision transformers for face anti-spoofing [Recurso eletrónico] / Miguel Mendes Silva.- Coimbra : [s.n.], 2023.- 1 CD-ROM ; 12 cm Dissertação no âmbito de Mestrado em Engenharia Eletrotécnica e de Computadores, no ramo de Robótica, Controlo e Inteligência Artificial, apresentada ao Departamento de Engenharia Eletrotécnica e de Computadores da Faculdade de Ciências e Tecnologia da Universidade de Coimbra, tendo como orientador Jorge Manuel Moreira de Campos Pereira Batista. Ficheiro de 11,4 MB em formato PDF (73 p.). BIOMETRIA, IDENTIFICAÇÃO FACIAL, PROCESSAMENTO DE IMAGEM, TRATAMENTO DA INFORMAÇÃO, REDE NEURONAL ARTIFICIAL Os sistemas de autenticação baseados em reconhecimento facial tornaram-se nos últimos anos cada vez mais populares como uma abordagem conveniente para verificar indivíduos. Este método de autenticação não intrusivo analisa propriedades faciais distintas, compara as mesmas e examina padrões nos contornos faciais de uma pessoa. No entanto, o aumento dos Ataques de Apresentação (PAs) representa uma ameaça significativa para a confiabilidade desta forma de autenticação, uma vez que impostores tentam contornar os sistemas ao fazerem-se passar por outros utilizando fotos impressas ou máscaras 3D. Portanto, para garantir a confiabilidade da autenticação facial, é crucial desenvolver sistemas de Anti-Spoofing Facial (FAS) que permitam a defesa contra todos os tipos de tentativas de falsificação e superar os desafios associados. Para além das Redes Neuronais Convolucionais (CNNs) extensivamente estudadas, a emergência dos Transformers em outras áreas de visão por computador despertou interesse em utilizar esta arquitetura no campo de FAS. Por outro lado, para além de informação RGB, a incorporação de informações modais como Profundidade e Infravermelho, também tem mostrado resultados promissores na deteção de ataques mais complexos. Nesse sentido, o objetivo principal desta tese é explorar o uso de Vision Transformers (ViTs) multi-modais para a tarefa de FAS. Baseados em contribuições existentes na literatura, os frameworks propostos baseados em ViTs utilizam imagens multi-modais e vão ser comparados a uma abordagem baseada em CNN para avaliação e comparação de desempenho. Estes frameworks serão avaliados ao nível de intra-domain, cross-domain e zero-shot usando diferentes datasets de Detecção de Ataques de Apresentação (PAD). Os resultados visam demonstrar a eficácia dos mecanismos de atenção nesse contexto e destacar os benefícios de aproveitar informações multi-modais para distinguir faces genuínas de tentativas de falsificação em aplicações de FAS. |