Modelos e Algoritmos
Métricas
Visão Computacional
NLP
Aleatório
100

Um cientista de dados encontrou um cachorro na rua, levou-o para casa e tirou fotos dele. Em seguida o cientista queria postar as fotos e a descrição do cachorro num grupo do bairro no facebook. Contudo o cientista não conseguia identificar a raça do cachorro. Sendo assim, ele treinou um modelo para identificar raças de cachorro e usou as imagens que ele havia tirado para testar.

Que tipo de modelo seria mais recomendado, em um primeiro momento, o cientista de dados usar para identificar a raça?

Um modelo de classificação de imagem.

100

Precisão é a divisão entre verdadeiros positivos sobre o que?

Precisão é a divisão entre verdadeiros positivos e a soma de verdadeiros positivos com falsos positivos. 

https://learn.microsoft.com/pt-br/azure/cognitive-services/language-service/custom-text-classification/concepts/evaluation-metrics

100

Quais as três principais tarefas a visão computacional aborda?

100

Verdadeiro ou Falso: NLP é um aprendizado de máquina para "entender" a linguagem humana.

O processamento de linguagem natural e o aprendizado de máquina se sobrepõem. O aprendizado de máquina é frequentemente usado como uma ferramenta para processamento de linguagem natural.


https://www.projectpro.io/article/machine-learning-vs-nlp/493

100

Cite pelo menos 3 principais biblioteca em python disponibilizada para ciência de dados?

Numpy, Pandas, SciPy, Matplotlib, Seaborn, Plotly, etc.


https://blog.dsacademy.com.br/top-25-bibliotecas-python-para-data_science/

200

O fuzzy C-Means é um algoritmo de qual tipo de aprendizagem de máquina?

200

Verdadeiro ou falso: A diferença entre a acurácia e a precisão só aparece quando o modelo é de classificação?

Falso, acurácia e precisão são duas métricas diferentes. avalia simplesmente o percentual de acertos, ou seja, ela pode ser obtida pela razão entre a quantidade de acertos e o total de entradas. Já a precisão é uma métrica que avalia a quantidade de verdadeiros positivos sobre a soma de todos os valores positivos.

https://bioinfo.com.br/metricas-de-avaliacao-em-machine-learning-acuracia-sensibilidade-precisao-especificidade-e-f-score/

200

Cite pelo menos 4 técnicas de NLP.

Bag-of-words, Lemmatization & Stemming , Stop-words, Tokenization, TF-IDF, Word Embeddings, Named Entity Recognition, Parts-of-speech (POS) Taggin, etc.

https://www.projectpro.io/article/machine-learning-vs-nlp/493#mcetoc_1fgolus0h21


https://www.alura.com.br/artigos/guia-nlp-conceitos-tecnicas

200

Observando o gráfico das curvas de aprendizado de um modelo genérico, podemos observar que as curvas de 'Training Loss' e 'Validation Loss' estão se mantendo altas e não têm previsão de diminuir. O que se pode constatar desse cenário?

Que o modelo está sofrendo um underfitting.


https://www.baeldung.com/cs/learning-curve-ml

300

Qual a principal diferença entre a ResNet50 e a ResNet150?

A quantidade de camadas... a resnet50 tem 50 camadas, já a resnet150 possui 150 camadas.

https://datagen.tech/guides/computer-vision/resnet-50/

300

Considere dois modelos, A e B, que avaliam o mesmo conjunto de dados. Qual das seguintes afirmações é verdadeira?  

a) Se o modelo A tiver uma precisão e recall melhores do que o modelo B, provavelmente o modelo A é melhor. 

b) Se o modelo A tem um recall melhor do que o B, então o modelo A é melhor. 

c) Se o modelo A tiver uma precisão melhor do que o modelo B, o modelo A será melhor.

a) Em geral, um modelo que supera outro modelo em precisão e recall é provavelmente o melhor. Obviamente, precisamos garantir que a comparação esteja sendo feita em um ponto de precisão / recall que seja útil na prática para que isso seja significativo. Por exemplo, suponha que nosso modelo de detecção de spam tenha pelo menos 90% de precisão para ser útil e evitar alarmes falsos desnecessários. Nesse caso, comparar um modelo com {20% de precisão, 99% de recall} com outro com {15% de precisão, 98% de recall} não é muito instrutivo, porque nenhum dos modelos atende ao requisito de precisão de 90%. No entanto, essa ressalva é uma boa maneira de comparar modelos ao usar precisão e recall.

300

Cite pelo menos 5 técnicas de pré-processamento de imagens.

Na transformação digital de imagens, podemos usar dois tipos de transformações: a nível de pixel, e a nível espacial. Alguns tipos são: blur, gaussian blur, RGBshuffle, noise grays scale, crop, flip, rotate, dropout, etc.


https://albumentations.ai/docs/getting_started/transforms_and_targets/

300

Verdadeiro ou Falso: Geralmente o processo de normalização é feito antes da tokenização, desta forma a frase fica com espaços e caracteres melhores definidos para serem tokenizados/separados pela tokenização.

A normalização dos textos é feita para que o processo de análise seja mais preciso e tem a característica de manter um padrão com todas as letras maiúsculas ou minúsculas. Geralmente, a normalização é feita depois do processo de tokenização, onde podemos encontrar frases que são semelhantes e fazer a combinação entre elas, caso queiramos, independente das diferenças.


https://www.alura.com.br/artigos/guia-nlp-conceitos-tecnicas

300

O que é o processo de augmentation, e pra que serve?

Data Augmentation é uma técnica para gerar novos exemplares de dados de treinamento a fim de aumentar a generalidade do modelo. 

Seus principais benefícios dessa técnica são: reduzir overffiting, aumento da acurácia do modelo e auxiliar em projetos com poucas fontes de dados. 

https://www.linkedin.com/pulse/data-augmentation-o-que-%C3%A9-essa-t%C3%A9cnica-e-como-usar-isadora-almeida/?originalSubdomain=pt

https://sigmoidal.ai/reduzindo-overfitting-com-data-augmentation/

400

Que tipo de função é a função Softmax: Exponencial, Hiperbólica ou Sigmóide?

Sigmóide. A função softmax também é um tipo de função sigmóide, mas é útil quando tentamos lidar com problemas de classificação. A função sigmóide como vimos anteriormente é capaz de lidar com apenas duas classes. Apenas classificar sim ou não para uma única classe não ajudaria. A função softmax transforma as saídas para cada classe para valores entre 0 e 1 e também divide pela soma das saídas. Isso essencialmente dá a probabilidade de a entrada estar em uma determinada classe.

https://www.deeplearningbook.com.br/funcao-de-ativacao/

400

O que é AUROC e para que serve?

A área sob a curva ROC (AUC — Area Under the Curve ou AUROC — Area Under the Receiver Operating Characteristic curve) pode ser utilizada como métrica de qualidade de um modelo, dado que quanto mais próxima a curva estiver do canto superior esquerdo, maior será a área sob a curva e melhor será o modelo. Uma vantagem desta métrica é que ela não é sensível ao desbalanço de classes, como ocorre com a acurácia. Por outro lado, a AUROC não é tão facilmente interpretável. 


https://medium.com/kunumi/m%C3%A9tricas-de-avalia%C3%A7%C3%A3o-em-machine-learning-classifica%C3%A7%C3%A3o-49340dcdb198

400

O que são annotations e cite pelo menos 3 tipos de arquivos de annotations.

A anotação de imagens é o processo de rotular e anotar manualmente imagens em um conjunto de dados para treinar inteligência artificial e modelos de visão computacional de aprendizado de máquina.

Pascal VOC, Yolo, COCO, Tensorflow, Albumentations.


https://encord.com/blog/the-complete-guide-to-image-annotation-for-computer-vision

https://roboflow.com/formats


400

O que é um n-gram?

é um tipo de modelo probabilístico usado para prever o próximo item de uma sequência na forma de um modelo de Markov. Em um contexto linguístico, o n-grams refere-se a uma sequência n de palavras. Como podemos perceber nos exemplos a seguir: “Estudando” tem um 1-gram (unigrama); na sequência “Estudando NLP” temos um 2-gram (bigrama); e em “Estudando Machine Learning” temos um 3-gram (trigrama). 


https://www.alura.com.br/artigos/guia-nlp-conceitos-tecnicas

400

O que é o método Elbow (curva do cotovelo)?

A Curva de Cotovelo ou Método Elbow Curve é uma técnica usada para encontrar a quantidade ideal de clusters K. Este método testa a variância dos dados em relação ao número de clusters. O valor ideal de K é aquele que tem um menor Within Sum of Squares (WSS) e ao mesmo tempo o menor número de clusters. Chamamos de curva de cotovelo, porque a partir do ponto que seria o “cotovelo” não existe uma discrepância tão significativa em termos de variância. Dessa forma, a melhor quantidade de clusters K seria exatamente onde o cotovelo estaria.


https://medium.com/@starting-ds/clusteriza%C3%A7%C3%A3o-e-suas-m%C3%A9tricas-899b8017823d

500

O que são embeddings em machine learning?

Embedding é uma representação de features em um espaço dimensional reduzido, com tamanho fixo, denso e que contém propriedades semânticas sobre o objeto.

Em outras palavras, o embedding é um vetor de feature do objeto. A grande diferença desse vetor de features é que eles são criamos por redes neurais em vez de definidos pelo usuário.

https://medium.com/data-hackers/deep-learning-para-sistemas-de-recomenda%C3%A7%C3%A3o-parte-3-recomenda%C3%A7%C3%A3o-por-similaridade-d788c126d808


https://developers.google.com/machine-learning/crash-course/embeddings/video-lecture

500

Cite pelo menos duas variações da métrica ROUGE.

500

O que é máscara R-CNN para tarefa de segmentação?

Mask R-CNN é uma técnica popular de segmentação de deep learning que executa segmentação em nível de pixel em objetos detectados. O algoritmo Mask R-CNN pode acomodar várias classes e objetos sobrepostos.


https://www.mathworks.com/help/vision/ug/getting-started-with-mask-r-cnn-for-instance-segmentation.html

500

O que é que refere-se a um componente de um sistema de NLP que contém informações (semântica, gramatical) sobre palavras individuais ou cadeias de palavras?

500

Verdadeiro ou Falso: Mean Time To Change(MTTC) é uma das métricas utilizadas para acelerar a entregar em softwares de MLOps.

Falso. A métrica é Mean Time To Restore (MTTR) . ML Model MTTR depends on the number and duration of manually performed model debugging, and model deployment steps. In case, when the ML model should be retrained, then MTTR also depends on the duration of the ML model training. Alternatively, MTTR refers to the duration of the rollback of the ML model to the previous version.


https://ml-ops.org/content/mlops-principles 

M
e
n
u