Amazon Comprehend: Guía rápida
Max Zeballos
Posted on July 6, 2022
Motivación
En la actualidad las aplicaciones necesitan una mayor velocidad de desarrollo. La inclusión de funcionalidades que implican el uso de machine learning se ha vuelto cada vez mayor.
Amazon Web Services a desarrollado un conjunto de servicios que te permiten rápidamente agregar características de machine learning a tus aplicaciones.
Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza machine learning para extraer información de datos en formato de texto.
Introducción
Amazon Comprehend provee de un conjunto de APIs con las que podemos interactuar y obtener resultados sobre el análisis de textos. Estas APIs retornan como respuesta la inferencia que realiza sobre los datos que le enviamos a modelos entrenados por los expertos que trabajan en AWS.
Características
En esta sección vamos a revisar las capacidades del servicio y su uso a través de Python. Para los siguientes ejemplos utilizaremos el siguiente texto:
sample_text = '''
Hello Zhang Wei. Your AnyCompany Financial Services, LLC credit card account 1111-0000-1111-0000 has a minimum payment of $24.53 that is due by July 31st. Based on your autopay settings, we will withdraw your payment on the due date from your bank account XXXXXX1111 with the routing number XXXXX0000.
Your latest statement was mailed to 100 Main Street, Anytown, WA 98121.
After your payment is received, you will receive a confirmation text message at 206-555-0100.
If you have questions about your bill, AnyCompany Customer Service is available by phone at 206-555-0199 or email at support@anycompany.com.
'''
1 Detección del idioma dominante
Con esta API podemos examinar el texto y determinar el idioma dominante, debido a que un texto puede contener palabras o frases en diferentes idiomas. A continuación presentare el código en Python
comprehend = boto3.client('comprehend')
detected_language = comprehend.detect_dominant_language(
Text=sample_text
)
En la variable detected_language tendremos la respuesta a la API, si imprimíos el contenido de la variable veremos el siguiente resultado:
{
"Languages": [
{
"LanguageCode": "en",
"Score": 0.9913273453712463
}
],
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "64",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 03:38:30 GMT",
"x-amzn-requestid": "38e68cdc-c3a3-4b1c-897d-c86f9c5f0f63"
},
"HTTPStatusCode": 200,
"RequestId": "38e68cdc-c3a3-4b1c-897d-c86f9c5f0f63",
"RetryAttempts": 0
}
}
Observamos que el lenguaje detectado fue ingles(en) con un puntaje de 99.1%
2 Detección de entidades
Con la API de detección de entidades podemos extraer los siguientes tipos de entidades:
Tipo | Descripción |
---|---|
COMMERCIAL_ITEM | Un producto de marca |
FECHA | Una fecha completa (por ejemplo, 25/11/2017), día (martes), mes (mayo) u hora (8:30 a.m.). |
EVENT | Un evento, como un festival, un concierto, una elección, etc. |
LOCATION | Una ubicación específica, como un país, una ciudad, un lago, un edificio, etc. |
ORGANIZACIÓN | Organizaciones grandes, como un gobierno, una empresa, una religión, un equipo deportivo, etc. |
OTHER | Entidades que no encajan en ninguna de las otra categorías. |
PERSON | Individuos, grupos de personas, apodos, personajes ficticios. |
QUANTITY | Importe cuantificado, como moneda, porcentajes, números, bytes, etc. |
TITLE | Nombre oficial dado a cualquier creación o obra creativa, como películas, libros, canciones, etc. |
Ahora vamos a revisar el código en python
comprehend = boto3.client('comprehend')
detected_entities = comprehend.detect_entities(
Text=sample_text,
LanguageCode='en'
)
En la variable detected_entities tenemos la respuesta de la API si revisamos el contenido de la variable tendremos el siguiente contenido:
{
"Entities": [
{
"BeginOffset": 7,
"EndOffset": 16,
"Score": 0.9993807077407837,
"Text": "Zhang Wei",
"Type": "PERSON"
},
{
"BeginOffset": 23,
"EndOffset": 57,
"Score": 0.9996546506881714,
"Text": "AnyCompany Financial Services, LLC",
"Type": "ORGANIZATION"
},
{
"BeginOffset": 78,
"EndOffset": 97,
"Score": 0.9905166029930115,
"Text": "1111-0000-1111-0000",
"Type": "OTHER"
},
...
],
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "1276",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 03:14:41 GMT",
"x-amzn-requestid": "0c7eefa0-c332-4f82-a93c-ab18cd47a15f"
},
"HTTPStatusCode": 200,
"RequestId": "0c7eefa0-c332-4f82-a93c-ab18cd47a15f",
"RetryAttempts": 0
}
}
Dentro de Entities tenemos cada una de las entidades detectadas. Cada entidad tiene los siguientes atributos:
- BeginOffset: Posición donde inicia la palabra en el texto
- EndOffset: Posición donde termina la palabra en el texto
- Score: Puntaje de certeza de detección de entidad
- Text: El nombre de la entidad
- Type: El tipo de entidad
3 Deteccion de frases clave
Puedes utilizar esta API para buscar frases clave en el documento. Por lo general, consiste en un sustantivo y los modificadores que lo distinguen. Por ejemplo, "día" es un sustantivo; "un día hermoso" es una frase sustantiva que incluye un artículo ("un") y un adjetivo ("hermoso").
A continuación revisaremos el código en python
comprehend = boto3.client('comprehend')
detected_key_phrases = comprehend.detect_key_phrases(
Text=sample_text,
LanguageCode='en'
)
Revisando la variable detected_key_phrases tendremos la siguiente respuesta:
{
"KeyPhrases": [
{
"BeginOffset": 1,
"EndOffset": 16,
"Score": 0.8426344990730286,
"Text": "Hello Zhang Wei"
},
{
"BeginOffset": 18,
"EndOffset": 52,
"Score": 0.9881375432014465,
"Text": "Your AnyCompany Financial Services"
},
{
"BeginOffset": 54,
"EndOffset": 97,
"Score": 0.8444651961326599,
"Text": "LLC credit card account 1111-0000-1111-0000"
},
{
"BeginOffset": 102,
"EndOffset": 119,
"Score": 0.9999476075172424,
"Text": "a minimum payment"
},
...
],
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "2096",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 04:19:43 GMT",
"x-amzn-requestid": "d772098b-c82d-49b8-b4fe-029ac108b375"
},
"HTTPStatusCode": 200,
"RequestId": "d772098b-c82d-49b8-b4fe-029ac108b375",
"RetryAttempts": 0
}
}
Como se observa en la respuesta, la API nos retorna todas las frases clave.
4 Determinar el sentimiento
Con esta API podemos determinar si el sentimiento es positivo, negativo, neutral o mixto. Por ejemplo, se puede utilizar el análisis de sentimientos para analizar los comentarios en un blog y saber si a los lectores les gusto la publicación.
Ahora revisaremos el código en python
comprehend = boto3.client('comprehend')
detected_sentiment = comprehend.detect_sentiment(
Text=sample_text,
LanguageCode='en'
)
Si revelamos el contenido de la variable detected_sentiment tendremos:
{
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "163",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 04:27:42 GMT",
"x-amzn-requestid": "ca289ed1-65f4-4e6f-87e4-468b5a88ae60"
},
"HTTPStatusCode": 200,
"RequestId": "ca289ed1-65f4-4e6f-87e4-468b5a88ae60",
"RetryAttempts": 0
},
"Sentiment": "NEUTRAL",
"SentimentScore": {
"Mixed": 9.69591928878799e-06,
"Negative": 0.016147520393133163,
"Neutral": 0.9832557439804077,
"Positive": 0.0005869901506230235
}
}
En Sentiment tenemos el sentimiento detectado y en SentimentScore tendremos el puntaje de las otras opciones.
5 Analisis de la sintaxis
Con esta API podemos identificar los sustantivos, verbos, adjetivos, etc. en el documento. Amazon Comprehend puede identificar 17 tipos de Tokens.
Token | Parte del discurso |
---|---|
ADJ | Adjetivo |
ADP | Adposición |
ADV | Adverbio |
AUX | Auxiliary |
CONJ | Coordinación de la conjunción |
DET | Determinador |
INTJ | Interjección |
SUSTANTIVO | Nombre |
NUM | Numérico |
O | Otros |
PART | Partícula |
PRON | Pronombre |
PROPÓN | Nombre adecuado |
PUNTAR | Puntuación |
SCONJ | conjunción subordinante |
SYM | Símbolo |
VERB | Verbo |
A continuación presento el código en python
comprehend = boto3.client('comprehend')
detected_syntax = comprehend.detect_syntax(
Text=sample_text,
LanguageCode='en'
)
Revelando el contenido de la variable detected_syntax tendremos:
{
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "12896",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 04:31:16 GMT",
"x-amzn-requestid": "21f94838-5820-4223-a015-9685a31902cf"
},
"HTTPStatusCode": 200,
"RequestId": "21f94838-5820-4223-a015-9685a31902cf",
"RetryAttempts": 0
},
"SyntaxTokens": [
{
"BeginOffset": 1,
"EndOffset": 6,
"PartOfSpeech": {
"Score": 0.9888805150985718,
"Tag": "INTJ"
},
"Text": "Hello",
"TokenId": 1
},
{
"BeginOffset": 7,
"EndOffset": 12,
"PartOfSpeech": {
"Score": 0.9991546273231506,
"Tag": "PROPN"
},
"Text": "Zhang",
"TokenId": 2
},
{
"BeginOffset": 13,
"EndOffset": 16,
"PartOfSpeech": {
"Score": 0.9982988238334656,
"Tag": "PROPN"
},
"Text": "Wei",
"TokenId": 3
},
...
]
}
En la respuesta observamos que para cada una de las palabras se ha identificado su respectiva Etiqueta.
6 Detección de información de identificación personal (PII)
Con esta API podemos detectar entidades en el texto que contienen información de identificación personal (PII). Una entidad PII es una referencia textual a datos personales que podrían utilizarse para identificar a una persona, como una dirección, un número de cuenta bancaria o un número de teléfono.
Amazon Comprehend reconoce los siguientes tipos de entidades:
- ADDRESS
- AGE
- AWS_ACCESS_KEY
- AWS_SECRET_KEY
- BANK_ACCOUNT_NUMBER
- BANK_ROUTING
- CREDIT_DEBIT_CVV
- CREDIT_DEBIT_EXPIRY
- CREDIT_DEBIT_NUMBER
- DATE_TIME
- DRIVER_ID
- IP_ADDRESS
- MAC_ADDRESS
- NAME
- PASSPORT_NUMBER
- PASSWORD
- PHONE
- PIN
- SSN
- URL
- USERNAME
Para trabajar con la API usamos el siguiente código en python
comprehend = boto3.client('comprehend')
detected_pii_labels = comprehend.contains_pii_entities(
Text=sample_text,
LanguageCode='en'
)
Ahora revisamos el contenido de la variable detected_pii_labels
{
"Labels": [
{
"Name": "EMAIL",
"Score": 1.0
},
{
"Name": "DATE_TIME",
"Score": 1.0
},
{
"Name": "BANK_ROUTING",
"Score": 0.8962613940238953
},
{
"Name": "NAME",
"Score": 0.7186043858528137
},
{
"Name": "PHONE",
"Score": 1.0
}
],
"ResponseMetadata": {
"HTTPHeaders": {
"content-length": "197",
"content-type": "application/x-amz-json-1.1",
"date": "Wed, 06 Jul 2022 04:51:25 GMT",
"x-amzn-requestid": "f13ed239-eb0c-428d-b7ea-4d26f2568309"
},
"HTTPStatusCode": 200,
"RequestId": "f13ed239-eb0c-428d-b7ea-4d26f2568309",
"RetryAttempts": 0
}
}
En la respuesta observamos cada una de las PII encontradas en el texto
Conclusión
Amazon Comprehend permite acelerar el desarrollo de aplicaciones donde es necesario el uso de análisis de textos. El uso de esta herramienta no requiere una curva de aprendizaje elevada, solamente requiere leer un poco de documentación y revisar algunos ejemplos. No hay necesidad de tener conocimientos en inteligencia artificial para su uso.
Este blog es parte de una serie: Ir al menu
Posted on July 6, 2022
Join Our Newsletter. No Spam, Only the good stuff.
Sign up to receive the latest update from our blog.