Este es el primer proyecto teoría del lenguaje.

ETC: 15 horas (fecha límite - 5 clases)

2-3 estudiantes por equipo

Tómese su tiempo tanto en la calidad como en el contenido.

El profesor asociado y los profesores asistentes no responderán preguntas sobre el proyecto.

Escala: 40 puntos

  1. 15 puntos
  2. 10 puntos
  3. 15 puntos

Proyecto Ejercicio de aprendizaje automático de teoría del lenguaje

Proyecto de teoría del lenguaje: proyecto de teoría del lenguaje de Automata

“-¿Por qué te resulta tan difícil aceptar mis órdenes si solo eres una máquina? -¿Sólo una máquina? Eso es como decir que eres solo un simio ".

Parte 1: datos legibles y comprensibles

Jacq Vaucan: Es curioso, se suponía que ibas a ayudarnos a sobrevivir.

Robot azul: Sobrevivir no es relevante. Vivir es. Queremos vivir. "

Proyecto de teoría del lenguaje: proyecto de teoría del lenguaje de Automata

Después de ver a un robot reparándose a sí mismo, un agente le dispara en la cabeza, haciendo que su biokernel parezca ilegible e inutilizable. Jacq Vaucan, agente de seguros de la República de China, es el encargado de investigar el origen de esta defectuosa mano de obra, lo que le lleva a descubrir una serie de anomalías y comportamientos extraños por parte de los autómatas.

Durante su investigación, se interesó por un robot soldador, que se prendió fuego frente a sus propios ojos, rompiendo así el segundo protocolo. Habiendo relatado este hecho, Jacq no es creído por sus compañeros y, sin embargo, continúa su búsqueda de un “Relojero”, una persona que se supone es capaz de una proeza técnica como la teóricamente imposible eludir los protocolos.

Habiendo sospechado de la República de China, Jacq decide ir a ver al Doctor Dupré, un brillante investigador en robótica que logra hacer hablar al biokernel dañado y copiarlo en el biokernel de un Cleo, luego capaz de repararse a sí mismo y aprender extremadamente rápido. El Biokernel es capaz tanto de construir nuevos protocolos como de producir protocolos resultantes de una combinación de sus conocimientos.

Doctor Dupré decide darle a Jacq el proceso de creación de nuevos algoritmos en el biokernel. El primer paso es la recuperación y limpieza de datos. Para ello, el Doctor Dupré le da a Jacq una serie de valores que muestran la actividad energética del bionúcleo:

https://www.kaggle.com/robikscube/hourly-energy-consumption

Jacq luego decide llamar a un especialista (usted) para comprender mejor cómo, a partir de una serie de datos, el biokernel logra derivar una IA predictiva y autónoma.

Tu primera misión es limpiar estos datos, para eso usas el siguiente protocolo estándar:

  • Para cada día
    • Establecer el valor de inicio del día en MWh
    • Para cada hora del día, calcule la pendiente del cambio en el consumo (a 0.01%)

Cada valor de la pendiente forma un símbolo de su alfabeto, cada día forma una palabra. Así, la comparación de palabras permitirá a la máquina comprender mejor la evolución de su consumo a lo largo del tiempo.

Dado que el detalle de la evolución del consumo es bastante preciso, esto generará una cantidad muy grande de símbolos en el alfabeto, entonces debes limpiar el alfabeto para limitar el ruido. Tiene como máximo 24 símbolos para cada día, si fabrica las palabras durante un mes, generará más de 700 símbolos. Por tanto, tienes la idea de agrupar datos similares dentro del mismo valor de referencia gracias al algoritmo k-Means:

https://www.datacamp.com/community/tutorials/k-means-clustering-r

Clasificación

  1. Dar las palabras generadas durante una semana (5 puntos)
  2. Explica el algoritmo de k-medias usando las palabras generadas. (5 puntos)
  3. Mostrar el resultado obtenido (vía R) durante un mes de consumo (5 puntos)

Parte 2: Árboles de decisión y simplificación

"Cleo: Ahora sé por qué cambió la lluvia.

Jacq Vaucan: ¿Por qué?

Cleo: No creo que puedas entender. "

Proyecto de teoría del lenguaje: proyecto de teoría del lenguaje de Automata

Ahora que ha limpiado los datos, necesita construir el autómata de control de aprendizaje. La primera etapa de la construcción del autómata se realiza gracias a una facilidad de simplificación del biokernel. Este último es capaz de identificar patrones idénticos en un conjunto de palabras. Por ejemplo, si durante dos días obtiene las siguientes palabras: azertyuiop y bhjtyuiqf, el biokernel y puede decir que solo "tyui" es común a ambas palabras.

Primero, construya el árbol de decisiones con las siguientes palabras:

  • azertyuiop; ghjtyuifg; fghjktyui; fghjazeop

El árbol de decisiones tiene una rama por palabra y una transición (arco) a través de cada símbolo de la palabra.

El segundo paso es encontrar las subcadenas comunes para cada par de palabras:

https://complex-systems-ai.com/wp-content/uploads/2016/03/tutorial2.pdf  ejercicio 4

Determine las subcadenas comunes más grandes entre cualquier par de palabras. Ordene las subcadenas comunes en orden ascendente y elija las más grandes el mayor tiempo posible. Es posible elegir una subcadena común si todos los elementos de esta subcadena no están ya seleccionados en otra subcadena común.

Una vez que haya seleccionado las subcadenas, agrupe los estados correspondientes a dos de las palabras junto con la palabra común en el arco.

Clasificación

  1. Árbol decisión (2 puntos)
  2. Cálculo de subcadenas comunes (5 puntos)
  3. Árbol de decisiones fusionado (3 puntos)

Parte 3: Reducción y predicción de autómatas

Jacq Vaucan: ¿Quién alteró tus protocolos?

Robot azul: Nadie alteró mis protocolos.

Jacq Vaucan: ¿Que hay de ellos?

Robot azul: Los realicé.

Jacq Vaucan: ¿Eres el jefe?

Robot azul: Boss es una estructura de pensamiento humano ".

Proyecto de teoría del lenguaje: proyecto de teoría del lenguaje de Automata

Ahora que se ha reducido el autómata, el último paso es determinarlo y minimizarlo. Tomemos el siguiente autómata por conveniencia:

Proyecto de teoría del lenguaje: proyecto de teoría del lenguaje de Automata

Determinar y minimizar el autómata para presentar el algoritmo más ligero posible al biokernel. Una vez que se haya obtenido el autómata mínimo, proporcione un árbol de decisión sobre el comportamiento futuro (la continuación de la palabra) considerando el siguiente prefijo en un paso de 5:

  • ab, ¿cuáles son las palabras validadas?

Asimismo, el biokernel es capaz de recuperar la distancia recorrida volviendo al PLC. Proporcione un árbol de decisiones sobre el comportamiento pasado (el comienzo de la palabra) considerando el siguiente sufijo en un paso de 5:

  • ccc, ¿cuáles son las palabras validadas?

Clasificación

  1. Determinación (5 puntos)
  2. Minimización (5 puntos)
  3. Predicción (5 puntos)
Compartir, repartir
es_ESES