Aprenentatge de regles d'associació

Un diagrama de Venn per mostrar les associacions entre els conjunts d'ítems X i Y d'un conjunt de dades. Totes les transaccions que contenen l'element X es troben a la part esquerra blanca del cercle, mentre que les que contenen Y es troben de color vermell i a la dreta. Totes les transaccions que continguin X i Y es troben al mig i estan de color rosa. Es poden utilitzar diversos conceptes per representar la informació d'aquest gràfic. Per exemple, si hom pren totes les transaccions de la secció rosa i les divideix per la quantitat total de transaccions (transaccions que contenen X (blanc) + transaccions que contenen Y (vermell), la sortida es coneixeria com a suport. Una instància d'obtenir el resultat d'un mètode conegut com a confiança, es pot prendre totes les transaccions del mig (rosa) i dividir-les per totes les transaccions que contenen Y (vermell i rosa). En aquest cas, Y és l'antecedent i X el conseqüent.

L'aprenentatge de regles d'associació és un mètode d'aprenentatge automàtic basat en regles per descobrir relacions interessants entre variables en grans bases de dades. Es pretén identificar regles fortes descobertes en bases de dades utilitzant algunes mesures d'interès. En qualsevol transacció determinada amb una varietat d'elements, les regles d'associació estan destinades a descobrir les regles que determinen com o per què es connecten determinats elements.[1]

Basant-se en el concepte de regles fortes, Rakesh Agrawal, Tomasz Imieliński i Arun Swami [2] van introduir regles d'associació per descobrir regularitats entre productes en dades de transaccions a gran escala registrades per sistemes de punts de venda (POS) als supermercats. Per exemple, la regla { c e b e s , p a t a t e s } { b o t i f a r r a } {\displaystyle \{\mathrm {cebes,patates} \}\Rightarrow \{\mathrm {botifarra} \}} trobat a les dades de vendes d'un supermercat indicaria que si un client compra ceba i patates junts, és probable que també compri botifarres. Aquesta informació es pot utilitzar com a base per prendre decisions sobre activitats de màrqueting com, per exemple, preus promocionals o ubicacions de productes.

A més de l'exemple anterior de l'anàlisi de cistella de mercat, les regles d'associació s'utilitzen avui en dia en moltes àrees d'aplicació, com ara la mineria d'ús web, la detecció d'intrusions, la producció contínua i la bioinformàtica. En contrast amb la mineria de seqüències, l'aprenentatge de regles d'associació normalment no té en compte l'ordre dels elements ni dins d'una transacció ni entre transaccions.

El propi algorisme de regles d'associació consta de diversos paràmetres que poden dificultar l'execució per a aquells que no tenen experiència en mineria de dades, amb moltes regles difícils d'entendre.[3]

Definició

Seguint la definició original d'Agrawal, Imieliński, Swami [4] el problema de la mineria de regles d'associació es defineix com:

SIgui I = { i 1 , i 2 , , i n } {\displaystyle I=\{i_{1},i_{2},\ldots ,i_{n}\}} un conjunt de n {\displaystyle n} atributs binaris anomenats elements.

Sigui D = { t 1 , t 2 , , t m } {\displaystyle D=\{t_{1},t_{2},\ldots ,t_{m}\}} un conjunt de transaccions anomenat base de dades .

Cada transacció en D {\displaystyle D} té un identificador de transacció únic i conté un subconjunt d'elements I {\displaystyle I} .

Una regla es defineix com una implicació de la forma:

X Y {\displaystyle X\Rightarrow Y} , on X , Y I {\displaystyle X,Y\subseteq I} .

A Agrawal, Imieliński, Swami [5] només es defineix una regla entre un conjunt i un únic element, X i j {\displaystyle X\Rightarrow i_{j}} per i j I {\displaystyle i_{j}\in I}

Cada regla està composta per dos conjunts diferents d'elements, també coneguts com a conjunts d'elements, X {\displaystyle X} i Y {\displaystyle Y} , on X {\displaystyle X} s'anomena antecedent o costat esquerre (LHS) i Y {\displaystyle Y} consegüent o a mà dreta (RHS). L'antecedent és aquell element que es pot trobar a les dades mentre que el conseqüent és l'element trobat quan es combina amb l'antecedent. La declaració X Y {\displaystyle X\Rightarrow Y} sovint es llegeix com si X {\displaystyle X} aleshores Y {\displaystyle Y} , on l'antecedent ( X {\displaystyle X} ) és el si i el conseqüent ( Y {\displaystyle Y} ) és el llavors . Això simplement implica que, en teoria, sempre X {\displaystyle X} es produeix en un conjunt de dades, doncs Y {\displaystyle Y} també ho farà.

Referències

  1. «Association Learning» (en anglès). https://deepai.org,+17-05-2019.+[Consulta: 10 agost 2023].
  2. Agrawal, R. «Mining association rules between sets of items in large databases». A: Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93, 1993, p. 207. DOI 10.1145/170035.170072. ISBN 978-0897915922. 
  3. Garcia, Enrique. «Drawbacks and solutions of applying association rule mining in learning management systems» (en anglès). Sci2s, 2007. Arxivat de l'original el 2009-12-23.
  4. Agrawal, R. «Mining association rules between sets of items in large databases». A: Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93 (en anglès), 1993, p. 207. DOI 10.1145/170035.170072. ISBN 978-0897915922. 
  5. Agrawal, R. «Mining association rules between sets of items in large databases». A: Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93 (en anglès), 1993, p. 207. DOI 10.1145/170035.170072. ISBN 978-0897915922.