Problema del coleccionista de cupones

Gráfica del número de cupones n contra el número esperado de pruebas (es decir, el tiempo) necesario para tener una colección completa de ellos, E (T ).

En probabilidad y estadística, el problema del coleccionista de cupones describe los concursos del tipo «colecciona todos los cupones y gana». Se trata de la siguiente pregunta:

Cierta marca de cereales contiene un cupón en cada caja. Si hay n {\displaystyle n} distintos tipos de cupones, ¿cuál es la probabilidad de que se necesitarán más de t {\displaystyle t} cajas para coleccionar todos los n {\displaystyle n} cupones? De forma alternativa: dados n {\displaystyle n} cupones, ¿cuántas muestras aleatorias con reemplazo se pueden esperar para poder seleccionar cada tipo de cupón al menos una vez?

El análisis matemático del problema revela que el valor esperado de pruebas necesarias crece a razón de Θ ( n log ( n ) ) {\displaystyle \Theta (n\log(n))} .[Nota 1]​ Por ejemplo, cuando n = 50 {\displaystyle n=50} la respuesta es aproximadamente 225[Nota 2]​ pruebas en promedio para coleccionar todos los 50 cupones.


Solución

Cálculo del valor esperado

Sea el tiempo T {\displaystyle T} el número de pruebas necesarias para coleccionar todos los n {\displaystyle n} cupones, y sea t i {\displaystyle t_{i}} el tiempo para coleccionar el i {\displaystyle i} -ésimo cupón después de que se tienen i 1 {\displaystyle i-1} cupones en la colección. Entonces T = t 1 + + t n {\displaystyle T=t_{1}+\cdots +t_{n}} . Se puede pensar en T {\displaystyle T} y t i {\displaystyle t_{i}} como variables aleatorias. Se debe observar que la probabilidad de añadir un cupón nuevo es p i = n ( i 1 ) n = n i + 1 n {\displaystyle p_{i}={\frac {n-(i-1)}{n}}={\frac {n-i+1}{n}}} . Por lo tanto, t i {\displaystyle t_{i}} tiene una distribución geométrica con valor esperado 1 p i = n n i + 1 {\displaystyle {\frac {1}{p_{i}}}={\frac {n}{n-i+1}}} . Por la linealidad de la esperanza se tiene:

E ( T ) = E ( t 1 + t 2 + + t n ) = E ( t 1 ) + E ( t 2 ) + + E ( t n ) = 1 p 1 + 1 p 2 + + 1 p n = n n + n n 1 + + n 1 = n ( 1 1 + 1 2 + + 1 n ) = n H n . {\displaystyle {\begin{aligned}\operatorname {E} (T)&{}=\operatorname {E} (t_{1}+t_{2}+\cdots +t_{n})\\&{}=\operatorname {E} (t_{1})+\operatorname {E} (t_{2})+\cdots +\operatorname {E} (t_{n})\\&{}={\frac {1}{p_{1}}}+{\frac {1}{p_{2}}}+\cdots +{\frac {1}{p_{n}}}\\&{}={\frac {n}{n}}+{\frac {n}{n-1}}+\cdots +{\frac {n}{1}}\\&{}=n\cdot \left({\frac {1}{1}}+{\frac {1}{2}}+\cdots +{\frac {1}{n}}\right)\\&{}=n\cdot H_{n}.\end{aligned}}}

Aquí, H n {\displaystyle H_{n}} es el n {\displaystyle n} -ésimo número armónico. Usando la asíntota de los números armónicos, se obtiene:

E ( T ) = n H n = n log n + γ n + 1 2 + O ( 1 / n ) , {\displaystyle \operatorname {E} (T)=n\cdot H_{n}=n\log n+\gamma n+{\frac {1}{2}}+O(1/n),}

donde γ 0.5772156649 {\displaystyle \gamma \approx 0.5772156649} es la Constante de Euler–Mascheroni.

Aquí es posible usar la desigualdad de Márkov para establecer límites a la probabilidad deseada:

P ( T c n H n ) 1 c . {\displaystyle \operatorname {P} (T\geq cnH_{n})\leq {\frac {1}{c}}.}

Se puede ver que la anterior puede ser modificada levemente para el case en el que ya se tienen algunos de los cupones. sea k {\displaystyle k} el número de cupones ya coleccionados, entonces:

E ( T k ) = E ( t k + 1 + t k + 2 + + t n ) = n ( 1 1 + 1 2 + + 1 n k ) = n H n k {\displaystyle {\begin{aligned}\operatorname {E} (T_{k})&{}=\operatorname {E} (t_{k+1}+t_{k+2}+\cdots +t_{n})\\&{}=n\cdot \left({\frac {1}{1}}+{\frac {1}{2}}+\cdots +{\frac {1}{n-k}}\right)\\&{}=n\cdot H_{n-k}\end{aligned}}}

Se aprecia que cuando k = 0 {\displaystyle k=0} se obtiene el resultado original.

Cálculo de la varianza

Usando la independencia de las variables aleatorias t i {\displaystyle t_{i}} se obtienen:

Var ( T ) = Var ( t 1 + + t n ) = Var ( t 1 ) + Var ( t 2 ) + + Var ( t n ) = 1 p 1 p 1 2 + 1 p 2 p 2 2 + + 1 p n p n 2 < ( n 2 n 2 + n 2 ( n 1 ) 2 + + n 2 1 2 ) = n 2 ( 1 1 2 + 1 2 2 + + 1 n 2 ) < π 2 6 n 2 {\displaystyle {\begin{aligned}\operatorname {Var} (T)&{}=\operatorname {Var} (t_{1}+\cdots +t_{n})\\&{}=\operatorname {Var} (t_{1})+\operatorname {Var} (t_{2})+\cdots +\operatorname {Var} (t_{n})\\&{}={\frac {1-p_{1}}{p_{1}^{2}}}+{\frac {1-p_{2}}{p_{2}^{2}}}+\cdots +{\frac {1-p_{n}}{p_{n}^{2}}}\\&{}<\left({\frac {n^{2}}{n^{2}}}+{\frac {n^{2}}{(n-1)^{2}}}+\cdots +{\frac {n^{2}}{1^{2}}}\right)\\&{}=n^{2}\cdot \left({\frac {1}{1^{2}}}+{\frac {1}{2^{2}}}+\cdots +{\frac {1}{n^{2}}}\right)\\&{}<{\frac {\pi ^{2}}{6}}n^{2}\end{aligned}}}

ya que π 2 6 = 1 1 2 + 1 2 2 + + 1 n 2 + {\displaystyle {\frac {\pi ^{2}}{6}}={\frac {1}{1^{2}}}+{\frac {1}{2^{2}}}+\cdots +{\frac {1}{n^{2}}}+\cdots } (véase problema de Basilea).

Ahora es posible usar la desigualdad de Chebyshev para establecer la cota:

P ( | T n H n | c n ) π 2 6 c 2 . {\displaystyle \operatorname {P} \left(|T-nH_{n}|\geq cn\right)\leq {\frac {\pi ^{2}}{6c^{2}}}.}


Estimaciones de cola

Es posible establecer una cota superior diferente a partir de la siguiente observación. Sea Z i r {\displaystyle {Z}_{i}^{r}} el evento en el que el i {\displaystyle i} -ésimo cupón no fue seleccionado en las primeras r {\displaystyle r} pruebas. Entonces:

P [ Z i r ] ( 1 1 n ) r e r / n {\displaystyle {\begin{aligned}P\left[{Z}_{i}^{r}\right]\leq \left(1-{\frac {1}{n}}\right)^{r}\leq e^{-r/n}\end{aligned}}}

Por lo tanto, como r = β n log n {\displaystyle r=\beta n\log n} , se tiene P [ Z i r ] e ( β n log n ) / n = n β {\displaystyle P\left[{Z}_{i}^{r}\right]\leq e^{(-\beta n\log n)/n}=n^{-\beta }} .

P [ T > β n log n ] = P [ i Z i β n log n ] n P [ Z 1 β n log n ] n β + 1 {\displaystyle {\begin{aligned}P\left[T>\beta n\log n\right]=P\left[\bigcup _{i}{Z}_{i}^{\beta n\log n}\right]\leq n\cdot P[{Z}_{1}^{\beta n\log n}]\leq n^{-\beta +1}\end{aligned}}}

Extensiones y generalizaciones

  • Tanto Pierre-Simon Laplace, como Paul Erdős y Alfréd Rényi, probaron el teorema del límite para la distribución de T {\displaystyle T} . Este resulrado es una extensión a las cotas anteriores.
P ( T < n log n + c n ) e e c ,  as  n . {\displaystyle \operatorname {P} (T<n\log n+cn)\to e^{-e^{-c}},{\text{ as }}n\to \infty .}
  • Donald J. Newman y Lawrence Shepp mostraron una generalización del problema cuando se necesitan coleccionar m {\displaystyle m} copias de cada cupón. Sea T m {\displaystyle T_{m}} la primera vez que se coleccionan m {\displaystyle m} copias de cada cupón. Demostraron que la expectativa en este caso satisface:
E ( T m ) = n log n + ( m 1 ) n log log n + O ( n ) ,  as  n . {\displaystyle \operatorname {E} (T_{m})=n\log n+(m-1)n\log \log n+O(n),{\text{ as }}n\to \infty .}
En este caso, m {\displaystyle m} es un valor fijo. Cuando m = 1 {\displaystyle m=1} se obtiene la fórmula anterior para el valor esperado.
  • Una generalización común, también demostrada por Erdős y Rényi:
P ( T m < n log n + ( m 1 ) n log log n + c n ) e e c / ( m 1 ) ! ,  as  n . {\displaystyle \operatorname {P} \left(T_{m}<n\log n+(m-1)n\log \log n+cn\right)\to e^{-e^{-c}/(m-1)!},{\text{ as }}n\to \infty .}
E ( T m ) = 0 ( 1 i = 1 m ( 1 e p i t ) ) d t . {\displaystyle \operatorname {E} (T_{m})=\int _{0}^{\infty }\left(1-\prod _{i=1}^{m}\left(1-e^{-p_{i}t}\right)\right)dt.}
Esto es igual a:
E ( T m ) = q = 0 m 1 ( 1 ) m 1 q | J | = q 1 1 P J {\displaystyle \operatorname {E} (T_{m})=\sum _{q=0}^{m-1}(-1)^{m-1-q}\sum _{|J|=q}{\frac {1}{1-P_{J}}}}
donde m {\displaystyle m} denota el número de cupones que deben ser coleccionados, y P J {\displaystyle P_{J}} la probabilidad de tener cualquier cupón en el conjunto J {\displaystyle J} de cupones.

Véase también

Notas

  1. Aquí y a lo largo del artículo, "log" se refiere al logaritmo natural y no logaritmo en ninguna otra base. El uso de Θ {\displaystyle \Theta } se refiere a la Notación O grande usada para describir cotas.
  2. El valor esperado de pruebas para coleccionar todos los 50 cupones es E ( 50 ) = 50 ( 1 + 1 2 + 1 3 + . . . + 1 50 ) = 224.9603 {\displaystyle E(50)=50(1+{\frac {1}{2}}+{\frac {1}{3}}+...+{\frac {1}{50}})=224.9603} La aproximación n log n + γ n + 1 / 2 {\displaystyle n\log n+\gamma n+1/2} para este valor esperado nos da, en este caso 50 log 50 + 50 γ + 1 / 2 195.6011 + 28.8608 + 0.5 224.9619 {\displaystyle 50\log 50+50\gamma +1/2\approx 195.6011+28.8608+0.5\approx 224.9619} .

Referencias

  1. Flajolet, Philippe; Gardy, Danièle; Thimonier, Loÿs (1992), «Birthday paradox, coupon collectors, caching algorithms and self-organizing search», Discrete Applied Mathematics 39 (3): 207-229, doi:10.1016/0166-218x(92)90177-c  Parámetro desconocido |citeseerx= ignorado (ayuda).
  • Blom, Gunnar; Holst, Lars; Sandell, Dennis (1994), «7.5 Coupon collecting I, 7.6 Coupon collecting II, and 15.4 Coupon collecting III», Problems and Snapshots from the World of Probability, New York: Springer-Verlag, pp. 85-87, 191, ISBN 0-387-94161-4, MR 1265713 .
  • Dawkins, Brian (1991), «Siobhan's problem: the coupon collector revisited», The American Statistician 45 (1): 76-82, JSTOR 2685247, doi:10.2307/2685247 .
  • Erdős, Paul; Rényi, Alfréd (1961), «On a classical problem of probability theory», Magyar Tudományos Akadémia Matematikai Kutató Intézetének Közleményei 6: 215-220, MR 0150807 .
  • Laplace, Pierre-Simon (1812), Théorie analytique des probabilités, pp. 194-195 .
  • Newman, Donald J.; Shepp, Lawrence (1960), «The double dixie cup problem», American Mathematical Monthly 67 (1): 58-61, JSTOR 2308930, MR 0120672, doi:10.2307/2308930 .
  • Flajolet, Philippe; Gardy, Danièle; Thimonier, Loÿs (1992), «Birthday paradox, coupon collectors, caching algorithms and self-organizing search», Discrete Applied Mathematics 39 (3): 207-229, MR 1189469, doi:10.1016/0166-218X(92)90177-C .
  • Isaac, Richard (1995), «8.4 The coupon collector's problem solved», The Pleasures of Probability, Undergraduate Texts in Mathematics, New York: Springer-Verlag, pp. 80-82, ISBN 0-387-94415-X, MR 1329545 .
  • Motwani, Rajeev; Raghavan, Prabhakar (1995), «3.6. The Coupon Collector's Problem», Randomized algorithms, Cambridge: Cambridge University Press, pp. 57-63, ISBN 9780521474658, MR 1344451 .

Enlaces externos

  • Coupon Collector Problem por Ed Pegg, Jr., en el Proyecto de Demostraciones Wolfram (en inglés)
  • How Many Singles, Doubles, Triples, Etc., Should The Coupon Collector Expect?, nota por Doron Zeilberger (en inglés).
  • Esta obra contiene una traducción derivada de «Coupon collector's problem» de Wikipedia en inglés, concretamente de esta versión del 19 de junio de 2021, publicada por sus editores bajo la Licencia de documentación libre de GNU y la Licencia Creative Commons Atribución-CompartirIgual 4.0 Internacional.