A14 (?) : de la théorie des jeux à 2 agents avec de la stat
A64 (?) : un truc sur la loi exponentielle avec des martingales
Mon texte était rigolo. On joue n tours d'un jeu, on a un Adversaire qui joue des coups iid de loi inconnue à chaque tour, et on doit construire une stratégie qui maximise une fonction de gain (à chaque duo de coups joués (i,j) on associe r(i,j)∈R). L'idée est d'estimer la loi PA de l'adversaire puis de jouer à chaque tour "le" coup qui rapporte le plus d'après ce qu'on sait de PA. Donc en fait à chaque tour ce qu'on joue est totalement décidé par les observations précédentes, il n'y a pas d'aléatoire (sauf s'il y a plusieurs solutions optimales mais on s'en fout).
Mes simulations illustraient un exemple de pierre-feuille-ciseau généralisé où l'on gagnait un peu en cas d'égalité, beaucoup si on jouait le coup (parmis m différents) qui battait celui de l'adversaire (le m-ième coup bat le m+1-ième) mais zéro si on gagnait quoi que ce soit d'autre ; j'ai modélisé la convergence de l'estimateur (m = 3 lol, trois marginales qui tendent vers des constantes égales aux PA(i) pour i∈{P,F,C}) et une stratégie non-optimale (pur accident : j'avais pas compris la strat opti, du coup j'ai modélisé un autre truc - une strat mixte un peu rigolotte). J'ai expliqué ça au jury, j'ai pas l'impression que ça les ait trop choqués même si (dommage) j'avais pas eu le temps de faire la vraie strat pour tenter uen comparaison. Il y avait pas mal de choses à dire sur mon modèle non opti en fait, c'était plutôt sympa.
On m'a demandé de préciser plusieurs trucs de ma présentation, puis de prouver un point que j'avais laissé sans démo. On est passé à des questions sans rapport ensuite.
- Questions sur la LFGN. En fait, j'avais utilisé une LFGN pour justifier une convergence à un moment du texte mais je m'étais embrouillé, j'avais fait n'imp (le théorème s'appliquait directement... mais j'avais des notations hyper foireuses et il m'a fallu du temps pour écrire des choses correctes). Du coup j'ai eu des questions dessus, donner l'énoncé complet et tout. Même chose pour le TCL ensuite, et pourquoi L2 est inclus dans L1. Après, comment utiliser le TCL pour construire un intervalle de confiance asymptotique (on a parlé de quantiles) et une dernière question
- Dernière question pédagogique, comment introduire les chaines de Markov à des gens qui n'y connaissent rien ? J'ai dit que j'expliquerait ça sur des exemples simples avec des schémas avec peu d'états, j'ai fait un petit dessin avec 3 états dont un qui renvoyait vers les autres et qu'on ne visitait plus. Ca avait l'air OK comme réponse, j'ai vraiment pas eu le temps d'en dire plus (ça a pris 30s à tout casser).
J'étais content de ma simulation et de ce que j'avais à présenter, mais au tableau c'était un peu le bordel et j'ai pas toujours été très clair (quitte, cependant, à reprendre des trucs directement pour réexpliquer une fois que je me comprenais moi-même). Ca m'a probablement pas mal coûté, ça et quelques bêtises, et globalement je m'attends à une note franchement moyenne.
Essentiellement des questions faciles, qui survenaient parce que j'avais raté un truc dans ma présentation. Jury qui aide assez.
Pas de réponse fournie.
12
De la merde (un modèle de croissance linéaire et division)
Pire
Résumé du texte :
On étudie une fonction affine de pente 1, qui, à des temps aléatoires, est divisée par une quantité aléatoire (genre Xt=X0+t jusqu'à t=T1, puis XT1=XT1−×U1 avec T1≥0 et 0≤U1≤1 aléatoire, et on continue à croître avec pente 1). Le but du texte est d'estimer certaines caractéristiques des variables Ti et Ui.
/!\ Il n'y a aucune description des applications du modèle. Il est mentionné quelque chose comme « On peut penser à des applications en biologie, en gestion de stocks ou en informatique ». Je répète, ce modèle n'est absolument pas motivé ! /!\
J'ai un peu étudié le modèle, avec un peu plus de généralité. Le cas traité par le texte était T ou U aléatoire, et j'ai traité T et U aléatoire. Les calculs, du coup, sont un peu plus tricky, et je crois que je les ai perdus à un moment (genre tous en même temps je veux dire, parce que sinon ils décrochent tous forcément quelques minutes pendant l'exposé).
Du coup, j'ai fait la connerie de parler de la loi conditionnelle L(X∣Y) de X sachant Y.* J'étais pas super chaud sur le truc, ça s'est vu, et j'ai paniqué, et je me suis enfoncé. Du coup, on a passé un certain temps là-dessus, à traiter des exemples et tout.
* Pour ceux que ça intéresse, c'est la mesure A↦E[1X∈A∣Y]. C'est une mesure aléatoire. On est tous MDR. Je crois que si je leur avait dit ça dès le début ils auraient été contents.
Une question longue sur une connerie que j'ai sortie, puis quelques questions de stats.
Après, les questions ont été orientées stats (puisque le texte est orienté probas), comment appliquez-vous la loi forte des grands nombres quand vous l'avez écrite ici, donnez-moi un intervalle de confiance asymptotique pour tel truc (ok via TCL), est-ce qu'il y a un intervalle de confiance exact (oui via Markov), comment calculer le α-quantile de la loi normale (là j'ai buggé, mais ils m'ont dit que j'avais le droit de simuler un échantillon de 1000 gaussiennes, donc bon…).
On a fini sur la question lol : comment expliqueriez-vous le concept de chaîne de Markov à des élèves ? J'ai parlé de marche aléatoire, j'ai dit qu'on pouvait la simuler « pour de vrai » avec une pièce, j'ai dit que c'était con parce que la marche n'était ni apériodique ni récurrente forte, du coup elle n'illustre aucun des théorèmes de convergence sympa. Ils ont eu l'air heureux que j'aie compris que c'était un exemple de merde, ensuite j'ai dit « On fait des ronds et des flèches » et ils étaient satisfaits en mode « C'est nul mais de toute façon c'était une question de merde ». Voilà.
Je sais qu'il ne faut pas parler de choses qu'on ne maîtrise pas. Mais en fait, j'étais convaincu de savoir de quoi je parlais (à propos de la loi conditionnelle), du coup j'aurais été pris en défaut de toute façon. Conclusion : quand on voit qu'on coince, NE PAS S'ENFONCER. Prendre son temps. PRENDRE SON TEMPS FICHTRE. Je pense que j'aurais beaucoup plus facilement désamorcé le truc si j'avais pris deux minutes, je serais passé pour un con mais un con temporaire. Sinon, j'ai eu un tableau avec devant un écran, et de chaque côté de l'écran, environ 20 cm pour écrire les paramètres de la modélisation. C'est peu, ce qui m'a obligé à descendre et remonter et descendre et remonter l'écran en permanence, et c'était relou.
Un peu cassant… parce que j'ai sorti une connerie. Le mec qui posait les questions de stats (barbu, des lunettes, un peu vieux mais c'est peut-être juste que ses cheveux étaient blancs) était sympa.
Pas de réponse fournie.
13.5
A03 - Estimation.
A05 - Estimation
On disposait d'un échantillon d'individu ayant contracté l'hépatite C. Une première variable $Z_i$ disait si l'individu $i$ avait survécu ou non, puis on disposait d'un certain nombre de variables $X_i^{(p)}$ explicatives. Le modèle linéaire gaussien n'était pas le plus adapté car les $Z_i$ sont des Bernoulli, du coup on cherchait des coefficients $\theta$ tels que $Z_i= 1_{\theta_0 + \theta_1 X_i^{(1)} + \cdots + \theta_p X_i^{(p)} + \epsilon_i \ge 0}. Les $\epsilon_i$ sont supposés gaussiens centrés réduits.
Pas de réponse fournie.
Il y avait peu, voire pas de questions sur mon exposé. Mais des questions poursuivant l'idée de mon exposé. J'avais dit que mon deuxième théorème, qui établissait une convergence en loi vers une loi normale, permettait de créer un intervalle de confiance (plus exactement une région de confiance car on est en dimension grande).
La première partie des questions concernaient l'établissement de la région de confiance en dimension grande. J'ai d'abord donné l'idée générale, puis on est rentré dans les détails. En fait, on avait en gros $\sqrt(n) (\theta(n)-\theta^*)$, où $\theta(n)$ était un estimateur de $\theta^*$, qui convergeait en loi vers une loi normale centrée de matrice de covariance $J(n)$, qui dépendait de l'estimateur. Du coup, après avoir montré comment on fonctionnait lorsque la matrice de covariance était l'identité, puis une matrice déterministe, il fallait utiliser un lemme de Slutsky pour s'en tirer. Mais il y avait ensuite d'autres subtilités à prendre en compte, qui faisait qu'il était préférable d'estimer aussi $J(n)$.
Ensuite, deuxième phase de question sur un moyen pour déterminer l'estimateur du maximum de vraisemblance : il s'agissait ainsi de discuter de la méthode de Newton-Raphson brièvement évoquée dans le texte. J'ai expliqué comment cette méthode était une généralisation de Newton en dimension 1, et je crois que ça a plutôt satisfait le jury.
Enfin, une dernière question last-minute sur une alternive possible à supposer les $\varepsilon_i$ gaussiens. J'ai dit qu'on les choisissait gaussien pour faciliter les calculs, car on connaît bien les tables de la gaussienne et du $\chi^2$. Il m'a demandé si je ne voyais pas une autre loi possible. Il a fini par évoquer Logit, j'ai dû avouer la vacuité de l'intersection de cette loi avec mes connaissances.
Pas de réponse fournie.
Jury plutôt neutre et sympathique. Même s'il n'affichait pas ouvertement leur bonheur d'assister à ces oraux, il n'affichait pas le contraire, et ce malgré la présence de six auditeurs dans une petite salle où le rétroprojecteur est allumé à 15h par une température quasi-caniculaire.
Très négativement surpris par la présence d'un demi-tableau. Certes, il était à craie, mais il n'y avait de la place que pour 2 colonnes. J'aurai bien aimé laisser mon plan, mais c'était impossible dans ces conditions, et j'avais à peine la place de terminer ma démonstration sans effacer le théorème. En plus, lorsque j'allumai le rétro, il fallait descendre l'écran blanc qui recouvrait 75% du tableau. Surpris aussi, et surtout, par la difficulté du texte. La première démonstration était vraiment mal rédigée (ça m'aurait sans doute pris plus d'une heure pour compléter les trous dans la démo). Les démonstrations suivantes, bien que lacunaires, étaient plus potables.
Pas de réponse fournie.
Variables gaussiennes, loi stationnaire, convergence (approximativement)
Quelque chose, pôlynomes, estimation.
Pas de réponse fournie.
Pas de réponse fournie.
Il n'y a pas eu de questions sur le texte qui ne portaient pas sur mon exposé, mais le jury a utilisé des notations du texte que je n'avais pas introduites.
Preuve de l'existence d'une mesure invariante sur la sphère (autre que celle qui était dans le texte).
Preuve de son unicité en dimension 1 (ils m'ont vite suggéré d'utiliser les séries de Fourier).
Comment prouver l'existence d'une mesure invariante par une application continue sur un espace métrique compact ?
Comment, dans un cadre plus général, vérifier que la loi limite qu'on suppose être correcte l'est efectivement ? (c'est-à-dire parler de tests d'adéquation à une loi) Quel est le principe du test de Kolmogorov-Smirnov ?
Pour le processus de Poisson sur R, quelle est la loi du premier saut après 1 ? Et du premier saut avant 1 ? Montrer que N_t/t converge presque-sûrement et donner sa limite.
Comment expliquer la différence entre la convergence p.s. et la convergence en loi à des élèves qui n'en connaîtraient que les définitions ?
Pas de réponse fournie.
Le niveau est difficile à évaluer, car ils ne me laissaient jamais réfléchir longtemps, ils me donnaient vite des indications. J'ai trouvé le jury sympa ; ils m'ont souri pendant mon exposé, ce qui n'arrive pas toujours pendant l'année.
L'oral s'est passé comme je l'imaginais, à part que j'ai été surprise par la possibilité de se déplacer librement pendant la préparation.
18.5
A73 : marches aléatoires, théorèmes limites, ...
A19 : variables de Bernoulli, tests statistiques, chaînes de Markov
On étudie l’évolution du capital d’un groupe d’entreprises. Pour cela, on s’intéressait uniquement aux variables ordonnées du $n$-uplet $(X_1,…,X_n)$. On utilisait alors des fonctions de $[0,n]$ affines par morceaux dont les pentes étaient les valeurs du $n$-uplet étudié. La loi des grands nombres et le théorème central limite donnaient deux résultats de convergence de ces fonctions, dont on déduisait le comportement asymptotique des capitaux (regroupement des capitaux autour de certaines valeurs).
Les notations et le modèle utilisés étaient plutôt rapides à introduire, à l’aide de représentations graphiques des fonctions étudiées. J’ai ensuite démontré un des théorèmes importants ainsi que le lemme qu’il utilisait, et évoqué à l’oral celui qui utilisait le théorème central limite. Mon premier code permettait simplement de représenter les fonctions associées à un $n$-uplet. J’ai également fait deux autres modélisations pour illustrer les deux résultats de convergence (vers l’état d’équilibre et les fluctuations autour de celui-ci). Pour terminer, j’ai donné une conclusion quant aux résultats obtenus et discuté de certaines des hypothèses faites.
Ils ont commencé par quelques questions rapides sur ma démonstration (problèmes de notations entre autres).
Dans la démonstration, j’utilisais qu’on avait $X_k/k$ qui tendait presque surement vers 0 grâce à la loi des grands nombres (argument donné dans le texte). Ils m’ont demandé de détailler ce point et s’il existait un autre moyen de le montrer. Il fallait utiliser Borel-Cantelli.
Ils m’ont ensuite poser une autre question pour voir si j’avais bien compris ce qu’on en déduisait concernant les capitaux, sûrement parce que je n’avais pas été très clair sur ça pendant ma présentation.
Je pense que les éléments choisis pour la présentation étaient plutôt pertinents (simulations/preuves/discussions). Mais, je me suis pas mal embrouillé sur la démonstration. J’aurais dû plus la préparer pendant les 4 heures. Et durant la phase d’interprétation des résultats, ne pas hésiter à dire des choses qui pourraient paraître évidentes, histoire d’être sûr que le jury a bien compris que vous avez compris.
Le jury était attentif durant ma présentation, ni cassant, ni souriant. Pendant la phase de questions, un des membres du jury monopolisait plus ou moins la parole. Les autres sont intervenus pour des questions banales ou pour donner des indications. Ils m’ont corrigé une fois aussi.
Le jury ne me laissait pas du tout réfléchir à leurs questions et ils donnaient très vite des indications, plutôt frustrant.
Il n’y a eu aucune réaction concernant mes simulations. D’ailleurs le vidéoproj projetait à moitié sur le tableau à craie (pas d’écran), le jury n’a pas dû voir grand-chose. Par contre, ils s’occupaient d’allumer le vidéoproj quand je leur demandais, c’était plutôt pratique. Autre point positif, le tableau était grand, et à craie.
Je n’ai pas eu le droit à une question finale sur les chaînes de Markov ou de statistique, probablement par manque de temps.
16.5
Problème d'apparition d'un mot donné dans une suite de lettres aléatoires. Tags : Chaines de Markov, Martingales, Temps d'arret.
Mécanique statistique. Tags : Chaine de Markov, Mesure invariante, convergence, vitesse de convergence.
On sait qu'un mot fixé apparait une infinité de fois dans une suite de lettres indépendantes uniformes sur l'alphabet. Que dire de la fréquence d'apparition d'un mot par rapport à un autre ? Dans la 1ere partie, introduction d'une chaine de Markov qui mesure le nombre de lettres en commun avec le mot voulu et qui donne la finitude du temps d'apparition de ce mot. Puis un paragraphe sur comment réaliser la série génératrice de la loi d'apparition je crois (pas traité). Enfin, une preuve de l’espérance du temps d'apparition sur un alphabet binaire avec des martingales.
J'ai décidé de ne traiter que les parties sur la chaine de Markov et sur la preuve de l'espérance du t.a. sans regarder la série génératrice.
En termes de simulation : un programme qui détecte l'apparition d'un mot donné dans un autre mot. La réalisation de la chaine de Markov annoncée pour un mot donné, avec des mots donnés aléatoires, puis deux exemples particuliers extrêmes (qui se sont avérés etre les cas minimal et maximal du temps d'atteinte). Enfin, un programme pour calculer la moyenne empirique du temps d'apparition pour illustrer les résultats du texte.
Plan :
I) Autour de l'apparition d'un mot
Comparaison avec une géométrique, majoration de l'espérance, infinité d'apparition. (Prouvée)
II) Heuristique de la non-uniformité à l'intérieur des mots à meme nombre de lettres
Introduction de la chaine de Markov, illustration via les simulations et comparaisons des matrices de transition des deux cas particuliers traités.
III) Esperance du temps d'apparition
Preuve intégrale de la formule de l'espérance via les martingales. (Prouvée) Puis illustration via le programme.
Question du jury :
-Comment montrer autrement le fait qu'un mot apparait un nombre infini de fois ps (Borel Cantelli - j'avais utilisé un argument type propriété de Markov à l'oral)
-Vous avez parlé de théorèmes d'arret en disant que c'était une version déguisée du TCD. Quelles sont les hypothèses possibles ?
-Comment estimer les probabilités de transition à partir d'une unique réalisation de la Chaine ? Quelle est l'hypothèse qui assure que les états vont être visités (irréductibilité) ? Quel théorème justifie la convergence de votre estimateur (Théorème ergodique) ?
-Etant donné la chaine de Markov étudiée, que peut-on dire sur une mesure invariante (existence/unicité/convergence) -> quelles hypothèses pour quoi. Lien entre la mesure invariante et l’espérance du temps de retour.
Je pense que j'ai fait des bons choix : j'ai prouvé peu de choses, j'ai motivé la problématique de mon exposé, et j'avais des simulations simples mais visuelles. Je pense que ça a pas mal plu au jury.
Le jury dans l'ensemble était plutôt sympathique durant l'oral (j'avais même un verre d'eau qui m'attendait sur la table). Tout le monde n'avait pas le même temps de parole parmi le jury : deux hommes, deux femmes. Les deux hommes menaient la discussion, les femmes intervenaient peu (j'ai eu une question de l'une d'elle je crois), mais étaient très attentives et réceptives aux réponses. L'un des deux hommes était plus 'direct' et interrogateur que l'autre, mais il restait assez bienveillant je pense.
J'ai eu la chance d'avoir un tableau noir de taille respectable dont les volets extérieurs se rabattaient pour faire place à un tableau blanc : pratique pour les simulations.
20
Le texte parlait de nombres premiers dont on essayait de modéliser la répartition avec des Bernoulli.
Pas de réponse fournie.
On étudie la répartition des nombres premiers avec des Bernoulli indépendantes de paramètres $1/\log (n)$. C'était très mal expliqué dans le texte pourquoi on prenait ça. En fait, cela provenait de l'équivalent entre le nombre d'entiers premiers inférieurs à $x$ et $\sum_{n=3}^x \frac{1}{\log (n)}$. Puis on testait si ce modèle est réaliste. En regardait s'il donnait bien le caractère infini de l'ensemble des nombres premiers (ok par Borel-Cantelli), s'il donnait également quelques théorèmes de convergence (avec des martingales). Puis il était question de tester si l'hypothèse d'indépendance était pertinente et on voyait que non via une statistique un peu sortie du chapeau. Enfin, on testait l'hypothèse de Riemann sur la répartition des nombres premiers et là ça collait à nouveau bien.
Mon plan :
1. Présentation du modèle probabiliste des nombres premiers
2. Premiers résultats.
3. Test de l'hypothèse d'indépendance.
Au niveau des simulations j'ai présenté plusieurs graphiques qui montrait l'adéquation entre le modèle probabiliste et le modèle théorique des nombres premiers. J'ai aussi effectué un test, donc en gros j'avais juste un résultat qui apparaissait.
Une question sur un calcul de variance qui était dégueulasse ! Dans le texte il était écrit qu'elle valait 1, je l'ai écrit rapidement au tableau mais ça n'avait pas d'utilité pour la suite. J'aurais mieux fait de ne pas en parler, parce qu'on a passé 10 minutes à calculer cette foutue variance !
Quelques questions sur le modèle et sa motivation, que je n'avais pas bien expliqué, car à vrai dire je n'avais pas tout saisi (finalement ça sert à quoi de modéliser l'ensemble des nombres premiers par des Bernoulli ?)
Aucune question sur mes simulations. Je pense qu'elles étaient pertinentes et représentaient bien ce qu'il se passait.
J'aurais dû beaucoup mieux motiver l'exposé, je suis resté au niveau du texte donc en détaillant peu, ça m'a valu beaucoup de questions pas très intéressantes...
Deux hommes et deux femmes. Le premier type a géré quasiment tout l'oral tout seul, une des deux dames intervenait de temps en temps (mais très rapidement). Le deuxième type a allumé le vidéoprojecteur quand j'en avais besoin (et c'est tout). La deuxième dame n'a rien dit (d'ailleurs je ne suis même plus sûr que c'était une dame...).
Le type qui posait toutes les questions était assez nerveux, il me laissait très peu de temps pour réfléchir.
Mon ordi a bugué un moment mais un type est venu assez rapidement pour régler le problème.
Pas de réponse fournie.
Evolution du nombres d'espèces animales en compétition dans un milieu et la survie des plus adaptés.
Pas de réponse fournie.
En gros à chaque mutation, une nouvelle espèce apparaît avec une valeur (nombre entre 0 et 1) d'adaptation au milieu, et à chaque extinction, l'espèce avec la valeur d'adaptation la plus faible est éliminée. On veut savoir la répartition asymptotique de la population en fonction de leur valeur d'adaptation. On se rend compte que les espèces les moins adaptées disparaissent tandis que les espèces de grande valeur d'adaptation survivent.
Plan :
I) Présentation du modèle, extinction et mutation.
II) Etude de la répartition asymptotique e la population en fonction de la viabilité
III) Conclusion et critique du modèle.
Pour afficher ses simulations à l'écran, je devais retourner le tableau blanc et demander au jury d'activer le rétroprojecteur. Malheureusement, on ne voyait pas les légendes es figures ainsi que la valeur des différents paramètres. J'ai du les lires à l'oral pour le jury qui a demandé en fin d'oral de revenir sur les simulations et de commenter les résultats. Notamment d'expliquer pourquoi la convergence met du temps à s'établir.
On a bien sûr le droit à la fameuse question : "Comment trouveriez-vous un estimateur de ce paramètre ? Comment en détermineriez-vous un intervalle de confiance (asymptotique) ?" Question classique d'application de la loi des grands nombres et du théorème de la limite centrale.
Pas de réponse fournie.
Pas de réponse fournie.
Les 4 heures de préparations étaient suffisantes pour se préparer. On est bien guidé par les encadrants préparateurs pour mettre en route Scilab et éventuellement trouver les textes de données si les textes s'y prêtent.
Pas de réponse fournie.
Loi des grands nombres et estimation. Ca parlait du comportement de deux agents qui interagissent entre eux et qui adaptent leurs comportements en fonction de celui de l'autre (par exemple dans un jeu où l'enjeu est un gain d'argent)
Indépendance et dépendance de variables aléatoires. Estimation
En gros on parlait de deux joueurs (si on se place dans le cadre d'un jeu) qui cherche à optimiser leurs gains en adaptant leur stratégie à celle de l'autre. Pour simplifier dans le texte on parlait seulement du cas où la stratégie de l'un est fixe et où seul l'autre s'adapte. Le but était de définir une stratégie de gain maximale (par estimation via les coups précédents de l'adversaire) et de prouver que c'était la plus optimale.
Mon plan était plutôt calqué sur le texte que j'ai suivi linéairement, j'ai démontré le théorème principal du texte et j'ai défini un intervalle de confiance à partir de ce théorème.Mes simulations utilisaient toutes le même exemple (celui d'un jeu de pile ou face donné dans le texte, on prenait donc une proba de Bernoulli), j'ai simulé une stratégie bête et facile dans une première simulation, puis la convergence du théorème principal et enfin une convergence en loi (type TCL) qui permettait notamment la construction d'un intervalle de confiance.
Pour commencer ils sont revenus sur ma simulation de convergence du théorème, ils m'ont fais remarquer que la convergence devait avoir une erreur du type 1/n ce qui n'était pas le cas pour ma simulation (en fait je retirais un échantillon pour chaque n, erreur bête dommage). Puis ils m'ont demandés de rappeler la LFGN et le TCL en dimension 1 puis en dimension supérieur (on les utilisait dans le texte), j'ai un peu ramé pour le TCL en dimension supérieur. Ils sont revenus sur un point de la démo que je maîtrisait pas trop, du coup on a repris ensemble. A la fin ils m'ont demandés de prouver qu'un suite de va était bien une martingale, et les condition pour avoir une convergence L², p.s, ... (en gros des questions de cours pas compliqués).
Très certainement apporté plus de connaissance personnel mais en live c'est pas forcément facile, sinon j'aurai pu regarder le TCL en dimension supérieur dans un livre pour ne pas hésité (en plus on a clairement le temps de se préparer aux questions 4h c'est long).
Jury toujours sympathique, il y en a peut être un qui a soupiré pendant ma présentation mais je suis pas un casse en proba c'est peut être pour ça ^^
On ne tirait pas directement le sujet mais une feuille sur lequel il n'y avait que les titres, cette fois-ci on avait donc bien 4h tout pile de préparation.
11.5
A41-Théorie de l'évolution simplifiée.
Mots clefs : Chaines de Markov et mesures invariantes.
A96- des statistiques, donc je ne l'ai pas pris.
Mots clefs : Modèle linéaire et estimateurs.
Le texte proposait l'étude d'un modèle d'apparition et de disparition d'espèce via un processus de Markov que l'on comparait dans un premier cas à une marche aléatoire symétrique sur Z, ce qui nous permettait d'extraire des propriétés de notre processus.
Une fois ces propriétés extraites (elle changeait suivant la valeur d'un paramètre $p\in ]0,1[$ ) on étudiait un cas critiques afin d'étudier l'apparition et la disparition d'espèce avec une viabilité donnée.
Durant ma préparation j'ai été amené a produire un plan en deux grandes partie illustré d'un certain nombre de simulation de chaînes de Markov (environs 4 différentes) qui me permettaient d'appuyer mes propos et mes conjectures.
On m'a posé certaines questions concernant une chaine de Markov s'échappant à l'infini (son comportement asymptotique en particulier) puis on m'a posé un certain nombre de question sur la loi forte des grands nombres que j'appliquais un certain nombre de fois dans mes raisonnement.
Pour finir, on m'a posé des questions sur la pertinence du modèle étudié. Ma chaine démarrait toujours de 0 et donc la question naturelle était :
"Comment se comporterait votre chaîne si on la faisait démarré à 10 par exemple ?" La réponse étant que le point de départ n'importait pas puisqu'elle était irréductible.
J'aurai clairement pu améliorer ma gestion du temps.
-1ère partie : 25 min
-2ème partie : 7 min
(L'introduction me prenant déjà quelques minutes.)
Ma locution aussi. Beaucoup de "hmmm..."
Le jury était très bienveillant. Certains étaient moins loquaces, mais toujours souriant et sans jamais me rabaisser.
L'oral c'est passé comme imaginé, j'avais eu l'occasion d'en faire un lors de ma préparation au cours de cette année.
Pas de réponse fournie.
Le thème était le suivant:
Un marcheur se déplace en terrain inconnu et cherche des récompenses. Le but et de maximiser son gain.
Méthode de monte-carlo
On se place sur une grille (N*)^2 et on regarde l'ensemble des chemins qui ont des mouvements soit vers le haut soit vers la droite. Les récompenses sont présentes sur chaque (i,j) et sont modélisées par des v.a géométriques iid de paramètre q.
J'ai simulé une convergence p.s
J'ai également montré un théorème du texte par simulation (une convergence, où l'on devait d'abord approximer une espérance)
Le jury a posé des questions très proches du texte et de ce que j'avais produit.
-La première question m'a beaucoup déstabilisé, j'avais en effet parlé d'une application que le texte donnait, en signalant que je n'avais pas bien compris une formule. Le jury m'a alors demandé de la démonter. Au bout de quelques longues minutes, j'ai fini par comprendre l'idée sans être réellement convaincu. Dans cette situation, penser toujours à regarder des cas simples.
- J'avais énoncé quelques résultats statistiques lors de ma présentation, le jury est revenu dessus, cela me posait moins de problème.
- Le jury m'a demandé combien il y avait de chemins du type haut/droite qui relient (1,1) à (n,m). Après une proposition erronée, le jury m'a guidé et j'ai trouvé la réponse. (Penser à regarder un chemin comme une suite de 1 et de 0 où 1 signifie haut et 0 signifie droite, il suffit ensuite de compter le nombre de façon de placer n-montées parmi les n+m pas)
- Pour terminer, le jury a demandé de manière imprécise que peut-on dire de la convergence de la fonction de répartition empirique, j'ai parlé de convergence uniforme. Ils m'ont demandé à quoi cela servait, j'ai parlé du test de Kolmogorov Smirnov, test d'adéquation à une loi ou une famille de loi. L'oral c'est terminé ici.
Je n'aurais pas dû parlé de ce que je ne maîtrisais pas dans le texte. Mais comme il me restait un peu de temps, j'ai voulu le combler.
J'ai trouvé que le texte était diviser en 2, une partie assez élémentaire et une partie extrêmement compliquée, c'était donc difficile de proposer quelque chose d'intéressant... Je suis partie dans les stats car j'aime bien cela, j'ai en fait suivi les suggestions proposées à la fin du texte.
Le jury me laissait chercher longtemps au début, mais était plus aidant vers la fin.
Pas de réponse fournie.
Pas de réponse fournie.
A47 (?)
A79 (?)
Soit un graphe enraciné. On considère un objet qui se balade dans le graphe comme ceci : s'il est à un sommet au temps n, il part en suivant une des arêtes qui partent du sommet en la choisissant de manière uniforme pour arriver à un autre sommet au temps n+1. La modélisation du déplacement de l'objet se fait par une chaîne de Markov. On se place à la racine du graphe, et on observe les temps auxquels l'objet revient à la racine. On essaie de trouver des informations à partir de ces temps sur le graphe. Après l'introduction, il y avait 4 parties qui étudiaient pour les 3 premières des valeurs reconstructibles du graphe (c'est-à-dire une valeur qui peut se retrouver uniquement grâce à la loi des temps de retour), et la dernière qui montrait que les multiplicités des valeurs propres de la matrice de transition n'étaient pas reconstructibles.
J'ai traité la 1ère et la 3ème parties, ce qui était trop pour moi puisque je n'ai pas eu le temps de présenter la démonstration que j'avais préparé (qui était la preuve d'un estimateur avec un intervalle de confiance pour une valeur reconstructible)
Pour ce qui est des programmes, j'ai montré la convergence d'un estimateur vers une valeur reconstructible pour 2 graphes différents ; j'ai essayé de rajouter l'intervalle de confiance (donné par le sujet et obtenu par application du TCL) qui se réduit petit à petit mais je n'ai pas réussi à le programmer, ce que j'ai dit au jury.
Les questions étaient exclusivement des questions soit de cours (entre autres : énoncer la propriété de Markov forte, définition d'un temps d'arrêt, définition d'une filtration, comment simuler une marche aléatoire sur un graphe, définition du biais d'un estimateur, lien entre l'espérance du temps de 1er retour avec la proba invariante, théorème ergodique pour les chaînes de Markov, condition pour la convergence en loi d'une chaîne de Markov vers sa proba invariante), soit de calculs simplistes (calcul d'espérance d'une somme de v.a., calcul d'un produit mesure*matrice de transition). J'ai eu un peu de mal à redonner toutes ces définitions, mais en tatonnant plus ou moins, et avec leur rhétorique, j'ai pu toutes les retrouver.
J'aurai dû me restreindre à traiter la 1ère partie du texte pour pouvoir présenter la démonstration que j'avais préparée, et réorganiser ma 1ère partie pour en faire 2 à la place d'une seule, ce qui m'aurait permis de faire un plan en 3 parties quand même.
Un homme qui était motivé et intéressé par l'oral, un autre qui parlait un peu vite et dans sa barbe, une dame qui avait du mal à suivre, et une autre dame qui n'est pas ou presque pas intervenue.
Pas de réponse fournie.
12.75
On considère un agent économique qui ne veut pas être ruiné, il y a des fonctions de répartition et des régions de confiance notamment.
On considère des gens en réseaux, il y a des variables aléatoires de Bernoulli et des tests notamment.
Il y avait "un objet mathématique sympathique" (en fait une chaîne de Markov et une surmartingale) (X_n) qui vérifiait X_{n+1} = e_{n+1} (X_n - c) avec c > 0 une constante, pour représenter le capital de l'agent économique à l'instant n. Le texte nous poussait à étudier la probabilité de survie (que (X_n) soit à valeurs strictement positives) et le temps de ruine quand l'agent économique finit ruiné.
J'ai fait environ huit programmes en Scilab, qui ensemble permettaient de faire des histogrammes et des estimations pour trois objets mathématiques importants dans le texte, en faisant varier beaucoup de paramètres. Je me suis notée des valeurs des paramètres qui montraient des situations différentes, pour ne pas perdre de temps à les chercher pendant l'oral.
J'ai prouvé que la probabilité de survie avec un capital de départ x était F(x/c) où F était la fonction de répartition de la somme infinie des 1/(e_1...e_k), et pour tout alpha j'ai construit une région de confiance au risque alpha pour (a,b) :
dans cette partie du texte les e_n étaient indépendantes et identiquement distribuées de loi uniforme sur un segment [a,b] et on voulait estimer a et b grâce à un échantillon (e^1,...,e^k), on posait Y_k = min(e^1,...,e^k) et Z_k = max(e^1,...,e^k) et le texte donnait une piste pour faire des régions de confiances mais sans aucune preuve; j'ai admis que (n(Y_n-a)/(b-a),n(b-Z_n)/(b-a)) convergeait en loi vers un couple de va indépendantes de loi exponentielle de paramètre 1 (c'était affirmé dans le texte) et grâce à ça j'ai montré qu'on avait une région de confiance au risque alpha pour le couple (a,b).
J'ai réfléchi à la modélisation, par exemple ce que représentait c (un exemple peut être le loyer que l'agent économique paye pour les locaux de son commerce).
Malheureusement un de mes histogrammes concernait une variable aléatoire discrète, ça a énervé une membre du jury (un histogramme n'est pas la même chose qu'un diagramme en bâtons, il faut savoir ce qu'on fait !) mais j'ai fait un mea culpa et le jury aimait bien mes autres simulations, qu'il m'a demandé de tester avec encore plus de valeurs que ce que j'avais fait pendant l'exposé, notamment pour me faire comprendre qu'une de mes simulations permettait aussi d'estimer un autre paramètre par le bas (en fait si on la relançait plusieurs fois en changeant l'un des paramètres, ça nous faisait estimer par le bas le b du segment [a,b] où notre VA prenait ses valeurs, parce qu'il y avait un changement radical dans ce qui était affiché qui traduisait le fait qu'on sortait du segment; j'avais observé le changement mais je n'avais pas fait le rapprochement avec le b).
J'avais remarqué qu'on avait une chaîne de Markov mais pas qu'on avait une surmartingale, du coup je n'étais pas préparée du tout pour les questions sur les surmartingales ! J'ai réussi à montrer qu'on avait une surmartingale, mais à la question suivante il fallait utiliser le théorème d'arrêt de Doob (je ne m'en suis pas aperçue et j'étais en train de tout refaire à la main quand un membre du jury m'a dit qu'il s'attendait à ce que j'utilise un théorème, j'ai bloqué et il a dit que c'était le théorème de Doob, et quelque chose de rassurant) et la question d'après c'était sur le théorème de convergence presque sûre / L^p des surmartingales bornées inférieurement (je ne me rappelais plus des hypothèses et conséquences exactes mais je voyais ce qu'ils voulaient avoir vu le contexte où on était, ainsi que le fait qu'on était triste parce qu'on n'avait pas du tout le caractère borné inférieurement ici, j'ai commenté tout ça et ils avaient l'air un peu contents).
Enfin j'ai eu des questions sur une partie du texte que je n'avais pas traitée, pour me faire utiliser l'inégalité de Jensen et commenter des estimations autres que celles que j'avais faites.
J'aurais dû réviser les martingales/sousmartingales/surmartingales pendant la préparation (je ne l'ai pas fait parce que je croyais qu'il n'y en avait pas dans le texte, mais on peut toujours être surpris•e...). J'étais un peu à la bourre mais ça allait (si j'avais parlé plus vite et mieux anticipé les moments où je parlais de mes simulations j'aurais pu gagner un peu de temps, finalement ça allait parce que le jury m'a posé plein de questions sur mes simulations, mais si ça n'avait pas été le cas je n'aurais pas pu montrer à quel point mes simulations étaient biens (à part l'histogramme de la va discrète) et ça aurait été dommage).
Le jury était souriant (à part une membre du jury au moment de parler de l'histogramme de la va discrète au début des questions, mais après ça allait) et rassurant (j'ai failli perdre mes moyens au moment des questions sur les surmartingales mais le membre du jury qui m'a posé des questions était rassurant (en mode c'est pas grave, ça arrive de ne pas se rappeler d'un ou deux théorèmes) du coup j'ai pu enchaîner). Il y avait une membre du jury qui ne m'a pas posé de question mais qui prenait des notes, deux membres du jury qui m'ont posé beaucoup de questions et une membre du jury qui m'a posé des questions au début de l'oral sur les simulations et plus de question après.
J'étais agréablement surprise par le fait qu'on travaillait avec nos livres devant l'ordinateur (pendant les oraux blancs j'avais fait des allers-retours entre la bibliothèque et la salle informatique, alors que pour le vrai oral on avait un grand bureau avec un ordinateur dessus, du coup on pouvait alterner facilement entre faire des simulations et écrire des preuves mathématiques et des réflexions sur la modélisation).
J'ai géré les simulations différemment que ce que je faisais en oral blanc et c'était un succès; je suis partie d'une seule suggestion du texte et j'ai construit dessus avec ce qui me semblait naturel, du coup je me suis retrouvée avec beaucoup plus de simulations que d'habitude (parce que c'est plus facile et rapide de faire ce qui nous semble naturel que de faire ce que quelqu'un d'autre nous suggère de faire) et j'ai eu moins de mal à les expliquer; j'avais un peu peur comme je n'avais pas fait que suivre le texte (d'ailleurs si je n'avais fait que suivre le texte je n'aurais pas fait un histogramme de va discrète...) mais la plupart de mes simulations ont été appréciées donc c'était un bon choix finalement.
17.25
Pas de réponse fournie.
Pas de réponse fournie.
On modélise une économie dans laquelle un nombre fini d’entreprises voient leur capital (sic) évoluer chaque année : la différence des capitaux entre deux années suit une variable aléatoire qui ne dépend que du rang de l’entreprise dans le classement des entreprises par capital. Dit autrement, chaque année, le vecteur des capitaux des entreprises se voit ajouter un vecteur aléatoire (qui ne dépend pas de l’année et est indépendant du vecteur des capitaux des entreprises), puis une permutation aléatoire réordonne les entreprises par capital.
On cherche d’abord à étudier le comportement asymptotique dans un certains nombre de cas simples (dans lesquels on peut appliquer la loi forte des grands nombres et le théorème central limite). Le cœur du sujet tourne autour de la formation de « clusters » d’entreprises : l’on constate que dans le cas limite, des groupes d’entreprises voient leur capital évoluer de façon à peu près linéaire, mais chaque cluster selon un rythme différent : par exemple, les trois entreprises de tête verront leur capital évoluer le plus vite, l’écart entre elles étant négligeable (avec parfois même des échanges de positions entre elles), puis les deux suivantes plus lentement, l’écart entre elles étant négligeable, puis les trois dernières encore plus lentement, etc.
Pour cela, l’on introduit des outils liés à la convexité de fonctions affines par morceaux dont les coefficients directeurs sont définis par les espérances des variables aléatoires de gain.
J’ai commencé par beaucoup m’interroger sur la pertinence économique des hypothèses : par exemple, j’ai montré que ce qui était appelé « capital » n’était pas véritablement le capital, que les hypothèses n’avaient en réalité de sens que si l’on passait au log toutes les grandeurs en jeu, j’ai réfléchi à la signification économique des résultats démontrés, etc.
J’ai tenté de produire beaucoup de simulations, mais ayant un peu perdu la main avec les bibliothèques graphiques de Python (je passais en candidat libre, et en plus il y avait des bugs…), j’ai perdu énormément de temps, et j’ai d’ailleurs pas mal paniqué, au point que le président du jury est venu me remonter le moral avant l’entrée dans la salle…
J’ai fait le choix de ne pas traiter les vingts derniers pourcents du texte (soit environ une demi-partie). En revanche, j’ai tenté de maîtriser les preuves des 80 % traités : je me suis assuré de compléter tous les points traités « rapidement » dans les preuves figurant dans le texte, à l’exception d’un point qui me paraissait très difficile. Le jury m’a signalé par la suite que « démontrer ceci est un problème de thèse », et semblait très satisfait par le fait que j’aie annoncé clairement que je n’avais pas réussi à compléter la preuve et que je propose des pistes de substitution.
Bien sûr, conformément aux instructions, j’ai préparé un plan. C’est la première chose que le jury m’a demandé, avant même de déclencher le chrono…
J’ai parlé presque trente-cinq minutes. Le jury a commencé par me tendre des perches pour rattraper ma faible production informatique, en me demandant ce que j’aurais pu faire, et semblait satisfait par mes propositions de simulations et les grandes lignes des algorithmes à mettre en place.
Il a par ailleurs cherché à insister un peu sur la signification économique des résultats démontrés. J’ai proposé une réponse un peu naïve et assez orientée politiquement, ce qui a fait rire les membres du jury, puis ils sont passés à autre chose.
Le jury a beaucoup insisté pour clarifier les preuves. À plusieurs reprises, j’étais passé trop vite ou avais commis de légères erreurs sur certains points, et j’ai été invité à corriger. Le jury me tendait beaucoup de perches pour que je me corrige moi-même.
Au bout d’une dizaine de minutes, de très nombreuses questions visaient à tester ma connaissance du programme de l’option : m’ont donc été demandés des exemples sur les chaînes de Markov et les martingales. Partant de questions assez ouvertes (« pouvez-vous donner un exemple de théorème qui donne une convergence ps (resp. en loi) autre que la loi forte des grands nombres (resp. le théorème central limite), nous sommes passés sur des questions précises portant sur les énoncés exacts de théorèmes de en bordure du programme.
Le jury m’a laissé partir assez en avance (plus de cinq minutes d’avance).
Clairement, j’aurais dû gagner en efficacité sur la préparation des applications informatiques, et consacrer ce temps à relire les preuves mathématiques pour commettre moins d’erreurs.
Jury assez surprenant : un membre assez transparent, une membre qui parfois me regardait dans les yeux et me soufflait les réponses. J’étais mis très en confiance, ils n’hésitaient pas à rire lorsque je poussais un peu loin les notions d’économie et parlaient beaucoup entre eux.
Quatre heures, c’est *très* court. Une demi-heure, c’est par contre assez long. Candidat libre, je n’avais jamais passé d’oral de modélisation avant cela, et je recommande sans hésiter d’insister sur le contenu mathématique du texte, qui permet de prendre bien plus de temps, que sur les applications informatiques qui sont longues à coder (toujours beaucoup de débogage) mais très rapides à présenter.
19
A25, Mots-clés : loi des grands nombres, théorème central limite, estimateurs, chaînes de Markov
A40, je ne l'ai pas trop regardé mais c'était beaucoup de stats.
Le texte s'intéresse à l'évolution de la taille des paquets de bits envoyés lors de la transmission d'un message dans un réseau. Celle-ci a tendance a augmenter avec le temps mais diminue brutalement lorsque le réseau est surchargé. On modélise ceci avec des variables aléatoires et des modèles markoviens, puis on cherche à estimer les paramètres des variables en fonction de l'observation.
J'ai complété les preuves des deux premiers théorèmes principaux, simulé les modèles informatiquement pour retrouver les figures qui illustraient le texte. J'ai expliqué le choix des modèles et des différents estimateurs.
- Le jury m'a demandé d'éclaircir certains points des preuves que j'ai présentées et d'expliquer mon code sur certaines simulations.
- Comment simuler une variables aléatoire continue en utilisant uniquement une simulation de la loi uniforme ?
- À partir des estimations données, déduire des intervalles de confiances pour les paramètres du modèle.
- En quoi le modèle de la partie 2 généralise un certain modèle particulier plus simple ?
Si j'avais eu plus de temps de préparation, j'aurais pu prendre plus de temps pour étudier le modèle et ses similitudes avec d'autres choses classiques, et travailler un peu plus le calcul des intervalles de confiance.
Le jury était bienveillant et n'hésitait pas à m'aider lorsque j'étais en difficulté sur une question. Les quatre membres du jury semblaient intéressés et impliqués dans l'oral.
Cela s'est passé comme je l'imaginais dans la mesure où les conditions dans lesquelles nous avons passé nos oraux blancs étaient pratiquement les mêmes.
14.75
A03 : Théorèmes limites, estimateurs, simulation de variables aléatoires
A75 (je ne me souviens plus des mots clés)
le A75 parlait de mantisse et de loi de Benford ou quelque chose comme ça, dès les premières lignes je ne comprenais rien, j’ai donc vite abandonné pour me rabattre sur l’autre. Donc pour le A03 : on s’intéresse à l’impact que peut avoir le choix d’un individu sur celui de son voisin lors d’un référendum par exemple, pour ça on va étudier la loi conjointe et essayer d’estimer cette influence. Le texte se compose de 3 parties : la première consiste à introduire les notations et donne des premières propriétés sur une moyenne empirique, la seconde s’intéresse à une simulation via les chaînes de Markov (partie non traitée car je n’ai pas trop compris), et la dernière concerne des estimations.
plan en 3 parties (démonstrations d'une convergence en loi, en proba, d'un calcul d'espérance, du caractère convergent et non biaisé d'un estimateur/ présentation de résultats admis par le texte), représentation graphique d'une convergence en loi (TCL) via les fonctions de répartition, d'une minoration d'une probabilité
Ils m'ont fait corriger quelques imprécisions dans mes démonstrations, puis des questions plutôt " de cours " : énoncer les hypothèses du TCL et de la loi faible des grands nombres / me demande d’énoncer Glivenko-Cantelli ainsi que la def de fonction de répartition empirique, et pourquoi j’en ai parlé pour la convergence en loi
Je suis partie vite au début, au moment de montrer mon premier graphique, je vois que je suis à 13min; j'essaie alors de ralentir par la suite, pour finir en 33 min.
J'aurais pu présenter la convergence d'estimateurs mais mes lacunes en informatique m'ont empêcher de pouvoir coder la loi associée
Jury composé de 3 hommes et 1 femme, sympathiques mais un des hommes était vraiment agréable; même quand c'était des questions de ses collègues, il intervenait pour me donner des indications.
Pas de surprise, si ce n'est que c'est vraiment bien organisé, tout nous est très bien expliqué, impossible de se tromper et de perdre le fichier que nous avons créé.
12
Estimation et théorèmes limite
Chaine de Markov
Le but du texte était d'estimer un quantile d'ordre alpha de 3 manières différentes.
Je me suis attardé uniquement sur la première partie en présentant la convergence d'un estimateurs du maximum de vraisemblance. J'ai donc reconstruit en entier l'estimateur et démontrer la convergence de ce dernier. J'avais juste avant fais une preuve que l'on pouvait générer des lois exponentielles par des lois uniformes qui servait à déterminer ce quantile. J'ai terminé par une preuve de probas sur une somme de loi exponentielle qui suit une loi gamma par produit de convolution. J'ai donc fais deux codes l'un illustrant la convergence presque sur de l'estimateur et l'autre sur la génération de loi par inversion de la fonction de répartition.
Beaucoup de questions très classiques (définir les différentes convergences), énoncer le TCL et son application à des intervalles de confiance. Des questions autour de teste statistiques (Loi du 0,1) et aussi du Glivenko Cantelli.
Je pense que ma présentation était assez claire je mettais l'accent sur une bonne gestion du tableau et que ce soit lisible. Je pense ne pas être rentré suffisamment dans le texte et donc peut être aller chercher des éléments dans la partie 2 mais je voulais rester basique pour éviter de me faire trop piéger aux questions.
Un jury aidant lorsque l'on bloque mais difficile de lire sur leurs visages leurs niveaux de satisfactions.
J'étais très content de mon oral à la sortie je ne pensais pas que je pouvais mieux faire malgré mon humble niveau. Je pensais avoir plus au niveau de la note malgré tout donc un peu déçu. Le fait de ne pas être allé assez loin m'a surement pénalisé.
8.25
A06 : Lois exponentielles, lois de Poisson. Estimation.
Théorèmes limite, simulation de variables aléatoires
On étudie l'évolution du nombre de sous-espèces d'une espèce, qu'on peut modéliser par un arbre généalogique dont la racine est "l'ancêtre". On regarde alors l'évolution d'un caractère ou état, qui évolue sur chaque branche de cet arbre. Le but est, en sachant l'état des différentes sous-espèces présentes à l'instant t, d'estimer l'état initial, c'est-à-dire l'état de l'ancêtre. On simplifie l'étude en se restreignant au cas de deux états possibles. La première partie du texte traitait de l'évolution du nombre de sous-espèces. La deuxième partie traitait du modèle d'évolution de notre caractère, en se concentrant sur ce qu'il se passe sur une seule branche de l'arbre. La troisième partie proposait alors un estimateur de notre état initial, et on établissait une minoration de la probabilité que cet estimateur soit bien notre état initial.
La première partie ressemble beaucoup au début du texte 2021-A1 qu'on trouve sur agreg.org.
J'ai mis 30min pour choisir le texte, j'ai pas mal hésité au début. J'ai ajouté des simulations numériques dans chaque partie : simulation du nombre d'espèces en fonction du temps, test du chi-deux pour illustrer la loi que l'on trouvait dans la partie I (qui n'a pas abouti), test du chi-deux dans la partie II (on calculait la loi de la variable donnant l'état sur une branche au temps t), et enfin une simulation de la probabilité de la partie III avec la borne théorique (graphique qui était déjà donné dans le texte et on nous suggérait de refaire la simulation). J'ai utilisé jupyter, que je trouve très pratique pour rajouter mon plan au début, du texte et quelques résultats
Mon plan était en 3 parties et identique à celui du texte, j'ai tout traité, sauf la fin qui faisait la preuve de la minoration de la 3ème partie.
Questions :
Q : Quel résultat avez-vous utilisé pour simuler la probabilité dans la dernière simulation ?
R : La méthode de Monte-Carlo
Q : Qui utilise quel théorème ?
R : La loi des grands nombres, j'ai donné l'énoncé et les variables auxquelles on l'applique
Q : Qu'avez-vous essayé de faire pour la simulation qui n'a pas aboutie ?
R : Je voulais faire un test du chi-deux mais les effectifs des classes doivent être plus grands que 5, j'ai donc voulu écrire un programme pour fusionner les classes d'effectifs faibles
Q : Expliquer le principe du test du chi-deux
Q : Vous avez parlé de la p-valeur, qu'est-ce-que c'est ?
R : J'ai donné l'interprétation, ils m'ont demandé la définition mathématique mais je me souvenais plus exactement, j'ai essayé de retrouver puis on est passé à autre chose
Q : Donner la définition du processus de Poisson
Q : Expliquer la propriété sans mémoire des lois exponentielles
Q : Donner la définition et les caractérisations de la convergence en loi
Q : Donner les liens entre les modes de convergence et les réciproques partielles que vous connaissez
Le plan me semblait le plus naturel et le plus adapté ici, je me suis pas trop posé de questions. J'ai duré 33min, dont 1 ou 2 minutes au moment des simulations numériques pour demander au jury d'allumer le vidéo projecteur, puis de baisser le support. J'ai fait quelques preuves mathématiques mais elles n'étaient pas très difficiles, j'aurai aimé présenter un résultat dont la preuve était plus technique, mais je n'avais pas réussi à la faire pendant la préparation.
Jury très bienveillant et souriant
Même si j'ai hésité quelques fois j'ai bien répondu aux questions du début, j'ai donc été un peu surprise des questions de cours de base à la fin. J'ai eu aucune question sur le modèle ni l'interprétation des résultats, ce qui était différent des oraux blancs que j'avais fait pendant l'année.
15
On teste un médicament sur un échantillon de 7 souris (avec des données sur leur durée de survie après l'administration d'un médicament). On teste l'hypothèse H0: "la durée de vie est la même que le groupe témoin" contre H1: "la durée de vie est strictement supérieure à celle du groupe témoin"
Comme l'échantillon est petit, on ne peut pas utiliser l'estimation asymptotique vue en cours. On crée un nouvel échantillon en piochant uniformément dans l'observation qu'on a déjà: autrement dit, on crée un nouvel échantillon de variables indépendantes dont la loi, conditionnellement à l'observation, est uniforme sur l'échantillon.
Estimation probabiliste du dénombrement de grands ensembles (exemple: configurations dans le problème du sac à dos)
On commence par regarder la moyenne (et la variance) empirique de ce rééchantillon X*. Ça donne des estimateurs, on s'intéresse ensuite de manière plus générale aux propriétés d'un estimateur s(X*). On s'intéresse notamment à la moyenne et la variance empirique de s(X*) pour un échantillon de rééchantillons, ils sont fortement consistants. Dans le cas où s est la variance non corrigée, illustre la convergence (il y a un biais). Là on a travaillé conditionnellement à une observation, mais sans ce conditionnement, la moyenne et la variance prendraient bien trop de calculs (X* peut prendre n^n valeurs).
Dans le cas où les observations sont 2 à 2 distinctes, on dénombre le nombre de possibilités (révisez les combinaisons avec répétitions et la formule de Stirling !!). Ensuite, pour construire un test qui ressemble à celui du cours (vérifier si on est plus grand qu'une valeur: révisez les tests !!), on a besoin des quantiles de la loi de l'échantillon... que l'on ne connait pas justement. Donc on va aussi approcher les quantiles en considérant les quantiles empiriques de la répartition empirique d'un échantillon de rééchantillons. Ensuite, on applique ça au données fournies pour tester H0 contre H1 et donner un intervalle de confiance de la moyenne réelle. Dans le dernier paragraphe, on s'intéresse à la validité des approximations que l'on a faites, notamment celle des quantiles empiriques.
Code: quelques convergences
Preuves: le dénombrement, et j'ai oublié le reste...
Plan: cf. le petit résumé du texte
Dessins: non
Questions intéressantes:
Voir le dernier point ci-dessous.
Un peu aidant, pas très bavard.
J'ai mis pas mal de temps à bien comprendre le texte, ce temps aurait été vraiment profitable si j'avais pu revoir quelques petites preuves (notamment l'équivalent de n parmi 2n-1 où j'ai admis la dernière étape en disant juste "c'est vrai", alors que ça n'était pas vrai... lorsqu'ils m(='ont fait détailler la preuve à la fin de l'oral, je n'ai pas su faire, j'étais très déstabilisé; autre preuve que j'ai eu du mal à expliquer alors que je la connais: le nombre de combinaisons avec répétition avec l'«escalier»). Durant la préparation, je me suis dit "tiens, je sens qu'ils vont me demander ce truc: je devrais le réviser..." et j'aurais du m'écouter...
18.25
Un texte de probabilité (très sympathique)
Un texte de stats (je ne l'ai même pas regardé)
Munissons le réseau $\mathbb{N}^2$ de "récompenses" aléatoires et iid $(X_{i,j})$, ici des lois géométriques. On considère les chemins sur le réseau $\mathbb{N}^2$, allant uniquement vers la droite ou vers le haut. On se demande alors quel est le maximum de récompenses qu'on peut avoir en allant de $(0,0)$ à $(m,n)$. Si on note $C(m,n)$ l'ensemble de tels chemins, que l'on écrit $c= (s_1,\cdots,s_k)$ où $(s_i)$ sont les segments consécutifs formant chaque chemin, on cherche donc à étudier la variable $$ H(m,n) = \max_{c \in C(m,n)} \sum_{(i,j) \in c} X_{i,j}. $$
D'abord, on regarde le cas en dimension $1$, qui est trivial, on étudie une somme iid du type $$ H_n (x) = \sum_{i=1}^{\lceil nx \rceil } X_i, $$ avec $(X_i)$ iid géométrique de paramètre $p$. On applique LFGN, TCL. Attention au TCL puisqu'on compose le TCL en $\lceil nx \rceil$ plutôt qu'en $n$, donc il faut utiliser Slutsky. Je présente ces résultats numériquement et avec un point de vue statistique, du genre: estimateur pour $p$, forte consistance, normalité asymptotique, méthode $\delta$, intervalle de confiance asymptotique.
Ensuite on passe au cas en dimension 2 donc sur le réseau du début, qui est beaucoup moins facile. On montre que $H_n (x,y) = H(\lceil nx \rceil, \lceil ny \rceil)$ vérifie (comme le cas 1D), une convergence $L^1$ du genre $$ \mathbb{E}\left[\frac{H_n (x,y)}{n}\right] \to L(x,y). $$
C'est fortement non-trivial. On utilise le lemme de Fekete que je redémontre pour l'occasion. On utilise aussi que si $X$ est var positive, on a $\mathbb{E}[X] = \int_0^{+\infty} \mathbb{P}[X \geq t] \mathrm{d} t $. Bien sûr une bonne vieille inégalité de Markov. La démonstration est fastidieuse, mais sympathique. On a ensuite des résultats type LFGN et TCL, admis dans le texte, pour cette convergence là.
Enfin, pour faire quelques simulations, j'utilise la formule récursive
$ H(m,n) =\max\{H(m,n-1),H(m-1,n)\}+X_{m,n}, $ pour calculer et afficher numériquement l'environnement $(H(m,n))_{m,n}$. Je présente numériquement les convergences admises. Je conclus ici.
Pas de réponse fournie.
Passons aux questions:
- Dans le cas 1D, j'appliquais le TCL et compose ce TCL en $\lceil nx \rceil$ plutôt qu'en $n \to +\infty$. J'avais expliqué sans détailler qu'avec Slutsky on avait le bon résultat. Première question, on me demande de l'écrire précisément. J'énonce proprement Slutsky, puis je galère un peu et retrouve via leur aide.
- Toujours dans ce souci de composition dans le TCL en remplaçant $n$ par $\lceil nx \rceil$, on me rappelle que j'ai justifié à l'oral en disant "c'est une sous-suite d'une suite convergente en loi donc...", qu'est-ce qu'une définition de sous-suite ? Je dis qu'en fait ce n'est pas une sous-suite si jamais $x<1$, mais ce n'est pas grave parce qu'on utilise simplement $\lceil nx \rceil \to +\infty.$
- On me parle de mes IC asymptotiques, on me demande dans quel cas (1D ou 2D) c'est mieux. Je réponds que l'un c'est de l'ordre de $\sqrt{n}$ et l'autre $n^{2/3}$ donc le premier est mieux. On me fait relire l'écriture de mon IC pour que je comprenne que c'était donc le 2nd qui était mieux.
- J'avais présenté graphiquement le TCL, via les FdR, en précisant à l'oral (de manière peu claire) que ça correspondait à "la convergence des FdR empiriques en tout point de continuité de la FdR limite". On me demande de clarifier. Je parle de Glivenko-Cantelli. Ils me font écrire les choses clairement, de sorte que je comprenne que mon graphe représentait bien la composition de Glivenko-Cantelli puis de la convergence simple de la suite des FdR (il y a 2 paramètres!).
- On me demande si je connaîtrais pas un résultat qui estime justement la loi du reste dans la convergence uniforme de Glivenko-Cantelli, en lien avec des tests statistiques. Là je hasarde la loi du $\chi^2$. On me dit non, je réponds effectivement c'est même pas discret ici. On me demande en passant ce que je sais sur le test du $\chi^2$: je pipeaute. On me demande si je connais un autre test statistique. Je dis Kolmogorov-Smirnov, et je me dis intérieurement que je suis bête puisque c'est bien ce test-là qui utilise Glivenko-Cantelli.
- Petit exo: on m'introduit la notion de chemins auto-évitants dans $\mathbb{Z}^2$. Je vend vite la mèche que je connais le truc, et sait qu'on va utiliser le lemme de Fekete. Ils veulent quand même qu'on le fasse, donc j'y vais. Si $(c_n)_n$ est le nombre de tels chemins de longueur $n$, je montre $c_{m+n} <= c_m c_n$ en découpant le chemin en 2; puis en passant au log, on peut appliquer Fekete.
- On revient en stats. On me dit que j'ai parlé de consistance d'estimateur; est-ce qu'on a d'autre propriétés sympas sur les estimateurs ? Je parle de biais et biais asymptotique. On s'arrête ici.
En conclusion, bien géré. J'ai abordé une moitié de texte, en laissant de côté 3 parties plus dures. Mieux vaut bien parler du TCL que mal parler de trucs durs. Parler de statistiques était certainement une bonne idée pour rassurer le statisticien du jury. Le sujet était globalement parfaitement taillé pour moi. L'oral s'est très bien déroulé. _Rétrospectivement l'oral s'était effectivement très bien déroulé puisque j'ai eu 19,5. J'avais prévu un 20 donc presque déçu........................_
Pas de réponse fournie.
Pas de réponse fournie.
Pas de réponse fournie.
19.5