pluriTAL [http://pluriTAL.org] := Filières TAL et Ingénierie Linguistique de Sorbonne nouvelle, de Paris Nanterre et de l'INALCO
Préparez votre rentrée en M1 !!!!
Le TAL nécessite à la fois de bonnes connaissances en linguistique, en informatique et en statistique. Vous allez acquérir ces connaissances pendant votre master, mais afin de vous y préparer au mieux nous vous conseillons de faire une mise à jour de vos connaissances dans les domaines où vous pourriez avoir des lacunes.
Jeux en ligne
- Great Language Game : jouer avec les langues
- Zombilingo : jouer avec la syntaxe
- Checkio : jouer avec Python
- Jeux de mots : jouer avec les mots
- Ambiguss est un jeu de "désambiguïsation lexicale" : Un "avocat" se retrouve par terre. Parle-t-on du fruit ou de l'homme ?
Linguistique générale
- Nouveau dictionnaire encyclopédique des sciences du langage, Ducrot Oswald, Schaeffer Jean-Marie, Seuil, 1995.
- Introduction à la linguistique, 3 volumes, Milicevic Jasmina, Mel'cuk Igor, Hermann, 2014.
- Un blog de linguistique "pour tout le monde" : https://bling.hypotheses.org/
Il ne fait jamais de mal de relire un classique comme :
- Cours de linguistique générale, Ferdinand de Saussure, 1916, réédité chez Payot.
- Langage, Leonard Bloomfield, 1933, traduction française.
- Structures syntaxiques, Noam Chomsky, 1957, traduction française au Seuil.
- Eléments de syntaxe structurale, Lucien Tesnière, 1959, Klincksieck.
- Eléments de linguistique générale, André Martinet; 1970, Armand Colin.
- Problèmes de linguistique générale, Emile Benveniste, 1966, Gallimard.
TAL / NLP
- Informatique et Linguistique de Jean Véronis (nous contacter pour y accéder)
- Introduction au TALN et à l'ingénierie linguistique de Isabelle Tellier
- Instruments et ressources électroniques pour le français de Benoît Habert
- Python NLTK Demos for Natural Language Text Processing
- Machine Translation, Thierry Poibeau, MIT Press, 2017
- Natural Language Processing, Jacon Eisenstein, 2018
- Speech and Language Processing (3rd ed. draft), Dan Jurafsky and James H. Martin, 2018
- Playlist for the fast.ai NLP course, originally taught in the USF MS in Data Science program during May-June 2019. The course covers a blend of traditional NLP topics (including regex, SVD, naive bayes, tokenization) and recent neural network approaches (including RNNs, seq2seq, GRUs, and the Transformer), as well as addressing urgent ethical issues, such as bias and disinformation.
- Foundations of Statistical Natural Language Processing, Chris Manning and Hinrich Schütze, 1999
Les expressions régulières...
- Regex Crossword. Welcome to the fantastic world of nerdy regex fun! Start playing by selecting one of the puzzle challenges below. There are a wide range of difficulties from beginner to expert.
- Regular Expression Test Page for Perl
- Quick start regex for analysis
- Introduction aux expressions régulières de Perl 5 et PCRE (slides ici )
Programmation
- What is Code ? "We are here because the editor of this magazine asked me, “Can you tell me what code is?” "
- 3 sites pour "apprendre à coder en jouant" : (présentation ici)
Code.org
CodinGame
Blockly Games
Programmation Python
- codecademy/python. Pour être au top dès la rentrée, faire au moins les sections : Python Syntax, Strings and Console Output, Conditionals and Control Flow, Functions, Lists & Dictionaries, Lists and Functions, Loops, File Input and Output
- Un livre pour démarrer seul, écrit pour des lycéens belges au départ
- Un cours en ligne
- https://www.codecademy.com/catalog/language/python (ouvert à tout moment)
- https://www.fun-mooc.fr/courses/inria/41001S03/session03/about (ouvert en novembre)
- https://www.codingame.com/start :Pour travailler de votre côté et tester vos limite (mais uniquement après un peu de pratique)
Programmation Perl
- Perl pour les linguistes. Titre explicite...
- Perl Beginners' Site (Perl - because programming should be fun)
Linguistique de corpus
- Benoît Habert, Adeline Nazarenko, André Salem (1997) Les linguistiques de corpus, Armand Colin.
- Base de données en typologie des langues avec plus de 150 articles courts et autant de cartes sur tous les comportements possibles dans plus de 1000 langues du monde : http://wals.info/
- Base de données de corpus analysés en syntaxe pour plus de 70 langues avec des guides d’annotation abordant de nombreuses questions de syntaxe : http://universaldependencies.org/
Statistiques
- La Statistique en clair de François Grosjean, Jean-Yves Dommergues et Gilles Macagno
- Ludovic Lebart, André Salem (1994) Statistique Textuelle, Dunod.
- Stat Trek Teach yourself statistics
Projets TAL / NLP
- Le projet Common Voice : Contribuer au développement d’un projet de TAL en répondant en donnant votre voix
Code.org
CodinGame
Blockly Games
http://pluriTAL.org | pluriTAL ©2020, INALCO, Paris Nanterre, Sorbonne Nouvelle