NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Kaustubh Dhole; Varun Gangal; Sebastian Gehrmann; Aadesh Gupta; Zhenhao Li; Saad Mahamood; Abinaya Mahadiran; Simon Mille; Ashish Shrivastava; Samson Tan; Tongshang Wu; Jascha Sohl-Dickstein; Jinho Choi; Eduard Hovy; Ondřej Dušek; Sebastian Ruder; Sajant Anand; Nagender Aneja; Rabin Banjade; Lisa Barthe; Hanna Behnke; Ian Berlot-Attwell; Connor Boyle; Caroline Brun; Marco Antonio Sobrevilla Cabezudo; Samuel Cahyawijaya; Emile Chapuis; Wanxiang Che; Mukund Choudhary; Christian Clauss; Pierre Colombo; Filip Cornell; Gautier Dagan; Mayukh Das; Tanay Dixit; Thomas Dopierre; Paul-Alexis Dray; Suchitra Dubey; Tatiana Ekeinhor; Marco Di Giovanni; Tanya Goyal; Rishabh Gupta; Louanes Hamla; Sang Han; Fabrice Harel-Canada; Antoine Honoré; Ishan Jindal; Przemysław Joniak; Denis Kleyko; Venelin Kovatchev; Kalpesh Krishna; Ashutosh Kumar; Stefan Langer; Seungjae Ryan Lee; Corey James Levinson; Hualou Liang; Kaizhao Liang; Zhexiong Liu; Andrey Lukyanenko; Vukosi Marivate; Gerard de Melo; Simon Meoni; Maxine Meyer; Afnan Mir; Nafise Sadat Moosavi; Niklas Meunnighoff; Timothy Sum Hon Mun; Kenton Murray; Marcin Namysl; Maria Obedkova; Priti Oli; Nivranshu Pasricha; Jan Pfister; Richard Plant; Vinay Prabhu; Vasile Pais; Libo Qin; Shahab Raji; Pawan Kumar Rajpoot; Vikas Raunak; Roy Rinberg; Nicholas Roberts; Juan Diego Rodriguez; Claude Roux; Vasconcellos Samus; Ananya Sai; Robin Schmidt; Thomas Scialom; Tshephisho Sefara; Saqib Shamsi; Xudong Shen; Yiwen Shi; Haoyue Shi; Anna Shvets; Nick Siegel; Damien Sileo; Jamie Simon; Chandan Singh; Roman Sitelew; Priyank Soni; Taylor Sorensen; William Soto; Aman Srivastava; Aditya Srivatsa; Tony Sun; Mukund Varma; A Tabassum; Fiona Tan; Ryan Teehan; Mo Tiwari; Marie Tolkiehn; Athena Wang; Zijian Wang; Zijie Wang; Gloria Wang; Fuxuan Wei; Bryan Wilie; Genta Indra Winata; Xinyu Wu; Witold Wydmanski; Tianbao Xie; Usama Yaseen; Michael Yee; Jing Zhang; Yue Zhang

doi:10.3384/nejlt.2000-1533.2023.4725

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Authors

Kaustubh Dhole Emory University
Varun Gangal
Sebastian Gehrmann
Aadesh Gupta
Zhenhao Li
Saad Mahamood
Abinaya Mahadiran
Simon Mille
Ashish Shrivastava
Samson Tan
Tongshang Wu
Jascha Sohl-Dickstein
Jinho D. Choi
Eduard Hovy
Ondřej Dušek
Sebastian Ruder
Sajant Anand
Nagender Aneja
Rabin Banjade
Lisa Barthe
Hanna Behnke
Ian Berlot-Attwell
Connor Boyle
Caroline Brun
Marco Antonio Sobrevilla Cabezudo
Samuel Cahyawijaya
Emile Chapuis
Wanxiang Che
Mukund Choudhary
Christian Clauss
Pierre Colombo
Filip Cornell
Gautier Dagan
Mayukh Das
Tanay Dixit
Thomas Dopierre
Paul-Alexis Dray
Suchitra Dubey
Tatiana Ekeinhor
Marco Di Giovanni
Tanya Goyal
Rishabh Gupta
Louanes Hamla
Sang Han
Fabrice Harel-Canada
Antoine Honoré
Ishan Jindal
Przemysław K. Joniak
Denis Kleyko
Venelin Kovatchev
Kalpesh Krishna
Ashutosh Kumar
Stefan Langer
Seungjae Ryan Lee
Corey James Levinson
Hualou Liang
Kaizhao Liang
Zhexiong Liu
Andrey Lukyanenko
Vukosi Marivate
Gerard de Melo
Simon Meoni
Maxine Meyer
Afnan Mir
Nafise Sadat Moosavi
Niklas Meunnighoff
Timothy Sum Hon Mun
Kenton Murray
Marcin Namysl
Maria Obedkova
Priti Oli
Nivranshu Pasricha
Jan Pfister
Richard Plant
Vinay Prabhu
Vasile Pais
Libo Qin
Shahab Raji
Pawan Kumar Rajpoot
Vikas Raunak
Roy Rinberg
Nicholas Roberts
Juan Diego Rodriguez
Claude Roux
Vasconcellos P. H. S.
Ananya B. Sai
Robin M. Schmidt
Thomas Scialom
Tshephisho Sefara
Saqib N. Shamsi
Xudong Shen
Yiwen Shi
Haoyue Shi
Anna Shvets
Nick Siegel
Damien Sileo
Jamie Simon
Chandan Singh
Roman Sitelew
Priyank Soni
Taylor Sorensen
William Soto
Aman Srivastava
KV Aditya Srivatsa
Tony Sun
Mukund Varma T
A Tabassum
Fiona Anting Tan
Ryan Teehan
Mo Tiwari
Marie Tolkiehn
Athena Wang
Zijian Wang
Zijie J. Wang
Gloria Wang
Fuxuan Wei
Bryan Wilie
Genta Indra Winata
Xinyu Wu
Witold Wydmanski
Tianbao Xie
Usama Yaseen
Michael A. Yee
Jing Zhang
Yue Zhang

DOI:

https://doi.org/10.3384/nejlt.2000-1533.2023.4725

Abstract

Data augmentation is an important method for evaluating the robustness of and enhancing the diversity of training data for natural language processing (NLP) models. In this paper, we present NL-Augmenter, a new participatory Python-based natural language (NL) augmentation framework which supports the creation of transformations (modifications to the data) and filters (data splits according to specific features). We describe the framework and an initial set of 117 transformations and 23 filters for a variety of NL tasks annotated with noisy descriptive tags. The transformations incorporate noise, intentional and accidental human mistakes, socio-linguistic variation, semantically-valid style, syntax changes, as well as artificial constructs that are unambiguous to humans. We demonstrate the efficacy of NL-Augmenter by using its transformations to analyze the robustness of popular language models. We find different models to be differently challenged on different tasks, with quasi-systematic score decreases. The infrastructure, datacards, and robustness evaluation results are publicly available on GitHub for the benefit of researchers working on paraphrase generation, robustness analysis, and low-resource NLP.

El aumento de datos es un método importante para evaluar la solidez y mejorar la diversidad del entrenamiento datos para modelos de procesamiento de lenguaje natural (NLP). इस लेख में, हम एनएल-ऑगमेंटर का प्रस्ताव करते हैं - एक नया भागी- दारी पूर्वक, पायथन में बनाया गया, लैंग्वेज (एनएल) ऑग्मेंटेशन फ्रेमवर्क जो ट्रांसफॉर्मेशन (डेटा में बदलाव करना) और फीलटर (फीचर्स के अनुसार डेटा का भाग करना) के नीरमान का समर्थन करता है।. 我们描述了NL-Augmenter框架及其初步包含的117种转换和23个过滤器，并大致标注分类了一系列可适配的自然语言任务. این دگرگونی ها شامل نویز، اشتباهات عمدی و تصادفی انسانی، تنوع اجتماعی-زبانی، سبک معنایی معتبر، تغییرات نحوی و همچنین ساختارهای مصنوعی است که برای انسان ها مبهم است. NL-Augmenterpa allin kaynintam qawachiyku, tikrakuyninku- nata servichikuspayku, chaywanmi qawariyku modelos de lenguaje popular nisqapa allin takyasqa kayninta. Kami menemukan model yang berbeda ditantang secara berbeda pada tugas yang berbeda, dengan penurunan skor kuasi-sistematis. Infrastruktur, kartu data, dan hasil evaluasi ketahanan dipublikasikan tersedia secara gratis di GitHub untuk kepentingan para peneliti yang mengerjakan pembuatan parafrase, analisis ketahanan, dan NLP sumber daya rendah.

Downloads

Published

2023-04-08

Issue

Vol. 9 No. 1 (2023)

Section

Articles

License

Copyright (c) 2023 Kaustubh Dhole, Varun Gangal, Sebastian Gehrmann, Aadesh Gupta, Zhenhao Li, Saad Mahamood, Abinaya Mahadiran, Simon Mille, Ashish Shrivastava, Samson Tan, Tongshang Wu, Jascha Sohl-Dickstein, Jinho D. Choi, Eduard Hovy, Ondřej Dušek, Sebastian Ruder, Sajant Anand, Nagender Aneja, Rabin Banjade, Lisa Barthe, Hanna Behnke, Ian Berlot-Attwell, Connor Boyle, Caroline Brun, Marco Antonio Sobrevilla Cabezudo, Samuel Cahyawijaya, Emile Chapuis, Wanxiang Che, Mukund Choudhary, Christian Clauss, Pierre Colombo, Filip Cornell, Gautier Dagan, Mayukh Das, Tanay Dixit, Thomas Dopierre, Paul-Alexis Dray, Suchitra Dubey, Tatiana Ekeinhor, Marco Di Giovanni, Tanya Goyal, Rishabh Gupta, Louanes Hamla, Sang Han, Fabrice Harel-Canada, Antoine Honoré, Ishan Jindal, Przemysław K. Joniak, Denis Kleyko, Venelin Kovatchev, Kalpesh Krishna, Ashutosh Kumar, Stefan Langer, Seungjae Ryan Lee, Corey James Levinson, Hualou Liang, Kaizhao Liang, Zhexiong Liu, Andrey Lukyanenko, Vukosi Marivate, Gerard de Melo, Simon Meoni, Maxine Meyer, Afnan Mir, Nafise Sadat Moosavi, Niklas Meunnighoff, Timothy Sum Hon Mun, Kenton Murray, Marcin Namysl, Maria Obedkova, Priti Oli, Nivranshu Pasricha, Jan Pfister, Richard Plant, Vinay Prabhu, Vasile Pais, Libo Qin, Shahab Raji, Pawan Kumar Rajpoot, Vikas Raunak, Roy Rinberg, Nicholas Roberts, Juan Diego Rodriguez, Claude Roux, Vasconcellos P. H. S., Ananya B. Sai, Robin M. Schmidt, Thomas Scialom, Tshephisho Sefara, Saqib N. Shamsi, Xudong Shen, Yiwen Shi, Haoyue Shi, Anna Shvets, Nick Siegel, Damien Sileo, Jamie Simon, Chandan Singh, Roman Sitelew, Priyank Soni, Taylor Sorensen, William Soto, Aman Srivastava, KV Aditya Srivatsa, Tony Sun, Mukund Varma T, A Tabassum, Fiona Anting Tan, Ryan Teehan, Mo Tiwari, Marie Tolkiehn, Athena Wang, Zijian Wang, Zijie J. Wang, Gloria Wang, Fuxuan Wei, Bryan Wilie, Genta Indra Winata, Xinyu Wu, Witold Wydmanski, Tianbao Xie, Usama Yaseen, Michael A. Yee, Jing Zhang, Yue Zhang

This work is licensed under a Creative Commons Attribution 4.0 International License.

NL-Augmenter: A Framework for Task-Sensitive Natural Language Augmentation

Authors

DOI:

Abstract

Downloads

Published

Issue

Section

License

Make a Submission