AI2 drops biggest open dataset yet for training language models

AI2 (Allen Institute for Artificial Intelligence) has recently released the world’s largest open dataset for training language models, in an effort to make natural language processing (NLP) models more efficient and accurate. The dataset, which includes more than 9 million webpages and 700 million words, is three times bigger than the previous largest open dataset.… Continue reading AI2 drops biggest open dataset yet for training language models