AI glossary > Data cleaning

Data cleaning

04/01/2025

Data cleaning is the process of fixing or removing incorrect, incomplete, duplicate, or irrelevant data from a dataset to improve its quality. Clean data is essential for training accurate and reliable AI models.

Key steps:

Correcting errors (e.g., fixing typos or wrong values).
Filling in missing data or removing incomplete entries.
Removing duplicates or irrelevant data points.

Example: Before training an AI model to predict house prices, data cleaning might involve fixing inconsistent entries (e.g., “3 bedrooms” vs. “three bedrooms”) and removing outliers (e.g., a house price listed as $1).

Clean data ensures AI systems make better and more trustworthy predictions.