在数据分析中,`pandas` 是一款非常强大的工具,而 `replace()` 函数更是处理数据时不可或缺的好帮手!它能帮助我们快速替换 DataFrame 或 Series 中的特定值,让数据清洗变得更加高效。
首先,`replace()` 的基础用法非常简单:你可以直接指定需要替换的旧值和新值。例如,将所有“NaN”替换为“未知”:
```python
df['column'].replace(np.nan, '未知')
```
其次,如果你需要批量替换多个值,可以使用字典形式,比如将“苹果”替换为“A”,“香蕉”替换为“B”:
```python
df.replace({'fruit': {'苹果': 'A', '香蕉': 'B'}})
```
此外,`replace()` 还支持正则表达式,这在处理复杂数据时特别有用。例如,用“X”替换所有以“S”开头的字符串:
```python
df['column'].replace(r'^S.$', 'X', regex=True)
```
最后,别忘了利用 `inplace=True` 参数直接修改原 DataFrame,避免重复赋值操作。✨
掌握这些技巧后,你就能轻松应对各种数据清洗任务啦!💪