用pandas-ai与任何表格数据聊天 | ChatDATA
目录
- 引言
- 能够处理自然语言的 pandas AI 库
- pandas AI 库的使用示例
- 与其他 AI 工具的对比
- 使用步骤
- 安装 pandas AI 库
- 导入所需类
- 实例化 pandas AI
- 提问并获取数据分析结果
- 使用 pandas AI 绘制图表
- 使用不同数据集的示例
- 总结与展望
引言
欢迎大家,今天我要介绍的是一款名为 pandas AI 的新型 Python 库。这是一个能够处理自然语言的工具,可以在数据分析和制作图表方面发挥重要作用。过去曾推出过 chat CSV 和 AI code writing assistant 等相关工具,但这款 pandas AI 却具备更强大的功能,甚至可以根据文本创建图表。这是一个订阅者在我的上一个视频中提出的问题,是否有办法从文本中创建图表。现在有了这个新的库,我会带领大家快速了解如何与数据进行交互。让我们开始吧!
能够处理自然语言的 pandas AI 库
首先,让我们来了解一下 pandas AI 是什么。它是一个 Python 库,为 pandas 添加了人工智能的能力。而 pandas 则是一款受欢迎的数据分析和数据操作工具。下面是一个简单的示例,我从官方 GitHub 仓库中借用了一个演示代码,让大家看看它是如何工作的。不过在这之前,我想先给大家展示一下我的之前的一些视频,例如 chat CSV,你可以通过上传 CSV 文件来与模型进行对话,背后的实现原理就是使用了 pandas。另外还有一个叫做 Sketch Library 的工具,它是我在一个月前左右发布的,使用了类似的方法。你可以通过观看视频了解其工作原理。但它并不能生成图表,这就是为什么我要在今天向大家展示这个新工具。这个新库不仅可以回答你的问题,还可以帮你生成图表。这里有三种不同的问题类型,基本上是一个问答系统。你可以询问某个列的内容,例如某列的整数类型是什么等等。它会遍历数据并为你提供答案。而且,这个库还有一个很有意思的功能,你可以让它为你生成代码。只需要在数据框后面加上.sketch
,然后跟上你要做什么的具体要求,比如如何使用、如何提问以及如何应用。你可以自己了解一下,看看如何使用它的好处。不过要注意的是,这个库并不提供图表功能,这就是为什么我要在今天向大家展示它。
pandas AI 库的使用示例
首先,你需要进行环境设置,安装必要的类库。我已经做过这些操作了,接下来需要导入所需的类。
import pandas as pd
from pandas_ai.datasets import load_titanic
from pandas_ai import Predictor
现在,我们可以尝试一些问题了。我先创建一个数据框,然后我们可以运行一些命令,查看数据框的内容。这是一个在官方仓库中找到的示例,你可以看到这段代码创建了一个数据框,并打印出了数据的内容。
df = pd.DataFrame({
'Country': ['China', 'India', 'USA'],
'GDP': [14.34, 9.0, 21.44]
})
print(df)
接下来,我可以询问有关数据的一些问题。比如,“两个幸福指数最低的国家的 GDP 之和是多少?”我们可以这样问。
predictor = Predictor()
result = predictor.ask('What is the sum of the GDPs of the two least happiest countries?', df)
print(result.answer)
还可以做其他一些操作,比如绘制直方图或饼图。我们可以这样问:“使用不同颜色为每个国家的 GDP 绘制直方图”。
result = predictor.plot('Plot the histogram of countries showing each GDP using different colors for each bar', df)
print(result.figure)
也可以使用其他数据集进行示例。这里我载入了 Titanic 数据集,并进行了一些操作。我们可以询问问题,如“根据所提供的数据框,绘制幸存者的计数图”。
titanic_data = load_titanic()
result = predictor.plot('Plot the count plot of the "Survived" column based on the provided dataframe', titanic_data)
print(result.figure)
还可以进一步尝试其他问题,如“根据 Pclass
和 Age
绘制饼状图”。你可以试着提问其他问题,看看是否能得到你想要的结果。
result = predictor.plot('Plot the pie plot of countries showing for each GDP using different colors for each bar', df)
print(result.figure)
总的来说,pandas AI 是一个非常实用的工具,尤其是对于那些没有太多编程经验的人来说。通过只写几行代码,你就可以根据自己的需求向数据框提问。数据框可以是任何形式的数据,因为我们可以读取众多不同的文件格式,如 CSV、Excel、JSON 等等。这样,你就可以使用 pandas AI 在数据框上进行操作。这个工具非常强大,使得数据分析和可视化变得更加简单。在实际应用中,如果你想使用自然语言的方式与数据进行交互,你可以根据情况修改这段代码。在视频描述中,我会提供这个笔记本的链接,你可以克隆或在Google Collab中运行。我希望你能觉得本视频有帮助,感谢观看。
与其他 AI 工具的对比
在市面上有许多各种各样的 AI 工具,每天都在推出新的。尽管如此,它们中的一些具有不同的功能。比如 panda AI,在制作图表方面的功能非常强大。这对于那些不具备太多编码经验的人来说非常有用,只需要几行代码就可以问出你想问的问题,并生成相应的图表。但是,与其他的大语言模型相比,它在回答问题方面要求更具体。在提问时,你需要更加详细和准确,以便获取正确的答案。这就是为什么我们需要对问题进行一些调整,以确保语言模型能够理解我们的意图。因此,在使用 pandas AI 时,记得在编写问题时要非常仔细,并具体说明你的需求。
使用步骤
现在,让我们一起来学习如何使用 pandas AI。首先,你需要设置环境,并安装必要的依赖库。如果你还没有安装,可以参考下面的步骤进行安装:
- 使用 pip 命令安装 pandas AI:
pip install pandas-ai
- 导入所需的类:
import pandas as pd
from pandas_ai import Predictor
- 实例化 pandas AI:
predictor = Predictor()
- 提出问题并获取数据分析结果:
result = predictor.ask('What is the sum of the GDPs of the two least happiest countries?', df)
print(result.answer)
- 使用 pandas AI 绘制图表:
result = predictor.plot('Plot the histogram of countries showing each GDP using different colors for each bar', df)
print(result.figure)
就是这么简单!希望以上步骤对你使用 pandas AI 有所帮助。如果你遇到任何问题,请随时向我提问。现在,让我们尝试一些不同的数据集,看看 pandas AI 在处理不同数据集时的效果。
安装 pandas AI
使用 pip 命令安装 pandas-ai 库:
pip install pandas-ai
导入所需类
导入 pandas 和 pandas_ai 的 Predictor 类:
import pandas as pd
from pandas_ai import Predictor
实例化 pandas AI
predictor = Predictor()
提问并获取数据分析结果
使用 ask() 方法来向 pandas AI 提问问题,并获取结果:
result = predictor.ask('在两个幸福指数最低的国家中,其 GDP 之和是多少?', df)
print(result.answer)
使用 pandas AI 绘制图表
使用 plot() 方法实现图表的绘制:
result = predictor.plot('以不同颜色的柱子绘制每个国家的 GDP 直方图', df)
print(result.figure)
使用不同数据集的示例
使用不同的数据集进行示例,例如 Titanic 数据集:
titanic_data = pd.read_csv('titanic.csv')
result = predictor.plot('根据提供的数据框绘制幸存者的计数图', titanic_data)
print(result.figure)
总结与展望
通过本文的介绍,我们了解到了 pandas AI 这个能够处理自然语言的 Python 库。它提供了简单而有力的功能,可以帮助我们在数据分析和制作图表方面更高效。与其他 AI 工具相比,pandas AI 在制作图表方面表现出色,同时它的使用方法也非常简单。只需要几行代码,就能方便地对数据进行分析,并生成精美的图表。不过,我们要注意,在使用 pandas AI 时要确保问题的具体性,以避免得到不准确的结果。未来,随着更多的语言模型的支持,pandas AI 有望成为一个更强大、更智能的工具。希望本文对你有所帮助,谢谢观看!
FAQ
问:pandas AI 是否免费使用?
答:是的,pandas AI 是开源的,免费供个人和商业用途使用。
问:pandas AI 是否支持其他语言模型?
答:目前 pandas AI 支持的是 pandas_with_context 语言模型,但未来可能会添加对更多大型语言模型的支持。
问:pandas AI 是否能够处理大型数据集?
答:是的,pandas AI 可以处理大型数据集,因为它使用了 pandas 库,该库在处理大型数据时非常高效。
问:如何导入自定义数据集进行分析?
答:你可以使用 pd.read_csv() 或其他相关的读取数据的函数导入自定义数据集,并将其传递给 pandas AI 进行分析。
问:pandas AI 是否支持中文数据集?
答:是的,pandas AI 可以处理中文数据集,它支持多种文件格式,包括 CSV 和 Excel 等。
问:pandas AI 能否将分析结果保存为文件?
答:是的,你可以使用 pandas 库提供的方法将分析结果保存为文件,比如使用 to_csv() 方法将结果保存为 CSV 文件。
资源