掌握未来：用免费的Gemini API 实现 AI 驱动的内容创作

2024-3-15

在今天的数字时代，人工智能技术正变得日益强大和普及，尤其是在内容生成领域。Google 的 Gemini API 为开发者提供了一个强大的工具集，用于利用最先进的机器学习模型生成文本和图像内容。本文将深入探讨如何使用 Google Gemini API 进行文本和图像内容的生成，包括设置环境、配置 API、实现文本生成，以及结合图像和文本提示进行内容生成。

代码


import os
import google.generativeai as genai
from PIL import Image
import io

# 使用gemini生成文本
def generate_text(query):
    # 在脚本中设置代理环境变量
    os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
    os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'

    # 从环境变量中获取API密钥
    GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')

    # 确保API密钥已正确设置
    if GOOGLE_API_KEY is None:
        raise ValueError("请设置环境变量 GOOGLE_API_KEY 为您的API密钥。")

    # 使用API密钥配置SDK
    genai.configure(api_key=GOOGLE_API_KEY)

    # 选择一个模型并创建一个GenerativeModel实例
    model = genai.GenerativeModel('gemini-pro')

    # 使用模型生成内容
    response = model.generate_content(query)

    # 返回生成的文本
    return response.text


# 使用gemini图像模型生成文本
def generate_text_from_image_with_prompt(image_path, prompt_text):
    # 设置代理环境变量
    os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
    os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'

    # 从环境变量中获取API密钥
    GOOGLE_API_KEY = os.getenv('GOOGLE_API_KEY')

    # 确保API密钥已正确设置
    if GOOGLE_API_KEY is None:
        raise ValueError("请设置环境变量 'GOOGLE_API_KEY' 为您的API密钥。")

    # 使用API密钥配置SDK
    genai.configure(api_key=GOOGLE_API_KEY)

    # 创建一个GenerativeModel实例，使用'gemini-pro-vision'模型
    model = genai.GenerativeModel('gemini-pro-vision')

    # 使用PIL加载图像并将其转换为二进制流
    with open(image_path, 'rb') as image_file:
        image = Image.open(image_file)
        image_bytes = io.BytesIO()
        image.save(image_bytes, format=image.format)

    # 构造包含图像数据和文本提示的内容参数
    contents = [
        {"mime_type": "image/jpeg", "data": image_bytes.getvalue()},  # 根据您的图像实际类型调整MIME类型
        {"text": prompt_text}
    ]

    # 使用模型生成内容
    response = model.generate_content(contents=contents)

    # 返回生成的文本描述
    return response.text


if __name__ == '__main__':
    # 使用自定义函数生成文本
    generated_text = generate_text("你能干吗？")
    print(generated_text)

    # 使用自定义函数生成图像描述文本，并添加提示词
    image_path = r"D:\wenjian\临时\1751e2f6-7ad5-411e-b76e-85254680ec92-1.png"  # 替换为您的图像文件路径
    prompt_text = "描述这张图片中的情感和主题"  # 根据您的需要修改提示词
    generated_text = generate_text_from_image_with_prompt(image_path, prompt_text)
    print(generated_text)

设置和配置

首先，为了使用 Google Gemini API，开发者需要通过设置代理环境变量以及获取并配置 API 密钥。这一步骤确保了 API 的访问是安全和有效的。通过设定 HTTP_PROXY 和 HTTPS_PROXY 环境变量，可以确保 API 请求能够通过指定的代理服务器进行。接着，从环境变量中读取 GOOGLE_API_KEY 并用它来配置 Google Generative AI SDK，这是与 API 交互的基础。

文本内容生成

使用 Google Gemini API 进行文本内容生成的过程涉及到选择一个适当的模型，并创建一个 GenerativeModel 实例。在本例中，我们使用 gemini-pro 模型来生成内容。通过提供一个文本查询给模型，它能够返回一个生成的文本响应。这种方式可以用于自动化内容创作，例如生成新闻报道、创造性写作或自动回答用户的问题。

结合图像和文本提示的内容生成

Gemini API 不仅支持文本内容的生成，还能结合图像和文本提示来生成内容。这一过程首先涉及到使用 Python 的 PIL 库加载图像，并将其转换为二进制流。然后，将图像数据与文本提示作为参数提供给模型。这种方法可以用于生成图像的描述性文本，解释图像内容或甚至创作基于图像的故事。

应用场景

通过这种技术，开发者可以创建各种应用，从自动化的客服解答系统到为社交媒体生成引人注目的内容。例如，一款社交媒体管理应用可以使用这项技术自动生成图像描述，帮助内容创作者节省时间。又或者，新闻机构可以利用它自动生成报道的初稿，提高工作效率。

结论

Google Gemini API 的出现为内容创作领域带来了革命性的变化，它不仅简化了生成高质量文本和图像内容的过程，还为开发者打开了创新应用的大门。随着人工智能技术的不断进步，我们可以预期在未来，基于 AI 的内容生成将变得更加智能化、个性化和精准。

标题建议：

"掌握未来：用免费的Gemini API 实现 AI 驱动的内容创作"
"Google Gemini API：打造智能文本和图像内容的终极指南"
"如何利用 Google Gemini API 革新你的内容生成流程"

文章简介：

在本文中，我们深入探索了如何使用 Google Gemini API 进行高效的文本和图像内容生成。通过详细的步骤说明和代码示例，本文向开发者展示了如何配置环境、选择合适的模型、以及如何结合文本和图像生成丰富的内容。不论是自动化内容创作、提高工作效率，还是开拓新的应用领域，Google Gemini API 都开辟了无限可能。

现在，让我们根据文章内容生成封面

作者：余汉波

链接：https://www.sanrenjz.com/2024/03/15/%e6%8e%8c%e6%8f%a1%e6%9c%aa%e6%9d%a5%ef%bc%9a%e7%94%a8%e5%85%8d%e8%b4%b9%e7%9a%84gemini-api-%e5%ae%9e%e7%8e%b0-ai-%e9%a9%b1%e5%8a%a8%e7%9a%84%e5%86%85%e5%ae%b9%e5%88%9b%e4%bd%9c/

文章版权归作者所有，未经允许请勿转载。

THE END