当前位置:首页 > 人工智能 > 正文内容

Insanely Fast Whisper - 一个强大快速的音频转文字工具

二向箔2024-04-09 10:28:21人工智能291

photo_2024-04-08_05-26-09.jpg


项目功能:音频转文字


项目介绍:一个基于 OpenAI Whisper Large v3(https://huggingface.co/openai/whisper-large-v3)  模型的高速音频转文字工具,能够在不到 98 秒的时间内转录 300 分钟(5小时)音频。


适用于多场景,支持 100 种语言的转录并支持翻译功能,提供按词或片段生成时间戳文本,方便字幕制作。


提供命令列界面(CLI),也可以通过 Whisper API 进行线上语音转文字。


线上体验:https://replicate.com/vaibhavs10/incredibly-fast-whisper


GitHub源码:https://github.com/Vaibhavs10/insanely-fast-whisper


扫描二维码推送至手机访问。

版权声明:本站内容为原创和部分整理自网络,如有侵权务必联系我们删除,保障您的权益,本站所有软件资料仅供学习研究使用,不可进行商业用途和违法活动,本站不承担任何法律责任。

本文链接:https://www.erxbo.com/post/1739.html

分享给朋友:

“Insanely Fast Whisper - 一个强大快速的音频转文字工具 ” 的相关文章

Stability AI 发布开源视频生成模型「Stable Video Diffusion」

Stability AI 发布开源视频生成模型「Stable Video Diffusion」

用图片生成视频效果很惊艳SVD 支持文本和图像生成视频,还支持物体从单一视角到多视角的转化;目前最高支持生成 14/25 帧、576 x 1024 分辨率的视频尽管 SVD 还处于基础阶段,但是相信未来一定会成为像 SDXL 一样的顶级开源 AI 模型GitHub地址:https://github....

基于GPT-4 和 DALL-E 3,轻松将网页截图转化成代码

基于GPT-4 和 DALL-E 3,轻松将网页截图转化成代码

截图转代码该项目基于 GPT-4 Vision 和  DALL-E 3,它可以将网页截图转换为 HTML/Tailwind/JS 代码重点:使用需要自备拥有 GPT-4 Vision 权限的 OpenAI APIGitHub开源地址:https://github.com/abi/scree...

Runway 发布视频生成模型 Gen-2 的运动笔刷功能(图片生成视频)

真的是相当牛逼Runway 发布视频生成模型 Gen-2 的运动笔刷功能"Motion Brush/运动笔刷"的发布代表了模型可控性的一个重要里程碑,用户只需绘制一个区域或主题,选择一个方向并为运动添加强度即可。运动笔刷允许您为您的生成添加受控运动,从而更好地控制生成的内容。还可...

GPT Crawler - 将网站变成自定义 GPT

GPT Crawler - 将网站变成自定义 GPT

运行该项目,输入网址,然后项目会爬取该网站所有内容并生成 Json 文件,然后它会将该文件喂给 ChatGPT,打造个人知识库或者智能助理我感觉非常实用,尤其是面对密密麻麻的英文开发文档之时,可以直接与其对话GitHub地址:https://github.com/BuilderIO/gpt-craw...

Freepik Pikaso - 一个 AI 图像实时生成工具

Freepik Pikaso - 一个 AI 图像实时生成工具

边画边出图Freepik 是一个全球知名的素材库网站,网站拥有超过 450 万素材。依托着海量素材资源,Freepik 顺势推出 AI 图像实时生成工具 「Pikaso」除了 Prompt ,还支持上传图片、画笔、图案等功能,可自定义程度非常高官网地址:https://freepik.com/pik...

Autoware :一个开源的自动驾驶系统

Autoware :一个开源的自动驾驶系统

Autoware :一个开源的自动驾驶系统Autoware 基于机器人操作系统 (ROS) 构建,可在各种车辆和应用中实现自动驾驶的商业部署。Autoware 的主要功能和特点:1、模块化架构:Autoware 包含自动驾驶所需的所有功能(如感知、定位、规划、控制),并采用模块化架构,具有清晰定义的...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。