Software Requirement Engineering using Machine Learning Techniques

Project Overview

This repository demonstrates the use of Retrieval-Augmented Generation (RAG) and Prompt Engineering to classify software requirements into functional (F) and non-functional requirements (NFRs). These techniques leverage Large Language Models (LLMs) to enhance classification accuracy by combining retrieval and context-aware generation.

Features

Prompt Engineering

Prompt Engineering uses optimized task-specific prompts with few-shot learning to guide the LLMs in understanding and classifying requirements effectively.

Highlights:

Leverages representative examples for accurate predictions.
Processes LLM responses with a parser for consistent output.

Retrieval-Augmented Generation (RAG)

RAG improves classification by retrieving contextually relevant examples from a semantic vector database and integrating them into the prompt.

Workflow:

Retrieve: Use embeddings to find semantically similar examples from a database (e.g., Pinecone).
Generate: Append retrieved examples to the prompt and process through an LLM.
Parse: Ensure output aligns with predefined categories.

Results

Method	Model	F1	Accuracy
Prompt Engineering	GPT-3.5-Turbo	96.03	74.74
RAG	GPT-3.5-Turbo (RAG)	96.63	79.79

Getting Started

Prerequisites

Python 3.x
Jupyter Notebook
Libraries: transformers, pinecone, openai, etc. (see requirements.txt)

Dataset

The classification is performed using the PROMISE and PROMISE_exp datasets:

PROMISE Dataset:
- Contains 625 natural language software requirements.
- Includes:
  - 255 functional requirements (F).
  - 370 non-functional requirements (NFRs) distributed across categories like security, usability, performance, etc.
PROMISE_exp Dataset:
- An extended version of PROMISE with 969 requirements.
- Includes:
  - 444 functional requirements (F).
  - 525 non-functional requirements (NFRs) distributed across additional categories like maintainability, scalability, and fault tolerance.

Dataset Split:

Training: 80%
Testing: 20%

Non-Functional Categories in PROMISE_exp:

Category	Count
Availability (A)	31
Fault Tolerance (FT)	18
Legal (L)	15
Look & Feel (LF)	49
Maintainability (MN)	24
Operability (O)	77
Performance (PE)	67
Scalability (SC)	22
Security (SE)	125
Usability (US)	85
Portability (PO)	12
Total	969

The dataset provides a comprehensive basis for training and testing, ensuring diverse and real-world software requirement scenarios are covered.

Model Architectures

Usage

You can .

License

This project is licensed under the MIT License. See the LICENSE file for details.

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
data		data
docs		docs
models		models
notebooks		notebooks
references		references
reports		reports
src		src
.gitignore		.gitignore
LICENSE		LICENSE
Makefile		Makefile
README.md		README.md
rag_arcitecture.png		rag_arcitecture.png
requirements.txt		requirements.txt
run_pipeline.py		run_pipeline.py
setup.py		setup.py
test_environment.py		test_environment.py
tox.ini		tox.ini

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Software Requirement Engineering using Machine Learning Techniques

Project Overview

Features

Prompt Engineering

Retrieval-Augmented Generation (RAG)

Results

Getting Started

Prerequisites

Dataset

Model Architectures

Usage

License

About

Uh oh!

Releases

Packages

Languages

License

NimaMeghdadi/Software-Requirement-Engineering-using-Machine-Learning-Techniques

Folders and files

Latest commit

History

Repository files navigation

Software Requirement Engineering using Machine Learning Techniques

Project Overview

Features

Prompt Engineering

Retrieval-Augmented Generation (RAG)

Results

Getting Started

Prerequisites

Dataset

Model Architectures

Usage

License

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages